LLM Testing
Pengujian keamanan untuk aplikasi berbasis LLM, AI agent, dan integrasi copilot, terpetakan ke OWASP LLM Top 10.
AI bukan lagi eksperimental, AI sudah berjalan di production dalam skala besar di seluruh customer support, internal copilot, agentic workflow, code generation, dan tools pendukung keputusan. Setiap deployment tersebut kini berada dalam permukaan serangan. Aplikasi yang ditenagai LLM membawa kategori risiko yang sama sekali baru yang belum pernah ditangani oleh pengujian keamanan aplikasi konvensional: prompt injection, penyalahgunaan agent, jalur serangan berbasis retrieval, eksfiltrasi data melalui output model, dan kompromi supply chain melalui weight model atau training data yang tidak dipercaya.
Risikonya bersifat struktural, bukan insidental. LLM menerima instruksi dari siapa pun yang teksnya mencapai prompt, termasuk email, dokumen, halaman web, dan output tools yang dikendalikan penyerang. Indirect prompt injection mengubah salah satu input tersebut menjadi saluran perintah potensial. Ketika LLM terhubung ke agent atau API tool-calling, injection yang berhasil bukan lagi sekadar kebocoran data, namun menjadi kompromi operasional: mengirim email atas nama pengguna, melakukan query terhadap sistem internal, memodifikasi record, mengeksekusi kode.
Layanan LLM Testing Vantage Point melingkup model itu sendiri, aplikasi yang mengelilinginya, retrieval pipeline (RAG), dan lapisan agent atau tool-calling apa pun. Cakupan dipetakan ke OWASP LLM Top 10, plus Test Case kami sendiri yang berkembang dari riset internal dan praktik CTF terhadap sistem AI.
AI mengubah apa yang dapat dilakukan penyerang, bukan hanya bagaimana.
Prompt injection kini nyata di production
Indirect prompt injection melalui dokumen yang diambil, email, halaman web, atau snippet yang ditempelkan adalah vektor serangan default terhadap aplikasi LLM. Memperlakukannya sebagai teoretis tidak lagi dapat dipertahankan.
Agent mengubah injection menjadi dampak
Chatbot yang di-jailbreak membocorkan data. Agent yang disusupi injection mengirim email, melakukan query ke database, menghapus record, atau mengeksekusi kode atas nama pengguna. Kelas flaw yang sama menghasilkan outcome yang sangat berbeda.
AI mewarisi data yang membentuknya
Training data poisoning, secret yang bocor tertanam di prompt, fine-tuning set yang berisi PII, dan model weight yang ditarik dari registry yang tidak dipercaya, semuanya menciptakan risiko persisten yang tidak pernah dicari pengujian aplikasi tradisional.
Hallucination adalah kegagalan kontrol keamanan
Ketika LLM dengan percaya diri menghasilkan output yang salah yang menggerakkan keputusan bisnis, mengeksekusi tool call, atau menghasilkan kode yang dirilis ke production, kesenjangan antara "demo AI" dan "sistem AI" menjadi masalah keamanan.
Supply chain baru saja menjadi lebih panjang
Foundation model, plugin, vector store, embedding service, agent pihak ketiga, masing-masing adalah dependency baru dengan saluran update sendiri, batas trust sendiri, dan potensi kompromi sendiri.
Regulator mulai mengejar, dengan cepat
Panduan risiko AI MAS Singapore, ekspektasi CSA Singapore, EU AI Act, dan panduan NIST AI yang sedang berkembang semuanya menetapkan persyaratan pengujian dan bukti. Pengujian keamanan berbasis bukti saat ini menempatkan Anda selangkah di depan arah yang jelas dituju regulasi.
Yang kami uji.
Cakupan terpetakan ke seluruh OWASP LLM Top 10 (2025). Ruang lingkup pengujian disesuaikan dengan apakah sistemnya adalah chatbot, asisten yang ditenagai RAG, agent dengan akses tool, code assistant, atau workflow multi-agent.
Cakupan OWASP LLM Top 10
OWASP Top 10 untuk Aplikasi LLM secara lengkap, baseline yang dipublikasikan untuk pengujian keamanan aplikasi LLM.
- LLM01, Prompt Injection (langsung dan tidak langsung)
- LLM02, Sensitive Information Disclosure
- LLM03, Supply Chain (model, plugin, dataset)
- LLM04, Data and Model Poisoning
- LLM05, Improper Output Handling
- LLM06, Excessive Agency
- LLM07, System Prompt Leakage
- LLM08, Vector and Embedding Weaknesses
- LLM09, Misinformation and Hallucination
- LLM10, Unbounded Consumption
Lapisan Aplikasi & Agent
Bagaimana model dibungkus, dipanggil, dan diberi akses ke seluruh sistem. Hampir selalu tempat temuan dengan dampak tertinggi berada.
- Wrapper aplikasi dan middleware
- Penyalahgunaan tool / function calling
- Otonomi agent dan batas least-privilege
- Keamanan plugin dan connector
- Serangan multi-agent / agent-to-agent
- Output handling dan injection downstream
RAG, Data & Supply Chain
Data yang dibaca model, embedding yang dicarinya, dan dependency yang menyertainya.
- Jalur serangan retrieval-augmented generation (RAG)
- Indirect prompt injection via konten yang diambil
- Poisoning embedding store
- Eksposur training / fine-tuning data
- Supply chain foundation model
- Trust plugin dan tool registry
Apa yang konsisten muncul dalam pengujian LLM.
Dirangkum dari kategori temuan yang umum dihasilkan konsultan kami pada engagement sejenis. Tingkat keparahan dan frekuensi bervariasi sesuai lingkungan dan kematangan organisasi.
Indirect prompt injection
Instruksi tersembunyi dalam dokumen yang diambil, support ticket, email, atau halaman web yang menyebabkan LLM mengabaikan system prompt-nya, mengeksfiltrasi data, atau memanggil tool yang tidak pernah diminta pengguna.
Penyalahgunaan agent tool
Agent dengan akses tool yang lebih luas dari yang diperlukan, memberikan "send email" atau "query database" ke alur yang seharusnya hanya membaca, memungkinkan injection mengambil tindakan destruktif.
Kebocoran system prompt dan secret
System prompt yang berisi API key, URL internal, atau business logic yang dapat diekstrak melalui query yang ditargetkan atau manipulasi format output.
Kegagalan output handling
Output LLM di-render sebagai HTML tanpa sanitasi memungkinkan XSS; output diteruskan ke eval/exec; SQL yang di-generate dari natural language tanpa parameterisasi.
Eksposur data berlebihan
Vector store mengembalikan chunk lintas batas tenant; document retriever mengekspos PII internal karena chunking mengabaikan kontrol akses.
Unbounded consumption
Tidak ada rate limit pada completion yang mahal; tidak ada budget token per session; cost-amplification melalui prompt yang dirancang khusus hingga memicu loop agent yang tak terkendali.
Jalur kerja terstruktur dan berbasis intelijen pada setiap engagement.
Setiap engagement mengikuti alur disiplin yang sama melalui platform Velocity, sehingga kualitas, ketertelusuran, dan pelaporan konsisten di seluruh tim.
Penetapan Ruang Lingkup
Tetapkan aset, lingkungan, Rules of Engagement, dan kriteria penerimaan bersama para pemangku kepentingan teknis dan keamanan.
Pelaksanaan
Pengujian manual dan berbantuan tools oleh konsultan tersertifikasi CREST, dengan bukti yang ditangkap pada setiap langkah.
Validasi
Setiap temuan direproduksi, dinilai risikonya menggunakan CVSS, dan dikonfirmasi oleh konsultan kedua sebelum dilaporkan.
Pelaporan
Laporan yang ditandatangani secara kriptografis, dengan ketertelusuran ke setiap Test Case, peringkat tingkat keparahan, langkah reproduksi, dan rekomendasi remediasi.
Debrief & Retest
Pemaparan temuan kepada pemangku kepentingan, dukungan prioritisasi, dan siklus retest atas temuan yang telah diremediasi.
Dipetakan ke baseline yang diakui industri.
LLM Testing dipetakan ke kerangka kerja keamanan AI yang diakui plus baseline keamanan aplikasi dasar yang tetap berlaku ketika sistem AI berjalan di production.
Laporan yang dibuat untuk kebutuhan audit, engineering, dan eksekutif.
Setiap engagement menghasilkan artefak yang dapat diverifikasi, ditelusuri, dan siap dihadapkan ke regulator, diproduksi oleh Velocity dan ditandatangani secara kriptografis.
PDF · JSON · XML · CSV · Pelaporan Multi-Bahasa Didukung · CVSS 3.0 / 3.1 / 4.0
- Executive summary
- Laporan temuan teknis dengan pemetaan OWASP LLM Top 10
- Prompt, payload, dan response yang dapat direproduksi
- Jejak aksi agent jika dalam ruang lingkup
- Penilaian CVSS dan analisis dampak
- Rekomendasi remediasi yang diprioritaskan
- Retest pada temuan yang sudah diremediasi
- Ekspor opsional JSON / XML / CSV untuk tools downstream
Pertanyaan umum dari calon klien.
Apakah Anda hanya menguji model, atau seluruh aplikasi? +
Seluruh aplikasi. Menguji model secara terisolasi melewatkan tempat sebagian besar risiko production sebenarnya berada, wrapper aplikasi, retrieval pipeline, lapisan tool-calling, dan konsumen downstream dari output model. Jika Anda hanya membutuhkan asesmen model-only yang terfokus, kami dapat menentukan ruang lingkup tersebut, namun sebagian besar pengujian melingkup keseluruhan stack.
Apakah Anda dapat menguji sistem agentic dan workflow multi-agent? +
Ya. Pengujian agent adalah bagian inti dari layanan, melingkup penyalahgunaan tool-calling, pelanggaran batas otonomi, koersi multi-agent, dan skenario chained-injection saat model mengambil tindakan atas nama input yang dikendalikan penyerang.
Bagaimana dengan keamanan RAG dan vector store? +
Pengujian spesifik RAG termasuk jika berlaku: indirect prompt injection via konten yang diambil, kebocoran chunk lintas tenant, embedding poisoning, dan strategi chunking yang melewati kontrol akses.
Apakah Anda menguji code assistant dan copilot? +
Ya. Code assistant memunculkan risiko spesifik, kode yang di-generate berisi CVE, prompt injection via kode atau komentar yang tidak dipercaya, kebocoran secret dari training data, eksposur supply-chain melalui dependency yang disarankan.
Bagaimana Anda menguji model yang tidak kami kendalikan (mis. OpenAI, Anthropic, Google)? +
Penyedia model berada dalam ruang lingkup sebagai dependency, bukan sebagai target. Kami menilai bagaimana aplikasi Anda menggunakan penyedia tersebut, konstruksi prompt, output handling, integrasi tool, aliran data, bukan mencoba menguji foundation model itu sendiri, yang akan melanggar terms of service penyedia.
Uji AI Anda dengan cara penyerang akan melakukannya.
Baik Anda meluncurkan LLM customer-facing, copilot internal, atau workflow multi-agent, Vantage Point dapat mengidentifikasi kategori OWASP LLM Top 10 yang sebenarnya berlaku untuk sistem Anda dan memberikan bukti yang divalidasi konsultan dan siap untuk audit.