การทดสอบความปลอดภัยของ LLM
การทดสอบความปลอดภัยสำหรับแอปพลิเคชันที่ขับเคลื่อนด้วย LLM, AI Agent และระบบ Copilot โดยเชื่อมโยงกับ OWASP LLM Top 10
AI ไม่ได้เป็นแค่โครงการทดลองอีกต่อไป หลายองค์กรเริ่มใช้งานจริงกับ Customer Support, Internal Copilot, Agentic Workflow, Code Generation และเครื่องมือช่วยตัดสินใจ ระบบเหล่านี้จึงกลายเป็นส่วนหนึ่งของ Attack Surface แอปพลิเคชันที่ใช้ LLM มีความเสี่ยงชุดใหม่ที่ AppSec แบบเดิมไม่เคยต้องรับมือ เช่น Prompt Injection, Agent Abuse, RAG Attack Path, Data Exfiltration ผ่านผลลัพธ์ของโมเดล และ Supply Chain Risk จาก Model Weight หรือ Training Data ที่ไม่น่าเชื่อถือ
ความเสี่ยงนี้เป็นปัญหาเชิงโครงสร้าง ไม่ใช่เหตุการณ์เฉพาะหน้า LLM รับคำสั่งจากข้อความทุกแหล่งที่เข้าถึง Prompt ได้ ไม่ว่าจะเป็นอีเมล เอกสาร หน้าเว็บ หรือผลลัพธ์จากเครื่องมือที่ Hacker ควบคุม Indirect Prompt Injection จึงเปลี่ยนข้อมูลนำเข้าเหล่านี้ให้กลายเป็นช่องทางสั่งการได้ เมื่อ LLM เชื่อมกับ Agent หรือ Tool-calling API ผลกระทบจะไม่ใช่แค่ข้อมูลรั่ว แต่อาจกลายเป็นการส่งอีเมลแทนผู้ใช้ Query ระบบภายใน แก้ไข Record หรือรัน Code
LLM Testing ของ Vantage Point ครอบคลุมตัว Model, Application รอบข้าง, RAG Pipeline และชั้น Agent หรือ Tool Calling ขอบเขตอ้างอิง OWASP LLM Top 10 และเสริมด้วย Test Case ที่เราพัฒนาจาก R&D ภายในและประสบการณ์ CTF ด้าน AI Security
AI ไม่ได้เปลี่ยนแค่วิธีโจมตี แต่เปลี่ยนสิ่งที่ Hacker ทำได้
Prompt Injection คือภัยคุกคามที่เกิดขึ้นจริงบนระบบใช้งานจริงในปัจจุบัน
Indirect Prompt Injection ผ่านเอกสาร อีเมล หน้าเว็บ หรือข้อความที่ผู้ใช้คัดลอกมา เป็น Attack Vector หลักของแอปพลิเคชัน LLM วันนี้ การมองว่าเป็นเรื่องทฤษฎีจึงไม่พอแล้ว
Agent ทำให้ Injection กลายเป็นผลกระทบจริง
Chatbot ที่ถูก Jailbreak อาจทำให้ข้อมูลรั่ว แต่ Agent ที่ถูก Injection อาจส่งอีเมล Query Database ลบ Record หรือรัน Code ในนามผู้ใช้ได้ ช่องโหว่ประเภทเดียวกันจึงสร้างผลกระทบต่างกันมากเมื่อระบบมีสิทธิ์ลงมือทำ
ความปลอดภัยของปัญญาประดิษฐ์ที่ผูกติดอยู่กับรากฐานของชุดข้อมูลที่ใช้ในการพัฒนา
Training Data Poisoning, Secret ที่หลุดเข้าไปใน Prompt, Fine-tuning Dataset ที่มี PII และ Model Weight จาก Registry ที่ไม่น่าเชื่อถือ ล้วนสร้างความเสี่ยงระยะยาวที่ Application Testing แบบเดิมมักไม่ครอบคลุม
Hallucination คือความล้มเหลวของ Security Control
เมื่อ LLM ให้คำตอบผิดอย่างมั่นใจ แล้วคำตอบนั้นถูกใช้ตัดสินใจทางธุรกิจ เรียก Tool หรือสร้าง Code ที่ถูกนำขึ้น Production ช่องว่างระหว่าง 'AI Demo' กับ 'AI System' จะกลายเป็นปัญหาความปลอดภัยทันที
Supply Chain ยาวขึ้นกว่าเดิม
Foundation Model, Plugin, Vector Store, Embedding Service และ Third-party Agent ต่างเป็น Dependency ใหม่ที่มีช่องทางอัปเดต Trust Boundary และความเสี่ยงของตัวเอง
หน่วยงานกำกับดูแลกำลังตามทันอย่างรวดเร็ว
แนวทาง AI Risk ของ MAS Singapore, ความคาดหวังของ CSA Singapore, EU AI Act และแนวทาง AI ของ NIST ต่างเริ่มกำหนดเรื่องการทดสอบและหลักฐานที่ต้องมี การทำ Security Testing ที่มีหลักฐานรองรับตั้งแต่วันนี้ช่วยให้องค์กรพร้อมก่อนข้อกำหนดจะเข้มขึ้น
สิ่งที่เราทดสอบ
ขอบเขตการประเมินความปลอดภัยครอบคลุมตามกรอบมาตรฐาน OWASP LLM Top 10 ประจำปี ค.ศ. 2025 อย่างครบถ้วน โดยแนวทางการทดสอบจะถูกปรับแต่งให้สอดคล้องตามลักษณะสถาปัตยกรรมเฉพาะของระบบ ไม่ว่าจะเป็นแชตบอตทั่วไป, ระบบผู้ช่วยอัจฉริยะที่ขับเคลื่อนด้วย RAG, เอเจนต์ที่มีสิทธิ์เรียกใช้งานเครื่องมือต่าง ๆ, ระบบช่วยเขียนโปรแกรม หรือกระบวนการทำงานร่วมกันแบบหลายเอเจนต์
การครอบคลุม OWASP LLM Top 10
กรอบมาตรฐานความปลอดภัย OWASP Top 10 สำหรับแอปพลิเคชัน LLM ฉบับสมบูรณ์ ซึ่งได้รับการยอมรับเป็นเกณฑ์มาตรฐานพื้นฐานระดับสากลสำหรับการทดสอบความปลอดภัยของระบบประมวลผลภาษาขนาดใหญ่
- LLM01 — Prompt Injection (direct and indirect)
- LLM02 — Sensitive Information Disclosure
- LLM03 — Supply Chain (Model, Plugin, Dataset)
- LLM04 — Data and Model Poisoning
- LLM05 — Improper Output Handling
- LLM06 — Excessive Agency
- LLM07 — System Prompt Leakage
- LLM08 — Vector and Embedding Weaknesses
- LLM09 — Misinformation and Hallucination
- LLM10 — Unbounded Consumption
ชั้น Application และ Agent
ลักษณะการจัดเตรียมส่วนห่อหุ้มซอฟต์แวร์ของโมเดล รูปแบบการเรียกใช้งาน และกระบวนการกำหนดสิทธิ์ในการเข้าถึงสถาปัตยกรรมระบบส่วนอื่น ๆ ซึ่งจุดนี้มักเป็นส่วนที่ตรวจพบช่องโหว่ที่มีระดับความรุนแรงและมีผลกระทบต่อธุรกิจสูงที่สุดอยู่เสมอ
- Wrapper ระดับแอปพลิเคชันและ Middleware
- การฉวยโอกาสใช้งานฟังก์ชันเรียกเครื่องมือและฟังก์ชันการทำงานในทางที่ผิด
- ขอบเขตการทำงานที่เป็นอิสระของเอเจนต์และหลักการกำหนดสิทธิ์การเข้าถึงเท่าที่จำเป็น
- ความปลอดภัยของ Plugin และ Connector
- การโจมตี Multi-Agent และ Agent-to-Agent
- ความบกพร่องในการจัดการผลลัพธ์และการโจมตีแบบฉีดคำสั่งสู่ระบบปลายทาง
RAG ข้อมูล และ Supply Chain
ชุดข้อมูลที่โมเดลใช้ในการประมวลผล, คลังข้อมูลเวกเตอร์ฝังตัวที่ใช้ในการสืบค้น และส่วนประกอบซอฟต์แวร์เกี่ยวเนื่องที่เปิดใช้งานพร้อมกับระบบ
- เส้นทางการโจมตีของ Retrieval-Augmented Generation (RAG)
- Prompt Injection ทางอ้อมผ่านเนื้อหาที่ดึงมาจากการสืบค้น
- การปนเปื้อนข้อมูลในคลังจัดเก็บเวกเตอร์ฝังตัว
- การเปิดเผยข้อมูลที่ใช้ฝึก / Fine-Tuning
- Foundation Model Supply Chain
- ความเชื่อถือของ Plugin และ Tool Registry
สิ่งที่โครงการ LLM Testing มักเปิดเผยให้เห็น
ข้อมูลที่นำเสนอเป็นกลุ่มช่องโหว่ที่ที่ปรึกษาของเรามักพบจากการทดสอบในลักษณะเดียวกัน ความรุนแรงและความถี่จะแตกต่างกันตามสภาพแวดล้อมและระดับความพร้อมของแต่ละองค์กร
Indirect Prompt Injection
คำสั่งแอบแฝงที่ซ่อนอยู่ภายในเอกสารที่ถูกสืบค้น, ตั๋วแจ้งขอความช่วยเหลือ, อีเมล หรือหน้าเว็บไซต์ ซึ่งส่งผลให้โมเดลภาษาขนาดใหญ่ละเลยชุดคำสั่งควบคุมระบบดั้งเดิม จนนำไปสู่การลักลอบส่งข้อมูลออกภายนอก หรือการเรียกใช้งานเครื่องมือต่าง ๆ โดยที่ผู้ใช้ไม่ได้ร้องขอ
การใช้งานในทางที่ผิด ของเครื่องมือในเอเจนต์
Agent ที่ได้รับสิทธิ์การเข้าถึงเครื่องมือเกินความจำเป็น เช่น การให้สิทธิ์ "ส่งอีเมล" หรือ "สืบค้นฐานข้อมูล" แก่กระบวนการทำงานที่ควรอ่านข้อมูลเพียงอย่างเดียว ซึ่งเปิดโอกาสให้ Prompt Injection สั่งการทำลายหรือสร้างความเสียหายต่อระบบได้
การรั่วไหลของชุดคำสั่งควบคุมระบบและข้อมูลความลับทางซอฟต์แวร์
ชุดคำสั่งควบคุมระบบที่มีการระบุรหัสเปิดใช้งานเอพีไอ, ยูอาร์แอลภายใน หรือตรรกะทางธุรกิจ ซึ่ง Hacker สามารถดึงข้อมูลกลับออกมาได้ผ่านการส่งคำสั่งเจาะจงเป้าหมาย หรือการจัดแจงรูปแบบผลลัพธ์เพื่อหลบเลี่ยงตัวกรอง
ความบกพร่องในการจัดการและตรวจสอบผลลัพธ์จากโมเดล
ผลลัพธ์จากโมเดลภาษาขนาดใหญ่ถูกนำไปแสดงผลเป็นเอชทีเอ็มแอลโดยไม่มีการตรวจสอบและทำความสะอาดชุดข้อมูล ซึ่งเปิดช่องโหว่ให้เกิดการโจมตีประเภทสคริปต์ข้ามไซต์, การส่งผลลัพธ์ของโมเดลไปรันบนฟังก์ชันอันตรายโดยตรง และชุดคำสั่งเอสคิวแอลที่สร้างขึ้นจากภาษาธรรมชาติโดยไม่มีการกำหนดตัวแปรพารามิเตอร์เพื่อความปลอดภัยก่อนส่งเข้าฐานข้อมูล
การเปิดเผยข้อมูลที่มากเกินไป
คลังข้อมูลเวกเตอร์ส่งคืนชุดข้อมูลส่วนย่อยข้ามขอบเขตผู้เช่าระบบ และระบบสืบค้นเอกสารเปิดเผยข้อมูลระบุตัวบุคคลภายในองค์กร เนื่องจากกระบวนการแบ่งชุดข้อมูลส่วนย่อยไม่ได้คำนึงถึงมาตรการควบคุมการเข้าถึงระบบ
Unbounded Consumption
ไม่มีการจำกัดอัตราการประมวลผลคำสั่งที่มีมูลค่าสูง ไม่มีการกำหนดจำนวนโทเคนสูงสุดต่อเซสชัน และความเสี่ยงต่อการแบกรับต้นทุนที่เพิ่มขึ้นมหาศาลจากการจงใจส่งคำสั่งเพื่อกระตุ้นให้เอเจนต์ทำงานวนซ้ำอย่างไม่มีสิ้นสุด
แนวทางการทำงานที่มีโครงสร้างชัดเจน ขับเคลื่อนด้วยข้อมูลเชิงลึกในทุกการทดสอบ
ทุกโครงการดำเนินตามแนวทางที่มีระเบียบวินัยเดียวกันผ่านแพลตฟอร์ม Velocity เพื่อให้คุณภาพ การติดตามตรวจสอบ และการรายงานมีมาตรฐานเดียวกันในทุกทีม
การกำหนดขอบเขต
กำหนดสินทรัพย์ สภาพแวดล้อม ข้อกำหนดในการทดสอบ และเกณฑ์การยอมรับร่วมกับผู้เกี่ยวข้องด้านเทคนิคและความปลอดภัย
การดำเนินการ
การทดสอบแบบ Manual และด้วยเครื่องมือโดยที่ปรึกษาที่ได้รับการรับรอง CREST พร้อมเก็บหลักฐานในทุกขั้นตอน
การตรวจสอบความถูกต้อง
ทุกการค้นพบจะถูกทำซ้ำ ประเมินระดับความเสี่ยงด้วย CVSS และยืนยันโดยที่ปรึกษาท่านที่สองก่อนรายงานผล
การรายงาน
รายงานที่ลงนามด้วยรหัส พร้อมการอ้างอิง Test Case การจัดระดับความรุนแรง ขั้นตอนการทำซ้ำ และแนวทางแก้ไข
สรุปผลและการทดสอบซ้ำ
การประชุมสรุปผลกับผู้เกี่ยวข้อง การช่วยจัดลำดับความสำคัญ และการทดสอบซ้ำหลังการแก้ไข
อ้างอิงมาตรฐานสากลที่ได้รับการยอมรับ
การประเมินความปลอดภัยระบบ LLM ของเราอ้างอิงตามกรอบมาตรฐานความปลอดภัยด้าน AI ที่ได้รับการยอมรับในระดับสากล ควบคู่ไปกับเกณฑ์มาตรฐานความปลอดภัยทางซอฟต์แวร์ขั้นพื้นฐาน ซึ่งยังคงมีความจำเป็นและมีผลบังคับใช้เมื่อระบบ AI ถูกนำไปเปิดใช้งานจริงในระบบโปรดักชัน
รายงานที่ออกแบบมาสำหรับงานตรวจสอบ ทีมวิศวกร และผู้บริหาร
ทุกโครงการจะส่งมอบเอกสารหลักฐานที่ตรวจสอบได้ ติดตามได้ และพร้อมส่งหน่วยงานกำกับดูแล, สร้างผ่าน Velocity และลงนามด้วยรหัสเพื่อการตรวจสอบความถูกต้อง
PDF · JSON · XML · CSV · รองรับรายงานหลายภาษา · CVSS 3.0 / 3.1 / 4.0
- รายงานสรุปสำหรับผู้บริหาร
- รายงานเชิงเทคนิคพร้อมการเชื่อมโยง OWASP LLM Top 10
- Prompt, Payload และ Response ที่ทำซ้ำได้
- ประวัติการบันทึกการทำงานของเอเจนต์เมื่ออยู่ในขอบเขตการประเมิน
- การให้คะแนน CVSS และการวิเคราะห์ผลกระทบ
- แนวทางการแก้ไขที่จัดลำดับความสำคัญแล้ว
- การทดสอบซ้ำหลังการแก้ไข
- การส่งออกในรูปแบบ JSON / XML / CSV สำหรับเชื่อมต่อกับเครื่องมือปลายทาง (ทางเลือก)
คำถามจากผู้สนใจใช้บริการ
การประเมินนี้ครอบคลุมเฉพาะตัวโมเดล หรือรวมถึงแอปพลิเคชันทั้งหมด +
ครอบคลุมแอปพลิเคชันทั้งหมด เนื่องจากการทดสอบโมเดลเพียงอย่างเดียวมักมองข้ามจุดที่ความเสี่ยงใน Production ซ่อนอยู่ ไม่ว่าจะเป็น Application Wrapper, Retrieval Pipeline, เลเยอร์ Tool-Calling รวมถึงระบบปลายทางที่นำผลลัพธ์จากโมเดลไปใช้ต่อ ทั้งนี้ หากต้องการประเมินเฉพาะตัวโมเดล เราจัดขอบเขตให้ได้ แต่การประเมินส่วนใหญ่จะครอบคลุมทั้ง Stack
ทาง Vantage Point สามารถทดสอบระบบปฏิบัติการอัจฉริยะและกระบวนการทำงานแบบหลายเอเจนต์ได้หรือไม่ +
Agent testing เป็นบริการหลักของเรา ครอบคลุม tool-calling abuse, autonomy-boundary violations, multi-agent coercion และ chained-injection scenarios ที่ทำให้โมเดลลงมือทำแทน input ที่ attacker ควบคุม
ความปลอดภัยของระบบ RAG และคลังข้อมูลเวกเตอร์มีความสำคัญอย่างไร +
การทดสอบเฉพาะสำหรับ RAG จะรวมอยู่ในขอบเขตตามความเหมาะสม เช่น Prompt Injection ทางอ้อมผ่านเนื้อหาที่ดึงมา, การรั่วไหลของ Chunk ข้าม Tenant, การทำ Embedding Poisoning และกลยุทธ์การแบ่ง Chunk ที่หลบเลี่ยงมาตรการควบคุมการเข้าถึง
ทดสอบ Code Assistant และ Copilot ได้หรือไม่? +
ใช่ ระบบช่วยเขียนโค้ดมีความเสี่ยงเฉพาะตัว ได้แก่ โค้ดที่สร้างขึ้นอาจมี CVE, Prompt Injection ผ่านโค้ดหรือคอมเมนต์ที่ไม่น่าเชื่อถือ, การรั่วไหลของ Secret จากข้อมูลที่ใช้ฝึกโมเดล และความเสี่ยงด้าน Supply Chain ผ่าน Dependency ที่ระบบแนะนำ
เราทดสอบโมเดลที่เราไม่ได้ควบคุม (เช่น OpenAI, Anthropic, Google) อย่างไร? +
ผู้ให้บริการโมเดลจัดอยู่ในขอบเขตการประเมินในฐานะระบบที่เกี่ยวเนื่อง ไม่ใช่เป้าหมายในการโจมตีโดยตรง โดยเราจะประเมินรูปแบบการใช้งานของผู้ให้บริการนั้น ๆ บนแอปพลิเคชันของคุณ เช่น การสร้าง Prompt, การจัดการผลลัพธ์, การเชื่อมต่อเครื่องมือ และการไหลเวียนของข้อมูล มากกว่าที่จะทดสอบตัวโมเดลพื้นฐานโดยตรง ซึ่งการกระทำดังกล่าวอาจเป็นการละเมิดข้อตกลงการให้บริการของผู้ให้บริการได้
ทดสอบ AI ขององค์กรคุณในแบบที่ Hacker จะทดสอบ
ไม่ว่าคุณกำลังเปิดตัว LLM สำหรับให้บริการลูกค้า, Copilot สำหรับใช้งานภายในองค์กร หรือ Multi-agent workflow ทาง Vantage Point สามารถระบุประเภทความเสี่ยงตามมาตรฐาน OWASP LLM Top 10 ที่ส่งผลกระทบต่อระบบของคุณได้อย่างแม่นยำ พร้อมส่งมอบหลักฐานการประเมินที่ผ่านการตรวจสอบโดยที่ปรึกษา ซึ่งมีความพร้อมสำหรับการตรวจประเมินมาตรฐาน