AI 20 Apr 2026

Document Intelligence: จากข้อมูล PDF สู่มูลค่าทางธุรกิจ

Written by: ทีม AMDIS

เอกสารสัญญาที่ลงนามแล้วมักอยู่ในรูปแบบไฟล์ PDF สิ่งที่อยู่ในนั้นจริงๆ ไม่ว่าจะเป็นระยะเวลาบอกกล่าวล่วงหน้า กฎหมายที่ใช้บังคับ ข้อกำหนดการต่ออายุ หรือเลขประจำตัวผู้เสียภาษีที่ซ่อนอยู่ในย่อหน้าที่สิบสอง จะยังคงถูกปิดผนึกอยู่ภายใน PDF นั้นจนกว่าจะมีคนเข้าไปอ่าน และเมื่อต้องจัดการกับสัญญาที่สแกนไว้เป็นร้อยๆ ฉบับในหลายภาษา การหวังพึ่งให้ "มีคนเข้าไปอ่าน" ก็ไม่สามารถตอบโจทย์การทำงานจริงได้อีกต่อไป

แพลตฟอร์ม LaTraM ของ AMDIS แปลงเอกสาร PDF นั้นให้เป็นข้อมูลที่สามารถสืบค้นและตรวจสอบความถูกต้องได้ โดยระบบ OCR และการแปลภาษาจะช่วยดึงข้อความออกมา จากนั้นโครงสร้างการสกัดข้อมูล (extraction schema) ที่กำหนดค่าได้จะเป็นตัวกำหนดว่าข้อมูลใดสำคัญ และ AI จะทำหน้าที่อ่านข้อมูลเหล่านั้น โดยข้อมูลจริงทุกอย่างที่สกัดออกมาจะมีหลักฐานอ้างอิงกลับไปยังเอกสารต้นฉบับเสมอ ทำให้มั่นใจได้ว่าไม่มีข้อมูลใดถูกอ้างขึ้นมาโดยปราศจากข้อพิสูจน์

จากเอกสารสแกนสู่ข้อความที่มีโครงสร้าง

เมื่อนำเข้าเอกสารที่ต้องประมวลผลในรูปแบบ PDF หรือรูปภาพ LaTraM จะเรียกใช้ระบบ OCR ทำงานร่วมกับ AI เพื่อตรวจจับภาษาต้นทางของแต่ละเอกสารหรือแต่ละหน้า และสกัดข้อความออกมา จากนั้นระบบจะแปลข้อความดังกล่าวเป็นภาษาปลายทางที่คุณต้องการ โดยแสดงข้อความต้นฉบับและข้อความที่แปลแล้วเคียงคู่กันเพื่อให้สามารถเปรียบเทียบได้โดยตรง

หน้าต่างแสดงเครื่องมือตรวจจับเอกสารสแกนและการแปลภาษาคู่ขนานระหว่างภาษาอังกฤษและภาษาเยอรมันในสัญญาเช่า

ข้อความต้นฉบับและข้อความแปลจะแสดงคู่กัน โดยแต่ละฝั่งมีปุ่มแก้ไขแยกเฉพาะ เพื่อให้ผู้ตรวจทานปรับแต่งความถูกต้องของ OCR หรือการแปลได้ตามต้องการโดยไม่เสียข้อมูลต้นฉบับ

ทั้งข้อความต้นฉบับและข้อความแปลยังคงสามารถแก้ไขได้ หากระบบ OCR อ่านตัวอักษรผิดพลาดหรือการแปลภาษาจำเป็นต้องใช้ศัพท์เฉพาะทางวิชาชีพ ผู้ตรวจทานสามารถแก้ไขข้อความในระบบได้ทันที โดยการแก้ไขนั้นจะถูกบันทึกไว้ในระบบเพื่อใช้เป็นข้อมูลประวัติ ไม่ใช่การแก้ไขแบบชั่วคราวแล้วหายไป

การกำหนดข้อมูลที่ต้องการสกัด

ก่อนที่ AI จะเริ่มอ่านเอกสารสัญญา คุณสามารถกำหนดสิ่งที่คุณต้องการค้นหาได้ โดยประเภทของข้อกำหนด (clause category) จะระบุประเภทของค่าข้อมูลที่ต้องการ เช่น วันที่, ค่าความจริง (boolean), ข้อความทั่วไป, สกุลเงิน หรือรายการค่าที่ถูกจำกัดขอบเขต รวมถึงระบุว่ากระบวนการวิเคราะห์ต้องการข้อความอ้างอิงสนับสนุน (supporting quote), คะแนนความมั่นใจ (confidence score) หรือการประเมินวิเคราะห์ผลด้วยหรือไม่

หน้าจอกำหนดประเภทข้อมูลสกัด การเลือกรูปแบบข้อมูล และแผนผังความเสี่ยงพร้อมเอกสารอ้างอิง

แต่ละประเภทข้อมูล (ในตัวอย่างนี้คือวันกำหนดส่งหนังสือบอกกล่าวล่วงหน้า) จะถูกจับคู่กับประเภทข้อมูล รูปแบบของผลลัพธ์ และความเสี่ยงพร้อมระดับความเกี่ยวข้อง รวมถึงเอกสารอ้างอิงที่ป้อนเพื่อให้ AI ใช้เปรียบเทียบตีความ

นอกจากนี้ แต่ละประเภทข้อมูลยังสามารถจับคู่กับความเสี่ยงโดยตรงด้วยระดับความเกี่ยวข้อง (ต่ำ/ปานกลาง/สูง) และจับคู่กับเอกสารอ้างอิง เช่น บทกฎหมาย, นโยบายภายใน หรือคำพิพากษาก่อนหน้า เพื่อให้การตีความของ AI อ้างอิงอยู่บนพื้นฐานของข้อมูลที่มีอำนาจตัดสินที่เชื่อถือได้ มากกว่าที่จะพึ่งพาเพียงข้อมูลที่ใช้ในการฝึกฝน AI เอง

การวิเคราะห์ด้วย AI พร้อมระบบตรวจสอบในตัว

การเริ่มระบบวิเคราะห์จะนำทุกประเภทข้อมูลที่กำหนดไว้ไปใช้กับเอกสาร และสร้างค่าผลลัพธ์ คำอธิบาย และเมื่อจำเป็นต้องใช้ข้อความอ้างอิงสนับสนุน ระบบจะมีขั้นตอนการตรวจสอบเพื่อเปรียบเทียบค่าที่สกัดได้กับข้อความต้นฉบับโดยตรง

ตารางผลลัพธ์การวิเคราะห์ของ AI แสดงข้อมูลที่สกัด อัตราส่วนความถูกต้องของข้อความอ้างอิง และระดับความเสี่ยง

ทุกแถวข้อมูลจะมีค่าที่สกัดได้คู่กับผลการตรวจสอบข้อความอ้างอิง (ในตัวอย่างนี้คือ 100%) เพื่อชี้ให้เห็นอย่างชัดเจนว่าข้อมูลใดของ AI ที่อ้างอิงจากเอกสารโดยตรง และส่วนใดที่ยังต้องให้มนุษย์เข้ามาตรวจสอบ

เมื่อข้อความอ้างอิงตรงกัน คุณจะได้รับผลการยืนยันเป็น True และสามารถดำเนินการต่อได้ทันที หากไม่ตรงกัน หรือในกรณีที่ไม่มีข้อความอ้างอิงที่เหมาะสม (เช่น ค่าที่ได้จากการประมวลผลขั้นสูง หรือค่าว่าง) ระบบจะส่งสัญญาณเตือนให้มนุษย์เข้ามาตรวจสอบ แทนการกดยอมรับโดยไม่ตรวจสอบ ประเภทข้อมูลและตรรกะการตรวจสอบนี้สามารถสั่งรันใหม่ได้ทุกเมื่อเมื่อคุณมีการปรับปรุงกฎเกณฑ์การสกัดข้อมูลให้ดียิ่งขึ้น

จากข้อเท็จจริงสู่คำตอบ

ข้อมูลข้อเท็จจริงที่สกัดออกมาจะไม่ถูกเก็บไว้อยู่แค่ในมุมมองเอกสารเดี่ยวๆ เท่านั้น แต่จะถูกนำไปเก็บไว้ในฐานข้อมูลเชิงสัมพันธ์ โดยจัดกลุ่มตามชุดของประเภทข้อมูล (เช่น กลุ่มสัญญาเช่าขั้นพื้นฐาน) ซึ่งพร้อมสำหรับทั้งการส่งออกข้อมูลที่มีโครงสร้างและการสืบค้นข้อมูลตามต้องการ

ตารางข้อมูลรวมพร้อมช่องสืบค้นข้อมูลในฐานข้อมูลด้วยภาษาธรรมชาติเป็นคำสั่ง SQL อัตโนมัติ

แทนที่จะต้องมานั่งเขียนคำสั่ง SQL หรือกรองข้อมูลในไฟล์ Excel ด้วยตนเอง ช่องสืบค้นด้วย AI จะช่วยแปลงคำถามภาษาธรรมชาติ เช่น ค้นหาเอกสารสัญญาที่ไม่อนุญาตให้เช่าช่วง ให้กลายเป็นคำสั่งสืบค้นฐานข้อมูลได้โดยตรงทันที

นี่คือผลลัพธ์สูงสุดของกระบวนการทั้งหมด: คำถามเช่น "สัญญารายใดที่ไม่อนุญาตให้เช่าช่วง" จะไม่ใช่งานที่ต้องเปิดอ่านเอกสารทีละหน้าด้วยตนเองอีกต่อไป แต่จะกลายเป็นคำสั่งสืบค้นที่ได้รับคำตอบภายในไม่กี่วินาที โดยข้อมูลที่ได้มีประวัติสืบย้อนกลับไปยังเอกสาร PDF ต้นฉบับได้อย่างครบถ้วน

สร้างขึ้นเพื่อเอกสารที่ต้องมีความถูกต้องแม่นยำสูง

การดึงข้อมูลด้วย OCR และ AI ช่วยให้คุณทำงานได้เร็วขึ้น แต่การตรวจทานข้อความอ้างอิง การระบุความเสี่ยง และการเข้ามาประเมินผลโดยมนุษย์ คือสิ่งที่จะช่วยเติมเต็มในส่วนที่ความเร็วเพียงอย่างเดียวให้ไม่ได้ นั่นคือความมั่นใจว่าข้อมูลในระบบฐานข้อมูลนั้นตรงกับสิ่งที่ระบุไว้ในสัญญาจริงๆ

ต้องการทดลองใช้งาน LaTraM กับชุดเอกสารของคุณหรือไม่ ติดต่อ AMDIS เพื่อจัดเตรียมการสาธิตการใช้งาน