Amazon พบข้อมูลล่วงละเมิดทางเพศเด็กมหาศาลในข้อมูลฝึก AI แต่กลับชี้ต้นตอไม่ได้

วงการ AI กำลังเผชิญกับคำถามด้านจริยธรรมครั้งใหญ่อีกครั้ง เมื่อ Amazon ยอมรับว่าตรวจพบข้อมูลล่วงละเมิดทางเพศเด็ก (CSAM) ปริมาณมหาศาลในชุดข้อมูลที่ใช้ฝึกฝน AI ของตนเอง แต่ที่น่าตกใจยิ่งกว่าคือบริษัทยืนยันว่าไม่สามารถระบุที่มาของข้อมูลเหล่านี้ได้ สร้างความกังวลและคำถามถึงความรับผิดชอบในกระบวนการพัฒนาเทคโนโลยี

เรื่องนี้แดงขึ้นมาจากการเปิดเผยของศูนย์เพื่อเด็กหายและถูกฉวยผลประโยชน์แห่งชาติสหรัฐฯ (NCMEC) ที่ระบุว่าในปี 2025 ได้รับรายงาน CSAM ที่เกี่ยวข้องกับ AI มากกว่า 1 ล้านฉบับ และที่น่าประหลาดใจคือ “ส่วนใหญ่” ของรายงานเหล่านั้นมาจาก Amazon เพียงบริษัทเดียว อย่างไรก็ตาม ทาง NCMEC ชี้ว่ารายงานจาก Amazon แทบจะไร้ประโยชน์ เพราะมันเป็นเพียงการแจ้งเตือนว่าเจอข้อมูล แต่ไม่ได้ให้รายละเอียดสำคัญที่จำเป็นสำหรับให้หน่วยงานบังคับใช้กฎหมายสืบสวนต่อได้ เช่น แหล่งที่มาของข้อมูล ซึ่งแตกต่างจากรายงานของบริษัทเทคโนโลยีอื่นๆ ที่มักจะให้ข้อมูลที่สามารถนำไปสู่การจับกุมผู้กระทำผิดได้

นี่เป็นภาพสะท้อนปัญหาเชิงโครงสร้างของการพัฒนา AI ในปัจจุบัน โมเดลภาษาขนาดใหญ่ (LLM) ถูกป้อนข้อมูลมหาศาลจากแหล่งต่างๆ ทั่วอินเทอร์เน็ตเพื่อสร้างความฉลาด ซึ่งบ่อยครั้งเป็นกระบวนการที่ขาดการตรวจสอบแหล่งที่มาอย่างเข้มงวด คำชี้แจงของ Amazon ที่ว่าข้อมูลมาจาก ‘แหล่งภายนอก’ และไม่สามารถให้รายละเอียดได้ เปรียบเสมือนการยอมรับว่าพวกเขาเองก็ไม่รู้ว่าวัตถุดิบที่ใช้สร้างผลิตภัณฑ์ทรงพลังของตนนั้นมาจากไหนกันแน่ การอ้างว่าใช้เกณฑ์การสแกนที่กว้างเพื่อดักจับให้ได้มากที่สุด (over-inclusive) จนเกิดผลบวกลวง (false positives) จำนวนมาก อาจเป็นความจริงในทางเทคนิค แต่ก็ไม่ได้ลดทอนความน่ากังวลของปัญหาหลัก นั่นคือการขาดความรับผิดชอบต่อห่วงโซ่อุปทานข้อมูล (Data Supply Chain) หากบริษัทยักษ์ใหญ่อย่าง Amazon ยังไม่สามารถติดตามที่มาของข้อมูลได้ แล้วบริษัทขนาดเล็กจะมีความสามารถในการตรวจสอบได้อย่างไร ประเด็นนี้ได้สร้างช่องโหว่ขนาดมหึมาที่อาจทำให้เนื้อหาผิดกฎหมายถูกฟอกผ่านกระบวนการฝึก AI โดยไม่มีใครต้องรับผิดชอบ

กรณีของ Amazon จึงเป็นเหมือนสัญญาณเตือนภัยที่ดังที่สุดครั้งหนึ่งของวงการ AI มันชี้ให้เห็นว่าการมุ่งเน้นแต่จะสร้างโมเดลที่เก่งที่สุด โดยละเลยการตรวจสอบที่มาและความสะอาดของข้อมูล อาจนำไปสู่การสร้างเทคโนโลยีบนรากฐานที่เต็มไปด้วยเนื้อหาเป็นพิษ ซึ่งสุดท้ายแล้วผลกระทบไม่ได้หยุดอยู่แค่ในโลกดิจิทัล แต่ยังส่งผลต่อความปลอดภัยในโลกแห่งความจริงด้วย

ที่มา: Engadget