ตัดคำภาษาไทยและภาษาอื่นไปถึงไหนกันแล้ว?

เมื่อการสร้างโมเดลตัดคำไม่ใช่เรื่องท้าทายอีกต่อ แล้วอะไรละที่ยังท้าทาย? เกริ่นก่อนเริ่ม บทความนี้เป็นการรวบรวมข้อมูลจากงานวิจัยที่ได้รับการตีพิมพ์ในระดับนานาชาติ ซึ่งมีการอ้างอิงทฤษฏี ผลลัพธ์ และการนำไปใช้ตามที่งานวิจัยได้เขียนเอาไว้ ตัดคำภาษาไทยคืออะไร? “การพยายามรวมตัวอักษรจนได้ 1 คำ แบบถูกต้องตามหลักภาษาและถูกสถานการณ์” ยกตัวอย่างเช่น ตามกลม (ตัวอย่างอมตะในการตัดคำภาษาไทย) จะเห็นได้ว่า “ตามกลม” สามารถตัดคำได้สองแบบคือ ตาก|ลม กับ ตา|กลม ขึ้นอยู่กับสถานการณ์ เมื่อตัดคำเสร็จแล้ว เราก็เอาคำเหล่านั้นที่ตัดมาได้ไปเข้าโมเดลต่างๆ (Text classification, NER, POS, Language Modeling)…

ตัดคำภาษาไทยและภาษาอื่นไปถึงไหนกันแล้ว?
ตัดคำภาษาไทยและภาษาอื่นไปถึงไหนกันแล้ว?

#อ่านNLProc Talk: อาร์ม ปรัชญา บุญขวัญ

เพจ #อ่านNLProc ได้มีโอกาสคุยกับนักวิจัยด้าน NLP จากศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) และยังเป็นผู้บุกเบิก NLP ไทยในยุคแรกๆอีกด้วย #อ่านNLProc: อยากให้พี่อาร์มช่วยเปรียบเทียบ NLP ภาษาไทยสมัยก่อน กับสมัยปัจจุบันหน่อยครับ ว่าเปลี่ยนแปลงไปอย่างไรบ้างครับ ? พี่อาร์ม: ผมเริ่มทำงานวิจัยด้าน NLP ในปี 2000 ในตอนนั้นเทคนิคหลักๆในการทำ NLP ก็คือการใช้ Statistics มา learn กับ ข้อมูลเพื่อสร้างเป็นโมเดล ในยุคนั้น Data มีน้อยมาก โดยส่วนมากทุกแล็บ ทุกมหาลัยจะสร้าง Data โดยใช้ทุนภายนอกเป็นของตัวเอง แต่ก็จะติดปัญหาคือ ไม่สามารถเปิดข้อมูล (Open data) ได้ ทำให้เกิดปัญหาเวลาตีพิมพ์ว่า ไม่สามารถเปรียบเทียบผลการทดลองกับคนอื่นได้ เพราะข้อมูลที่ใช้ทดลองไม่เหมือนกัน NLP ในยุคนั้นจึงยังไม่ค่อยก้าวไปไหน…

#อ่านNLProc Talk: อาร์ม ปรัชญา บุญขวัญ
#อ่านNLProc Talk: อาร์ม ปรัชญา บุญขวัญ
Mr.P L

Lifestyle of Programmer & IoT (Node-RED|Blynk) & Data Science (ML,DL,NLP) and Whatever I want to do | cat can coding too | Ph.D. -> VISTEC -> IST