Character recognition using correlation coefficient and support vector machines

โดย ปิยะณัฐ พิมลรัตน์

ปี 2554

บทคัดย่อ (Abstract)

การศึกษาทางด้านการรู้จำตัวอักษรโดยอาศัยหลักการของการประมวลผลสัญญาณภาพกำลังเป็นที่น่าสนใจในปัจจุบัน วิธีซัพพอร์ตเวกเตอร์แมชชีน (Support Vector Machines) เป็นวิธีหนึ่งของเทคนิคการรู้จำและแบ่งกลุ่มภาพตัวอักษร ซึ่งสามารถแบ่งออกได้หลายเทคนิค เช่น เอลเอสวีเอ็ม (LSVM) เคอร์เนล ฟังก์ชั่น (Kernel functions) และ ซี-เอสวีเอ็ม (C-SVM) เป็นต้น อย่างไรก็ตามวิธีซัพพอร์ตเวกเตอร์แมชชีนยังมีข้อจำกัดด้านประสิทธิภาพในการรู้จำและจำแนกภาพตัวอักษร

วิทยานิพนธ์ฉบับนี้นำเสนอการรู้จำและจำแนกภาพตัวอักษรโดยใช้วิธีทางสัมประสิทธิ์สหสัมพันธ์ (Correlation coefficient) ร่วมกับซัพพอร์ตเวกเตอร์แมชชีนเพื่อเพิ่มประสิทธิภาพการจำแนกภาพตัวอักษร โดยวิธีทางสัมประสิทธิ์สหสัมพันธ์ถูกนำมาใช้เพื่อการแยกกลุ่มของตัวอักษร วิธีซัพพอร์ตเวกเตอร์แมชชีนชนิดเรเดียลบัสเซียสฟังก์ชั่น (Radial Basis Function) ถูกนำมาใช้สำหรับการจำแนกรูปแบบตัวอักษร ทั้งนี้ตัวอักษรพิมพ์ที่เป็นภาษาไทยและภาษาอังกฤษจำนวน 6,300 รูปแบบ และตัวอักษรเขียนด้วยลายมือจำนวน 20 รูปแบบ จำนวน 2,800 ตัวอักษร ถูกนำใช้เป็นในการทดสอบ

ผลการทดสอบแสดงให้เห็นว่าการจำแนกตัวอักษรโดยใช้วิธีทางสัมประสิทธิ์สหสัมพันธ์ร่วมกับซัพพอร์ตเวกเตอร์แมชชีนให้ความถูกต้องเฉลี่ยร้อยละ 99.27 และประสิทธิภาพการรู้จำเฉลี่ยร้อยละ 97.94 ซึ่งเมื่อทำการเปรียบเทียบกับการใช้เทคนิคซัพพอร์ตเวกเตอร์แมชชีนเพียงอย่างเดียว ในการทดสอบตัวอักษรที่เป็นตัวอักษรภาษาไทยที่เขียนด้วยลายมือ ผลลัพธ์ได้ปรากฏว่าสามารถจำแนกตัวอักษรได้ 2,116 ตัวอักษร คิดเป็นเฉลี่ยร้อยละ 75.57 และใช้เวลาเฉลี่ยเท่ากับ 0.51 วินาที ดังนั้นวิธีทางเทคนิคที่ใช้ในวิทยานิพนธ์นี้สามารถนำไปประยุกต์ในระบบการรู้จำตัวอักษรที่อาศัยหลักการของการประมวลผลสัญญาณภาพได้

The study of characteristic format recognition using image processing is recently interesting. Support Vector Machines (SVM) method is one of the recognition and classification characteristic format technique which can operate in many techniques such as LSVM, Kernel Functions and C-SVM etc. However the SVM method still has a limit of recognition and classification characteristic format efficiency.

This thesis presents the recognition and classifies characteristic format using correlation coefficient and SVM method for increasing the efficiency of the characteristic format classification. The correlation coefficient method is used to classify the group of characteristic. The Radial Basis Function (RBF), which is one of the SVM, is used to classify characteristic format. The 6,300 of Thai and English typing format and 2,800 hand writing format from 20 patterns are used in this experiment.

The experiment results show that the classification characteristic using the correlation coefficient with the SVM provide the accuracy approximately 99.27% and recognition efficiency approximately 97.94% when compare with using the only SVM method. Moreover, this technique can classify 2,116 of Thai hand writing format. It is approximately 75.57% and uses 0.51second. Therefore the technique, which is used in this thesis, can apply for characteristic format recognition based on image processing.

 

Download : การรู้จำตัวอักษรโดยใช้วิธีทางสหสัมพันธ์ร่วมกับซัพพอร์ตเวกเตอร์แมชชีน