Ứng dụng của AI – trí tuệ nhân tạo vào đời sống thì nhiều vô số. Bài viết chuyên mục Học tập cùng Nhà của Di hôm nay sẽ nhắc đến công nghệ OCR, hay còn gọi là nhận diện ký tự quang học.
Contents
Công nghệ OCR là gì?
Nhắc lại một chút thì các dạng dữ liệu khác nhau mà AI có thể xử lý bao gồm hình ảnh (image), âm thanh (audio), video, chữ (text), số (number).
Trong hình ảnh, ngoài công nghệ Image Classification mình trình bày ở phần 1, thì một công nghệ cũng khá quan trọng là nhận diện ký tự quang học, tên tiếng Anh là Optical Character Recognition, viết tắt là OCR.
Có thể hiểu đơn giản là OCR sẽ giúp chuyển đổi nội dung từ dạng hình ảnh (image) thành văn bản (text).
Mình dự định sẽ nói về cách thức hoạt động của OCR, nhưng học cách làm trong khi chưa biết dùng OCR để làm gì thì không phải mục tiêu của bài viết này. Thế nên mình cùng nhau tìm hiểu ứng dụng nha.
Ứng dụng của AI – Vì sao công nghệ OCR quan trọng?
Khi cần lưu trữ thông tin để sau này dùng đến, đơn giản nhất chẳng hạn như tên tuổi, năm sinh hay quê quán của một tập thể nào đó, chẳng hạn như thành viên gia đình, các bạn trong lớp, nhân viên trong công ty thì bạn sẽ lưu trữ dưới dạng nào?
Có phải bạn sẽ viết vào sổ tay, mở ghi chú điện thoại để gõ vào, hoặc mở máy tính và sử dụng các phần mềm soạn thảo văn bản như Word hay Excel hay không?
Việc này có thể được thực hiện nhanh chóng nếu số lượng người không quá lớn.
Nhưng nếu như ngân hàng, công ty hay trường học cần lưu trữ thông tin học sinh lên đến cả ngàn người. Và những thông tin đó đến từ những tờ đơn, tờ phiếu, chứng minh nhân dân / căn cước công dân thì làm thế nào?
Cách truyền thống và cũng là cách đang được thực hiện ở nhiều nơi hiện nay là nhập liệu trực tiếp bằng sức người.
Có một dạo, thị trường lao động cần rất nhiều nhân viên nhập liệu, làm tại văn phòng hoặc làm tại nhà với mức lương cực kì hấp dẫn.
Vậy mà nhờ có công nghệ OCR, sau khi chụp ảnh hay scan những tờ phiếu hay tờ đơn này thì những thông tin dạng ký tự trên ảnh sẽ được trích ra và lưu trữ theo ý mình.
Vừa tiện, vừa nhanh, vừa tiết kiệm chi phí.
Nghe ngầu quá có phải không?
Nhưng việc này cũng khá quen thuộc.
Không biết bạn có nhớ những lần chúng ta chụp ảnh mặt trước và mặt sau của chứng minh hay căn cước không?
Những bức ảnh đó sẽ được lưu trữ và sử dụng như thế nào nhỉ?
Sau khi tiếp nhận bức ảnh, những thông tin trên ảnh sẽ được trích xuất ra thành những trường thông tin như Họ và tên, Ngày sinh, Quê quán, vâng vâng.
Và nhờ vậy, khách hàng cũng không tốn thời gian nhập những thông tin đó mà chỉ cần chụp ảnh là xong.
Nếu như công nghệ này được áp dụng rộng rãi thì những tác vụ lằng nhằng giấy tờ sẽ gọn gàng hơn rất nhiều.
Đây cũng là mục tiêu chuyển đổi số các lĩnh vực được nhắc đến rất nhiều thời gian gần đây.
Chưa kể, có thể mọi người không để ý, những tài liệu cổ hay những quyển sách xưa sẽ không thể tồn tại mãi theo thời gian.
Do đó, người ta thường ghi chép lại, hoặc hiện đại hơn là chụp hình hoặc scan lại.
Và ngày nay, nhờ có công nghệ mà người ta có thể chuyển nội dung trong những bức ảnh đó thành nội dung chữ, và tất nhiên là có thể chuyển thành sách điện tử một cách dễ dàng.
Những khó khăn có thể gặp phải
Không phải hình ảnh nào có chữ cũng đều có thể trích ra được thành thông tin.
Những bức ảnh mờ, nhoè và mất chữ là những khó khăn dành cho công nghệ này.
Sau khi máy nhận diện được đó là chữ gì, làm sao để báo cho người dùng biết rằng, chỗ này lúc nãy hình bị mờ, cần kiểm tra lại thông tin, là một khó khăn khó giải quyết.
Mình hay thấy các anh chị soát lỗi cho ebook than rằng việc đọc dò rất cực, vì nó gấp đôi, gấp ba thời gian đọc bình thường.
Chưa kể, nhận diện được vùng có chữ trên ảnh, nhận diện được loại thông tin và đọc được chính xác thông tin trên đó là gì là những tác vụ không hề đơn giản.
Mà nội dung thì được trình bày dưới nhiều dạng kiểu chữ khác nhau, có khi còn được viết tay, nên việc dạy cho máy biết đó là chữ gì là một công việc cần nhiều thời gian và công sức.
Các bước thực hiện
Vì mình không phải chuyên công nghệ, nên mình sẽ trình bày dễ hiểu nhất để mọi người cũng hiểu giống như mình hiểu nha.
Đầu tiên, chắc chắn sẽ cần một thời gian để dán nhãn dữ liệu và cho máy học rồi.
Quá trình dán nhãn cũng phụ thuộc vào đối tượng dán nhãn mà sẽ có bước khác nhau, một trong số đó chẳng hạn như khoanh vùng có chứa thông tin trên bức ảnh.
Ví dụ, chúng ta chụp hình một trang tài liệu, nền là trên chiếc bàn học hay trên giường, thì bước đầu tiên phải xác định khu vực trang tài liệu ở chỗ nào và loại bỏ phần nền không cần thiết.
Rồi sau đó, công tác dán nhãn sẽ tiến đến các khu vực có chữ và khu vực có từ.
Khoanh vùng khu vực xong thì sẽ dán nhãn thông tin, tức là cho biết chữ đọc được trong khung đó là chữ gì.
Hình bên dưới, khung xanh là định vị khu vực có chữ, đóng khung riêng cho từng từ, sau đó nhận diện chữ trong khung là gì bằng chữ màu đỏ.
Dán nhãn xong xuôi thì đưa máy học thôi. Máy sẽ học từ những dữ liệu được cung cấp và lần sau khi gặp chữ tương tự thì máy sẽ nhận diện được.
Tuy vẫn còn khó khăn trong việc nhận diện các loại chữ viết khác nhau, nhưng nếu như không cần tốn công sức nhập liệu thì đây đích thị là một công nghệ tuyệt vời.
Người ta vẫn đang tiếp tục nghiên cứu và thử nghiệm để tăng độ chính xác cho quá trình này. Bởi mới thấy, nghiên cứu và phát triển sản phẩm không thể là việc ngày một ngày hai và cũng không thể là công việc của một cá nhân mà phải là của cả một tập thể.
Hôm nay đến đây thôi. Hẹn gặp lại mọi người ở tập 3.
Mình mong là dù cho có chuyện gì xảy ra đi chăng nữa thì mọi người vẫn luôn được sống trong những điều tốt đẹp và hạnh phúc.
Ngọc Diệu – Nhà của Di.