Phần giới thiệu về học máy và học sâu là không thể thiếu khi nói đến sự phát triển của Machine Vision hiện đại trong sản xuất công nghiệp. Hai công nghệ này cho phép hệ thống thị giác máy tự động học hỏi từ dữ liệu hình ảnh, vượt qua giới hạn của các quy tắc lập trình truyền thống để thực hiện các tác vụ kiểm soát chất lượng và phân loại sản phẩm phức tạp với độ chính xác và linh hoạt vượt trội.
1. Từ Thị Giác Truyền Thống đến Kỷ Nguyên Học Tập Tự Động
Trong nhiều thập kỷ, Machine Vision truyền thống đã đóng vai trò quan trọng trong việc tự động hóa kiểm soát chất lượng. Các hệ thống này hoạt động dựa trên phương pháp dựa trên quy tắc (Rule-Based): kỹ sư lập trình các luật rõ ràng để đo lường các thuộc tính vật lý của sản phẩm, chẳng hạn như kích thước, khoảng cách cạnh, hoặc ngưỡng độ sáng. Phương pháp này hoạt động hiệu quả khi kiểm tra các đối tượng có hình học rõ ràng và đặt trong môi trường ánh sáng được kiểm soát chặt chẽ. Tuy nhiên, sản xuất công nghiệp hiện đại đặt ra những thách thức lớn hơn nhiều. Các thách thức này bao gồm:
- Bề mặt phức tạp và biến đổi: Sản phẩm được làm từ vật liệu phản quang, bề mặt nhám, hoặc có hoa văn không đồng nhất (ví dụ: các chi tiết đúc, vật liệu dệt).
- Ánh sáng biến đổi: Ngay cả khi đã kiểm soát, sự thay đổi nhỏ về nhiệt độ hoặc độ mòn của đèn cũng có thể làm thay đổi các giá trị pixel cơ bản.
- Lỗi ngẫu nhiên/tinh tế (Anomaly): Các lỗi hiếm gặp, khó định nghĩa như vết trầy xước siêu nhỏ, lỗi mỹ phẩm, hoặc các khuyết tật chưa từng xuất hiện trong quá khứ.
Các hệ thống Machine Vision truyền thống không thể giải quyết triệt để các thách thức này vì chúng yêu cầu phải viết lại hàng trăm dòng mã code (logic) mỗi khi có một loại lỗi hoặc sản phẩm mới xuất hiện.

2. Học Máy (Machine Learning – ML) Căn Bản trong Machine Vision
2.1. Định nghĩa Học Máy
Học máy (Machine Learning – ML) là một lĩnh vực của Trí tuệ nhân tạo, nơi máy tính có khả năng học hỏi và cải thiện từ kinh nghiệm (dữ liệu) mà không cần lập trình tường minh. Thay vì yêu cầu kỹ sư viết một hàm logic chi tiết (ví dụ: “Nếu kích thước lớn hơn X và màu là Đỏ thì là sản phẩm A”), học máy cho phép máy tính tự động tìm ra mối quan hệ và mẫu hình trong dữ liệu.
Trong Machine Vision, quá trình học máy bao gồm việc cung cấp cho thuật toán hàng ngàn hình ảnh đã được dán nhãn (“Sản phẩm A”, “Sản phẩm B”, “Lỗi”), để nó tự xây dựng một mô hình dự đoán.
2.2. ML Truyền Thống (Classical ML)
Trước khi học sâu thống trị, học máy truyền thống là phương pháp tiên tiến nhất được áp dụng trong thị giác máy. Quy trình ML Truyền Thống bao gồm hai bước chính:
Trích xuất Đặc trưng Thủ công (Manual Feature Extraction): Đây là bước quan trọng nhất và khó khăn nhất. Kỹ sư Machine Vision phải sử dụng kinh nghiệm và kiến thức chuyên môn để xác định và trích xuất các đặc trưng (features) có ý nghĩa từ hình ảnh. Các đặc trưng này có thể là:
- Thống kê màu sắc: Giá trị trung bình của kênh màu R, G, B hoặc H, S, V trong một vùng.
- Đặc trưng hình học: Diện tích đối tượng, chu vi, độ tròn, hoặc các thông số từ các thuật toán phát hiện cạnh (Edge Detection).
- Đặc trưng kết cấu: Độ thô, độ hạt của bề mặt.

Huấn luyện Thuật toán Phân loại: Sau khi đặc trưng được trích xuất (ví dụ: chuyển đổi hình ảnh 1000×1000 pixel thành một vectơ 10 đặc trưng), vectơ này được đưa vào các thuật toán học máy truyền thống như:
- SVM (Support Vector Machine): Tìm ra một siêu phẳng phân tách tối ưu giữa các lớp dữ liệu.
- Random Forest: Xây dựng nhiều cây quyết định và kết hợp chúng để tăng cường độ chính xác dự đoán.
- Ứng dụng lịch sử của ML truyền thống thường là phân loại sản phẩm đơn giản (ví dụ: phân biệt giữa ba loại vật liệu nhựa có màu sắc tương đối ổn định) hoặc nhận dạng các đối tượng có hình học rõ ràng và ổn định.
2.3. Hạn chế của ML Truyền Thống
Hạn chế cốt lõi của ML truyền thống là sự phụ thuộc nặng nề vào kiến thức chuyên môn của con người để trích xuất đặc trưng phù hợp. Nếu kỹ sư trích xuất đặc trưng không tốt, mô hình sẽ không bao giờ đạt được độ chính xác mong muốn. Đặc biệt, ML truyền thống không hiệu quả với dữ liệu hình ảnh có độ phức tạp cao. Ví dụ, một lỗi bề mặt tinh vi (ví dụ: vết nứt vi mô) không thể được mô tả dễ dàng bằng các đặc trưng hình học đơn giản. Để giải quyết các vấn đề này, cần phải chuyển sang học sâu.
3. Học Sâu (Deep Learning – DL) – Bước Nhảy Vọt của Machine Vision
3.1. Định nghĩa Học Sâu
Học sâu (Deep Learning – DL) là một tập hợp con tiên tiến của học máy. DL sử dụng Mạng nơ-ron nhân tạo (Artificial Neural Networks) với nhiều lớp (Deep Layers) để xử lý và học hỏi các biểu diễn dữ liệu ngày càng trừu tượng. Cái tên “sâu” (Deep) xuất phát từ việc có nhiều lớp ẩn (Hidden Layers) trong kiến trúc mạng. Điểm khác biệt lớn nhất giữa học sâu và học máy truyền thống là học sâu loại bỏ hoàn toàn nhu cầu về trích xuất đặc trưng thủ công.

3.2. Mạng Nơ-ron Tích chập (CNN)
Mạng nơ-ron tích chập (Convolutional Neural Networks – CNN) là kiến trúc mạng thần kinh được thiết kế đặc biệt cho việc xử lý dữ liệu hình ảnh. Cấu trúc CNN bao gồm:
- Lớp Tích chập (Convolutional Layer): Thực hiện các phép toán tích chập để quét qua toàn bộ hình ảnh. Lớp này sử dụng các bộ lọc (Filters/Kernels) để phát hiện các đặc điểm cơ bản như đường nét (ngang, dọc), góc cạnh, hoặc các điểm chấm.
- Lớp Gộp (Pooling Layer): Giảm kích thước dữ liệu (Downsampling) sau lớp tích chập, giúp mô hình tập trung vào các đặc trưng quan trọng nhất và giảm tải tính toán.
- Lớp Kết nối Toàn diện (Fully Connected Layer): Thực hiện phân loại sản phẩm hoặc dự đoán dựa trên các đặc trưng đã học được từ các lớp trước.
Nguyên lý cốt lõi: Khả năng tự động trích xuất đặc trưng (Automatic Feature Extraction). Đây là khả năng cách mạng hóa Machine Vision. CNN tự động học hỏi theo hệ thống cấp bậc:
- Lớp nông (Shallow Layers): Học các đặc trưng cơ bản (đường thẳng, màu sắc, kết cấu).
- Lớp sâu (Deep Layers): Học cách kết hợp các đặc trưng cơ bản để tạo ra các đặc điểm trừu tượng và phức tạp hơn (ví dụ: hình dạng của một con chip, mô hình lắp ráp của một cụm linh kiện, hoặc hình dạng của một vết nứt).
Khả năng này cho phép hệ thống học sâu tự động xử lý hình ảnh thô và đưa ra quyết định mà không cần sự can thiệp của con người vào việc định nghĩa “lỗi trông như thế nào”.
3.3. Lợi ích Đột phá
- Xử lý hiệu quả dữ liệu hình ảnh phức tạp: DL có thể học các mối quan hệ phức tạp và không tuyến tính trong dữ liệu, cho phép nó xử lý các sản phẩm có bề mặt bóng, hoa văn, hoặc các lỗi có hình dạng ngẫu nhiên, nơi mà các quy tắc lập trình truyền thống bó tay.
- Tính linh hoạt cao và khả năng chịu lỗi: Mô hình học sâu có khả năng tổng quát hóa tốt hơn. Nó có thể nhận dạng một sản phẩm hoặc một loại lỗi ngay cả khi đối tượng bị xoay, nghiêng, hoặc nằm trong điều kiện ánh sáng kém hơn so với dữ liệu huấn luyện. Điều này là yếu tố then chốt cho Machine Vision trong công nghiệp tốc độ cao.

4. Tích hợp Học Sâu vào Quy trình Kiểm soát Chất lượng (QC) Công nghiệp
Sự tích hợp học sâu đã mở ra cánh cửa cho các ứng dụng Machine Vision mà trước đây là không thể, đặc biệt trong việc giải quyết các thách thức khó nhằn nhất của sản xuất công nghiệp.
4.1. Nhận dạng Lỗi Ngẫu nhiên (Anomaly Detection)
Trong các ngành như bán dẫn hoặc dược phẩm, đôi khi một loại lỗi mới, hiếm gặp (Novel Defects) xuất hiện trên các bề mặt đồng nhất.
- Vấn đề: Không thể thu thập đủ mẫu lỗi để huấn luyện mô hình phân loại truyền thống.
- Giải pháp DL: Sử dụng kỹ thuật Anomaly Detection. Kỹ sư chỉ cần huấn luyện mô hình học sâu bằng cách sử dụng hàng ngàn hình ảnh sản phẩm Đạt chuẩn (Good Samples). Mô hình học được các đặc điểm của “sản phẩm hoàn hảo”. Khi một sản phẩm mới được đưa vào kiểm tra, bất kỳ độ lệch nào so với mô hình “Chuẩn” này đều được xác định là lỗi. Kỹ thuật này rất hiệu quả trong kiểm tra các bề mặt đồng nhất (như màn hình, tấm kim loại) không có mẫu lỗi rõ ràng, cho phép phát hiện các khuyết tật mà chưa từng thấy trước đây.
4.2. Phân loại Sản phẩm và Phân loại Khuyết tật Phức tạp
CNN cho phép phân loại sản phẩm (Product Classification) và phân loại lỗi (Defect Classification) với độ chi tiết và tốc độ cao, vốn bất khả thi với các phương pháp dựa trên quy tắc.
- Phân loại Sản phẩm: Một hệ thống có thể sử dụng CNN để phân loại sản phẩm theo SKU (Stock Keeping Unit) dựa trên logo, màu sắc hoặc hình dạng phức tạp, ngay cả khi chúng nằm gần nhau trên băng tải.
- Phân loại Khuyết tật: Thay vì chỉ báo cáo “Lỗi”, mô hình DL có thể phân biệt các loại lỗi khác nhau (ví dụ: vết xước vs. vết nứt, lem màu vs. thiếu màu) trong môi trường sản xuất công nghiệp tốc độ cao. Thông tin chi tiết này rất quan trọng để xác định nguyên nhân gốc rễ và điều chỉnh quy trình sản xuất (ví dụ: vết xước do robot, vết nứt do nhiệt độ).

4.3. Định vị đối tượng và Gắp đặt (Localization & Pick-and-Place)
Trong robot tự động hóa, học sâu đóng vai trò thiết yếu trong việc định vị vật thể không nằm cố định.
- Vấn đề: Robot truyền thống cần vật thể được đặt chính xác trong đồ gá (Jig) để gắp đặt.
- Giải pháp DL: Sử dụng các kiến trúc DL tiên tiến như YOLO (You Only Look Once) hoặc Faster R-CNN, hệ thống Machine Vision có thể xác định vị trí, kích thước và hướng của vật thể trong không gian 2D hoặc 3D ngay lập tức. Điều này hỗ trợ robot gắp đặt linh hoạt hơn, đặc biệt trong các tác vụ phức tạp như Bin Picking (gắp các chi tiết nằm lộn xộn trong thùng), tăng cường đáng kể tính linh hoạt của dây chuyền lắp ráp tự động.
5. Thách thức và Yếu tố Cần Chuẩn Bị khi Áp dụng Học Sâu trong Machine Vision
Mặc dù học sâu mang lại nhiều lợi ích đột phá, việc triển khai nó trong sản xuất công nghiệp không hề dễ dàng và đòi hỏi sự chuẩn bị kỹ lưỡng.
5.1. Thách thức về Dữ liệu
DL là một hệ thống dựa trên dữ liệu nên chất lượng và số lượng dữ liệu là yếu tố quyết định.
Yêu cầu: Mô hình học sâu yêu cầu dữ liệu lớn, chất lượng cao và phải được dán nhãn chính xác (Data Labeling). Việc dán nhãn thủ công (xác định vị trí và loại lỗi) tốn kém và là một trong những trở ngại lớn nhất.
Giải pháp:
- Kỹ thuật Tăng cường Dữ liệu (Data Augmentation): Tạo ra các phiên bản lỗi giả từ ảnh đạt chuẩn (ví dụ: xoay, thay đổi độ sáng, thêm nhiễu) để tăng số lượng dữ liệu huấn luyện.
- Transfer Learning: Tận dụng các mô hình CNN đã được huấn luyện trước trên tập dữ liệu hình ảnh lớn (ví dụ: ImageNet) và chỉ tinh chỉnh lại các lớp cuối cùng bằng dữ liệu sản phẩm cụ thể. Điều này giúp giảm đáng kể nhu cầu dữ liệu và thời gian huấn luyện.

5.2. Thách thức về Tài nguyên Tính toán
Học sâu đòi hỏi sức mạnh tính toán vượt trội so với Machine Vision truyền thống.
- Huấn luyện (Training): Quá trình huấn luyện mô hình CNN đòi hỏi GPU (Graphics Processing Unit) mạnh mẽ và thời gian dài (vài giờ đến vài ngày).
- Triển khai (Inference): Trong môi trường sản xuất công nghiệp, quyết định phải được đưa ra trong vài mili giây. Yêu cầu độ trễ thấp này dẫn đến việc sử dụng các thiết bị chuyên dụng như Smart Camera (camera tích hợp chip AI/GPU), hoặc các thiết bị biên (Edge Device) được tối ưu hóa cho AI để xử lý hình ảnh ngay tại dây chuyền, thay vì truyền dữ liệu về máy chủ trung tâm.
5.3. Thách thức về Tính Giải thích (Explainability – XAI)
Mô hình học sâu thường được coi là một “hộp đen” vì rất khó để hiểu chính xác tại sao mô hình lại đưa ra quyết định đó (ví dụ: tại sao nó lại coi một sản phẩm là “Lỗi”). Sự thiếu minh bạch này gây khó khăn cho kỹ sư QC khi muốn xác định nguyên nhân lỗi hoặc cải tiến mô hình.
Cần sử dụng các công cụ Tính Giải thích (Explainable AI – XAI) như CAM (Class Activation Maps). CAM giúp tạo ra một bản đồ nhiệt (Heatmap) trên hình ảnh, chỉ ra chính xác khu vực nào của sản phẩm mà mô hình CNN tập trung vào để đưa ra quyết định “Lỗi”. Điều này giúp kỹ sư QC tin tưởng hơn vào hệ thống và cải tiến quy trình sản xuất dựa trên bằng chứng thị giác từ AI.
6. Kết luận
Học máy và học sâu đã đưa Machine Vision từ công cụ đo lường đơn giản dựa trên quy tắc trở thành hệ thống kiểm soát chất lượng thông minh, tự động và linh hoạt. Khả năng tự động trích xuất đặc trưng của học sâu giải quyết được các thách thức phức tạp nhất của sản xuất công nghiệp hiện đại, đặc biệt là trong nhận dạng lỗi ngẫu nhiên và phân loại sản phẩm tinh vi. Sự kết hợp giữa DL và thị giác 3D (3D Vision) cùng với việc phát triển các mô hình nhẹ (Lightweight Models) sẽ thúc đẩy Machine Vision trở nên phổ biến, dễ tiếp cận hơn, và có khả năng đưa ra quyết định dự đoán (Predictive Quality), đánh dấu bước phát triển vượt bậc trong tự động hóa công nghiệp.

