Thật toán căn chỉnh hình ảnh mới dựa trên Rotation-Discriminating Ring-Shifted Projection

Tóm lược

Bài viết này đề xuất một thuật toán căn chỉnh ảnh mới dựa trên phép chiếu chuyển vòng phân biệt góc quay (rotation-discriminating ring-shifted projection) để kiểm tra quang học tự động. Thuật toán mới này không chỉ xác định vị trí của hình ảnh mẫu trong hình ảnh kiểm tra mà còn cung cấp thông tin xoay chính xác trong quá trình khớp mẫu bằng cách sử dụng sơ đồ ước tính xoay mới, được gọi là kỹ thuật dịch chuyển vòng(ring-shifted). Chúng tôi sử dụng khung hai giai đoạn với kỹ thuật tìm kiếm kim tự tháp hình ảnh để hiện thực hóa thuật toán căn chỉnh hình ảnh được đề xuất; ở giai đoạn đầu tiên, sự tương đồng dựa trên phép biến đổi phép chiếu lai với kỹ thuật tìm kiếm kim tự tháp hình ảnh được sử dụng để lựa chọn nhanh chóng và định vị các ứng cử viên trong ảnh kiểm tra. Trong giai đoạn thứ hai, góc quay của vật thể được ước tính bằng kỹ thuật dịch chuyển vòng mới. Việc ước tính chỉ được thực hiện đối với ứng viên có khả năng nhất, ứng viên có độ tương tự cao nhất trong giai đoạn đầu tiên. Kết quả thực nghiệm cho thấy phương pháp đề xuất đưa ra ước tính chính xác cho việc khớp mẫu với các phép quay tùy ý và có thể áp dụng trong nhiều điều kiện môi trường khác nhau.

1. Giới thiệu

Căn chỉnh hình ảnh là một kỹ thuật cơ bản có nhiều ứng dụng cho thị giác máy và xử lý hình ảnh, bao gồm truy xuất hình ảnh, nhận dạng đối tượng, ước tính tư thế, kiểm tra công nghiệp và theo dõi mục tiêu. Do việc kiểm tra công nghiệp thường được tiến hành trong môi trường được kiểm soát tốt (ví dụ: khoảng cách làm việc giữa ống kính và đối tượng kiểm tra là cố định), nên thực tế thông thường là thực hiện căn chỉnh hình ảnh bằng cách sử dụng phép biến đổi cứng nhắc hai chiều (2D) bị ràng buộc. Điều này tạo ra khả năng thiết lập thuật toán căn chỉnh hình ảnh nhanh có thể được sử dụng cho các ứng dụng kiểm tra công nghiệp và là trọng tâm của nghiên cứu này. Kết quả nghiên cứu thường được sử dụng trong việc kiểm soát chất lượng tự động hóa sản xuất. Ví dụ, hai trường hợp cho thấy tính khả thi của nghiên cứu được đề xuất này: (1) một hệ thống thị giác mạnh mẽ có thể kiểm tra các bộ phận được trang bị cho một số loại động cơ diesel ở giai đoạn quan trọng và căn chỉnh trong cụm động cơ; (2) đảm bảo chất lượng của các thiết bị gắn trên bề mặt (SMD) gắn trên bảng mạch in (PCB).

Các kỹ thuật căn chỉnh hình ảnh thường được chia thành hai loại chính: phương pháp dựa trên đặc điểm hoặc hình học và phương pháp dựa trên diện tích hoặc cường độ. Các phương pháp dựa trên tính năng của Huttenlocher et al. áp dụng khoảng cách Hausdorff có hướng cho một số thuật toán để cho phép căn chỉnh hình ảnh. Kown và cộng sự. đề xuất một khoảng cách Hausdorff phân cấp mạnh mẽ để so sánh các bản đồ cạnh trong cấu trúc hình chóp đa cấp. Chen và cộng sự. cũng sử dụng khoảng cách Hausdorff để căn chỉnh hình ảnh trong hệ thống kiểm tra bảng mạch in. Ở ngoại vi, các bộ mô tả cục bộ thường được sử dụng trong một số ứng dụng trong thế giới thực, chẳng hạn như nhận dạng đối tượng. Lowe đã đề xuất một phép biến đổi tính năng bất biến tỷ lệ (SIFT), kết hợp bộ phát hiện và mô tả vùng bất biến tỷ lệ và sử dụng phân bố độ dốc trong các vùng được phát hiện. SIFT nhấn mạnh các đặc điểm cục bộ tại một điểm quan tâm cụ thể, bất biến theo tỷ lệ và góc quay. Mikolajczyk và Schmid đã so sánh hiệu suất của các bộ mô tả được tính toán cho các vùng quan tâm cục bộ. Mặc dù SIFT là một phương pháp hữu ích để mô tả vùng quan tâm khi vùng đó có tỷ lệ và xoay, việc so khớp dựa trên SIFT không thành công khi chỉ có một vài điểm đặc trưng trong hình ảnh mẫu. Phương pháp khoảnh khắc Zernike cũng được sử dụng để tạo mẫu cho các đặc điểm mẫu cho hình ảnh mẫu và xác định tính bất biến đối với phép quay, dịch chuyển và tỷ lệ. Để đảm bảo hiệu quả tính toán, Mondal còn đề xuất thêm một phiên bản tăng tốc sử dụng kỹ thuật wavelet đa độ phân giải, phép chiếu và khoảnh khắc Zernike. Ullah đề xuất một phương pháp mẫu bất biến xoay sử dụng thông tin độ dốc dưới dạng mã định hướng. Tuy nhiên, phương pháp này tốn nhiều thời gian vì phải tính toán biểu đồ. Để tăng tốc độ của phương pháp khớp mẫu sử dụng mã định hướng, bộ mô tả phân biệt đối xử xoay vòng mới và chiến lược tìm kiếm đối tượng đã được sử dụng. Các mô tả bất biến nêu trên về các điểm quan tâm trong ảnh có khả năng chống lại hiện tượng che khuất một phần và tương đối không nhạy cảm với những thay đổi về góc nhìn. Các thuật toán được đề cập nói chung có hiệu quả trong các ứng dụng thông thường, nhưng chúng có thể dẫn đến việc xử lý không cần thiết khi việc căn chỉnh hình ảnh chỉ liên quan đến việc xoay và bù tỷ lệ hạn chế, như với các ứng dụng kiểm tra quang học tự động (AOI).

Phương pháp dựa trên khu vực(area-based) đôi khi được gọi là phương pháp tương quan(correlation-like) hoặc phương pháp so khớp mẫu(template-matching) và đã phổ biến trong nhiều thập kỷ vì các khái niệm cơ bản của nó. Mẫu nhỏ trước tiên được áp dụng cho hình ảnh kiểm tra lớn bằng cách trượt cửa sổ mẫu trên cơ sở từng pixel. Tương quan chéo chuẩn hóa (NCC) được tính toán giữa mẫu và hình ảnh kiểm tra. Các giá trị hoặc đỉnh tối đa cho các giá trị tương quan được tính toán cho biết sự trùng khớp giữa mẫu và hình ảnh phụ trong hình ảnh kiểm tra. Số liệu NCC thường được sử dụng để quản lý việc đăng ký các hình ảnh chỉ khác nhau ở bản dịch. Nếu hình ảnh bị biến dạng do các phép biến đổi phức tạp, cửa sổ mẫu không thể bao phủ cùng các vùng quan tâm trong mẫu và hình ảnh kiểm tra, do đó một số nghiên cứu đã đề xuất các số liệu NCC được sửa đổi để tránh vấn đề đăng ký hình ảnh có liên quan đến các phép biến đổi phức tạp. Để cho phép kết hợp hình ảnh bất biến với phép quay, một phép biến đổi phép chiếu vòng đã được đề xuất để biến đổi hình ảnh mức xám 2D thành biểu diễn bất biến xoay, như trong không gian chiếu vòng một chiều (1D). Tsai và Chiang còn sử dụng phép chiếu vòng để thể hiện mẫu mục tiêu trong các hình ảnh phụ được phân tách bằng sóng con. Cụ thể, họ chỉ sử dụng các pixel có hệ số sóng con cao ở mức độ phân giải thấp để tính toán NCC giữa hai mẫu riêng biệt. Choi và Kim cũng sử dụng phương pháp căn chỉnh hình ảnh hai giai đoạn, trước tiên xác định vị trí các ứng cử viên bằng cách so sánh tổng vectơ cho phép chiếu vòng và sau đó khớp các ứng cử viên này bằng cách sử dụng khoảnh khắc Zernike. Bảng 1 tóm tắt các tính năng, cách tiếp cận và nhược điểm của phương pháp căn chỉnh hình ảnh cho từng loại phương pháp. Danh mục dựa trên đối tượng sử dụng bản đồ cạnh, điểm ưa thích, đường viền hình dạng và mô tả bất biến làm đối tượng căn chỉnh. Các phương pháp được nhúng là khoảng cách Hausdorff, sự tương ứng của đặc tính, mômen Zernike và phép đo độ khác nhau. Nhược điểm của phương pháp dựa trên đặc trưng là lỗi căn chỉnh xảy ra khi trích xuất đặc trưng không chính xác. Danh mục dựa trên khu vực sử dụng các mẫu hình ảnh làm đối tượng địa lý phù hợp và tương quan chéo hoặc phép chiếu vòng để đăng ký hình ảnh. Tuy nhiên, thời gian tính toán có thể quá cao đối với các ứng dụng liên quan đến chuyển đổi hình ảnh phức tạp.

Danh mụcĐặc trưngPhương pháp tiếp cậnNhược điểm
Feature-basedEdge maps
Interest point
Invariant descriptors
Orientation code
Hausdorff distance
Feature correspondence
Zernike moment
Dissimilarity measurement
Inaccurate feature extraction
Area-basedImage templatesCross correlation
Ring-projection
Excessive computation time
Bảng 1. Tóm tắt các phương pháp căn chỉnh hình ảnh.

Mặc dù đã có nhiều nghiên cứu về kỹ thuật căn chỉnh hình ảnh dựa trên khu vực, nhưng tương đối ít nghiên cứu liên quan đến căn chỉnh vòng chiếu, đây là một loại phương pháp đặc biệt dựa trên khu vực. Phương pháp này biến đổi hình ảnh mức xám 2D thành biểu diễn bất biến xoay trong không gian chiếu vòng một chiều (1D). Tsai đã sử dụng kỹ thuật chiếu vòng để thể hiện các mẫu trong hình ảnh đa kênh bằng phương pháp chọn nhanh các ứng cử viên bằng cách tính toán NCC giữa thông tin chiếu vòng màu. Việc xoay vòng sau đó được ước tính bằng cách xoay mẫu. Để giảm độ phức tạp tính toán, chiến lược loại bỏ nhanh chóng phát hiện một ứng cử viên tương tự được sử dụng. Trong phương pháp này, phép biến đổi vòng chiếu bất biến xoay được sử dụng để mô tả hình ảnh. Hai phương pháp so khớp giai đoạn cũng đã được đề xuất trong đó các ứng cử viên được chọn bằng cách sử dụng tổng vectơ của phép chiếu vòng ở giai đoạn đầu tiên. Sau đó, chỉ một ứng cử viên duy nhất trải qua quá trình so khớp mẫu khoảnh khắc Zernike bằng cách sử dụng các thuộc tính bất biến xoay. Phép chiếu xuyên tâm cũng đã được chứng minh là có thể áp dụng cho việc khớp mẫu. Phép chiếu xuyên tâm biến đổi hình ảnh mức xám 2D thành không gian 1D và tính bất biến tỷ lệ được xây dựng dưới dạng các đường xuyên tâm. Tuy nhiên, các bộ mô tả phép chiếu vòng dành riêng cho việc so khớp bất biến xoay. Góc xoay giữa hai hình dạng tương ứng trong các hình ảnh khác nhau cũng không thể ước tính được để thực hiện căn chỉnh hình ảnh cần thiết cho kiểm tra công nghiệp.

Trong các ứng dụng AOI, mối quan hệ hình học giữa hình ảnh mẫu P và hình ảnh được kiểm tra S được giới hạn như minh họa trong Hình 1.

Mẫu kiểm tra được chỉ định (chẳng hạn như mẫu kim cương hiển thị trong Hình 1) thường được sử dụng cho hình ảnh để giảm bớt gánh nặng tính toán liên quan đến việc căn chỉnh hình ảnh theo thời gian thực. Do khoảng cách làm việc giữa ống kính và mục tiêu được kiểm tra là cố định trong các ứng dụng AOI nên chênh lệch tỷ lệ giữa \(P\) và \(S\) là rất nhỏ và có thể bị bỏ qua. Do đó, bài toán căn chỉnh hình ảnh cho AOI có thể được hình thành để xác định phép biến đổi cứng nhắc 2D tối ưu giữa \(P\) và \(S\), bị ràng buộc bởi vectơ dịch chuyển \(\vec V\) và góc quay \(θ\). Phương pháp được trình bày ở đây định vị hình ảnh mẫu trong hình ảnh kiểm tra và cung cấp thông tin xoay chính xác trong quá trình khớp mẫu bằng cách sử dụng sơ đồ ước tính xoay mới. Đây được gọi là kỹ thuật chuyển vòng sử dụng kiến trúc của phương pháp khớp mẫu hai giai đoạn. Trong giai đoạn đầu tiên (giai đoạn tìm kiếm ứng viên), các ứng cử viên có khả năng duy nhất được xác định bằng cách sử dụng các tính năng bất biến xoay vòng. Sau đó, kỹ thuật dịch vòng được áp dụng cho ứng viên có khả năng nhất thu được từ giai đoạn đầu tiên để ước tính phép quay trong giai đoạn thứ hai (giai đoạn ước tính xoay). Do phép quay được tính toán trực tiếp bằng cách sử dụng dữ liệu phép chiếu lai nên phương pháp được đề xuất giảm thiểu độ phức tạp tính toán. Mặc dù phương pháp so khớp mới được đề xuất nhưng nó không phải là bất biến đối với những thay đổi về tỷ lệ.

Những đóng góp chính của bài viết này bao gồm: (1) Thuật toán căn chỉnh hình ảnh mới dựa trên phép chiếu chuyển vòng phân biệt đối xử xoay, được áp dụng hiệu quả để nhận dạng và căn chỉnh mẫu và hình ảnh kiểm tra; (2) Phép biến đổi phép chiếu lai được đề xuất dựa trên entropy hình ảnh có thể cung cấp các tính năng độc đáo và mạnh mẽ để nhanh chóng lựa chọn ứng cử viên có khả năng nhất dựa trên kỹ thuật tìm kiếm kim tự tháp hình ảnh; (3) Một kỹ thuật ước lượng xoay mới được gọi là kỹ thuật dịch chuyển vòng được đề xuất để phát hiện phép quay chỉ ở đầu ra tốt nhất của các ứng cử viên; (4) Kỹ thuật tìm kiếm kim tự tháp hình ảnh được áp dụng để nâng cao đáng kể hiệu suất tính toán.

2. Kiến trúc của Phương pháp Đề xuất

Trước khi đưa ra cái nhìn tổng quan về phương pháp được đề xuất, cần đề cập đến hai phép chiếu cơ bản, phép chiếu vòng và phép chiếu phương sai. Phép chiếu vòng và phương sai biến đổi hình ảnh 2D thành tín hiệu 1D dưới dạng hàm của bán kính, được định nghĩa tương ứng là giá trị trung bình và phương sai của cường độ dọc theo bán kính. Các khái niệm chính về phép chiếu vòng và phương sai được hiển thị trong Hình 2. Phép chiếu vòng tính toán cường độ trung bình cho bán kính đã chỉ định, ở đây ba vòng khác nhau, \(𝑟_1=60\), \(𝑟2=120\) và \(𝑟3=180\) pixel được hiển thị. Hơn nữa, các phép chiếu phương sai tương ứng có thể được nhìn thấy trong hình dưới cùng. Rõ ràng, giá trị của vòng 180 pixel thấp hơn các vòng khác vì cường độ gần như đồng đều trong vòng này.

Cấu trúc của thuật toán đề xuất được hiển thị trong Hình 3. Nó bao gồm hai giai đoạn: xử lý trước mẫu và căn chỉnh trực tuyến. Trong giai đoạn tiền xử lý mẫu, hình ảnh mẫu \(P\) là dữ liệu đầu vào được chỉ định theo cách thủ công. Sau đó, kỹ thuật kim tự tháp được sử dụng để xây dựng hình ảnh có độ phân giải đa dạng từ hình ảnh mẫu. Sau đó, các giá trị phép chiếu kết hợp được xác định bằng cách sử dụng các giá trị phép chiếu vòng và phương sai cũng như các hệ số trọng số, \(𝑤_{𝑚,𝑙}(𝑟)\), và \(𝑤_{σ,𝑙}(𝑟)\), kết hợp với hình ảnh có nhiều độ phân giải tương ứng. Các hệ số \(𝑤_{𝑚,𝑙}(𝑟)\) và \(𝑤_{σ,l}(𝑟)\) lần lượt là các hệ số của phép chiếu vòng và phép chiếu phương sai, tùy thuộc vào sự phân bố cường độ ở bán kính cụ thể của hình ảnh mẫu. Trong giai đoạn căn chỉnh trực tuyến, hình ảnh kiểm tra S là đầu vào và một cửa sổ trượt có cùng kích thước với vùng quan tâm (ROI) trong hình ảnh mẫu có nhiều độ phân giải, được di chuyển cho hình ảnh kiểm tra nhiều độ phân giải \(S_l\). Điều này phát hiện các ứng cử viên có khả năng nhất bằng cách đánh giá hệ số tương tự của các giá trị phép chiếu lai. Vị trí của các thí sinh có điểm vượt quá ngưỡng tương tự 𝑇min,𝑙min, đã được đăng ký. Bản dịch được ước tính bằng cách sử dụng vectơ \(\vec T\) giữa tâm của mục tiêu được phát hiện trong \(P_L\) và \(S_L\). Các ứng cử viên này và cấu hình cường độ vòng tương ứng của chúng cho từng bán kính được chỉ định sẽ trải qua quá trình ước tính xoay. Phương pháp đề xuất này được gọi là kỹ thuật dịch chuyển vòng để ước lượng góc quay. Độ chính xác của góc quay cuối cùng đã được tinh chỉnh bằng cách sử dụng khớp nối đường cong parabol. Chi tiết về hai giai đoạn của thuật toán được mô tả trong các phần phụ sau.

3. Lựa chọn Ứng viên và Định vị

Các ứng cử viên đầu tiên được chọn và định vị bằng cách sử dụng bộ mô tả bất biến xoay vòng và giai đoạn thứ hai sử dụng phương pháp ước tính xoay vòng. Để đạt hiệu quả tính toán, phép biến đổi vòng chiếu và kỹ thuật kim tự tháp hình ảnh được sử dụng trong quá trình lựa chọn ứng viên. Những kỹ thuật này xác định kết quả phù hợp nhất bằng cách sử dụng các tính năng chi phí thấp ở mỗi cấp độ kim tự tháp hình ảnh. Trong quá trình lựa chọn ứng viên và bản địa hóa, việc lựa chọn ảnh mẫu cho phương pháp được đề xuất là một bước quan trọng. Hình ảnh mẫu này được sử dụng trong giai đoạn tiền xử lý mẫu để tạo ra các giá trị chiếu kết hợp. Việc lựa chọn ứng viên và bản địa hóa sử dụng các giá trị chiếu kết hợp này. Do đó, các đặc điểm của hình ảnh mẫu trong giai đoạn tiền xử lý mẫu ảnh hưởng đáng kể đến kết quả so khớp. Trong phép biến đổi phép chiếu kết hợp, các giá trị phép chiếu kết hợp được tính toán bằng cách sử dụng vùng hình tròn giữa \(𝑅_{𝑙,min}\) và \(𝑅_{𝑙,max}\) trên cấp kim tự tháp hình ảnh \(l\). Để minh họa phép tính phép chiếu kết hợp, một ví dụ ngắn gọn được minh họa trong Hình 4, các giá trị phép chiếu kết hợp trên kim tự tháp hình ảnh hiện tại l được tính từ \(𝑅_{𝑙,min}=20\) đến \(𝑅_{𝑙,max}=200\). Và chi tiết tính toán phép chiếu lai được mô tả ở các phần dưới đây.

3.1. Biến đổi Chiếu Vòng

Sử dụng các thuộc tính bất biến xoay, phép biến đổi vòng chiếu được sử dụng. Điểm trung tâm, \((𝑥_𝑐,𝑦_𝑐)\) của hình ảnh khối được tính toán và sử dụng để chuyển đổi tọa độ pixel \((𝑥,𝑦)\) của hình ảnh khối từ tọa độ Descartes thành tọa độ tọa độ cực bằng:

$$𝑥 = 𝑥_𝑐 + 𝑟cosθ, 𝑦 = 𝑦_𝑐 + 𝑟sinθ$$

trong đó \(θ∈[0,2𝜋], 𝑟=\sqrt{(𝑥−𝑥_𝑐)^2+(𝑦−𝑦_𝑐)^2}, 𝑟∈[𝑅_{0,min},𝑅_{0,max}], 𝑅_{0,max}=min(\frac{𝑀}{2},\frac{𝑁}{2}), 𝑅_{0,min}\) được xác định bởi người dùng và \(𝑀\) và \(𝑁\) lần lượt là chiều rộng và chiều cao của hình ảnh.

\(𝐶_{𝑃,𝑙(𝑟)}\) biểu thị các giá trị chiếu vòng cho hình ảnh mẫu ở bán kính cụ thể \(𝑟\) ở cấp độ kim tự tháp hình ảnh \(𝑙\), được định nghĩa là:

$$𝐶_{𝑃,𝑙(𝑟)}=\frac{1}{𝑄𝑟}\sum_{k}𝑃(𝑥𝑐+𝑟cosθ_𝑘,𝑦𝑐+𝑟sinθ_𝑘)$$

trong đó \(𝑄_𝑟\) là số pixel nằm trên vòng tròn bán kính \(𝑟=𝑅_{𝑙,min}, 𝑅_{𝑙,min+1},…, 𝑅_{𝑙,max}.\)

Giá trị chiếu vòng, \(𝐶𝑃,𝑙(𝑟)\), là giá trị trung bình của cường độ pixel ở bán kính cụ thể \(𝑟\) ở cấp kim tự tháp hình ảnh \(𝑙\). Bởi vì giá trị được xây dựng dọc theo các vòng có bán kính tăng dần, nên các giá trị phép chiếu vòng một chiều là bất biến đối với bất kỳ góc quay nào của hình ảnh mẫu hai chiều. Ví dụ về hình chiếu vòng của hình ảnh được hiển thị trong Hình 5.

Hình 5 cho thấy cấu hình của hai hình ảnh này vẫn gần như giống nhau sau khi hoàn tất thay đổi xoay. Trong quá trình lựa chọn ứng viên, giá trị vòng chiếu trong hình ảnh kiểm tra nằm ở \((𝑥,𝑦)\) với bán kính cụ thể \(𝑟\) ở cấp kim tự tháp hình ảnh \(𝑙\) được xác định như sau:

$$𝐶_{𝑆,𝑙(𝑥,𝑦,𝑟)}=\frac{1}{𝑄𝑟}\sum_{k}𝑆(𝑥+𝑟cosθ_{𝑘,𝑦}+𝑟sin_{θ𝑘})$$

trong đó “S” là hình ảnh kiểm tra được hiển thị trong Hình 4. Bảng tra cứu và góc bước tối ưu \(ϕ_{𝑜𝑝𝑡,𝑙}\) được sử dụng để giảm độ phức tạp tính toán. Bảng tra cứu được tạo bằng cách sử dụng các giá trị số nguyên làm tròn cho khoảng cách từ tâm của hình ảnh mẫu đến các vị trí tương ứng ở bán kính cụ thể. Góc bước tối ưu \(ϕ_{𝑜𝑝𝑡,𝑙}\) được hiển thị trong Hình 6 và được xác định như sau:

$$ϕ_{𝑜𝑝𝑡,𝑙(𝑟)}=cos^{−1}(1−\frac{𝑑^2}{2𝑟^2})$$

trong đó \(𝑑\) là khoảng cách dịch chuyển tối thiểu giữa điểm ban đầu và các điểm quay tương ứng tại bán kính xác định \(𝑟\). Sử dụng góc bước tối ưu, số pixel \(𝑄_𝑟\) ở bán kính cụ thể \(𝑟\) được tính bằng \(2𝜋/ϕ_{𝑜𝑝𝑡,𝑙}(𝑟)\) và \(θ_𝑘=θ_{𝑘−1}+ϕ_{𝑜𝑝𝑡,𝑙}.\)

3.2. Đặc trưng Mạnh mẽ

Như đã đề cập trước đó, phép biến đổi vòng chiếu được sử dụng để mô tả các đặc điểm của hình ảnh và để giảm độ phức tạp tính toán. Tuy nhiên, các tính năng phải có các thuộc tính độc đáo và mạnh mẽ để nhận dạng chính xác các ứng viên. Mặc dù phép biến đổi vòng chiếu có đặc tính bất biến xoay, nhưng nó không thể mô tả các đặc điểm độc đáo của hình ảnh khi hình ảnh chứa một vùng đồng nhất. Ví dụ: hình ảnh tìm kiếm không có kết cấu chứa các loại vùng đồng nhất khác nhau được hiển thị trong Hình 7a–d. Các tính năng tương ứng được mô tả bằng phép biến đổi phép chiếu vòng được hiển thị trong Hình 7e. Như có thể thấy trong Hình 7e, các đặc điểm tìm kiếm của hình ảnh 3 và 4 có thể dễ dàng phân biệt; điều đó cũng có nghĩa là hình ảnh tìm kiếm 3 và 4 có thể được nhận dạng chính xác bằng cách đánh giá mức độ tương tự của các đặc điểm trong mẫu và hình ảnh tìm kiếm trong quá trình lựa chọn và bản địa hóa ứng viên.

Ngược lại, các đặc điểm của hình ảnh 1 và 2 không thể được nhận dạng chính xác bằng cách đánh giá mức độ tương đồng của các đặc điểm trong quá trình lựa chọn và bản địa hóa ứng viên. Do đó, các đặc điểm phải mô tả các vùng vòng đồng nhất theo cách riêng biệt chứ không phải thống nhất. Để khắc phục vấn đề này, phương sai của bán kính cụ thể trong ảnh được xem xét và sử dụng phép biến đổi phương sai chiếu. Phép biến đổi phép chiếu phương sai trong mẫu và tìm kiếm hình ảnh ở cấp độ kim tự tháp hình ảnh l được xác định là \(σ){p,l}\) và \(σ_{s,l}\):

$$σ_{𝑃,𝑙}(𝑟)=\frac{1}{𝑄𝑟}\sum_{k}[𝑃(𝑥_𝑐+𝑟cosθ_𝑘,𝑦_𝑐+𝑟sinθ_𝑘)−𝐶_{𝑃,𝑙}(𝑟)]^2$$

$$σ_{𝑆,𝑙}(𝑥,𝑦,𝑟)=\frac{1}{𝑄𝑟}\sum_{k}[𝑃(𝑥+𝑟cosθ_𝑘,𝑦+𝑟sinθ_𝑘)−𝐶_{𝑆,𝑙}(𝑥,𝑦,𝑟)]^2$$

Trong Hình 8, các tính năng được mô tả bằng phép biến đổi phép chiếu phương sai thực sự phản ánh sự biến đổi của hình ảnh 2 và các hình ảnh khác (hình ảnh 1, 3 và 4). Tuy nhiên, điều này không đủ để mô tả các đặc điểm của hình ảnh 1, 3 và 4. May mắn thay, các đặc điểm của hình ảnh 1, 3 và 4 có thể được phân biệt bằng phép biến đổi phép chiếu vòng như trong Hình 7e.

Để mô tả các tính năng độc đáo và mạnh mẽ, một phép biến đổi phép chiếu lai kết hợp các phép biến đổi phép chiếu vòng và phép chiếu phương sai được sử dụng trong bài viết này. Phép biến đổi phép chiếu kết hợp trong mẫu và tìm kiếm hình ảnh ở cấp độ kim tự tháp hình ảnh l được xác định là \(H_{p,l}\) và \(H_{s,l}\):

$$𝐻_{𝑃,𝑙}(𝑟)=𝑤_{𝑚,𝑙}(𝑟)×𝐶_{𝑃,𝑙}(𝑟)+𝑤_{σ,𝑙}(𝑟)×σ_{𝑃,𝑙}(𝑟)$$

$$𝐻_{𝑆,𝑙}(𝑥,𝑦,𝑟)=𝑤_{𝑚,𝑙}(𝑟)×𝐶_{𝑆,𝑙}(𝑥,𝑦,𝑟)+𝑤_{σ,𝑙}(𝑟)×σ_{𝑆,𝑙}(𝑥,𝑦,𝑟)$$

trong đó \(𝑤_{𝑚,𝑙}(𝑟)\) và \(𝑤_{σ,𝑙}(𝑟)\) lần lượt là các hệ số trọng số cho phép biến đổi vòng và phép chiếu phương sai. Trong các phương trình (7) và (8), các hệ số trọng số ở bán kính cụ thể ở cấp độ kim tự tháp hình ảnh \(l\) được tính theo khái niệm entropy của hình ảnh.

Entropy của hình ảnh là đại lượng được sử dụng để mô tả tính ngẫu nhiên của hình ảnh, entropy của hình ảnh H với xác suất xuất hiện liên quan \(𝑝𝑏(𝑖)\) có thể được định nghĩa là:

$$𝐻=−1×\sum_{i=0}^𝑔𝑝𝑏(𝑖)log(𝑝𝑏(𝑖))$$

trong đó \(𝑝𝑏(𝑖)\) là xác suất của mức xám \(𝑖\).

Trong trường hợp một hình ảnh, nếu tất cả các pixel có cùng giá trị thì entropy hình ảnh của hình ảnh đó bằng 0. Mặt khác, entropy hình ảnh cao xảy ra khi hình ảnh có mức xám hỗn loạn. Đối với phép biến đổi phép chiếu lai, dữ liệu dọc theo bán kính cụ thể có phương sai cao sẽ có trọng số cao. Do đó, các hệ số trọng số tại bán kính cụ thể được xác định như sau:

$$𝑤_{σ,𝑙}(𝑟)=(1−𝑇_{𝑚𝑖𝑛,𝑙})\frac{𝐻}{log(𝑔)}$$

$$𝑤_{𝑚,𝑙}(𝑟)=1−𝑤_{σ,𝑙}(𝑟)$$

trong đó phạm vi của hệ số trọng số phương sai-chiếu nằm trong khoảng từ 0 đến 1, \(1−𝑇_{𝑚𝑖𝑛,𝑙}\) được thiết kế để giữ độ chắc chắn chống lại nhiễu trong hình ảnh (\(𝑇_{min,𝑙}\) là điểm tương đồng ngưỡng trên kim tự tháp hình ảnh cấp \(l\)), hệ số trọng số của phép biến đổi vòng chiếu dựa trên Công thức (10) và trong nghiên cứu này, hệ số này được thiết kế để có được hệ số trọng số đối xứng.

Như đã đề cập trong Phương trình (7) và (8), các hệ số trọng số được xác định riêng biệt ở bán kính cụ thể trong vùng hình tròn trên mỗi cấp độ kim tự tháp của hình ảnh mẫu. Sử dụng phép biến đổi phép chiếu kết hợp trong Hình 7a–d và chuẩn hóa các giá trị kết hợp thành phạm vi từ 0 đến 1, mang lại kết quả hiển thị trong Hình 9. Tất cả các đặc điểm của hình ảnh tìm kiếm không có kết cấu, tức là Hình 7a–d, đều là được xác định rõ ràng bởi mô tả mới này. Điều đó có nghĩa là các đặc điểm của hình ảnh mẫu và hình ảnh tìm kiếm có thể được nhận dạng chính xác bằng cách đánh giá mức độ tương tự dựa trên các đặc điểm được mô tả trong quá trình lựa chọn và bản địa hóa ứng viên. Đối với bộ mô tả mới này, các hệ số trọng số \(𝑤_{𝑚,𝑙}(𝑟)\) và \(𝑤_{σ,𝑙}(𝑟)\) biểu thị trọng số cho các giá trị vòng và phép chiếu phương sai ở mức cụ thể bán kính ở cấp độ kim tự tháp hình ảnh. Sử dụng phương pháp được đề xuất, phép biến đổi phép chiếu lai mang lại các tính năng bất biến xoay độc đáo và mạnh mẽ hơn.

3.3. Đo đạc Sự Tương tự

Khi các đặc điểm mạnh mẽ được xác định, NCC được sử dụng như một thước đo tương tự để lựa chọn các ứng cử viên có thể. Khi đó, hệ số tương quan cho hình ảnh mẫu và khối tìm kiếm tại điểm \((𝑥,𝑦)\) trong hình ảnh kiểm tra ở cấp độ kim tự tháp hình ảnh \(l\) sau đó được xác định là:

$$δ𝑙(𝑥,𝑦)=\frac{\displaystyle\sum_{𝑟=𝑅_{min}}^{𝑅_{max}}(𝐻_{𝑃,𝑙}(𝑟)−\bar{𝐻}_{𝑃,𝑙}(𝑟))⋅(𝐻_{𝑆,𝑙}(𝑥,𝑦,𝑟)−\bar{𝐻}_{𝑆,𝑙}(𝑥,𝑦,𝑟))}{\sqrt{\displaystyle\sum_{𝑟={𝑅_{min}}}^{𝑅_{max}}(𝐻_{𝑃,𝑙}(𝑟)−\bar{𝐻}_{𝑃,𝑙}(𝑟))^2⋅\displaystyle\sum_{𝑟=𝑅_{min}}^{𝑅_{max}}(𝐻_{𝑆,𝑙}(𝑥,𝑦,𝑟)−\bar{𝐻}_{𝑆,𝑙}(𝑥,𝑦,𝑟))^2}}$$

where \(𝐻_{𝑃,𝑙}(𝑟)\) and \(𝐻_{𝑆,𝑙}(𝑥,𝑦,𝑟)\) are the values of the hybrid-projection transformation for the template and inspection images, respectively. Note that l is the index of the image pyramid levels. The correlation value \(δ𝑙(𝑥,𝑦)\) is between −1 and 1. It is equal to 1 when a perfect match occurs between the template image and searching block. The candidate selection process allows only the most likely candidate to be fed into the refinement process.

3.4. Kỹ thuật Tìm kiếm Kim tự tháp Hình ảnh

Khung tìm kiếm kim tự tháp hình ảnh cho phép loại tìm kiếm mục tiêu này. Kim tự tháp hình ảnh phân chia theo thứ bậc các ứng cử viên bằng cách sử dụng thông tin từ các cấp độ kim tự tháp hình ảnh khác nhau đến các tập hợp con rời rạc. Quá trình này cho phép nhiều ứng cử viên bị loại bỏ sớm trong quá trình tìm kiếm vì hệ số tương tự của chúng thấp hơn ngưỡng tương tự được xác định trước. Một trường hợp liên quan đến ba cấp độ kim tự tháp hình ảnh của quá trình tìm kiếm được hiển thị trong Hình 10.

Quá trình tìm kiếm bắt đầu ở cấp độ kim tự tháp cao nhất (cấp 2) của ứng viên. Ứng viên ở cấp kim tự tháp cao nhất được xác định bằng cách tính toán độ tương tự bằng cách sử dụng các giá trị phép chiếu kết hợp, \(𝐻_{𝑃,2}(𝑟)\) và \(𝐻_{𝑆,2}(𝑥,𝑦,𝑟)\), tại mỗi vị trí \((x, y)\). Ứng viên, \(𝑜𝑏𝑗_{2,1}\), ở cấp độ 2, được biểu thị bằng vòng tròn màu xanh lục trong Hình 10, cũng được xác định. Ứng viên có điểm tương đồng vượt quá ngưỡng tương tự \(𝑇_{min,2}\) được lưu trong danh sách ứng viên. Giá trị của \(𝑇_{min,2}\) cũng phụ thuộc vào ứng dụng và phải được đặt ở mức hiển thị đối tượng dự kiến tối thiểu. Ở các cấp độ kim tự tháp thấp hơn tiếp theo (cấp 1), quá trình tìm kiếm sử dụng ứng viên nằm ở cấp độ kim tự tháp trước đó. Điều này bao gồm các ứng cử viên \(𝑜𝑏𝑗_{1,\{1,2,3,4\}}\), được biểu thị bằng vòng tròn màu vàng và được kế thừa từ ứng cử viên gốc \(𝑜𝑏𝑗_{2,1}\) sử dụng vùng tìm kiếm 2×22×2 ở kim tự tháp hình ảnh cấp 1. Chỉ ứng viên \(𝑜𝑏𝑗_{1,2}\), được biểu thị bằng hình vuông màu đỏ, có điểm tương đồng vượt quá ngưỡng tương tự \(𝑇_{min,1}\). Quá trình này được lặp lại cho đến khi tất cả các ứng cử viên phù hợp đã được theo dõi đến cấp kim tự tháp thấp nhất, trong trường hợp này là cấp 0. Cuối cùng, kết quả phù hợp nhất có điểm tương đồng vượt quá ngưỡng tương tự \(𝑇_{min,0}\) được biểu thị bằng ô vuông tô màu đỏ trong Hình 10.

Trong quá trình tìm kiếm, ngưỡng tương tự \(𝑇_{min,𝑙}\) được đặt ở cấp kim tự tháp hình ảnh khác. Cách trực quan nhất để người dùng xác định giá trị là chọn giá trị đó trong khoảng từ 0 đến 1. Nếu ngưỡng được đặt thành giá trị thấp thì sẽ có nhiều ứng viên được chọn hơn trong quá trình tìm kiếm. Nó cũng có nghĩa là gánh nặng tính toán sẽ tăng lên. Hơn nữa, điểm tương đồng của các ứng viên sẽ giảm ở cấp độ kim tự tháp cao hơn vì các chi tiết bị bỏ sót. Do đó, ngưỡng tương tự \(𝑇_{min,𝑙}\) phải giảm một chút ở các cấp độ kim tự tháp cao hơn để tránh bỏ sót ứng viên. Ví dụ: ngưỡng tương tự của mỗi cấp kim tự tháp hình ảnh cao hơn sẽ giảm 0,1 theo quy tắc ngón tay cái.

4. Ước tính Vòng quay

Quá trình lựa chọn ứng viên, như được mô tả ở phần trước, chọn ra những ứng viên có khả năng nhất. Một kỹ thuật ước lượng xoay mới được gọi là kỹ thuật dịch chuyển vòng được đề xuất để phát hiện phép quay chỉ ở đầu ra tốt nhất của các ứng cử viên. Mặc dù, phép chiếu vòng ban đầu \(𝐶_{𝑃,𝑙}(𝑟)\) được hiển thị trong Công thức (2) là bất biến xoay, nhưng kỹ thuật dịch vòng sẽ chỉ kế thừa cấu hình cường độ vòng \(𝑃_{(𝑥𝑐+𝑟cosθ𝑘,𝑦𝑐+ 𝑟sinθ𝑘)}\) đối với từng bán kính cụ thể r. Vì vậy, không cần bất kỳ thao tác nào để chuẩn bị cấu hình cường độ vòng trong quá trình ước tính phép quay, điều này giúp giảm đáng kể thời gian tính toán. Đối với bất biến xoay, giá trị phép chiếu lai được xây dựng dọc theo các vòng tròn có bán kính tăng dần. Trong kỹ thuật dịch chuyển vòng, cấu hình cường độ vòng ở mỗi bán kính được sử dụng để ước tính chuyển động quay. Để minh họa kỹ thuật dịch chuyển vòng, Hình 11 hiển thị các hình ảnh có góc quay khác nhau và cấu hình cường độ vòng tương ứng \(𝑝_𝑟\) và \(𝑝′_𝑟\) ở bán kính cụ thể là \(𝑟 = 17\).

Có thể thấy rằng cường độ của điểm \(𝑝_{17}(𝑛∗)\) bằng điểm \(𝑝′_{17}(𝑛∗+𝑘(17))\) khi điểm hệ quả sẽ dịch chuyển một khoảng \(𝑘(17)\), như minh họa trong Hình 11a. Trên thực tế, giá trị dịch chuyển \(𝑘(17)\) biểu thị vòng được quay một góc \(ϕ_{17}\) ở bán kính 17 trong miền không gian. Hơn nữa, chúng ta có thể xác định mối quan hệ giữa góc quay \(ϕ_𝑟\) và giá trị dịch chuyển \(𝑘_{𝑜𝑝𝑡}(𝑟)\) tại bán kính cụ thể, được xác định như sau:

$$ϕ_𝑟=𝑘_{𝑜𝑝𝑡}(𝑟)×ϕ_{𝑜𝑝𝑡,0}(𝑟)$$

trong đó \(𝑘_{𝑜𝑝𝑡}(𝑟)\) là giá trị dịch chuyển tại bán kính \(𝑟\) và \(ϕ_{𝑜𝑝𝑡,0}(𝑟)\) là góc bước tối ưu được mô tả trong Phương trình (4).

Trước khi ước tính xoay, giá trị dịch chuyển \(𝑘_{𝑜𝑝𝑡}(𝑟)\) tại bán kính r phải được tính toán. Phép đo tương quan chéo được sử dụng để tìm ra mối tương quan tối đa của hai cấu hình cường độ vòng theo một giá trị dịch chuyển, còn gọi là tương quan dịch chuyển vòng. Do đó, giá trị dịch chuyển có thể được suy ra; với phép đo có tương quan tối đa, giá trị dịch chuyển có thể được xác định là:

$$𝑘_{𝑜𝑝𝑡}(𝑟)={argmax(δ_𝑟(𝑘)) \choose 𝑘∈[0,𝑁_𝑟]}$$

trong đó \(𝑁_𝑟\) biểu thị số pixel ở bán kính r.

$$δ_𝑟(𝑘)=\frac{\displaystyle\sum_{n=0}^{𝑁_𝑟}(𝑝_𝑟(𝑛)−\bar{𝑝}_𝑟(𝑛))⋅(𝑝′_𝑟(𝑛+𝑘)−\bar{𝑝}′_𝑟(𝑛+𝑘))}{\displaystyle\sum_{n=0}^{𝑁_𝑟}(𝑝_𝑟(𝑛)−\bar{𝑝}_𝑟(𝑛))^2⋅\displaystyle\sum_{n=0}^{𝑁_𝑟}(𝑝′𝑟(𝑛+𝑘)−\bar{𝑝}′_𝑟(𝑛))^2}$$

Dựa trên các định nghĩa được đưa ra từ Phương trình (13)–(15), góc quay của ứng viên chỉ có thể được ước tính ở một bán kính duy nhất. Theo phương trình (4), độ chính xác của góc quay phụ thuộc vào góc bước tối ưu và bán kính. Rõ ràng, góc bước tối ưu tỷ lệ nghịch với bán kính. Do đó, góc quay có thể được ước tính chính xác bằng cách tích hợp tất cả các hệ số trọng số của vòng \(𝑤_𝑟\) trong khoảng từ \(𝑅_{min}\) và \(𝑅_{max}\). Do đó, góc quay của ứng viên có khả năng nhất được xác định như sau:

$$θ_{𝑜𝑏𝑗}=\sum_{𝑟=𝑅_{min}}^{𝑅_{max}}𝑤_𝑟⋅𝑘_{𝑜𝑝𝑡}(𝑟)⋅ϕ_{𝑜𝑝𝑡,0}(𝑟)$$

trong đó \(𝑤_𝑟=𝑁_𝑟/𝑁_{𝑠𝑢𝑚}\), \(𝑁_{𝑠𝑢𝑚}\) là số pixel cho tất cả bán kính và \(𝑁𝑟\) là số pixel cho bán kính cụ thể r, tương ứng

Ngoài ra, hai lân cận của giá trị dịch chuyển \(𝑘(𝑟)\) tại bán kính \(𝑟, 𝑘(𝑟)−1\) và \(𝑘(𝑟)+1\), và các hệ số tương quan tương ứng, \(δ𝑟(𝑘(𝑟)−1)\) và \(δ𝑟(𝑘(𝑟)+1)\), được nhập vào mô hình khớp để tinh chỉnh độ chính xác của góc quay. Việc tính toán phương trình parabol phù hợp nhất bao gồm việc giải một hệ phương trình, được viết dưới dạng:

$$δ(𝑥)=𝑎𝑥^2+𝑏𝑥+𝑐$$

trong đó \(𝑥=𝑘(𝑟)−1, 𝑘(𝑟), 𝑘(𝑟)+1\)

Ba tham số không xác định \(𝑎\), \(𝑏\) và \(𝑐\) được tính toán bằng quy tắc Cramer. Khi xác định được các tham số parabol, giá trị dịch chuyển tối ưu được tính bằng:

$$𝑘^∗_{𝑜𝑝𝑡}(𝑟)= −\frac{𝑏}{2𝑎}$$

Therefore, the greatest accuracy for the rotation angle \(θ^∗_{𝑜𝑝𝑡}\) is refined as:

$$θ^∗_{𝑜𝑝𝑡}=\sum_{𝑟=𝑅_{min}}^{𝑅_{max}}𝑤_𝑟⋅𝑘^∗_{𝑜𝑝𝑡}(𝑟)⋅ϕ_{𝑜𝑝𝑡,𝑙}(𝑟)$$

5. Thực hiện Phương pháp Đề xuất

Theo cấu trúc được đề cập trong Phần 2, chi tiết triển khai của hai giai đoạn được mô tả trong tiểu mục sau.

5.1. Giai đoạn Tiền xử lý Mẫu

Giai đoạn tiền xử lý mẫu xác định thông tin chiếu kết hợp đa độ phân giải cho đối tượng quan tâm trong hình ảnh mẫu \(P\). Các bước chính xác được trình bày như sau:

Bước 1: Hình ảnh mẫu \(P\) được nhập theo cách thủ công.

Bước 2: Hình ảnh mẫu có nhiều độ phân giải \(𝑃_𝑙\) được xây dựng, trong đó \(𝑙=0,1,…,𝐿, l\) đại diện cho một số cấp độ kim tự tháp hình ảnh và \(L\) là cấp độ kim tự tháp hình ảnh tối đa.

Bước 3: Biến đổi phép chiếu vòng được sử dụng để xác định các giá trị phép chiếu vòng \(𝐶_{𝑃,𝑙}(𝑟)\) trong các cấp kim tự tháp hình ảnh khác nhau, trong đó \(𝑟∈[𝑅_{𝑙,min},𝑅_{𝑙,max}]\).

Bước 4: Sau quá trình biến đổi chiếu vòng, các giá trị dự án phương sai \(σ_{𝑃,𝑙}(𝑟)\) cho mỗi cấp kim tự tháp hình ảnh được xác định thông qua biến đổi dự án phương sai, trong đó \(𝑟∈[𝑅_{𝑙,min}, 𝑅_{𝑙,max}]\).

Bước 5: Các giá trị phép chiếu kết hợp \(𝐻_{𝑃,𝑙}(𝑟)\) cho mỗi cấp độ kim tự tháp hình ảnh được xác định bằng cách sử dụng các giá trị phép chiếu vòng \(𝐶_{𝑃,𝑙}(𝑟)\), phép chiếu phương sai các giá trị , \(σ_{𝑃,𝑙}(𝑟)\) và các hệ số trọng số tương ứng cho phép chiếu vòng \(𝑤_{𝑚,𝑙}(𝑟)\) và phép chiếu phương sai \(𝑤_{σ,𝑙}(𝑟)\). Các hệ số trọng số, \(𝑤_{𝑚,𝑙}(𝑟)\) và \(𝑤_{σ,𝑙}(𝑟)\), được tính bằng entropy hình ảnh.

Bước 6: Xác định ngưỡng tương tự thích hợp, \(𝑇_{min,𝑙}\), cho các điều kiện kiểm tra khác nhau. Các mức của kim tự tháp hình ảnh, hệ số trọng số, giá trị phép chiếu kết hợp và ngưỡng được sử dụng tương ứng cho giai đoạn căn chỉnh trực tuyến của kỹ thuật kim tự tháp hình ảnh và đo độ tương tự với kỹ thuật tìm kiếm kim tự tháp hình ảnh.

5.2. Giai đoạn Căn chỉnh Trực tuyến

Giai đoạn căn chỉnh trực tuyến xác định các ứng cử viên tốt nhất trong ảnh kiểm tra có góc xoay tùy ý. Ngoài ra, góc quay còn được xác định thêm bằng cách sử dụng phép chiếu dịch chuyển vòng. Các bước chính xác được thực hiện ở hình ảnh kiểm tra đa độ phân giải được trình bày như sau:

Bước 1: Hình ảnh kiểm tra nhiều độ phân giải \(𝑆𝑙\) được xây dựng, trong đó \(𝑙=0,1,…,𝐿\) và \(L\) tương ứng với cấp kim tự tháp hình ảnh tối đa trong giai đoạn tiền xử lý mẫu.

Bước 2: Khối tìm kiếm khởi tạo tại vị trí (x = 0, y = 0) ở cấp kim tự tháp hình ảnh kiểm tra cao nhất. Hình ảnh này có cùng kích thước với hình ảnh mẫu ở cấp độ kim tự tháp hình ảnh cao nhất.

Bước 3: Phép biến đổi vòng và phép chiếu phương sai được sử dụng để xác định các giá trị phép chiếu vòng \(𝐶_{𝑆,𝑙}(𝑥,𝑦,𝑟)\) và các giá trị phép chiếu phương sai \(𝜎_{𝑆,𝑙}(𝑥 ,𝑦,𝑟)\) từ khối tìm kiếm tại vị trí \((x, y)\) trên hình ảnh kim tự tháp cấp độ \(l\).

Bước 4: Các giá trị phép chiếu kết hợp \(𝐻_{𝑆,𝑙}(𝑥,𝑦,𝑟)\) ở cấp độ kim tự tháp hình ảnh \(l\) có được bằng cách sử dụng \(𝐶_{𝑆,𝑙}(𝑥,𝑦,𝑟)\), \(𝜎_{𝑆,𝑙}(𝑥,𝑦,𝑟)\) và các hệ số trọng số, \(𝑤_{𝑚,𝑙}(𝑟)\) và \(𝑤_{σ ,𝑙}(𝑟)\), được tính toán trong giai đoạn tiền xử lý mẫu.

Bước 5: Khi ước tính hệ số tương tự giữa hình ảnh mẫu và khối tìm kiếm ở cấp độ kim tự tháp hình ảnh l, nếu hệ số tương tự vượt quá ngưỡng tương tự được xác định trước thì vị trí \((x, y)\) sẽ được lưu trữ trong danh sách đề cử.

Bước 6: Khối tìm kiếm trong ảnh kiểm tra được di chuyển và Bước 3–6 được lặp lại cho đến khi hệ số tương tự trong ảnh kiểm tra được tính cho tất cả các vị trí.

Khi danh sách ứng cử viên cho cấp kim tự tháp hình ảnh cao nhất được xác định, quy trình tìm kiếm kim tự tháp hình ảnh được sử dụng để tăng tốc độ lựa chọn ứng cử viên và quá trình bản địa hóa. Ở cấp độ kim tự tháp hình ảnh thấp hơn tiếp theo, vị trí khối tìm kiếm kế thừa vị trí từ danh sách ứng cử viên đã được lưu trữ ở cấp độ kim tự tháp trước đó. Khối tìm kiếm chỉ được tìm kiếm trong phạm vi dịch chuyển nhỏ. Các bước 3–5 trong giai đoạn căn chỉnh trực tuyến được sử dụng để xác định ứng cử viên có khả năng nhất ở cấp độ kim tự tháp hình ảnh thấp hơn. Biến đổi phép chiếu kết hợp cho đa độ phân giải bằng kỹ thuật tìm kiếm hình ảnh kim tự tháp được mô tả trong Phần 3.3. Cuối cùng, ứng cử viên tốt nhất được xác định trên kim tự tháp hình ảnh thấp nhất và sau đó quá trình ước tính xoay sẽ tính toán góc quay bằng cách sử dụng phép chiếu dịch chuyển vòng cho ứng cử viên tốt nhất.

6. Kết quả Thực nghiệm

Phần này mô tả một loạt các kết quả thử nghiệm cho thấy hiệu quả của phương pháp được đề xuất. Nhiều hình ảnh khác nhau đã được sử dụng trong các thử nghiệm khác nhau để xác minh thuật toán đề xuất. Để kiểm chứng phương pháp đề xuất, kết quả được so sánh với Ngưỡng tương tự \(𝑇_{min,0}\) là 0,8 cho cả nghiên cứu này và các phương pháp được so sánh. Tất cả các thử nghiệm được thực hiện trên máy tính cá nhân có CPU Intel Core i7 3,4 GHz và bộ nhớ 8 GB sử dụng Visual Studio 2008.

6.1. Ước tính Vòng quay

Hình 12 hiển thị các hình ảnh thử nghiệm xoay, được sử dụng để đánh giá độ chính xác khi xoay của kỹ thuật ước tính xoay được đề xuất. Để ước tính độ chính xác khi xoay, hình ảnh xoay mô phỏng được tạo bằng cách xoay hình ảnh gốc ở các góc xoay từ 0°0° đến 359°359° với gia số là 5°5°. Để thu được góc quay, phương pháp mô men thứ hai nhỏ nhất được sử dụng để ước tính góc giữa mẫu và hình ảnh kiểm tra. Ngoài ra, điểm mẫu xoay được xây dựng trước và mô hình tuyến tính từng phần được áp dụng để ước tính góc xoay. Kết quả so sánh chi tiết được hiển thị trong Bảng 2. Lỗi Er được tính bằng phương trình sau:

\(𝐸_𝑟=|θ_𝑎−θ_𝑒|\)

trong đó \(θ_𝑎\) và \(θ_𝑒\) lần lượt là góc quay thực tế và góc quay ước tính.

Trường hợpChỉ số Hiệu suấtPhương án Đề xuất[15][21]
Hình 12a\(E_{r\_m} (°)\)
\(E_{r\_std} (°)\)
\(E_{r\_max} (°)\)
0.023
0.020
0.086
0.565
0.376
1.390
62.352
48.950
174.422
Hình 12b\(E_{r\_m} (°)\)
\(E_{r\_std} (°)\)
\(E_{r\_max} (°)\)
0.010
0.007
0.026
1.004
0.447
1.914
90.306
52.024
174.422
Hình 12c\(E_{r\_m} (°)\)
\(E_{r\_std} (°)\)
\(E_{r\_max} (°)\)
0.036
0.027
0.102
0.488
0.393
1.607
94.930
47.098
174.422
Bảng 2. Lỗi về độ chính xác khi xoay của cả phương pháp được đề xuất và phương pháp so sánh.

Để đưa ra đánh giá độ chính xác tổng thể, ba chỉ số hiệu suất của lỗi \(E_{r}\) được sử dụng để hiển thị hiệu suất một cách định lượng: giá trị trung bình của lỗi \(E_{r_m}\), độ lệch chuẩn của lỗi \(E_{r_std}\) và lỗi tối đa \(E_{r_max}\).

Như đã thấy trong Bảng 2, các sai số về giá trị trung bình, độ lệch chuẩn và mức tối đa trong tất cả các trường hợp thử nghiệm xuất phát từ việc sử dụng kỹ thuật dịch chuyển vòng được đề xuất lần lượt nhỏ hơn 0,036°, 0,027° và 0,102°. Trong đó, phương pháp mô men giây nhỏ nhất không thể cung cấp kết quả chính xác do cách biểu diễn dữ liệu số nguyên đơn giản. Ngoài ra, với phương pháp tính toán góc quay dựng sẵn, độ chính xác của góc còn phụ thuộc vào số lượng ảnh mẫu xoay dựng sẵn và vị trí được ước tính bằng phương pháp tương quan chéo chuẩn hóa (NCC). Nếu phương pháp NCC không thể đưa ra vị trí chính xác của mẫu trong ảnh kiểm tra thì ước tính xoay sẽ không thành công. Số lượng hình ảnh mẫu xoay được tạo sẵn trong thử nghiệm này là chín. Phương pháp đề xuất được đánh giá là ưu việt hơn các phương pháp khác. Đối với kỹ thuật dịch chuyển vòng, kỹ thuật ước tính xoay sử dụng giá trị dịch chuyển tối ưu \(𝑘^∗_{𝑜𝑝𝑡}(𝑟)\) bằng cách tăng bán kính từ \(𝑅_{min}\) đến \(𝑅_{max}\). Trong thử nghiệm này, kỹ thuật dịch chuyển vòng được đề xuất cung cấp ước tính chính xác khi mẫu được xoay trong ảnh kiểm tra bằng các góc xoay tùy ý.

6.2. Hiệu suất trên Hình ảnh có thêm Nhiễu

Phần này xem xét ảnh hưởng của nhiễu lên ảnh kiểm tra. Hình ảnh thử nghiệm và hình ảnh mẫu tương ứng được hiển thị trong Hình 13. Hình ảnh thử nghiệm có nền đơn giản và phức tạp. Tỷ lệ tín hiệu trên nhiễu (SNR) của nhiễu Gaussian áp dụng cho ảnh thử nghiệm thay đổi từ 10 đến 35 dB với bước tăng 5 dB. Hình 14 cho thấy các lỗi xoay ở các mức độ ồn khác nhau. Bảng 3 liệt kê các lỗi dịch thuật. Các lỗi dịch thuật được tính bằng khoảng cách Euclide giữa vị trí thực và vị trí khớp. Các lỗi xoay được tính bằng Công thức (20).

SNR Ratio (dB)Translation Error (pixel)
101520253035
Hình 13aProposed method000000
[15]010000
[20]000000
Hình 13bProposed method000000
[15]1.41410000
[20]000000
Bảng 3. Lỗi dịch đối với kết quả trùng khớp với nhiễu Gaussian.

Trong thí nghiệm này, sai số quay tối đa của phương pháp đề xuất là 7,157° và 0,405° khi tỷ lệ SNR lần lượt là 10 và 15 dB. Sai số dịch tối đa của phương pháp đề xuất là 0 khi SNR là 10 hoặc 15 dB. Trong ảnh mẫu gốc được sử dụng để xác định vị trí của ảnh mẫu trong ảnh thử nghiệm bằng cách sử dụng phép đo NCC. Bởi vì các hình ảnh thử nghiệm không được xoay trong thử nghiệm này nên lỗi dịch thuật đối với các hình ảnh thử nghiệm với các mức nhiễu Gaussian khác nhau sẽ không được tạo ra. Bằng cách sử dụng phép biến đổi phép chiếu lai, các đặc điểm thu được từ giá trị trung bình và phương sai của bán kính cụ thể; do đó, nó có thể chống nhiễu đáng kể trong các hình ảnh kiểm tra. Trong thí nghiệm này, người ta thấy rằng hiệu suất tổng thể của phương pháp được đề xuất tốt hơn đáng kể so với các phương pháp khác khi SNR lớn hơn 10 dB.

6.3. Ảnh hưởng của trọng số trong việc lựa chọn và bản địa hóa ứng viên

Phép biến đổi phép chiếu kết hợp kết hợp giá trị trung bình có trọng số của \(𝑤_{𝑚,𝑙}(𝑟)\) và \(𝑤_{σ,𝑙}(𝑟)\) để chọn và bản địa hóa ứng viên. Ở đây, hiệu suất với các chiến lược có trọng số khác nhau của hai tham số này được nghiên cứu, phương pháp entropy hình ảnh được đề xuất được so sánh với phương pháp do người dùng xác định. Ba bộ tham số \((𝑤_{𝑚,𝑙}(𝑟), 𝑤_{σ,𝑙}(𝑟))\) được chọn là (0,3, 0,7), (0,5, 0,5) và ( 0,7, 0,3) tương ứng với mọi bán kính được chỉ định cho tất cả các cấp độ kim tự tháp hình ảnh tương ứng. Các hình ảnh thử nghiệm và hình ảnh mẫu tương ứng được hiển thị trong Hình 15. Tiếng ồn Gaussian từ 10 đến 35 dB với bước tăng 5 dB được áp dụng trong các hình ảnh thử nghiệm để đánh giá. Ở đây, hai chỉ số hiệu suất của lỗi được sử dụng để thể hiện hiệu suất một cách định lượng: giá trị trung bình của lỗi \(E_{t_m}\) và \(E_{r_m}\) đối với dịch và xoay; độ lệch chuẩn của lỗi \(E_{t_std}\) và \(E_{r_std}\) tương ứng đối với việc dịch và xoay. Kết quả của lỗi dịch và xoay được liệt kê trong Bảng 4, trong đó lỗi dịch và xoay trung bình của phương pháp được đề xuất của chúng tôi lần lượt là 0 pixel, 0,004°, 0,17 pixel và 0,92°. Rõ ràng là kết quả của các phương pháp đề xuất của chúng tôi tốt hơn so với phương pháp do người dùng xác định. Theo kiến trúc trong Hình 3, kết quả ước tính xoay vòng chính xác sẽ thu được dựa trên vị trí chính xác của các ứng cử viên phù hợp. Như đã thấy trong kết quả của Hình 15a, phương pháp do người dùng xác định thu được các vị trí sai, do đó, kết quả ước tính xoay vòng kém thu được trong trường hợp này.

6.4. Computational Performance in Real Captured PCB Images

Additional experiments were performed using real captured PCB images. The images were captured when an object was arbitrarily moving and rotating. All test and corresponding template images are shown in Figure 16, Figure 17 and Figure 18. The sizes of the test images are 800 × 600. This experiment assessed performance of computation and correctness according to the matching results. The matching results for the proposed method and that of references and are denoted by red, blue and green boxes, respectively. To allow a fair comparison, the comparison methods are also optimized using the image pyramid search framework. The statistical results for efficiency and the effect of pyramid levels are summarized in Table 5. Here it is shown that the computational burden is significantly reduced when the image pyramid search framework is used.

In these test cases, the mismatch for the method of is clearly seen in the PCB test cases, such as Figure 16b,c, Figure 17b,c, and Figure 18b,c (shown as green boxes). This method is sensitive to test images when the template is located in a complex background. In terms of the method of, the matching results provide a more accurate localization of the template image in the test images (shown as blue boxes). However, the results for the rotation angle are not sufficiently precise, such as in Figure 16a,c and Figure 19a–c. By contrast, the matching results for the proposed method are seen clearly in Figure 16, Figure 17 and Figure 18. They are superior to the results for the other methods. On the other hand, the image pyramid searching technique is used to enhance the performance in terms of efficiency. It can been seen the computation advantage of the proposed method, the are around 66 times, 95 times, and 186 times.

From the experimental results, the proposed method not only provides a correct location, but also estimates a correct and precise rotation angle for the template image in real captured PCB images. Based on the convincing results of this experiment, the proposed method can be used with real-world images. However, the feature-based matching method that use the SIFT descriptor is not appropriate for the complex images, such as Figure 16, Figure 17, Figure 18 and Figure 19, because of the heavy computational burden. There are more than 2300 feature points in these real captured images. The computation times for the real captured cases are 642.22, 620, 448.28, and 489.1 msec, respectively. The efficiency of the feature-based method is slower than the proposed method.

7. Conclusions

A novel image alignment algorithm that uses rotation-discriminating ring-shifted projection for AOI applications is presented. It combines hybrid projection transformation and the ring shift technique. The hybrid projection transformation with the image pyramid searching technique can significantly reduce the computation burden and own the unique and robust features in the alignment process. The ring shift technique provides the rotation estimation between the template image and the searching image. The results show that the rotation estimation of the proposed method is superior to other comparative methods. Furthermore, the novel image alignment algorithm can obtain accurate and robust results in the scene image with rotation, translation, and noise. A series of experiments verified the efficiency, accuracy, and robustness of the proposed algorithm. Furthermore, the proposed method not only provides high accuracy with rotation, but also works well under noise influence and translation. The various experiment results indicate that this approach is suitable for accurate image alignment in AOI industrial inspections.

Acknowledgments

The authors would like to acknowledge the financial support of the National Science Council of Taiwan, through its grant MOST 104-2221-E-027-029-MY2.

Author Contributions

Contribute the ideas of the research and research supervision: Chin-Sheng Chen; Performing of the research and writing of the manuscript: Chien-Liang Huang.

Conflicts of Interest

The authors declare no conflict of interest.

Hahaha

Related Posts

Kim Tự Tháp Hình Ảnh Trong OpenCV

Hướng Dẫn Xây Dựng Kim Tự Tháp Hình Ảnh Với OpenCV

Mục Lục Giới thiệu Áp dụng Kim Tự Tháp Hình Ảnh để cải thiện hiệu quả xử lý ảnh và giảm nhiễu Tạo Kim Tự Tháp Hình…

Để lại một bình luận