Salah satu bidang teknologi yang memungkinkan sebuah komputer bisa melihat objek di sekitarnya adalah computer vision. Jika manusia diberikan akal untuk mengenali sebuah objek, maka computer vision dapat dilatih untuk melakukan hal yang serupa. Misalnya saat melihat foto Ibu, hanya dengan melihatnya sedikit saja tentu kita akan tahu kalau itu Ibu. Hal ini terjadi karena kita sudah mengenal ibu dengan cukup baik, jadi dengan sedikit masukan saja, otak kita mampu memproses sebuah informasi yang utuh.
Computer vision memungkinkan komputer untuk mengidentifikasi dan memproses objek dengan cara yang sama seperti manusia. Contoh yang paling sering kita gunakan saat ini adalah penggunaan scanQR pada smartphone sebagai salah satu cara untuk melakukan pembayaran. Ketika kode scanQR dideteksi oleh komputer (dalam hal ini smartphone), maka kode yang telah dipindai ini akan mengirimkan sebuah perintah khusus, bisa berupa perintah pembayaran, membuka kunci, maupun aktivitas lainnya.
Bagaimana computer vision bekerja?
Untuk mempermudah pemahaman tentang bagaimana computer vision bekerja, mari mengumpamakannya seperti saat kita menyusun puzzle. Kita mempunyai seluruh potongan-potongan gambar yang tersebar dalam berbagai bentuk dengan pinggiran atau ujung yang berbeda-beda, kemudian harus menyusunnya menjadi kesatuan yang utuh. Nah, cara kerja inilah yang dimiliki computer vision saat menerjemahkan sebuah objek dan memberi label pada objek tersebut.
Ketika menyusun puzzle, otak kita bekerja untuk memasangkan ujung demi ujung dengan pasangan yang cocok untuk membentuk gambar yang sesuai agar tidak salah penempatan. Tugas ini dilakukan oleh jaringan neuron dalam computer vision yang akan memisahkan bagian gambar yang berbeda-beda, mengidentifikasi ujung-ujungnya hingga kemudian menggabungkannya satu persatu sampai membentuk gambar yang utuh. Pada kasus ini, komputer tidak diberi gambaran besar dari data yang dimasukkan, karena komputer akan secara otomatis akan memberi label pada gambar tersebut (misal: kucing, wajah, atau kertas).
Jadi, ketika kita memberi ‘makan’ komputer jutaan gambar tentang kucing, maka otomatis komputer akan mengarahkannya pada algoritma yang memungkinkan mereka menganalisis warna dalam foto, bentuk, jarak antar satu bentuk dengan yang lain, di mana objek berbatasan satu dengan yang lain, dan seterusnya sampai ia mampu mengidentifikasi profil apa saja yang diperlukan untuk melabeli sebuah objek sebagai “kucing”.
Perumpamaan di atas merupakan penjelasan sederhana tentang cara kerja computer vision. Jika berbicara mengenai penjelasan yang lebih kompleks, computer vision membagi gambar-gambar yang telah dimasukkan menjadi bentuk piksel. Masing-masing gambar tersebut akan diterjemahkan dalam bentuk angka. Meskipun objek yang dimasukkan berbentuk tiga dimensi, komputer tetap akan menerjemahkannya menjadi dua dimensi, karena keterbatasan memori yang membuatnya hanya mampu menyimpan garis-garis linear dalam satu bidang.
Gambar dalam bentuk dua dimensi yang terdiri dari angka-angka akan dijumlahkan oleh komputer menjadi nilai-nilai tertentu hingga membentuk sebuah kode warna, seperti #FF0000 atau 255 untuk angka merah. Komputer biasanya membaca warna sebagai serangkaian angka-angka yang membentuk tiga warna dasar, yakni merah, hijau, dan biru (red, green, blue atau biasa disingkat dengan RGB). Setiap piksel memiliki tiga nilai tersebut untuk disimpan di dalam sistem pada posisi tertentu. Hal ini bertujuan untuk proses identifikasi warna agar komputer bisa memberi penjelasan profil yang lebih detail dari sebuah objek.
Evolusi Computer Vision Melalui Deep Learning
Sebelum munculnya sistem pembelajaran mendalam atau deep learning, computer vision hanya mampu menjalankan tugas-tugas secara terbatas, dan memerlukan kode-kode yang harus dimasukkan secara manual oleh para Programmer. Misalnya, ketika mendeteksi wajah seorang Programmer harus melakukan tiga tahapan pengkodean. Pertama, mengambil gambar dari objek yang ingin dilacak dalam format tertentu. Kedua, memberi keterangan spesifik pada setiap gambar seperti jarak antar mata, panjang hidung, jarak antar bibir bawah dan atas, dan masih banyak lagi pengukuran yang diperlukan untuk mendefinisikan keunikan wajah dari masing-masing wajah manusia. Ketiga, Programmer perlu mengambil gambar baru dari sumber-sumber yang lain dan melakukan pengukuran lagi, memberi tanda pada gambar hingga memperhitungkan sudut pengambilan gambar. Sungguh rumit, bukan?
Deep learning memungkinkan proses membaca objek menjadi lebih mudah. Dengan jaringan neuron yang diterapkan pada proses membaca gambar, maka pada jenis data tertentu jaringan neuron mampu memindahkan pola-pola umum menjadi persamaan matematika yang lebih spesifik agar mampu mengklasifikasikan data-data yang dimasukkan secara otomatis. Aplikasi pengenalan wajah dengan metode deep learning ini mampu mengembangkan algoritma yang telah dibangun sebelumnya dan melatihnya untuk mengenali contoh-contoh wajah yang harus dideteksi tanpa perlu memasukkan data-data pengakuran yang terlalu banyak dan rumit.
Melalui deep learning, metode pelatihan computer vision akan lebih efektif jika dibandingkan dengan metode sebelumnya atau machine learning. Dengan algoritma-algoritma yang dimasukkan, jaringan neural mampu mengumpulkan jumlah data yang lebih besar dari proses pelatihan yang telah dilakukan dan menentukan beberapa parameter seperti jenis, tipe, dan jumlah lapisan data-data yang akan ditampilkan dalam profil sebuah objek secara lebih cepat, juga lebih mudah dikembangkan sesuai dengan kebutuhan.
Penerapan Teknologi Computer Vision di Bidang Pengenalan Wajah (Facial Recognition)
Sistem deteksi wajah atau facial recognition (FR) termasuk ke dalam pengembangan teknologi computer vision pada level yang lebih tinggi. Sistem FR memungkinkan algoritma dalam computer vision untuk mendeteksi fitur-fitur pada wajah manusia dan membandingkannya dengan profil diri dari wajah yang terdeteksi tersebut, mulai dari nama, jenis kelamin dan usia. FR juga dapat digunakan untuk mengautentikasi identitas pemilik wajah demi menjaga keamanan data. Media sosial kini juga telah menerapkan teknologi FR untuk mendeteksi dan menandai pengguna sehingga dapat menyesuaikan preferensi pemilik akun berdasarkan ketertarikan dan history pencariannya. Lembaga hukum dan keamanan juga mulai menggunakan teknologi FR untuk mengantisipasi ancaman-ancaman dari penjahat melalui deteksi emosi (behavioral).
Untuk mengembangkan teknologi computer vision, masih ada banyak tantangan yang harus dilewati oleh para Programmer, seperti jika pelatihan tidak dilakukan dengan baik dan benar, maka akan terjadi kesalahan dan eror dalam membaca sebuah gambar. Namun, melihat perkembangan deep learning yang kian berkembang, computer vision akan menjadi teknologi mutakhir yang bisa digunakan di berbagai bidang sehingga mampu menciptakan dunia yang lebih aman dan efisien.
Tentang Docotel
Docotel 4.0 meliputi tim yang berdedikasi, berpengalaman, dan ahli dalam menyediakan produk dan solusi yang bernilai tinggi di semua industri. Kami hadir dengan visi mengatasi permasalahan sehingga dapat menciptakan pengalaman terbaik bagi klien.
[…] Sumber Gambar : docotel […]