OCR adalah salah satu metode untuk mengambil teks dari sebuah gambar. Anda tahu CAPTCHA? Dengan teknik OCR, CAPTCHA dapat dipecahkan secara programmatical. Anda ingin mengambil teks dari sebuah file PDF? OCR juga dapat melakukannya. Implementasi OCR dalam dunia elektro salah satunya adalah untuk pembacaan nomor plat kendaraan secara otomatis dan pembacaan meter (kwhmeter, PAM-meter, speedometer, dll). Dengan metode OCR ini, penggunaan sensor analog menjadi tidak relevan karena sudah tergantikan dengan sebuah pengambil gambar bernama kamera. Keunggulan penggunaan metode ini adalah antara sistem pembacaan dan sistem yang dibaca bersifat non invasive (tidak bersentuhan langsung) sehingga tidak ada rugi-rugi (loss) yang ditimbulkan oleh sistem pembacaan data.
Dari sisi software yang digunakan ada banyak pilihan yang bisa digunakan. Namun kali ini saya akan menggunakan salah satu software open source yang diklaim terbaik dalam dunia OCR, yakni Tesseract. Tesseract ini dapat Anda unduh di https://code.google.com/p/tesseract-ocr/downloads/list. Saya sarankan untuk mengunduh file tesseract-ocr-setup-3.02.02.exe. File ini bersifat installer yang akan memudahkan Anda untuk menginstal tesseract dan file-file pendukungnya. Jika sudah selesai mengunduh, double click file installer tersebut dan ikuti proses instalasinya hingga selesai. Jika instalasi Anda berhasil, maka akan tercipta subfolder ‘Tesseract-OCR’ dalam folder C:/Program files. Di dalamnya sudah termasuk file-file library yang dibutuhkan tesseract untuk menerjemahkan gambar menjadi sebuah teks.
Penggunaan Tesseract ini juga cukup mudah, yakni berbasis command prompt. Jadi bagi penggemar bahasa pemrograman apapun (Delphi, VB, PHP, dll) dapat memanfaatkannya dengan mudah. Kali ini saya akan coba member contoh betapa mudahnya mengambil teks dari sebuah file gambar entah itu JPG, JPEG atau TIFF (direkomendasikan berformat TIFF untuk akurasi pembacaan karakter yang lebih tepat). Buka folder C:\Program Files\Tesseract-OCR\doc. Copy file ‘phototest.tiff’ dari folder tadi ke folder yang ada file tesseract.exe-nya, yakni di folder C:\Program Files\Tesseract-OCR. Kemudian eksekusi file tesseract.exe tersebut melalui DOS prompt atau cara termudah lewat START | ALL PROGRAM | Tesseract-OCR | Console, hingga muncul jendela command prompt sebagai berikut :
Kemudian ketikkan command line sebagai berikut : tesseract phototest.tif hasil. Command ‘tesseract’ untuk menjalanka fungsi OCR, parameter ‘phototest.tif’ adalah gambar yang akan diambil karakter tulisannya (bisa diganti dengan file gambar lain), dan parameter ‘hasil’ adalah hasil penerjemahan file gambar phototest.tiff dalam bentuk file text dengan nama file ‘hasil.txt’. File ini berada satu folder dengan tesseract.exe di folder C:\Program Files\Tesseract-OCR. Sangat mudah bukan?
Jika Anda sudah berhasil melakukan penerjemahan file gambar menjadi teks, tentunya akan semakin merangsang kreasi Anda untuk mengembangkannya menjadi implementatif seperti pembacaan nomor plat kendaraan. Jika Anda ingin melakukannya Anda akan butuh bahasa pemrograman semacam Delphi atau PHP atau Java untuk mem-bundling tesseract ini dalam sebuah aplikasi yang cantik. Tantangan sebenarnya adalah bagaimana menghasilkan gambar yang ‘clear’ sebelum diterjemahkan oleh tesseract. Cara termudah adalah menggunakan aplikasi picture editor semacam GIMP atau photoshop. Anda tinggal mengubahnya menjadi format binary (Black and White), mengatur threshold-nya atau mengubah inversi colour-nya, agar mudah diterjemahkan tesseract. Jika Anda bermaksud mengaturnya dalam satu sistem yang berjalan otomatis tentu tidak mengkin menggunakan GIMP atau Photoshop. Anda bisa menggunakan aplikasi picture editor gratis lainnya yang berbasis command line seperti ImmageMagict atau Leptonica. Selamat berkreasi !
Nikmati artikel dan tutorial teknologi berkualitas hanya di saptaji.com. Artikel sebelumnya dapat Anda baca di https://saptaji.com/2014/05/05/5-menit-handling-detektor-tegangan-pln-220-vac-dengan-arduino/
a Technopreneur – writer – Enthusiastic about learning AI, IoT, Robotics, Raspberry Pi, Arduino, ESP8266, Delphi, Python, Javascript, PHP, etc. Founder of startup Indomaker.com
mas kok pas saya coba buka phototest.tif kenapa ada pemberitahuan cannot open input file: phototest.tif.
itu masalahnya knp mas?
coba buka di aplikasi picture editor semacam paint, photoshop, dll
bukan itu mas, maksudnya pas phototest.tif dibuka memakai console cmd tessractnya kok gk bisa?
muncul peringatan Cannot open input file: phototest.tif
dan pas dibuka memakai gambar dengan format lain juga gk bisa. solusinya bagaimana mas?
oh, coba copy-kan semua picture yg mau dibaca, satu folder dengan tesseract.exe. Kalo folder defaultnya ada di C:\Program Files\Tesseract-OCR
sudah mas, lalu keluar peringatan lagi Cannot create output file hasil.txt solusinya bagaimana mas?
saya bisa mas……saya cuma masuk ke folder c:\program files (x86)\tesseract phototest.tif e:\hasil………………..dan bisa dibuka
PNG gak bisa ya ini ? 🙁
saya tes di web online ocr bisa terbaca tapi pakai tesseract gak bisa
bisa
Mas, hasilnya empty page, trus katanya cannot create output file hasil.txt, itu gimana ya mas? trus saya tadi coba command “tesseract Capture.png” trus muncul beberapa daftar pagessegmode, itu apaan ya mas trims
Selamat Pagi. Saya ingin bertanya Pak. Apakah tesseract bisa di modify untuk Optical Character Recognation dari Aksara ke Latin Pak. ?
Mohon Infonya pak
harusnya bisa sih, tinggal cari library-nya
Hai mas, apakah tesseract bisa diimplementasikan ke android, adakah semacam SDK nya?
soalnya saya butuh itu untuk penelitian tugas akhir saya.
Terima Kasih
bisa, tp sy blm pernah mencobanya mas 🙂
ka, kok yang ocr setup 3.02.02 nya udah nggak ada
update aja yg versi terbaru
ka, kalo yang buat PHP itu gimana ya
ka, aku nyoba nggak ada errornya tapi hasil.txt nya nggak ada
coba pake gambar sederhana dulu, bisa convert ngga?
bisa ka, nge-run nya harus as administrator, ka kalo tresseract lewa php gimana ya ka
kalo gambar sederhana bisa, berarti gambar yg akan kita terjemahkan harus di-convert sampai ke level basic dulu supaya tesseract mudah membacanya.
Untuk php bisa pake shell_exec()
mas mau tanya klo tesseract mau d bawa ke web bsa gk… adakah contoh scrip nya pak
bisa aja
mas mau nanya dong? masukin tesseract ke php itu gimana ya? boleh minta penjelasannya?
tesseract ini kan berbasis command line, maka script php-nya juga yang bisa execute command line (contoh: shell_exec() )