Cara OCR Teks dalam File PDF dan Gambar di Adobe Acrobat

Indonesian (Bahasa Indonesia) translation by Haikal Kamil (you can also view the original English article)

Men-scan dokumen merupakan hal bagus. Cara tersebut membuat Anda bisa mengarsipkan tumpukan kertas ke dalam folder-folder di komputer Anda, cara ini mengambil jauh lebih sedikit ruang dan menjadi jauh lebih mudah untuk mengaturnya, memindahkan, dan menyalinnya. Tapi hal yang tidak begitu baiknya adalah ketika mencari konten yang disimpan di dalam salah satu dari ratusan dokumen hasil scan tersebut. Secara default, dokumen-dokumen ini tidak lebih dari sekadar gambar — dan jika Anda ingin mencari infomasi yang ada di dalamnya, Anda harus membuka setiap filenya dan membacanya sendiri.

Atau, Anda dapat membuat komputer Anda melakukan pekerjaan berat tersebut untuk Anda, dengan mengubah gambar Anda tersebut menjadi teks dan membuat Anda bisa menelusuri teks dari dokumen hasil scan tersebut semudah Anda menelusuri dokumen digital pada umumnya. Itulah yang dilakukan OCR — Optical Character Recognition. OCR menggunakan kecerdasan komputer Anda untuk mengenali bentuk huruf dalam gambar atau dokumen hasil scan, dan mengubahnya menjadi teks digital yang dapat Anda copy dan edit sesuai kebutuhan.

Berikut ini adalah cara menggunakan OCR tool yang ada di dalam Adobe Acrobat untuk mengubah dokumen dan gambar berteks hasil scan ke teks digital yang sebenarnya.

OCR Dokumen atau Gambar dalam Acrobat

Adobe Acrobat adalah program standar untuk membuat, mengedit, dan melihat file PDF. Acrobat umum digunakan dalam bisnis, dan dibundel dengan Adobe Creative Suite dan versi lengkap dari Creative Cloud, jadi ada peluang bagus kalau komputer dalam bisnis Anda sudah menginstalnya — atau Anda dapat menginstalnya secara gratis dari subscription Creative Cloud Anda. Jika demikian, Acrobat adalah alat yang hebat untuk meng-OCR dokumen Anda dengan cepat di Mac atau PC.

Catatan: tutorial ini membutuhkan Adobe Acrobat, bukan Adobe Reader. Adobe Reader adalah aplikasi gratis hanya untuk melihat PDF. Jika itu yang Anda miliki, lompatlah ke bagian akhir tutorial ini untuk beberapa tool OCR hebat lainnya yang dapat Anda gunakan.

PDF in Acrobat ready to OCR — Buka gambar atau PDF Anda dan buatlah Acrobat mulai mengenali teks Anda

Acrobat dapat mengenali teks dalam file PDF atau gambar apa pun dalam lusinan bahasa. Yang harus Anda lakukan adalah membuka dokumen atau gambar hasil scan yang Anda inginkan menjadi OCR, lalu klik tombol Tools biru di kanan atas dari toolbar. Di sidebar tersebut, pilih tab Recognize Text, lalu klik tombol In This File.

Anda sekarang akan mendapatkan beberapa opsi untuk pengaturan OCR Anda. Jika Anda mengenali dokumen yang ada dalam bahasa default komputer Anda (bahasa Inggris (AS) dalam kasus saya), cukup klik OK untuk membuat teks Anda dikenali. Jika tidak, klik tombol Edit... untuk memilih bahasa OCR Anda, pilih style output PDF Anda, dan resolusi yang Anda ingin gunakan saat Acrobat mengenali (recognizing) teks Anda.

Acrobat OCR settings — Sesuaikan setting OCR Anda

Setelah jeda singkat yang ditunjukkan oleh progress bar di bagian bawah jendela, teks Anda akan sepenuhnya dikenali (recognized). Hanya butuh sekitar 15 detik untuk mengenali teks pada 1 halaman hasil scan pada MacBook Air 2012 saya, tetapi butuh beberapa menit dengan 30 halaman full-color textbook PDF. Setelah selesai, Anda dapat memilih teks apa pun di dokumen dan menyalinnya seperti biasa, atau mencari teks dalam dokumen tersebut. Secara default, Acrobat akan menyimpan teks yang dikenali di dalam file original ketika Anda OCR sebuah PDF, dan jika Anda OCR suatu gambar Acrobat akan menyimpan gambar dengan teksnya dalam file PDF baru. Kabar baiknya, teks yang telah dikenali sebelumnya akan muncul di setiap PDF reader apa pun, seolah-olah itu adalah dokumen digital aslinya.

OCRed text in Acrobat — Salin teks dari dokumen hasil scan sebagai teks biasa atau dengan pemformatan — atau cukup gunakan PDF tersebut sebagai PDF biasa

Dengan teks yang dikenali, Anda sekarang dapat mem-markup PDF menggunakan semua alat markup normal — Anda dapat menyorot, mencoret teks, dan banyak lagi. Anda bahkan dapat menyalin teks dengan format yang terdeteksi, meskipun itu seringkali kurang akurat daripada pengenalan teks itu sendiri.

Export Dokumen OCR Anda

Jika Anda ingin mengedit dokumen hasil scan original Anda, atau mungkin menggunakan kembali informasi di dalamnya dalam dokumen yang baru, Anda mungkin menginginkan lebih dari sekadar teks yang selectable atau yang dapat dipilih pada suatu file PDF. Anda mungkin menginginkan dokumen lengkap yang telah di-convert. Acrobat juga membuatnya jadi mudah, meng-OCR teks dan mengekspornya sebagai dokumen baru dalam satu langkah.

Cukup buka dokumen yang ingin Anda OCR dan convert, klik File > Save As... dan pilih format yang Anda inginkan. Anda dapat meng-export sebagai dokumen Word atau dokumen teks lainnya seperti spreadsheet Excel atau CSV, atau sebagai HTML. Tambahkan nama file yang Anda inginkan berikut lokasi menyimpan file baru Anda tersebut, dan klik Save. Acrobat akan memprosesnya dengan menampilkan progress bar yang sama di bagian bawah jendela seperti saat mengenali teks dan formatting di dokumen Anda, dan kemudian akan menyimpan hasil salinan export-nya.

Export PDF or image in Word format from Acrobat — Ekspor gambar dan PDF Anda dari Acrobat dengan hasil yang beragam.

Acrobat dapat meng-export dari dokumen hasil scan yang secara mengejutkan hasilnya bisa bagus dan juga bisa buruk sekali. Acrobat akan mengenali sebagian besar teks dan format, dan Anda mungkin akan terkejut dengan betapa bagusnya melihat dokumen export yang telah selesai jika itu tidak terlalu rumit. Tetapi kemudian, file hasil scan itu bukanlah dokumen asli. Akan ada kesalahan, seperti pemformatan yang harus Anda perbaiki, dan banyak lagi. Cara terbaik adalah selalu menggunakan dokumen digital aslinya, tetapi OCR adalah cara yang bagus untuk mendapatkan salinan digital dari suatu dokumen jika yang Anda miliki hanyalah file scan-nya.

Meskipun OCR itu tidak sempurna, OCR dari Acrobat cukup bagus. Dalam kasus file yang dipindai ini, hampir setiap kata terdeteksi dengan benar, meskipun satu contoh dari kata Name dideteksi sebagai N""e. Cara ini cukup baik jika Anda hanya ingin dapat secara instan mencari melalui dokumen Anda menggunakan search tool pada PDF reader Anda, meskipun jika Anda benar-benar menggunakan OCR untuk membuat salinan dari teks aslinya, Anda akan perlu melakukan pembenaran - membacanya dulu dan pastikan untuk memperbaiki kesalahan apa pun yang ada.

OCR Beberapa Dokumen Sekaligus

Punya banyak dokumen yang Anda ingin OCR-kan sekaligus? Acrobat juga hebat untuk itu. Buka saja dokumen apa pun di Acrobat, lalu buka Recognize Text pada panel sidebar seperti sebelumnya. Kali ini, pilih tombol In Multiple Files, dan Anda akan melihat jendela di mana Anda dapat menyeret semua file Anda yang ingin Anda OCR-kan. Sekali lagi, Anda dapat menambahkan file PDF atau gambar, dan Acrobat akan mengenali teks dan menyimpannya dalam format PDF. Ada juga beberapa opsi tambahan, di mana Anda dapat memilih di mana untuk menyimpan hasil filenya dan bagaimana memberi nama mereka.

Tools OCR Lainnya

Tentu saja, Acrobat bukan satu-satunya cara untuk teks OCR dari dokumen hasil scan. Jika Anda belum memiliki salinannya, ada banyak tool lain yang dapat Anda gunakan. Kami sudah membahas bebrapa tools terbaik untuk OCR di Mac Anda: Prizmo, FineReader, aplikasi Doxie, PDFPen, dan Evernote. Prizmo dan PDFPen juga akan bekerja pada perangkat iOS Anda untuk OCR saat bepergian, dan aplikasi Doxie juga berfungsi pada PC. Evernote tidak mengizinkan Anda menyalin teks, tetapi berfungsi di mana-mana — dan di PC, OCR OneNote sangat bagus dan gratis.

Ada juga library Tesseract OCR gratis, dengan aplikasi Mac gratis yang sangat dasar yang dapat mengenali teks untuk Anda. Tool OCR lain yang hemat biaya adalah pica text, seharga $3,99. Bagaimanapun juga, jika OCR adalah yang Anda butuhkan, Anda tidak perlu mendapatkan salinan Acrobat hanya untuk itu — tetapi jika Anda memiliki Acrobat, tool OCR-nya merupakan extra yang luar biasa.

Kesimpulan

Mengambil beberapa menit untuk OCR dokumen PDF adalah hal yang diperlukan untuk membuat gambar dari dokumen kertas Anda ke dokumen digital lengkap yang Anda dapat search, menyalin teks, markup, dan ekspor dalam format Office. Acrobat telah banyak diketahui untuk PDF reader-nya, tetapi masih memiliki banyak fitur hebat, dan OCR adalah salah satunya.

Jika Anda memiliki copy dari Acrobat, atau langganan Creative Cloud, cobalah dan buatlah dokumen-dokumen hasil scan Anda menjadi OCR. Dokumen-dokumen tersebut akan langsung menjadi lebih berharga bagi Anda daripada yang pernah mereka lakukan sebelumnya sebagai dokumen hasil scan biasa.