Berhubung sudah pengen bikin vlog, jadi saya pikir perlu membuat sebuah asisten pribadi virtual (personal assistant) yang dapat membantu saya membuat video tutorial secara self service. Harapan saya asisten virtual tersebut dapat membantu membuat video secara cepat sehingga tanpa perlu edit-edit video lagi. Oke, berhubung sudah 98% jadi coba saya tulis pembuatannya supaya saya tidak lupa atau mungkin ada yang terinspirasi, saya persilahkan untuk membuat yang lebih baik lagi.
Konsep Virtual Personal Assistant
Konsep desain personal assistant saya ini adalah: dia harus bisa mengenali suara, memahaminya kemudian melakukan perintah sesuai suara yang didengar tadi. Untuk pengenalan suara saya menggunakan yang mudah-mudah aja, yakni web speech API milik Google. Saat ini masih tersedia gratis tapi saya tidak tahu sampai kapan 🙂 . Untuk dokumentasi web speech api Google ini bisa Anda searching sendiri di internet. Intinya dengan web speech api ini Anda akan punya sebuah speech recognition engine yang dapat mengenali suara dan mengubahnya menjadi teks (speech to text) yang kemudian dapat Anda olah sesuai kebutuhan. Setelah teks yang didapat dari pengolahan suara diperoleh kemudian dimasukkan ke script pengolah data. Jika memenuhi syarat klausa dalam script maka dilakukan action sesuai ketentuan, misal menampilkan presentasi, mengaktifkan kamera atau menyalakan/mematikan lampu.
Perhatikan arsitektur desain personal assistant di atas. Suara masuk ke komputer melalui mikrofon dan diubah menjadi file wav. File ini kemudian dikirim ke server google via web speech API. Return value dari API ini adalah berupa teks yang merupakan terjemahan file suara. Teks kemudian diolah oleh javascript dan diteruskan ke Delphi untuk eksekusi perintah. Sambil mengeksekusi perintah, Javascript juga mengubah teks hasil respon scripting menjadi suara kembali menggunakan Microsoft SAPI (Speech API) karena komputer saya OS-nya Windows. Untuk bahasa Indonesia Microsoft menyediakan speech engine ‘Microsoft Andika’ yang dapat diunduh di official website Microsoft (tidak tersedia secara default di komputer Windows Anda)
Ok, setelah dirangkai semua, jadilah seperti yang direkam dalam video berikut Sebagai penutup, topologi teknologi personal assisant berbasis web speech api google memiliki kelemahan di sisi koneksi internet saja. Jika kita menggunakan teknologi ini sebaiknya pastikan koneksi internetnya bagus dulu agar tidak ada jeda saat proses speech recognition.
Sebagai penutup, bisa Anda saksikan demo personal assistant saya, ‘mas’ Andika di video Youtube berikut ini
a Technopreneur – writer – Enthusiastic about learning AI, IoT, Robotics, Raspberry Pi, Arduino, ESP8266, Delphi, Python, Javascript, PHP, etc. Founder of startup Indomaker.com