Speech Recognition adalah proses identifikasi suara berdasarkan
kata yang diucapkan dengan melakukan konversi sebuah sinyal akustik,
yang ditangkap oleh audio device (perangkat input suara).
Speech Recognition juga merupakan sistem yang digunakan untuk mengenali
perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data
yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk
menggantikan peranan input dari keyboard dan mouse.
Keuntungan dari sistem ini adalah pada kecepatan dan kemudahan
dalam penggunaannya. Kata – kata yang ditangkap dan dikenali bisa jadi
sebagai hasil akhir, untuk sebuah aplikasi seperti command &
control, penginputan data, dan persiapan dokumen. Parameter yang
dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan
dengan template database yang tersedia. Sedangkan sistem pengenalan
suara berdasarkan orang yang berbicara dinamakan speaker recognition.
Pada makalah ini hanya akan dibahas mengenai speech recognition karena
kompleksitas algoritma yang diimplementasikan lebih sederhana daripada
speaker recognition. Algoritma yang akan diimplementasikan pada bahasan
mengenai proses speech recognition ini adalah algoritma FFT (Fast
Fourier Transform), yaitu algoritma yang cukup efisien dalam pemrosesan
sinyal digital (dalam hal ini suara) dalam bentuk diskrit. Algoritma ini
mengimplementasikan algoritma Divide and Conquer untuk pemrosesannya.
Konsep utama algoritma ini adalah mengubah sinyal suara yang berbasis
waktu menjadi berbasis frekuensi dengan membagi masalah menjadi beberapa
upa masalah yang lebih kecil. Kemudian, setiap upa masalah diselesaikan
dengan cara melakukan pencocokan pola digital suara.
SEJARAH SPEECH RECOGNITION
Biometrik, termasuk di dalamnya speech recognition, secara umum
digunakan untuk identifikasi dan verifikasi. Identifikasi ialah
mengenali identitas subyek, dilakukan perbandingan kecocokan antara data
biometric subyek dalam database berisi record karakter subyek.
Sedangkan verifikasi adalah menentukan apakah subyek sesuai dengan apa
yang dikatakan terhadap dirinya.
Biometrik merupakan suatu metoda untuk mengenali manusia
berdasarkan pada satu atau lebih ciri-ciri fisik atau tingkah laku yang
unik. Biometric Recognition atau biasa disebut dengan Sistem pengenalan
biometric mengacu pada identifikasi secara otomatis terhadap manusia
berdasarkan psikological atau karakteristik tingkah laku manusia. Ada
beberapa jenis teknologi biometric antara lain suara (speech
recognition).
Metode Hidden Markov Model mulai diperkenalkan dan dipelajari pada
akhir tahun 1960, metode yang berupa model statistik dari rantai Markov
ini semakin banyak dipakai pada tahun-tahun terakhir terutama dalam
bidang speech recognition, seperti dijelaskan oleh Lawrence R. Rabiner
dalam laporannya yang berjudul “A Tutorial on Hidden Markov Models and
Selected Applications in Speech Recognition”
Proses dalam dunia nyata secara umum menghasilkan observable output
yang dapat dikarakterisasikan sebagai signal. Signal bisa bersifat
diskrit (karakter dalam alfabet) maupun kontinu (pengukuran temperatur,
alunan musik). Signal bisa bersifat stabil (nilai statistiknya tidak
berubah terhadap waktu) maupun nonstabil (nilai signal berubah-ubah
terhadap waktu). Dengan melakukan pemodelan terhadap signal secara
benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak
mungkin melalui proses simulasi tersebut. Sehingga model dapat
diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem
identifikasi. Secara garis besar model signal dapat dikategorikan
menjadi 2 golongan yaitu : model deterministik dan model statistikal.
Model deterministik menggunakan nilai-nilai properti dari sebuah signal
seperti : amplitudo, frekuensi, fase dari gelombang sinus. Sedangkan
model statistikal menggunakan nilai-nilai statistik dari sebuah signal
seperti: proses Gaussian, proses Poisson, proses Markov, dan proses
Hidden Markov.
Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:
· N, yaitu jumlah state dalam model. Secara umum state saling
terhubung satu dengan yang lain, dan suatu state bisa mencapai semua
state yang lain dan sebaliknya (disebut model ergodic). Namun hal
tersebut tidak mutlak, terdapat kondisi lain dimana suatu state hanya
bisa berputar ke diri sendiri dan berpindah ke satu state berikutnya,
hal ini bergantung pada implementasi dari model.
· M, yaitu jumlah observation symbol secara unik pada tiap
statenya, misalnya: karakter dalam alfabet, dimana state adalah huruf
dalam kata.
· State Transition Probability { } -> ij A a
· Observation Symbol Probability pada state j, { } () -> j Bb k
· Initial State Distribution -> i p p
Dengan memberikan nilai pada N, M, A, B, dan p , HMM dapat
digunakan sebagai generator untuk menghasilkan urutan observasi. dimana
tiap observasi t o adalah salah satu simbol dari V, dan T adalah jumlah
observasi dalam suatu sequence.
SKEMA UTAMA DAN ALGORITMA SPEECH RECOGNITION
Terdapat 4 langkah utama dalam sistem pengenalan suara:
· Penerimaan data input
· Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
· Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
· Validasi identitas pengguna.
Secara umum, speech recognizer memproses sinyal suara yang masuk
dan menyimpannya dalam bentuk digital. Hasit proses digitalisasi
tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan
dianalisa dengan membandingkannya dengan template suara pada database
sistem.
Gambar 2. Spektrum Suara
Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per
satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis
dapat dilakukan secara paralel. Proses yang pertama kali dilakukan
ialah memproses gelombang kontinu spektrum suara ke dalam bentuk
diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi
dua bagian :
· Transformasi gelombang diskrit menjadi array data.
· Untuk masing-masing elemen pada aiTay data, hitung “ketinggian” gelombang (frekuensi).
Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Ketika mengkonversi gelombang suara ke dalam bentuk diskrit,
gelombang diperlebar dengan cara memperinci berdasarkan waktu. Hal ini
dilakukan agar proses algontma seianjutnya (pencocokan) lebih mudah
diiakukan. Namun, efek buruknya ialah array of array data yang terbentuk
akan lebih banyak.
Gambar 3. Contoh Hasit Konversi Sinyal Diskrit
Dari tiap elemen array data tersebut, dikonversi ke dalam bentuk
bilangan biner. Data biner tersebut yang nantinya akan dibandingkan
dengan template data suara.
Proses divide and conquer:
· Pilih sebuah angkaN, dimana N merupakan bilangan bulat kelipatan
2.Bilangan ini berfungsi untuk menghitung jumlah elemen transformasi
FFT.
· Bagi dua data diskrit secara (dengan menerapkan algoritma divide
and conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.
· Objek data dimasukkan ke dalam table (sebagai elemen tabel).
· Untuk setiap eiemen data, dicocokkan dengan data pada template
(pada data template juga dilakukan pemrosesan digitaiisasi menjadi data
diskrit, dengan cara yang sama dengan proses digitaiisasi data masukan
bam yang ingin dicocokkan).
· Setiap upa masalah disatukan kembali dan dianalisis secara
keseluruhan, kecocokan dari segi tata bahasa dan apakah data yang
diucapkan sesuai dengan kata yang tersedia pada template data.
· Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.
IMPLEMENTASI SPEECH RECOGNITION
Hardware yang dibutuhkan dalam implementasi Speech Recognition :
· Sound card : Merupakan perangkat yang ditambahkan dalam suatu
Komputer yang fungsinya sebagai perangkat input dan output suara untuk
mengubah sinyal elektrik, menjadi analog maupun menjadi digital.
· Microphone : Perangkat input suara yang berfungsi untuk mengubah
suara yang melewati udara, air dari benda orang menjadi sinyal elektrik.
· Komputer atau Komputer Server : Dalam proses suara digital
menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi
suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan
dan dicocokan dengan database yang berisi berkas suara agar dapat
dikenali.
Contoh Implementasi teknologi Speech Recognition :
Saat ini pada tahun 2010 Microsoft windows vista dan windows 7 ,
speech recognition telah disertakan dalam system operasinya .
sebagaimana fungsi dari speech recognition menterjemahkan pengucapan
kata – kata kedalam bentuk teks digital. Salah satu implementasi speech
recognition adalah pada konfrensi PBB dimana seluruh Negara tergabung
dalam keanggotaan nya , fungsi speech recognition dalam hal ini
menterjemahkan bahasa pembicara dari suatu Negara kedalam bahasa yang
dipahami pendengar . Contoh penggunaan lain speech recognition adalah
Perawatan kesehatan.
Dalam perawatan kesehatan domain, bahkan di bangun meningkatkan
teknologi pengenalan suara, transcriptionists medis (MTs) belum menjadi
usang. Layanan yang diberikan dapat didistribusikan daripada diganti.
Pengenalan pembicaraan dapat diimplementasikan di front-end atau
back-end dari proses dokumentasi medis. Front-End SR adalah salah satu
alat untuk mengidentifikasi kata-kata yang ucapkan dan ditampilkan tepat
setelah mereka berbicara Back-End SR atau SR tangguhan adalah di mana
penyedia menentukan menjadi sebuah sistem dikte digital, dan suara yang
diarahkan melalui pidato-mesin pengakuan dan draft dokumen diakui
dirutekan bersama dengan file suara yang asli ke MT / editor, yang
mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang banyak
digunakan dalam industri saat ini.
Banyak aplikasi Electronic Medical Records (EMR) dapat menjadi
lebih efektif dan dapat dilakukan lebih mudah bila digunakan dalam
hubungannya dengan pengenalan-mesin bicara. Pencarian, query, dan
pengisian formulir semua bisa lebih cepat untuk melakukan dengan suara
dibandingkan dengan menggunakan keyboard.
Pengertian Middleware
Middleware Didefinisikan sebagai sebuah aplikasi yang secara logic berada diantara lapisan aplikasi (application layer) dan
lapisan data dari sebuah arsitektur layer-layer TCP/IP. Middleware bisa juga disebut protokol. Protokol komunikasi
middleware mendukung layanan komunikasi aras tinggi.Middleware
merupakan Software yang berfungsi sebagai lapisan konversi atau
penerjemah. Juga merupakan penghubung yang berisi sekumpulan layanan
yang memungkinkan beberapa proses dapat berjalan pada satu atau lebih
mesin untuk saling berhubungan dalam suatu jaringan.
Contoh-Contoh Middleware
Contoh dari Middleware yang mungkin sering temui disekitar
kita,walaupun mungkin sebenarnya ada juga beberapa orang yang belum tau.
Java’s: Remote Procedure Call
Object Management Group’s: Common Object Request Broker Architecture (CORBA)
Microsoft’s COM/DCOM (Component Object Model)
Layanan Middleware
Middleware memberikan layanan dengan menyediakan kumpulan fungsi
API (Application Proggraming Interface) yang lebih tinggi dari pada API
yang disediakan oleh sistem Operasi.Layanan yang diberikan oleh
Middleware memungkinkan suatu aplikasi untuk dapat :
Mengalokasikan suatu layanan secara transparan pada jaringan.
Menyediakan interaksi dengan aplikasi atau layanan lain.
Diperluas (dikembangkan) kapasitasnya tanpa kehilangan fungsinya.
Contoh-Contoh layanan Middleware
Transaction Monitor
Ini Merupakan Produk pertama dari layanan Middleware.
Layanan ini menempati posisi antara permintaan dari program client
dan database, untuk menyakinkan bahwa semua transaksi ke Database
terlayani dengan baik.
Messaging Middleware
Layanan ini menyimpan data dalam suatu antrian message jika mesin tujuan sedang mati atau overloaded.
layanan ini mungkin berisi business logic yang merutekan message ke tujuan sebenarnya dan memformat ulang data lebih tepat.
Sama seperti sistem messaging email, hanya saja messaging Middleware digunakan untuk mengirim data antar aplikasi.
http://nda-kamal.blogspot.com/2011/11/speech-recognition.html
http://mameddekil.wordpress.com/2009/12/24/middleware-telematika/
0 komentar:
Posting Komentar