L’evoluzione del riconoscimento vocale

Federico "Blue" Marchetti1 Luglio 20192 Minuti

Le tecnologie per il riconoscimento vocale, il processo che permette al linguaggio umano di essere riconosciuto, elaborato e convertito in testo scritto da un computer, hanno trovato applicazione in particolare nell’ambito della sottotitolazione per non udenti e normodotati. Vengono infatti impiegate per la sottotitolazione simultanea interlinguistica e intra linguistica di film, spettacoli teatrali, programmi televisivi. Nel primo caso un interprete traduce simultaneamente nel secondo uno speaker ripete i dialoghi nella stessa lingua, entrambi con una dizione corretta e scandita perché il software funzioni al meglio in fase di riconoscimento delle singole parole.

Le prime ricerche, finanziate dalla NSA e dal dipartimento della difesa statunitense risalgono agli anni 50, ed erano mirate a sviluppare sistemi controllabili con la voce. Il primo risultato fu un dispositivo in grado di trovare le cifre da 0 a 9. Solo negli anni 70 venne messo a punto un sistema in grado di riconoscere semplici frasi, seppure con un vocabolario e una grammatica limitati e un fabbisogno di potenza troppo elevato. Negli anni 80 vennero messi in commercio i primi dispositivi per il riconoscimento vocale per Commodore 64 e PC e la Dragon System, IBM e Kurzwell iniziarono a produrre software. Negli anni 90 le ricerche sulla la tecnologia per il riconoscimento vocale fecero grandi progressi e vediamo ancora oggi i risultati sui nostri dispositivi quali PC, cellulari, computer di bordo che possono essere comandati con la voce.

I sistemi di riconoscimento vocale possono essere speaker dependent, ovvero che si adattano alla voce dell’utente, il quale “addestra” il sistema a riconoscere la propria voce, o speaker independent, che permettono il riconoscimento della voce di un utente generico. Il sistema funziona grazie alla comparazione dell’audio di ingresso con un database di frasi e parole, basandosi sull’identificazione dei singoli fonemi. I sistemi speaker independent hanno una minore precisione, dato che i computer non possiedono la stessa capacità umana di discernere i suoni con un rumore di fondo che li disturba e di interpretare in modo univoco la stessa parola pronunciata in modi diversi. Per addestrare il software a capire i fonemi nelle varie pronunce e combinazioni vengono usati modelli matematici complessi e ci si avvale di database di esempi di pronuncia molto vasti.

Nel corso degli anni, questo tipo di tecnologia ha trovato applicazione anche per un utilizzo di tipo quotidiano con l’introduzione di apparecchi come Echo, sviluppato da Amazon su tecnologia Alexa, e quelli basati sulla piattaforma Android di Google. Il software di riconoscimento vocale consente di ottenere informazioni online in brevissimo tempo senza dover digitare alcunché ma semplicemente con un comando vocale impartito dall’utente. Altre applicazioni consentono invece di ottenere il titolo di una canzone dopo aver canticchiato il ritornello davanti al microfono d’ascolto dell’app.

I numerosi software commerciali presenti sul mercato possono essere una risorsa preziosa nel lavoro di traduzione audiovisiva e per la sottotitolazione, permettendo l’accesso a contenuti video e live in tempo reale a non udenti (sottotitoli intralinguistici) e stranieri (sottotitoli interlinguistici).