Il riconoscimento automatico del parlato

di Gennaro Sicignano, Fiorentino Ferraro, Marco Tammaro

Tutti noi, frequentando l'università e prima la scuola, abbiamo avuto esigenza di prendere appunti per trattenere e fissare quanto detto dal docente in classe. Spesso poi abbiamo fatto le così dette sbobinature, ore e ore di lavoro miranti ad arricchire e completare gli appunti già presi in classe. In taluni casi però quest'ultima attività può risultare necessaria e non aggiuntiva o migliorativa.
Pensiamo al caso di tutti quegli studenti che per vari motivi siano impossibilitati a prendere direttamente e con il dovuto livello di accuratezza gli appunti di quanto detto in classe durante la lezione.
In loro aiuto e in aiuto di tutti coloro che li supportano nelle attività di studio (non è raro che siano i genitori a fare le trascrizioni dall'audio per il figliolo con ipoacusia o con dislessia, ad esempio) vengono le moderne tecnologie per la trascrizione del parlato continuo, che hanno come importante effetto indiretto la possibilità del comando vocale.
Semplificando molto e affrontandola solamente da un punto di vista applicativo tratteremo la tematica in un ciclo di contributi, evidenziando come essa sia sempre più attuale e come cominci a entrare tra gli strumenti di quotidiano utilizzo - in tutti i moderni smartphone e tablet, per esempio, è presente la possibilità di dettare messaggi di testo e email.
Allo stesso modo nel campo dei PC, utilizzando appositi software, è possibile dare dei comandi a voce e dettare anche lunghi testi, mantenendo margini di errore bassi. Tra gli altri ci interesseremo a un programma che lavora molto bene e che si chiama Dragon NaturallySpeaking (DNS) della Nuance©.
Esso può essere acquistato singolarmente oppure ne esce in dotazione una copia con registratori digitali delle più note marche.

schermate relative alla fase di addestramento di Dragon NaturallySpeaking

La installazione è abbastanza semplice e si può fare in poco tempo, mentre bisogna prestare particolare attenzione alle fasi subito successive a essa.
Subito dopo aver installato il programma, infatti, viene richiesta la creazione di un nuovo profilo per l'utente. Questo passaggio è fondamentale ed è quello da cui dipende la qualità nelle successive fasi di utilizzo. Il DNS, infatti, lavora sulla base di modelli di linguaggio naturale specifici per lingua, fasce di età e sesso; questi modelli generali devono poi essere adattati alle caratteristiche uniche della singola persona e questo processo viene realizzato proprio nella fase di addestramento e creazione del profilo vocale.
In genere viene fornito un paio di cuffie con microfono di qualità sufficiente a garantire buoni risultati.
La procedura di addestramento ha una durata di pochi minuti e, dopo averla realizzata, il software è in grado di fornire da subito buone performance di riconoscimento.
Già in fase di creazione del profilo possiamo notare che il DNS ci da la possibilità di procedere all'addestramento o da microfono collegato al PC o da registrazione audio. Questo elemento è molto importante e la scelta dipende da come si intende poi utilizzare il sistema. Nel caso di utilizzo per il controllo del PC e per la scrittura di testi sotto dettatura, conviene scegliere la prima modalità (microfono direttamente collegato al PC), nel caso si intenda utilizzare il sistema per la realizzazione di sbobinature, bisogna scegliere la seconda possibilità; ovviamente dovremo già essere in possesso di una opportuna registrazione audio, ad esempio creata con la collaborazione del docente di cui vogliamo trascrivere le lezioni.

schermata di Dragon NaturallySpeaking per la scelta della parola

Il DNS prevede diverse modalità di funzionamento: normale, dettatura, comandi, numerica e compitazione.
-        Modalità dettatura prevede che il Dragon interpreti tutto ciò che viene enunciato come testo che verrà trascritto. In questa modalità non è possibile dare dei comandi vocali che non verrebbero correttamente interpretati ma piuttosto verrebbero trascritti in maniera puntuale.
-        Modalità comandi prevede che tutto il testo che viene pronunciato venga interpretato come se fosse costituito solo da comandi. In questo modo, ad esempio, è possibile fornire comandi di formattazione del testo direttamente a voce oppure aprire applicazioni semplicemente dicendo "apri nome applicazione".
-        Modalità numerica permette la dettatura di numeri o comandi, i numeri inoltre possono essere accompagnati da simboli, valute, percentuale.
-        Modalità compitazione permette la trascrizione di qualsiasi combinazione di lettere, cifre o simboli. Questa modalità è utile nel caso in cui si debbano dettare targhe, sigle, codici o simili.
-        Per finire c'è la modalità normale, che nell'elenco presentato a video dal programma è la prima. Essa è quella che viene più di frequente utilizzata e permette di dettare testo oppure comandi che poi sarà il programma a distinguere e a interpretare. In questa modalità bisogna fare attenzione a interporre una breve pausa prima e dopo la pronuncia di un comando, solo in tal modo infatti, il programma sarà in grado di riconoscere ed eseguire correttamente i comandi impartiti.
Una funzionalità molto interessante è quella che consente di apportare le correzioni direttamente a voce, è infatti possibile selezionare il testo da correggere utilizzando il comando "testo da correggere"; semplicemente facendo questo il programma fornisce dei suggerimenti per apportare le correzioni alla parola.

Particolarmente utile e interessante è la possibilità che il software fornisce di aggiungere nuove parole al vocabolario esistente, in questo modo sarà possibile addestrare specifiche parole in modo tale che vengano correttamente riconosciute durante la dettatura.
Per finire segnaliamo la possibilità di un'ulteriore modalità di interazione con il sistema che emula il funzionamento del mouse, sicuramente meno diretta rispetto alla pronuncia dei comandi vocali ma più affidabile nel caso che, con i primi, non si riesca a raggiungere gli obiettivi voluti: la griglia del mouse.
Impartendo questo comando viene disegnata una griglia a video costituita da nuove caselle, pronunciando il numero della singola casella è possibile evidenziare un'area più piccola e circostanziata di schermo all'interno della quale sarà presente una nuova tabella contenente una versione rimpicciolita della griglia.
In questo modo pronunciando ricorsivamente dei numeri dall'uno al nove è possibile posizionare il puntatore del mouse dove necessario/desiderato. Infine impartendo il comando mouse click è possibile simulare la pressione del tasto del mouse. Questo strumento risulta molto utile quando si debba premere su un'icona o su una voce di menu e per vari motivi questa non venga riconosciuta correttamente alla pronuncia. In tal caso, per procedere nell'immediato con il lavoro, si può sfruttare la griglia del mouse (anche se sono richiesti più passaggi), anche se, nel medio periodo, è opportuno operare l'addestramento della singola parola.
Quanto fin qui descritto è la possibilità di utilizzare il DNS come strumento per comandare con la voce il computer oppure per dettare dei testi più o meno lunghi, già queste due modalità di funzionamento risultano molto utili nel caso di utenza con difficoltà motorie. Nel prossimo numero tratteremo un'applicazione indiretta di questa interessante tecnologia per la realizzazione di trascrizioni di lezioni da registrazione audio, evidenziando caratteristiche tecniche e di processo ed evidenziando le eventuali criticità e le prestazioni ottenibili.

Chiudi la versione stampabile della pagina e ritorna al sito