I moderni assistenti digitali si basano quasi interamente su sistemi di riconoscimento vocale al fine di tradurre in codice binario i nostri comandi ed eseguirli. Nella maggior parte dei casi però questo viene fatto in remoto, ovvero caricando la clip audio del nostro comando nei server dell’azienda processandola lì. Il chip in fase di sviluppo di cui vi vogliamo parlare è stato realizzato dai ricercatori del MIT e consente il riconoscimento vocale in locale utilizzando una frazione dell’energia che di solito ci vuole per farlo sul cloud.
Il funzionamento del chip sviluppato dall’MIT è abbastanza complicato (anche da spiegare):
Il chip che abbiamo sviluppato include un sistema di riconoscimento vocale continuo basato sui modelli nascosti di Markov (HMM). Esso trascrive un ingresso audio di lunghezza arbitraria in una frase. Il modello di transizione è un trasduttore a stati finiti ponderati (WFST). Il modello acustico invece è una rete neurale feed-forward.
Più che negli smartphone, il chip dell’MIT arriverà nell’IoT
Il team di ricerca non ha previsto l’implementazione di questo nuovo chip prevalentemente sugli smartphone ma sui dispositivi appartenenti al settore dell’IoT.
L’input vocale diventerà un’interfaccia naturale per molte applicazioni indossabili e dispositivi intelligenti. La miniaturizzazione di questi dispositivi richiede un’interfaccia diversa rispetto al classico mouse e tastiera. Sarà fondamentale per incorporare la funzionalità di discorso in maniera locale per ridurre il consumo di energia del sistema rispetto a eseguire queste operazionisul cloud.
Come sicuramente potete immaginare, il chip in questione è studiato per essere attivo 24 ore su 24 e per fornirci risultati in tempo reale in una frazione di secondo. Chiaramente, trattandosi ancora di un progetto che, seppur funzionante, è ancora in fase di sviluppo, l’approdo nei mercati commerciali potrebbe essere distante ancora qualche anno.