Análisis de transformers para el reconocimiento de voz y evaluación de su rendimiento en sistemas de recursos limitados
C. Bolaños; J. Fernández-Bermejo; H. Llumiguano; J. Dorado; F.J. Villanueva; J.C. López
Conference: Jornadas de Computación Empotrada y Reconfigurable
Location: A Coruña (Spain)
Date: 17/06/2024 - 19/06/2024
Pages: 887-892
ISBN: 978-84-09-61749-4
[link]
Abstract
El uso de transformers para la consecución de tareas relacionadas con el procesamiento del lenguaje natural gana popularidad a cada dı́a que pasa. Este hecho también se extiende al campo del procesamiento de la voz. No sólo compiten con las redes neuronales convolucionales tradicionales en rendimiento, si no que, de la mano de librerı́as sostenidas por la comunidad de la IA, son fáciles de usar directamente en aplicaciones finales. Sin embargo, estos modelos requieren muchos recursos a medida que aumentan sus capacidades y parámetros manejados, normalmente traducidos en mayor precisión. Este trabajo estudia diferentes alternativas para el reconocimiento de voz que empleen transformers con enfoque en su rendimiento y precisión en sistemas de recursos limitados, pudiendo ası́ determinar la opción más adecuada para su aplicación en tiempo real en el contexto de la implementación de un agente conversacional en un dispositivo empotrado.