NeKo: Hacia Modelos de Lenguaje Grande de Corrección Generativa Post-Reconocimiento con Expertos Orientados a Tareas
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts
November 8, 2024
Autores: Yen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang
cs.AI
Resumen
La construcción de un corrector de errores de posreconocimiento de propósito general plantea una pregunta crucial: ¿cómo podemos entrenar de manera más efectiva un modelo en una amplia mezcla de conjuntos de datos de dominio? La respuesta radicaría en aprender características específicas de cada conjunto de datos y asimilar su conocimiento en un único modelo. Métodos anteriores logran esto al tener modelos de lenguaje de corrección separados, lo que resulta en un aumento significativo de parámetros. En este trabajo, presentamos la Mezcla de Expertos como una solución, resaltando que los MoEs son mucho más que una herramienta de escalabilidad. Proponemos un MoE de Corrección Multi-Tarea, donde entrenamos a los expertos para convertirse en un "experto" en conjuntos de datos de habla a texto, lenguaje a texto y visión a texto, aprendiendo a dirigir los tokens de cada conjunto de datos a su experto asignado. Experimentos en el Open ASR Leaderboard muestran que exploramos un nuevo rendimiento de vanguardia al lograr una reducción promedio relativa del 5.0% en WER y mejoras sustanciales en las puntuaciones BLEU para tareas de habla y traducción. En la evaluación de cero disparo, NeKo supera a GPT-3.5 y Claude-Opus con una reducción relativa de WER del 15.5% al 27.6% en el benchmark de Hyporadise. NeKo tiene un rendimiento competitivo en corrección gramatical y pos-OCR como modelo multi-tarea.
English
Construction of a general-purpose post-recognition error corrector poses a
crucial question: how can we most effectively train a model on a large mixture
of domain datasets? The answer would lie in learning dataset-specific features
and digesting their knowledge in a single model. Previous methods achieve this
by having separate correction language models, resulting in a significant
increase in parameters. In this work, we present Mixture-of-Experts as a
solution, highlighting that MoEs are much more than a scalability tool. We
propose a Multi-Task Correction MoE, where we train the experts to become an
``expert'' of speech-to-text, language-to-text and vision-to-text datasets by
learning to route each dataset's tokens to its mapped expert. Experiments on
the Open ASR Leaderboard show that we explore a new state-of-the-art
performance by achieving an average relative 5.0% WER reduction and
substantial improvements in BLEU scores for speech and translation tasks. On
zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to
27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs
competitively on grammar and post-OCR correction as a multi-task model.Summary
AI-Generated Summary