NeKo: Rumo à Correção Generativa Pós-Reconhecimento com Modelos de Linguagem Grande Orientados por Tarefas.
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts
November 8, 2024
Autores: Yen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang
cs.AI
Resumo
A construção de um corretor de erros pós-reconhecimento de propósito geral coloca uma questão crucial: como podemos treinar de forma mais eficaz um modelo em uma grande mistura de conjuntos de dados de domínio? A resposta estaria em aprender características específicas de conjuntos de dados e assimilar seu conhecimento em um único modelo. Métodos anteriores alcançam isso ao ter modelos de linguagem de correção separados, resultando em um aumento significativo de parâmetros. Neste trabalho, apresentamos a Mistura de Especialistas como uma solução, destacando que as MoEs são muito mais do que uma ferramenta de escalabilidade. Propomos uma MoE de Correção Multi-Tarefa, onde treinamos os especialistas para se tornarem um "especialista" em conjuntos de dados de fala-para-texto, linguagem-para-texto e visão-para-texto, aprendendo a rotear os tokens de cada conjunto de dados para seu especialista mapeado. Experimentos no Open ASR Leaderboard mostram que exploramos um novo estado-da-arte ao alcançar uma redução média relativa de 5,0% no WER e melhorias substanciais nos escores BLEU para tarefas de fala e tradução. Na avaliação de zero-shot, NeKo supera o GPT-3.5 e o Claude-Opus com uma redução relativa de WER de 15,5% a 27,6% no benchmark Hyporadise. NeKo tem um desempenho competitivo na correção gramatical e pós-OCR como um modelo multi-tarefa.
English
Construction of a general-purpose post-recognition error corrector poses a
crucial question: how can we most effectively train a model on a large mixture
of domain datasets? The answer would lie in learning dataset-specific features
and digesting their knowledge in a single model. Previous methods achieve this
by having separate correction language models, resulting in a significant
increase in parameters. In this work, we present Mixture-of-Experts as a
solution, highlighting that MoEs are much more than a scalability tool. We
propose a Multi-Task Correction MoE, where we train the experts to become an
``expert'' of speech-to-text, language-to-text and vision-to-text datasets by
learning to route each dataset's tokens to its mapped expert. Experiments on
the Open ASR Leaderboard show that we explore a new state-of-the-art
performance by achieving an average relative 5.0% WER reduction and
substantial improvements in BLEU scores for speech and translation tasks. On
zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to
27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs
competitively on grammar and post-OCR correction as a multi-task model.