NeKo: Rumo à Correção Generativa Pós-Reconhecimento com Modelos de Linguagem Grande Orientados por Tarefas.

Resumo

A construção de um corretor de erros pós-reconhecimento de propósito geral coloca uma questão crucial: como podemos treinar de forma mais eficaz um modelo em uma grande mistura de conjuntos de dados de domínio? A resposta estaria em aprender características específicas de conjuntos de dados e assimilar seu conhecimento em um único modelo. Métodos anteriores alcançam isso ao ter modelos de linguagem de correção separados, resultando em um aumento significativo de parâmetros. Neste trabalho, apresentamos a Mistura de Especialistas como uma solução, destacando que as MoEs são muito mais do que uma ferramenta de escalabilidade. Propomos uma MoE de Correção Multi-Tarefa, onde treinamos os especialistas para se tornarem um "especialista" em conjuntos de dados de fala-para-texto, linguagem-para-texto e visão-para-texto, aprendendo a rotear os tokens de cada conjunto de dados para seu especialista mapeado. Experimentos no Open ASR Leaderboard mostram que exploramos um novo estado-da-arte ao alcançar uma redução média relativa de 5,0% no WER e melhorias substanciais nos escores BLEU para tarefas de fala e tradução. Na avaliação de zero-shot, NeKo supera o GPT-3.5 e o Claude-Opus com uma redução relativa de WER de 15,5% a 27,6% no benchmark Hyporadise. NeKo tem um desempenho competitivo na correção gramatical e pós-OCR como um modelo multi-tarefa.

English

Construction of a general-purpose post-recognition error corrector poses a crucial question: how can we most effectively train a model on a large mixture of domain datasets? The answer would lie in learning dataset-specific features and digesting their knowledge in a single model. Previous methods achieve this by having separate correction language models, resulting in a significant increase in parameters. In this work, we present Mixture-of-Experts as a solution, highlighting that MoEs are much more than a scalability tool. We propose a Multi-Task Correction MoE, where we train the experts to become an ``expert'' of speech-to-text, language-to-text and vision-to-text datasets by learning to route each dataset's tokens to its mapped expert. Experiments on the Open ASR Leaderboard show that we explore a new state-of-the-art performance by achieving an average relative 5.0% WER reduction and substantial improvements in BLEU scores for speech and translation tasks. On zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to 27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs competitively on grammar and post-OCR correction as a multi-task model.

NeKo: Rumo à Correção Generativa Pós-Reconhecimento com Modelos de Linguagem Grande Orientados por Tarefas.

NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts

Resumo

Support