NeKo: К большим языковым моделям генерации после распознавания с экспертами, ориентированными на задачу

Аннотация

Построение универсального корректора ошибок после распознавания представляет собой ключевой вопрос: как мы можем наиболее эффективно обучить модель на большом наборе данных различных областей? Ответ заключается в изучении специфических для набора данных особенностей и усвоении их знаний в одной модели. Предыдущие методы достигают этого путем использования отдельных языковых моделей коррекции, что приводит к значительному увеличению параметров. В данной работе мы представляем Модель Микса Экспертов в качестве решения, подчеркивая, что ММЭ являются не просто инструментом масштабируемости. Мы предлагаем Мультизадачную Модель ММЭ, где мы обучаем экспертов стать "экспертами" по наборам данных речи-текст, языка-текст и видео-текст, обучаясь направлять токены каждого набора данных к соответствующему эксперту. Эксперименты на доске лидеров Open ASR показывают, что мы исследуем новое современное состояние производительности, достигая среднего относительного снижения WER на 5,0% и существенных улучшений в оценках BLEU для задач речи и перевода. При оценке без обучения NeKo превосходит GPT-3.5 и Claude-Opus с относительным снижением WER на 15,5% до 27,6% в бенчмарке Hyporadise. NeKo конкурентоспособно проявляет себя в задачах грамматики и коррекции после ОРП как мультизадачная модель.

English

Construction of a general-purpose post-recognition error corrector poses a crucial question: how can we most effectively train a model on a large mixture of domain datasets? The answer would lie in learning dataset-specific features and digesting their knowledge in a single model. Previous methods achieve this by having separate correction language models, resulting in a significant increase in parameters. In this work, we present Mixture-of-Experts as a solution, highlighting that MoEs are much more than a scalability tool. We propose a Multi-Task Correction MoE, where we train the experts to become an ``expert'' of speech-to-text, language-to-text and vision-to-text datasets by learning to route each dataset's tokens to its mapped expert. Experiments on the Open ASR Leaderboard show that we explore a new state-of-the-art performance by achieving an average relative 5.0% WER reduction and substantial improvements in BLEU scores for speech and translation tasks. On zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to 27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs competitively on grammar and post-OCR correction as a multi-task model.

NeKo: К большим языковым моделям генерации после распознавания с экспертами, ориентированными на задачу

NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts

Аннотация

Support