NeKo: К большим языковым моделям генерации после распознавания с экспертами, ориентированными на задачу
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts
November 8, 2024
Авторы: Yen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang
cs.AI
Аннотация
Построение универсального корректора ошибок после распознавания представляет собой ключевой вопрос: как мы можем наиболее эффективно обучить модель на большом наборе данных различных областей? Ответ заключается в изучении специфических для набора данных особенностей и усвоении их знаний в одной модели. Предыдущие методы достигают этого путем использования отдельных языковых моделей коррекции, что приводит к значительному увеличению параметров. В данной работе мы представляем Модель Микса Экспертов в качестве решения, подчеркивая, что ММЭ являются не просто инструментом масштабируемости. Мы предлагаем Мультизадачную Модель ММЭ, где мы обучаем экспертов стать "экспертами" по наборам данных речи-текст, языка-текст и видео-текст, обучаясь направлять токены каждого набора данных к соответствующему эксперту. Эксперименты на доске лидеров Open ASR показывают, что мы исследуем новое современное состояние производительности, достигая среднего относительного снижения WER на 5,0% и существенных улучшений в оценках BLEU для задач речи и перевода. При оценке без обучения NeKo превосходит GPT-3.5 и Claude-Opus с относительным снижением WER на 15,5% до 27,6% в бенчмарке Hyporadise. NeKo конкурентоспособно проявляет себя в задачах грамматики и коррекции после ОРП как мультизадачная модель.
English
Construction of a general-purpose post-recognition error corrector poses a
crucial question: how can we most effectively train a model on a large mixture
of domain datasets? The answer would lie in learning dataset-specific features
and digesting their knowledge in a single model. Previous methods achieve this
by having separate correction language models, resulting in a significant
increase in parameters. In this work, we present Mixture-of-Experts as a
solution, highlighting that MoEs are much more than a scalability tool. We
propose a Multi-Task Correction MoE, where we train the experts to become an
``expert'' of speech-to-text, language-to-text and vision-to-text datasets by
learning to route each dataset's tokens to its mapped expert. Experiments on
the Open ASR Leaderboard show that we explore a new state-of-the-art
performance by achieving an average relative 5.0% WER reduction and
substantial improvements in BLEU scores for speech and translation tasks. On
zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to
27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs
competitively on grammar and post-OCR correction as a multi-task model.Summary
AI-Generated Summary