NeKo: タスク指向の専門家を備えた後処理生成補正大規模言語モデルに向けて
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts
November 8, 2024
著者: Yen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang
cs.AI
要旨
汎用の誤り訂正器の構築は、重要な問題を提起します:どのようにして、複数のドメインデータセットを効果的にモデルに学習させることができるでしょうか?その答えは、データセット固有の特徴を学習し、その知識を単一のモデルで消化することにあるでしょう。従来の手法は、別々の訂正言語モデルを持つことでこれを達成し、パラメータが大幅に増加します。本研究では、スケーラビリティツール以上のものであると強調されるMixture-of-Expertsを提案します。我々は、マルチタスク訂正MoEを提案し、専門家を音声からテキスト、言語からテキスト、視覚からテキストのデータセットの「専門家」として育成することで、各データセットのトークンをそれにマップされた専門家にルーティングすることを学習します。Open ASR Leaderboardでの実験結果は、平均相対5.0%のWER削減と音声および翻訳タスクのBLEUスコアの実質的な改善により、新たな最先端のパフォーマンスを探索していることを示しています。ゼロショット評価では、NeKoはHyporadiseベンチマークで、GPT-3.5およびClaude-Opusを15.5%から27.6%の相対WER削減で上回ります。NeKoは、マルチタスクモデルとして文法およびOCR後の訂正において競争力を発揮します。
English
Construction of a general-purpose post-recognition error corrector poses a
crucial question: how can we most effectively train a model on a large mixture
of domain datasets? The answer would lie in learning dataset-specific features
and digesting their knowledge in a single model. Previous methods achieve this
by having separate correction language models, resulting in a significant
increase in parameters. In this work, we present Mixture-of-Experts as a
solution, highlighting that MoEs are much more than a scalability tool. We
propose a Multi-Task Correction MoE, where we train the experts to become an
``expert'' of speech-to-text, language-to-text and vision-to-text datasets by
learning to route each dataset's tokens to its mapped expert. Experiments on
the Open ASR Leaderboard show that we explore a new state-of-the-art
performance by achieving an average relative 5.0% WER reduction and
substantial improvements in BLEU scores for speech and translation tasks. On
zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to
27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs
competitively on grammar and post-OCR correction as a multi-task model.Summary
AI-Generated Summary