BySara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
7
1
大規模言語モデル(LLM)がテキストを超えて拡大する中、音声をネイティブなモダリティとして統合する動きが進み、従来の書き起こしを基盤としたパイプラインを迂回して音声言語を直接翻訳することを目指すSpeechLLMが登場した。しかし、この統合が確立されたカスケード型アーキテクチャよりも音声テキスト翻訳の品質を向上させるかどうかは、未解決の問題である。本研究では、Hearing to Translateを提案する。これは、最先端の5つのSpeechLLMを、優れた音声基盤モデル(SFM)と多言語LLMを組み合わせた16の強力な直接・カスケードシステムと比較し、厳密にベンチマークを行う初の包括的なテストスイートである。分析は、16のベンチマーク、13の言語ペア、および非流暢、雑音混じり、長文音声など9つの困難な条件にわたる。この広範な評価を通じて、カスケード型システムが全体的に最も信頼性が高く、現時点のSpeechLLMは特定の設定でのみカスケード型システムに匹敵し、SFMは両者に遅れをとっていることが明らかになった。これは、モデル内またはパイプライン内のいずれかでLLMを統合することが、高品質な音声翻訳にとって不可欠であることを示唆している。
再帰的トランスフォーマーにおけるパラメータ共有はモデルサイズを削減するが、層ごとの表現力を低下させる。本研究では、共有フィードフォワードネットワーク(FFN)内にLoRA(Low-Rank Adaptation)エキスパートを挿入する軽量な条件付き計算機構であるMixture of LoRAs(MoL)を提案する。MoLは、固定または外部接続されたアダプターを追加する従来手法とは異なり、バックボーンパラメータを変更せずに共有FFNのトークン条件付き重み空間変調を可能にする。我々は、回転位置埋め込み、GeGLU、FlashAttention、および知識蒸留に基づく初期化を統合した現代的な再帰的アーキテクチャであるModernALBERTを事前学習した。GLUE、SQuAD-v2、BEIRにおける評価では、ModernALBERT(50M~120Mパラメータ)がコンパクトモデルの中で最高性能を達成し、大規模な完全パラメータ化ベースラインを凌駕した。さらに、推論時に精度を維持したままMoLを単一アダプターに圧縮するエキスパート統合手法を提案し、効率的なデプロイを実現する。実験結果は、条件付き重み空間変調が再帰的トランスフォーマーにおける過度なパラメータ共有によって失われた表現力を効果的に回復させることを示す。
ByWei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
0
1
高品質な数学的推論の監修には、多様な推論スタイル、長文の推論過程、効果的なツール統合が求められますが、既存のデータセットがこれらの能力を提供するのは限定的です。我々は、gpt-oss-120bのマルチモード生成能力を活用し、高・中・低の各推論モードにおける750万の解法過程を含む大規模数学推論データセット「Nemotron-Math」を開発しました。各モードは、Pythonツール統合推論(TIR)を適用したバージョンと適用しないバージョンの両方が利用可能です。
本データセットは、8万5千件の厳選されたAoPS(Art of Problem Solving)問題と、26万2千件のコミュニティ提供のStackExchange-Math問題を統合し、構造化された競技問題と多様な実世界の数学的質問を組み合わせています。データセットの品質を評価するため、制御条件下での評価を実施しました。
Nemotron-Mathは、対応するAoPS問題において、従来のOpenMathReasoningを一貫して上回る性能を示しました。StackExchange-Mathの統合は、数学競技ベンチマークでの精度を維持しつつ、特にHLE-Mathにおいて堅牢性と汎化性能を大幅に向上させることが確認されています。
効率的な長文コンテキスト学習を支援するため、シーケンシャル・バケット戦略を開発し、128Kトークンのコンテキスト長におけるファインチューニングを精度の大幅な低下なく2~3倍加速することに成功しました。総合的に、Nemotron-Mathは最先端の性能を実現し、Python TIRを適用した場合、AIME 2024および2025において100%のmaj@16精度を達成しています。