翻訳付きの日次キュレーションされたAI研究論文
MiniMax-Speechを紹介します。これは、高品質な音声を生成する自己回帰型Transformerベースのテキスト読み上げ(TTS)モデルです。主な革新点は、学習可能な話者エンコーダであり、参照音声から文字起こしを必要とせずに音色特徴を抽出します。これにより、MiniMax-Speechはゼロショットで参照音声と一貫した音色を持つ高度に表現力豊かな音声を生成できるだけでなく、ワンショット音声クローンにおいても参照音声に非常に高い類似性を実現します。さらに、提案されたFlow-VAEにより、合成音声の全体的な品質が向上しています。本モデルは32言語をサポートし、複数の客観的および主観的評価指標において優れた性能を示しています。特に、客観的音声クローンメトリクス(単語誤り率と話者類似性)において最先端(SOTA)の結果を達成し、公開TTS Arenaリーダーボードで首位を獲得しています。MiniMax-Speechのもう一つの重要な強みは、話者エンコーダから得られる堅牢で分離された表現により、ベースモデルを変更することなく拡張性が高いことです。これにより、LoRAを介した任意の音声感情制御、テキスト記述から直接音色特徴を合成するテキストから音声(T2V)、追加データを用いて音色特徴を微調整するプロフェッショナル音声クローン(PVC)など、様々な応用が可能です。より多くの例については、https://minimax-ai.github.io/tts_tech_report をご覧ください。
テキストからオーディオを生成するシステムは、性能が向上しているものの、推論時に時間がかかるため、多くの創造的なアプリケーションにおいてその遅延が実用的でない状況となっている。本研究では、蒸留に基づかない初の拡散/フローモデル向け敵対的加速アルゴリズムであるAdversarial Relativistic-Contrastive (ARC) ポストトレーニングを提案する。従来の敵対的ポストトレーニング手法は、高コストな蒸留手法との比較において苦戦してきたが、ARCポストトレーニングは、(1) 最近の相対論的敵対的定式化を拡散/フローポストトレーニングに拡張し、(2) プロンプトの遵守を促進するための新たなコントラスティブ識別器目的関数と組み合わせるというシンプルな手順である。ARCポストトレーニングをStable Audio Open向けの最適化と組み合わせ、H100上で約12秒の44.1kHzステレオオーディオを約75ミリ秒で生成し、モバイルエッジデバイス上で約7秒で生成可能なモデルを構築した。これは、我々の知る限り最速のテキストからオーディオを生成するモデルである。
我々は、推論のフロンティアを前進させ、オープンソースイノベーションの協力的な精神を体現する32Bの密な言語モデル、AM-Thinking-v1を発表します。DeepSeek-R1を上回り、Qwen3-235B-A22BやSeed1.5-Thinkingのような主要なMixture-of-Experts(MoE)モデルと肩を並べるAM-Thinking-v1は、AIME 2024で85.3、AIME 2025で74.4、LiveCodeBenchで70.3という印象的なスコアを達成し、同規模のオープンソースモデルの中でも最先端の数学的およびコーディング能力を示しています。 AM-Thinking-v1は、完全にオープンソースのQwen2.5-32Bベースモデルと公開されているクエリを活用し、監督付き微調整と強化学習を組み合わせた緻密に設計されたポストトレーニングパイプラインを通じて、卓越した推論能力を提供します。この研究は、オープンソースコミュニティが32Bスケールで高性能を達成できることを示しており、これは実用的なデプロイメントと微調整のスイートスポットです。トップクラスの性能と実世界での使いやすさのバランスを取ることで、AM-Thinking-v1が中規模モデルを活用するためのさらなる協力的な取り組みを刺激し、アクセシビリティをイノベーションの核心に据えながら推論の限界を押し広げることを願っています。我々は、このモデルをhttps://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}でオープンソースとして公開しました。
マルチモーダル言語モデルの構築は根本的に困難な課題である。視覚と言語のモダリティを整合させ、高品質な指示データをキュレーションし、視覚を導入した際に既存のテキストのみの能力が劣化しないようにする必要がある。これらの困難は多言語設定においてさらに増幅される。多言語でのマルチモーダルデータの必要性が既存のデータ不足を悪化させ、機械翻訳が意味を歪めることが多く、破滅的な忘却がより顕著になる。これらの課題に対処するため、データとモデリングの両面にわたる新たな技術を導入する。まず、高品質で多様な多言語マルチモーダル指示データをキュレーションする合成アノテーションフレームワークを開発し、Aya Visionモデルが多くの言語でマルチモーダル入力に対して自然で人間が好む応答を生成できるようにする。これを補完するために、破滅的な忘却を軽減し、テキストのみの能力を効果的に維持しながらマルチモーダル生成性能を向上させるクロスモーダルモデルマージ技術を提案する。Aya-Vision-8Bは、Qwen-2.5-VL-7B、Pixtral-12B、さらにははるかに大規模なLlama-3.2-90B-Visionなどの強力なマルチモーダルモデルと比較しても最高クラスの性能を達成する。さらに、このアプローチをAya-Vision-32Bにスケールアップし、Molmo-72BやLLaMA-3.2-90B-Visionなど、その2倍以上のサイズのモデルを上回る性能を示す。我々の研究は、マルチモーダル分野における多言語進展を推進し、極めて高い性能を提供しながら計算リソースの必要性を効果的に軽減する技術に関する洞察を提供する。
指示追従評価は、大規模言語モデル(LLM)がユーザー定義の制約に従った出力を生成する能力を評価するものです。しかし、既存のベンチマークはしばしばテンプレート化された制約プロンプトに依存しており、実世界の使用における多様性が欠如し、細かい性能評価が制限されています。このギャップを埋めるため、我々は3つの制約パターン、4つの制約カテゴリー、および4つの難易度レベルを包含する多次元制約フレームワークを提案します。このフレームワークに基づき、制約の拡張、衝突検出、指示の書き換えを実行する自動指示生成パイプラインを開発し、1,200のコード検証可能な指示追従テストサンプルを生成しました。7つのモデルファミリーにわたる19のLLMを評価し、制約形式間で性能に大きなばらつきがあることを明らかにしました。例えば、平均性能はレベルIの77.67%からレベルIVの32.96%に低下します。さらに、我々のアプローチの有用性を実証するため、強化学習用データの生成に使用し、一般的な性能を低下させることなく指示追従において大幅な向上を達成しました。詳細な分析により、これらの向上は主にモデルの注意モジュールパラメータの変更に起因し、制約の認識と遵守が強化されたことが示されています。コードとデータはhttps://github.com/Junjie-Ye/MulDimIFで利用可能です。
gg-benchを紹介します。これは、言語モデルの一般的な推論能力を評価するために設計されたゲーム環境のコレクションです。ほとんどの静的ベンチマークとは異なり、gg-benchはデータ生成プロセスであり、新しい評価インスタンスを自由に生成できます。具体的には、gg-benchは以下の手順で合成生成されます。(1) 大規模言語モデル(LLM)を使用して新規ゲームの自然言語記述を生成、(2) LLMを使用して各ゲームをGym環境としてコード実装、(3) 生成されたゲーム上で自己対戦を通じて強化学習(RL)エージェントを訓練。言語モデルの評価は、ゲームの説明、現在のボード状態、有効な手のリストをプロンプトとして与え、モデルが選択した手を出力することで行います。gg-benchは難易度が高く、GPT-4oやClaude 3.7 Sonnetなどの最先端LLMでも、インコンテキスト学習を用いて7-9%の勝率しか達成できません。一方、o1、o3-mini、DeepSeek-R1などの推論モデルは、平均31-36%の勝率を達成しています。今後のモデリング作業やベンチマークの拡張を支援するため、生成されたゲーム、データ生成プロセス、評価コードを公開します。
Vision-Language Models(VLM)は、視覚的知覚とLarge Language Models(LLM)の推論能力などの汎用的な能力を組み合わせたものである。しかし、これら二つの能力をどのように組み合わせ、貢献させるかについてのメカニズムは十分に理解されていない。本研究では、異なるモデルのパラメータを接続するモデルマージを通じて、知覚と推論を構成する方法を探る。従来の研究がしばしば同種のモデルのマージに焦点を当ててきたのに対し、我々は異なるモダリティ間のモデルマージを提案し、LLMの推論能力をVLMに組み込むことを可能にする。大規模な実験を通じて、モデルマージがトレーニング不要の方法でLLMからVLMへ推論能力を転送する成功した経路を提供することを実証する。さらに、マージされたモデルを利用して、知覚と推論の内部メカニズムと、マージがそれにどのように影響するかを理解する。知覚能力は主にモデルの初期層にエンコードされているのに対し、推論は主に中盤から後半の層によって促進されることがわかる。マージ後、すべての層が推論に貢献し始める一方で、知覚能力の層間分布はほとんど変化しないことが観察される。これらの観察結果は、マルチモーダル統合と解釈のためのツールとしてのモデルマージの可能性を明らかにする。
本研究は、アラビア語自然言語処理における重要なギャップに取り組むため、ユーザーが説明や意味に基づいて単語を見つけることを可能にする効果的なアラビア語逆引き辞書(RD)システムを開発します。幾何学的に減少する層を特徴とする半エンコーダニューラルネットワークアーキテクチャを備えた新しいトランスフォーマーベースのアプローチを提示し、アラビア語RDタスクにおいて最先端の結果を達成します。私たちの方法論は、包括的なデータセット構築プロセスを組み込み、アラビア語辞書学的定義のための正式な品質基準を確立します。様々な事前学習済みモデルを用いた実験により、アラビア語固有のモデルが一般的な多言語埋め込みを大幅に上回り、ARBERTv2が最高のランキングスコア(0.0644)を達成することが示されました。さらに、逆引き辞書タスクの形式的な抽象化を提供し、理論的理解を深めるとともに、設定可能なトレーニングパイプラインを備えたモジュール式で拡張可能なPythonライブラリ(RDTL)を開発します。データセット品質の分析により、アラビア語定義構築を改善するための重要な洞察が得られ、高品質な逆引き辞書リソースを構築するための8つの具体的な基準が導き出されました。この研究は、アラビア語計算言語学に大きく貢献し、アラビア語の言語学習、学術執筆、専門的なコミュニケーションのための貴重なツールを提供します。
動的なオープンワールド環境におけるナビゲーションの学習は、ロボットにとって重要でありながらも困難なスキルである。これまでのほとんどの手法は、正確な位置推定とマッピングに依存するか、高価な実世界のデモンストレーションから学習している。本論文では、シミュレーションのみで訓練され、多様な実世界環境における異なるエンボディメントにゼロショット転移可能なエンドツーエンドフレームワークであるNavigation Diffusion Policy(NavDP)を提案する。NavDPのネットワークの鍵となる要素は、拡散ベースの軌道生成と軌道選択のための批評家関数の組み合わせであり、これらは共有ポリシートランスフォーマーからエンコードされた局所観測トークンにのみ条件付けられている。シミュレーションにおけるグローバル環境の特権情報を活用し、高品質なデモンストレーションをスケールアップして拡散ポリシーを訓練し、コントラスティブなネガティブサンプルを用いて批評家価値関数の目標を定式化する。我々のデモンストレーション生成アプローチは、1日あたり約2,500軌道/GPUを達成し、実世界のデータ収集よりも20倍効率的であり、1244シーンにわたる363.2kmの軌道を含む大規模なナビゲーションデータセットを生成する。このシミュレーションデータセットで訓練されたNavDPは、四足歩行、車輪型、ヒューマノイドロボットにおいて、多様な屋内および屋外環境で最先端の性能と一貫して優れた汎化能力を達成する。さらに、Gaussian Splattingを用いてドメイン内の実世界からシミュレーションへの微調整を行い、シミュレーションから実世界へのギャップをさらに埋めるための予備的な試みを提示する。実験結果は、このような実世界からシミュレーションへのデータを追加することで、汎化能力を損なうことなく成功率を30%向上させることができることを示している。
多様な領域におけるエージェント型ワークフローの普及が進む中、これらのシステムが生成する複雑なトレースをスケーラブルかつ体系的に評価する必要性が高まっている。現在の評価手法は、長大なワークフロートレースに対する手動のドメイン固有の人間分析に依存しており、エージェントの出力の複雑さと量が増大するにつれてスケールしない。これらの設定におけるエラー分析は、外部ツールの出力と言語モデルの推論の相互作用によってさらに複雑化し、従来のソフトウェアデバッグよりも困難を極める。本研究では、(1) エージェント型ワークフロートレースに対する堅牢で動的な評価手法の必要性を明示し、(2) エージェントシステムで遭遇するエラータイプの形式的な分類を導入し、(3) この分類に基づいて構築された148の大規模な人間注釈付きトレース(TRAIL)を提示する。生態学的妥当性を確保するため、単一エージェントシステムとマルチエージェントシステムの両方からトレースを選定し、ソフトウェアエンジニアリングやオープンワールド情報検索などの実世界のアプリケーションに焦点を当てた。評価の結果、現代の長文脈LLMはトレースデバッグにおいて低い性能を示し、最高のGemini-2.5-proモデルでもTRAILでわずか11%のスコアしか得られなかった。我々のデータセットとコードは公開され、エージェント型ワークフローのスケーラブルな評価に関する将来の研究を支援し加速することを目的としている。
理論的に、一般化がデータスケーリングだけでなく、内部表現の圧縮によっても向上することを証明します。この洞察を実践するために、情報ボトルネック言語モデリング(IBLM)目的関数を導入します。これは、言語モデリングを制約付き最適化問題として再定義するものです:最適な予測性能を維持しつつ、表現エントロピーを最小化します。実験的には、LLMの事前学習中に、記憶化と圧縮のサイクルが自然発生することを観察しました。これは、クロスエントロピーと表現エントロピーの尺度である行列ベースエントロピー(MBE)の間で、正/負の勾配整合が振動する形で現れます。このパターンは、IBLMが示す予測と圧縮のトレードオフに密接に対応し、また、生物学的な覚醒学習と睡眠による記憶固定の交互作用にも類似しています。この観察に基づき、記憶化フェーズと圧縮フェーズを適応的に切り替える訓練アルゴリズムであるGated Phase Transition(GAPT)を提案します。FineWebデータセットを用いたGPT-2の事前学習にGAPTを適用すると、MBEが50%減少し、クロスエントロピーが4.8%改善されました。また、算術乗算の事前学習タスクにおいて、OOD一般化が35%向上しました。さらに、破滅的忘却をシミュレートする設定では、GAPTが表現を圧縮・分離することで干渉を軽減し、分離度が97%向上しました。これは、睡眠による記憶固定の機能的な役割に類似しています。
複雑な活動における人間のスキルレベルを評価することは、スポーツ、リハビリテーション、トレーニングなどの分野で応用可能な難しい課題です。本研究では、エゴセントリックおよびエクソセントリックビデオからの統一的な多視点熟練度推定のためのパラメータ効率の良いアーキテクチャであるSkillFormerを提案します。TimeSformerのバックボーンを基盤として、SkillFormerはマルチヘッドクロスアテンション、学習可能なゲーティング、および適応型自己キャリブレーションを使用して視点固有の特徴を融合するCrossViewFusionモジュールを導入します。我々はLow-Rank Adaptationを活用して、少数のパラメータのみをファインチューニングすることで、トレーニングコストを大幅に削減します。実際、EgoExo4Dデータセットで評価した結果、SkillFormerは多視点設定において最先端の精度を達成し、従来のベースラインと比較して4.5倍少ないパラメータと3.75倍少ないトレーニングエポックで顕著な計算効率を示しました。複数の構造化されたタスクで優れた性能を発揮し、きめ細かいスキル評価における多視点統合の価値を確認しました。
大規模言語モデルは高いタスク性能を達成する一方で、しばしば虚構を生成したり、古い知識に依存したりする。検索拡張生成(RAG)は、生成と外部検索を組み合わせることでこれらのギャップを埋める。本研究では、RAGシステムにおける速度と品質にハイパーパラメータがどのように影響するかを分析し、ChromaとFaissのベクトルストア、チャンキングポリシー、クロスエンコーダによる再ランキング、温度設定を網羅し、6つの指標(忠実性、回答の正確性、回答の関連性、コンテキストの精度、コンテキストの再現率、回答の類似性)を評価した。Chromaはクエリ処理が13%速い一方で、Faissはより高い検索精度を示し、速度と精度のトレードオフが明らかになった。小さなウィンドウと最小限のオーバーラップを用いた単純な固定長チャンキングは、セマンティックセグメンテーションを上回りながらも最も高速な選択肢であった。再ランキングは検索品質をわずかに向上させるが、実行時間を約5倍に増加させるため、その有用性はレイテンシ制約に依存する。これらの結果は、透明で最新の応答を実現するためにRAGシステムをチューニングする際に、計算コストと精度のバランスを取るための実践的な指針を提供する。最後に、修正型RAGワークフローを用いて最上位の構成を再評価し、モデルが追加の証拠を反復的に要求できる場合でもその利点が持続することを示した。ほぼ完璧なコンテキスト精度(99%)を達成し、適切なハイパーパラメータの組み合わせによりRAGシステムが極めて高い検索精度を実現できることを実証した。これは、検索品質が下流タスクの性能に直接影響する医療における臨床意思決定支援などのアプリケーションにおいて重要な意味を持つ。
マルチモーダルレビュー有用性予測(MRHP)は、特にEコマースプラットフォームにおけるレコメンダーシステムの重要なタスクです。ユーザー生成レビューの有用性を判断することは、ユーザー体験を向上させ、消費者の意思決定を改善します。しかし、既存のデータセットは主に英語とインドネシア語に焦点を当てており、特にベトナム語のような低リソース言語における言語的多様性が不足しています。本論文では、ベトナム語におけるMRHPタスクのための大規模ベンチマークデータセットであるViMRHP(Vietnamese Multimodal Review Helpfulness Prediction)を紹介します。このデータセットは4つのドメインをカバーし、2,000の製品と46,000のレビューを含んでいます。一方で、大規模なデータセットの構築には相当な時間とコストがかかります。アノテーションプロセスを最適化するために、我々はAIを活用してアノテーターを支援し、ViMRHPデータセットを構築しました。AIの支援により、アノテーション時間が短縮され(タスクあたり90~120秒から20~40秒に減少)、データ品質を維持しつつ全体のコストを約65%削減しました。しかし、複雑なアノテーションタスクにおいては、AI生成のアノテーションにはまだ限界があり、詳細なパフォーマンス分析を通じてこれをさらに検証します。ViMRHPでの実験では、人間による検証済みアノテーションとAI生成アノテーションの品質の違いを評価するために、ベースラインモデルを評価しました。ViMRHPデータセットはhttps://github.com/trng28/ViMRHPで公開されています。
WebApp1Kを紹介します。これは、テスト駆動開発(TDD)タスクにおける大規模言語モデル(LLM)の評価のための新しいベンチマークであり、テストケースがコード生成のプロンプトと検証の両方として機能します。自然言語プロンプトに依存する従来のアプローチとは異なり、このベンチマークは、LLMがテストケースから直接機能を解釈し実装する能力を重視し、実世界のソフトウェア開発手法を反映しています。20のアプリケーションドメインにわたる1000の多様な課題で構成され、このベンチマークは、コンテキスト長と多機能の複雑さの制約下で、コンパクトで機能的なコードを生成するLLMの能力を評価します。私たちの調査結果は、TDDの成功において、一般的なコーディング能力や事前学習の知識を超えて、指示の遵守と文脈内学習が重要な能力であることを強調しています。19の最先端モデルの包括的な評価を通じて、長いプロンプトでの指示の喪失などのパフォーマンスのボトルネックを明らかにし、複数の根本原因にわたる詳細なエラー分析を提供します。この研究は、TDD固有のベンチマークの実用的な価値を強調し、厳密でアプリケーション駆動のコーディングシナリオにおけるLLMの能力を進歩させるための基盤を築きます。