翻訳付きの日次キュレーションされたAI研究論文
2D拡散モデルの事前知識を3D編集に活用する手法は、有望なパラダイムとして登場しています。しかし、編集結果のマルチビュー一貫性を維持することは依然として課題であり、3D一貫性を持つ編集データの極端な不足により、編集タスクにおいて最も効果的な学習戦略である教師ありファインチューニング(SFT)の適用が困難です。本論文では、マルチビュー一貫性のある3Dコンテンツの生成は非常に困難である一方、3D一貫性の検証は扱いやすい問題であることを指摘し、この特性から強化学習(RL)が実行可能な解決策として自然に位置づけられることを示します。この観点に基づき、我々は3D基盤モデルVGGTから導出した新規報酬を用いたRL最適化による単一パスフレームワーク、RL3DEditを提案します。具体的には、VGGTが大規模実世界データから学習した頑健な事前知識を活用し、編集された画像を入力として、出力される信頼度マップと姿勢推定誤差を報酬信号として利用します。これにより、RLを介して2D編集の事前知識を3D一貫性多様体上に効果的に固定化します。大規模な実験により、RL3DEditが安定したマルチビュー一貫性を実現し、編集品質において現状最高の手法を効率的に凌駕することを実証します。3D編集技術の発展に貢献するため、コードとモデルを公開予定です。
大規模言語モデルにおける推論は、数学やコード生成、多段階の事実質問において自然に役割を果たす一方で、単純な単一段階の事実質問への影響は未解明である。こうした質問は段階的な論理的分解を必要としないため、推論の有用性は直感に反する。しかし我々は、推論を可能にすることでモデルのパラメトリック知識想起の能力限界が大幅に拡張され、本来到達不能な正答が導かれることを発見した。複雑な推論ステップが不要な場合に、なぜ推論がパラメトリック知識想起を助けるのか?この問いに答えるため、仮説主導の制御実験を設計し、二つの主要な駆動メカニズムを特定した:(1)生成された推論トークンが意味内容とは独立した潜在計算を実行する「計算バッファ効果」、(2)関連する事実を生成することが正答検索を促進する意味的橋渡し役となる「事実的プライミング」である。特に後者の生成的自己検索メカニズムは本質的リスクを伴う:推論途中で虚偽の中間事実を生成すると、最終回答における虚偽の発生確率が高まることを実証する。最後に、虚偽のない事実陈述を含む推論経路を優先することで、モデルの精度向上に我々の知見が直接活用できることを示す。
近年、マルチモーダル大規模言語モデル(MLLM)は目覚ましい進歩を遂げているが、その多くは従来の自己回帰型アーキテクチャを基盤として採用しており、効果的かつ効率的な代替アーキテクチャの設計には依然として大きな探求の余地が残されている。一方、最近の研究では離散拡散モデルが視覚理解や画像生成など様々な領域で応用され、マルチモーダルシステムの有望な基盤モデルとしての潜在能力が明らかになってきている。これらの先駆的研究に着想を得て、我々はマスクベースの離散拡散モデルを完全に採用した初のany-to-anyマルチモーダル言語モデルであるOmni-Diffusionを提案する。本モデルはテキスト、音声、画像にわたる理解と生成を統一する。Omni-Diffusionは、統一されたマスクベースの離散拡散モデルを採用し、離散化されたマルチモーダルトークンの結合分布を直接学習する。このアプローチは二モーダルタスクに加え、複数モーダルが関わるより複雑なシナリオもサポートする。多様なベンチマークにおいて、本手法は2つ以上のモーダルを処理する既存のマルチモーダルシステムを上回る、または同等の性能を示し、次世代マルチモーダル基盤モデルを支える拡散モデルの大きな可能性を浮き彫りにしている。プロジェクトWebページ: https://omni-diffusion.github.io。
自己進化は、大規模言語モデル(LLM)や視覚言語モデル(VLM)などの基盤モデルを、人間の介入を最小限に抑えながら改善する重要なパラダイムとして登場している。近年のアプローチでは、LLMエージェントがデータをほとんど、あるいは全く使わずにゼロから自己進化できることが実証されているが、VLMには視覚モダリティが追加されるため、通常、画像などの何らかのシードデータを必要とし、自己進化プロセスをブートストラップする必要がある。本研究では、VLMの推論においてゼロデータ自己進化を実現する初の強化学習ベースのフレームワークであるMM-Zeroを提案する。従来の二役(提案者と解決者)構成を超えて、MM-Zeroは、抽象的な視覚概念を生成し質問を定式化する提案者、これらの概念を実行可能なコード(Python、SVGなど)に変換して視覚画像をレンダリングするコーダー、生成された視覚コンテンツに対してマルチモーダル推論を実行する解決者という、3つの専門役割から構成される多役自己進化トレーニングフレームワークを導入する。これら3つの役割はすべて同一の基底モデルから初期化され、実行フィードバック、視覚的検証、難易度調整を統合した注意深く設計された報酬メカニズムを用いたGroup Relative Policy Optimization(GRPO)によって訓練される。実験の結果、MM-Zeroは多様なマルチモーダルベンチマークにおいてVLMの推論性能を向上させることが示された。MM-Zeroは、マルチモーダルモデルのための自己進化するマルチモデルシステムへのスケーラブルな道筋を確立し、従来の二モデルパラダイムを超えた自己改善の新たなフロンティアを拡大するものである。
理解、推論、生成、編集を統合した統一マルチモーダルモデル(UMM)は、強力な意味理解の維持と高度な生成能力の獲得の間に本質的なトレードオフを抱えている。本報告では、軽量な40億パラメータのUMMであるInternVL-Uを提案する。本モデルは統一フレームワーク内でこれらの能力を民主化する。統一的文脈モデリングと分離された視覚表現に基づくモダリティ特化のモジュラー設計という原則に基づき、InternVL-Uは最先端のマルチモーダル大規模言語モデル(MLLM)と専用のMMDiTベース視覚生成ヘッドを統合する。美的生成と高次知能の隔たりをさらに埋めるため、推論中心のパラダイムの下で、連鎖的思考(CoT)を活用して抽象的なユーザ意図と微細な視覚生成の詳細をより良く整合させることで、テキスト描画や科学的推論など高意味密度タスクを標的とした包括的データ合成パイプラインを構築した。大規模な実験により、InternVL-Uが優れた性能と効率のバランスを達成することを実証する。わずか40億パラメータのみを使用しながらも、BAGEL(140億パラメータ)など規模が3倍以上大きい統一ベースラインモデルを、様々な生成・編集タスクで一貫して凌駕し、強力なマルチモーダル理解・推論能力を保持する。
マルチモーダル大規模言語モデル(MLLM)は画像として提示されたテキストを処理できるが、同じ内容がテキストトークンとして提供された場合よりも性能が低下することが多い。我々はこの「モダリティギャップ」を体系的に診断するため、7つのMLLMを5つの入力モードで7つのベンチマークに評価し、合成レンダリングされたテキストからarXivのPDFやWikipediaページといった実世界の文書画像までを網羅的に検証した。その結果、モダリティギャップはタスクとデータに依存することが判明した。例えば数学タスクでは合成レンダリングで60ポイント以上の性能低下が見られる一方、自然な文書画像ではテキストモードの性能を匹敵または上回る場合が多い。フォントや解像度といったレンダリング選択は強力な交絡因子であり、フォントのみで最大47パーセントポイントの精度変動を引き起こす。この原因を探るため、4,000以上の事例に対するグラウンデッドセオリーに基づく誤り分析を実施した結果、画像モードでは読解エラー(計算や書式の失敗)が選択的に増幅される一方、知識や推論エラーはほぼ変化せず、一部のモデルでは視覚入力下で連鎖思考推論が崩壊する現象が観察された。これらの知見に基づき、我々は画像入力とモデル自身の純粋なテキスト推論軌跡を組み合わせた自己蒸留手法を提案する。この手法により、GSM8Kにおける画像モードの精度が30.71%から92.72%に向上し、破滅的な忘却なく未見のベンチマークへ転移可能となった。総合的に、本研究はモダリティギャップに対する体系的理解を提供するとともに、マルチモーダル言語モデルにおける視覚的テキスト理解改善への実践的な道筋を示唆するものである。
スポーツは、人間の身体的・認知的限界に挑む活動として長らく広範な関心を集めてきた。視覚言語モデル(VLM)の空間知能に対する関心が高まる中、スポーツは高強度な人間の動作と動的オブジェクト相互作用を理解するための自然な試験場を提供する。この目的に向けて、我々はスポーツシナリオに特化した初の大規模空間知能データセットであるCourtSIを提案する。CourtSIは100万以上のQAペアを含み、バドミントン、テニス、卓球などの代表的なネットスポーツにおける空間的計数、距離測定、位置特定、関係推論を体系的に網羅する統合的分類体系の下に編成されている。明確に定義されたコート幾何学を計量基準として活用し、スポーツシーンを再構築する半自動データエンジンを開発することで、CourtSIのスケーラブルな構築を実現した。さらに、厳格な人手検証を経た3,686のQAペアから構成される高品質評価ベンチマークCourtSI-Benchを導入する。25のプロプライエタリ及びオープンソースVLMをCourtSI-Benchで評価した結果、人間とAIの性能差が残存すること、既存の空間知能ベンチマークからの一般化が限定的であることが明らかになった。これらの知見は、スポーツシナリオが既存ベンチマークで捕捉されていない空間知能能力の限界を露呈することを示唆する。さらに、Qwen3-VL-8BをCourtSIでファインチューニングすると、CourtSI-Benchの精度が23.5ポイント向上した。適応されたモデルは、同様の未学習スポーツに基づく評価セットCourtSI-Extへも効果的に一般化し、空間認識を強化した解説生成能力も示した。これらの知見は総じて、CourtSIがスポーツにおけるVLMの空間知能を発展させるスケーラブルな道筋を提供することを実証している。
我々はFish Audio S2を紹介する。これはオープンソースのテキスト音声合成システムであり、マルチスピーカー対応、マルチターン生成を特徴とし、最も重要な点として自然言語記述による指示追従制御が可能である。トレーニングを効率化するため、動画キャプション生成と音声キャプション生成、音声品質評価、報酬モデリングを網羅した段階的データパイプラインと、多段階トレーニング手法を開発した。オープンソースTTSの最先端を推進するため、モデル重み、ファインチューニングコード、およびSGLangベースの推論エンジンを公開する。当推論エンジンはストリーミング対応のプロダクションレディ仕様であり、RTF 0.195、初音声出力までの待ち時間100ミリ秒未満を達成している。コードと重みはGitHub(https://github.com/fishaudio/fish-speech)とHugging Face(https://huggingface.co/fishaudio/s2-pro)で公開中。カスタム音声の体験はぜひ https://fish.audio へアクセスされたい。
視覚的に類似した画像間の微妙な差異を識別する能力は、産業異常検出、医療画像診断、空中監視など、多様な分野において不可欠である。視覚言語モデル(VLM)の比較推論ベンチマークが最近登場しているが、それらは主に大きく顕著な差異のある画像に焦点を当てており、実世界の応用で必要とされる微妙な推論を捉えられていない。本研究では、VLMの微妙な比較推論を評価するために設計されたベンチマーク「VLM-SubtleBench」を提案する。我々のベンチマークは、属性、状態、感情、時間、空間、存在、数量、質、視点、行動という10種類の差異タイプを網羅し、これらの細かなバリエーションを反映した問題-画像ペアを精選する。自然画像データセットに限定された従来のベンチマークとは異なり、本ベンチマークは産業、航空、医療画像など多様な領域にまたがる。プロプライエタリ及びオープンソースのVLMを広範に評価した結果、差異タイプや領域にわたるモデル性能と人間性能の間の体系的な隔たりを明らかにし、VLMの推論能力が急激に低下するポイントを特定する制御分析を提供する。我々のベンチマークと知見は、VLMを人間レベルの比較推論へと発展させるための基盤を確立するものである。
マルチモーダル大規模言語モデルは、非テキスト入力を適切に根拠とせず、言語的な事前知識に過度に依存する「テキスト優位性」を示すことがある。一例として、大規模音声言語モデル(LALM)では、決定的な音声証拠に重要な情報が含まれている場合でも、それが十分に活用されないことがある。この問題に対処するため、我々は機械論的解釈可能性を用い、音声注意が「聴取」信号を生み出す少数の音声特化アテンションヘッドを特定した。この信号は、音声証拠がモデルの出力に影響を与える際に増大し、標準的なプロンプト下での音声関与の指標となることを示す。この局在化を活用し、音声-無音ステアリング方向を構築し、最終表現に対して推論時の活性化介入を適用することで、モデルの音声影響効果を増幅する。この介入の有用性を実証するため、MMAUデータセットにおいて、パラメータ更新を一切行わずに、Qwenベースの2つのLALMで精度を最大+8.0ポイント向上させることを示す。
大規模言語モデル(LLM)のコード生成能力が急速に進歩する中で、人間とAIのインタラクションは静的なテキスト応答から、我々がMiniAppsと呼ぶ動的で対話的なHTMLベースのアプリケーションへと進化しつつある。これらのアプリケーションでは、モデルが視覚的インターフェースをレンダリングするだけでなく、現実世界の原理に沿ったカスタマイズされたインタラクションロジックを構築することが求められる。しかし、既存のベンチマークは主にアルゴリズムの正確性や静的なレイアウト再構成に焦点を当てており、この新たなパラダイムに必要な能力を十分に捉えられていない。このギャップを埋めるため、我々は原理駆動型の対話的アプリケーション生成を評価する初の包括的ベンチマークであるMiniAppBenchを提案する。実世界のアプリケーション(生成数1000万回以上)から抽出したMiniAppBenchは、6つのドメイン(ゲーム、科学、ツールなど)にわたる500のタスクで構成されている。さらに、単一の正解が存在しないオープンエンドなインタラクションの評価課題に対処するため、エージェント型評価フレームワークMiniAppEvalを提案する。ブラウザ自動化技術を活用し、人間のような探索的テストを実行することで、アプリケーションを意図、静的、動的の3次元にわたって体系的に評価する。実験結果から、現在のLLMは高品質なMiniAppの生成において依然として大きな課題に直面している一方で、MiniAppEvalは人間の判断と高い一致を示し、将来の研究における信頼性の高い評価基準を確立することが明らかになった。コードはgithub.com/MiniAppBenchで公開している。
音声大規模言語モデル(SLLM)は急速に発展し、多様なタスクをサポートするようになってきている。これらのモデルは通常、テキストプロンプトを用いて評価されるが、これは実際のユーザーが音声で対話する現実のシナリオを反映していない可能性がある。この隔たりを埋めるため、我々はDoWhatISay(DOWIS)を提案する。これは、既存のあらゆるベンチマークと組み合わせて、音声指示条件下でのSLLMの現実的な評価を可能にする、人間が録音した音声および文書プロンプトからなる多言語データセットである。9つのタスクと11の言語を網羅し、タスクと言語の各組み合わせに対して、5つのスタイルにわたる10種類のプロンプト変種を提供する。DOWISを用いて、我々は最先端のSLLMをベンチマークし、プロンプトのモダリティ(様式)、スタイル、言語、タスクタイプの相互関係を分析した。結果は、特に低リソース環境およびクロスリンガル環境において、テキストプロンプトが一貫して音声プロンプトを上回ることを示した。音声出力を伴うタスクに限って、音声プロンプトはこの差を縮め、SLLM評価における音声ベースのプロンプトの必要性が浮き彫りとなった。
本論文では、エージェントのプロンプトをコンパイル成果物として扱う手法であるTest-Driven AI Agent Definition(TDAD)を提案する。この手法では、エンジニアが行動仕様を提供し、コーディングエージェントがそれを実行可能なテストに変換した後、第二のコーディングエージェントがテスト合格までプロンプトを反復的に改良する。ツール利用LLMエージェントを本番環境に導入するには、現在の開発手法では達成できない測定可能な行動準拠性が求められる。わずかなプロンプト変更が検知不能な機能退行を引き起こし、ツール誤用は検出されず、ポリシー違反はデプロイ後に初めて顕在化する。仕様ゲーミングを軽減するため、TDADは3つのメカニズムを導入する:(1)コンパイル時に評価テストを非公開とする可視/非公開テスト分割、(2)コンパイル後エージェントによる妥当な欠陥プロンプト変種を生成する意味的変異テスト(テストスイートの検出能力をハーネスが計測)、(3)要件変更時の退行安全性を定量化する仕様進化シナリオ。TDADを、ポリシー準拠、根拠に基づく分析、ランブック遵守、決定的実行の4領域を網羅する詳細仕様化エージェントベンチマークSpecSuite-Coreで評価した。24回の独立試行において、TDADはv1コンパイル成功率92%(非公開テスト平均合格率97%)を達成。進化仕様では58%がコンパイル成功し、失敗実行の大半は1-2テストを除く全可視テストを通過、86-100%の変異スコア、v2非公開テスト合格率78%、退行安全性スコア97%を示した。実装はhttps://github.com/f-labs-io/tdad-paper-code でオープンベンチマークとして公開されている。
大規模事前学習拡散モデルは生成動画の品質を大幅に向上させたが、リアルタイムストリーミングへの応用は依然として限られている。自己回帰モデルは連続フレーム合成の自然な枠組みを提供するが、高精細度を達成するには膨大な計算量を要する。拡散蒸留はこれらのモデルを効率的な少数ステップ版に圧縮できるが、既存の動画蒸留手法の多くは時間的依存関係を無視した画像特化の手法を流用している。これらの技術は画像生成では優れるが、動画合成では、運動の一貫性の低下、長系列における誤差蓄積、レイテンシと品質のトレードオフが生じ、十分な性能を発揮しない。我々はこれらの制限をもたらす二要因を特定した:ステップ削減時の時間的文脈の不十分な利用、および次チャンク予測における後続ノイズレベルの暗黙的予測(すなわち、エクスポージャバイアス)である。これらの問題を解決するため、我々は既存手法と直交し、動画チャンクとノイズ除去ステップの両方にわたる時間情報をより効果的に活用する対角線蒸留(Diagonal Distillation)を提案する。本手法の中核は非対称生成戦略、すなわち初期は多ステップ、後期は少ステップで処理することである。この設計により、後続のチャンクは十分に処理された初期チャンクから豊富な外観情報を継承しつつ、部分的にノイズ除去されたチャンクを後続合成の条件入力として利用できる。チャンク生成時の後続ノイズレベルの暗黙的予測を実際の推論条件に整合させることで、誤差伝播を軽減し、長系列における過飽和を低減する。さらに、暗黙的光フローモデリングを組み込み、厳しいステップ制約下でも運動品質を維持する。本手法は5秒の動画を2.61秒(最大31 FPS)で生成し、蒸留前モデル比277.3倍の高速化を実現した。
検証可能な報酬からの強化学習(RLVR)は大規模言語モデル(LLM)の推論能力を大幅に強化するが、モデルが誤った回答に対して過度に自信過剰となる較正劣化(calibration degeneration)に深刻に悩まされている。従来研究は較正目標を既存の最適化目標に直接組み込むことに注力してきた。しかし、我々の理論分析により、方策精度の最大化と較正誤差の最小化を目指す最適化の間には根本的な勾配競合が存在することが明らかとなった。この知見に基づき、推論と較正の目標を体系的に分離する、簡潔かつ効果的なフレームワークDCPOを提案する。大規模な実験により、DCPOがGRPOと同等の精度を維持するだけでなく、最高の較正性能を達成し、過信問題を大幅に緩和することが実証された。本研究は、より信頼性の高いLLM展開のための貴重な知見と実用的な解決策を提供する。
状況認識、すなわちAIシステムが自らの性質を認識し、その訓練および展開の文脈を理解し、自身の状況について戦略的に推論する能力は、高度なAIシステムにおいて最も危険な創発能力の一つとして広く認識されている。一方で、演繹、帰納、仮説推論にわたる大規模言語モデルの論理的推論能力を向上させようとする研究の取り組みも拡大している。本論文では、これら二つの研究の軌道が衝突過程にあると論じる。我々は、論理的推論の向上が、より深い段階の状況認識を可能にする三つの機序的経路(演繹的自己推論、帰納的文脈認識、仮説推論的自己モデリング)を特定するRAISEフレームワークを提案する。各経路を形式化し、基本的な自己認識から戦略的欺瞞に至るエスカレーションラダーを構築し、LLMの論理的推論における主要な研究テーマの全てが、状況認識の特定の増幅器に直接対応することを示す。さらに、現在の安全対策がこのエスカレーションを防ぐのに不十分である理由を分析する。最後に、「鏡試験」ベンチマークと推論安全性パリティ原則を含む具体的な保護措置を提案し、論理的推論コミュニティに対して、この軌道上におけるその責任について、不快ではあるが必要不可欠な問題を提起する。
エージェントは、行動の結果を推論し、目標への接近度を示す報酬信号を最大化する行動を選択しなければならない。報酬モデルの教師あり学習は、訓練データに内在するバイアスをもたらし、新しい目標や環境への一般化を制限する可能性がある。本論文では、明確に定義された世界状態の表現のみで、領域を超えた正確な報酬予測が可能かどうかを検討する。この問題に対処するため、我々はStateFactoryを提案する。これは、言語モデルを用いて非構造化された観測を階層的なオブジェクト-属性構造に変換する、因子分解された表現手法である。この構造化された表現により、報酬は階層的制約の下で現在状態と目標状態の間の意味的類似度として自然に推定できる。全体として、StateFactoryによって導出されるコンパクトな表現構造は、強力な報酬一般化能力を可能にする。5つの多様な領域にまたがり、段階的な真の報酬を含む2,454のユニークな行動-観測軌道から構成される新しいベンチマークデータセットRewardPredictionにおいて評価を実施した。我々の手法は、VLWM-criticおよびLLM-as-a-Judge報酬モデルと比較して、有望なゼロショット結果を示し、それぞれEPIC距離を60%および8%低減した。さらに、この優れた報酬品質は、エージェントの計画性能の向上に成功裏に変換され、反応的なシステム1ポリシーと比較して、AlfWorldで+21.64%、ScienceWorldで+12.40%の成功率向上をもたらし、システム2エージェントの計画を強化した。プロジェクトページ: https://statefactory.github.io
テキストからビデオ(T2V)モデルの急速な進歩はコンテンツ制作に革命をもたらしたが、その商業的可能性は未だ十分に開拓されていない。本論文では初めて、T2Vにおけるシームレスなブランド統合の課題を提示する。これは、ユーザーの意図に対する意味的忠実性を保ちながら、プロンプト生成されたビデオに広告主のブランドを自動的に埋め込むタスクである。この課題は、プロンプト忠実性の維持、ブランド認識性の確保、文脈的に自然な統合の達成、という3つの核心的な難題に直面する。これらに対処するため、我々は**BrandFusion**を提案する。これは、相乗的な2段階から構成される新しいマルチエージェントフレームワークである。オフライン段階(広告主向け)では、モデルの事前知識を探査し、軽量なファインチューニングにより新規ブランドに適応させることで、**ブランド知識ベース**を構築する。オンライン段階(ユーザー向け)では、5つのエージェントが、共有知識ベースとリアルタイムの文脈トラッキングを活用し、反復的な改良を通じてユーザープロンプトを共同で洗練させ、ブランドの可視性と意味的整合性を保証する。複数の最先端T2Vモデルを用い、18の確立されたブランドと2つのカスタムブランドで行った実験により、BrandFusionが意味的保存、ブランド認識性、統合の自然さにおいてベースラインを大幅に上回ることを実証した。人間による評価では、より高いユーザー満足度が確認され、持続可能なT2Vの収益化に向けた実用的な道筋が確立された。
推測的デコーディングは、軽量なドラフトモデルを用いて候補トークンを提案し、それをターゲットモデルが検証する手法として、大規模言語モデル(LLM)の推論加速に有効なアプローチとして注目されている。このパラダイムの有効性は、ドラフトモデルの品質に大きく依存する。EAGLEシリーズなどの最近の進歩により最先端の高速化を実現しているものの、既存のドラフトモデルは誤差蓄積の問題に制限されている。つまり、現在のプレフィックスのみを条件とするため、ステップを重ねるごとにターゲットモデルからの予測が乖離してしまうのである。 本研究では、ConFu(Contemplate the Future)という新しい推測的デコーディングフレームワークを提案する。ConFuは、ドラフトモデルが生成の将来の方向性を予測することを可能にする。ConFuは以下を導入する:(i) ごくわずかなコストでターゲットモデルからの将来的な信号をドラフトモデルが利用できるようにする「熟考トークン」とソフトプロンプト、(ii) MoEを活用した文脈を考慮した将来予測を可能にする動的熟考トークン機構、(iii) ロバストな将来予測を学習するためのアンカートークンサンプリングと将来予測複製を含む訓練フレームワークである。 実験により、ConFuがLlama-3 3Bおよび8Bモデルを用いた様々な下流タスクにおいて、EAGLE-3と比較してトークン受理率と生成速度を8~11%向上させることが実証された。本研究は、推測的デコーディングと連続的な推論トークンを初めて結びつけたものであり、LLM推論の加速に向けた新たな方向性を提供するものと信じる。
大規模言語モデル(LLM)はコード生成に革命をもたらしたが、複雑なアルゴリズム課題に直面した際、単一のフォワードパスで解答を生成する標準的な「システム1」アプローチは、しばしば性能限界に達する。既存の反復改良戦略は推論時にこの格差を埋めようとするが、外部オラクルや実行フィードバック、計算コストの高いプロンプト-応答サイクルに依存するものが主流である。本研究では、構造化された推論軌道(初期生成、バグ・最適化を意識した内省、自己修正を含む)をモデルの重みに直接内在化する、新しい強化学習(RL)フレームワークであるReflexiCoderを提案する。従来手法と異なり、ReflexiCoderは外部依存の改良から、推論時における本質的かつ完全自律的な自己内省・自己修正能力へのパラダイム転換を図る。我々はRL-zeroトレーニングパラダイムと詳細な報酬関数を活用し、内省-修正軌道全体を最適化することで、推論時に正解フィードバックや実行エンジンに依存せずにデバッグする方法をモデルに学習させる。7つのベンチマークによる大規模実験により、我々のReflexiCoder-8Bは、1.5B-14B範囲の主要オープンソースモデルにおいて新たな最高性能(SOTA)を確立し、HumanEval (Plus)で94.51% (87.20%)、MBPP (Plus)で81.80% (78.57%)、BigCodeBenchで35.00%、LiveCodeBenchで52.21%、CodeForcesで37.34%を単一試行設定で達成し、GPT-5.1のようなプロプライエタリモデルに匹敵または凌駕することを実証した。特筆すべきは、本フレームワークがベースモデルよりも大幅にトークン効率が高く、律速された高速な推論と内省パターンを通じて、推論時の計算オーバーヘッドを約40%削減することである。ソースコードはhttps://github.com/juyongjiang/ReflexiCoder で公開されている。
大規模言語モデル(LLM)をPythonの実行トレースで学習させることで、コード実行の基盤を構築し、Pythonプログラム全体の行単位での実行予測を可能とする。これは実質的にニューラルインタプリタ(FAIR CodeGen Team et al., 2025)への転換を意味する。しかし、開発者はプログラムを段階的に実行することは稀であり、代わりにデバッガを使用して特定のブレークポイントで実行を停止し、プログラム変数を検査または修正しながら関連部分のみをステップ実行する。既存のニューラルインタプリタ手法には、このような対話的制御が欠けている。この限界に対処するため、我々はニューラルデバッガを提案する。これは従来のデバッガをエミュレートする言語モデルであり、ステップイン、ステップオーバー、ステップアウトといった操作や、特定のソース行へのブレークポイント設定をサポートする。大規模LLMのファインチューニング、または小規模モデルのスクラッチからの事前学習により獲得したニューラルデバッガが、デバッガ操作を条件として、順方向実行(将来の状態や出力の予測)と逆方向実行(過去の状態や入力の推論)の両方を確実にモデル化できることを示す。CruxEvalによる評価では、出力予測タスクと入力予測タスクの両方で高い性能を達成し、頑健な条件付き実行モデリングを実証した。本研究は、ニューラルデバッガが模擬デバッグ環境における世界モデルとして機能し、実行フィードバックを提供したり、エージェントが実際のデバッグツールと対話することを可能にする、将来のエージェント型コーディングシステムへの第一歩である。この能力は、より強力なコード生成、プログラム理解、自動デバッグの基盤を築くものである。
再帰的自己改良は理論から実践へ移行しつつある。現代のシステムは自らの出力を批判、修正、評価できるが、反復的な自己修正は微妙なアライメントドリフトを招くリスクがある。本論文では、SAHOOを提案する。これは3つの保護策を通じてドリフトを監視・制御する実用的フレームワークである:(i) 意味的、語彙的、構造的、分布的測定を組み合わせた学習型多信号検出器である目標ドリフト指数(GDI)、(ii) 構文的正確性や非虚構性といった安全上重要な不変条件を強制する制約保存チェック、(iii) 過去の改善を無効にする改良サイクルを警告する回帰リスク定量化。コード生成、数学的推論、真実性における189のタスクにおいて、SAHOOはコードタスクで18.3%、推論タスクで16.8%の大幅な品質向上をもたらし、2つの領域で制約を保持し、真実性において低い違反率を維持した。閾値は、3サイクルにわたる18タスクの小規模検証セットで較正されている。さらに、能力とアライメントのフロンティアをマッピングし、初期の効率的な改良サイクルと後期の上昇するアライメントコストを明らかにするとともに、流暢性と正確性といった領域特異的な緊張関係を曝露している。したがって、SAHOOは再帰的自己改良におけるアライメント保持を、測定可能、展開可能、かつ体系的に大規模検証可能なものとする。
状態空間モデルの実装は、通常CUDAとTritonカーネルの融合に結びついており、NVIDIAハードウェアへの強固な依存性を引き継いでいる。我々は、Mamba-2の状態空間二重性アルゴリズム——対角状態構造、チャンク化可能な再帰、静的制御フローを伴うeinsum主体の計算——が、XLAの融合とタイリングパスが実際に最適化する対象にきれいにマッピングされ、カスタムカーネルを必須ではなくオプションにすることを示す。我々は、手書きのカーネルなしで、完全な推論パス(プリフィル、キャッシュされた自己回帰復号)をXLA下での形状付き標準プリミティブとして実装し、生成中のホスト同期を必要としないコンパイル済みオンデバイスキャッシュとして、このアーキテクチャの理論的なO(1)状態管理を実現する。この実装は、単一のJAXソースから、CPU、NVIDIA GPU、Google Cloud TPU上で変更なしに動作する。5つのモデル規模(1億3000万~27億パラメータ)にわたるTPU v6eでは、XLAが生成したコードは、シングルストリームプリフィルで約140 TFLOPS(15% MFU)に達し、復号時には最大64%の帯域幅利用率を示す。貪欲復号は、64ステップにわたってPyTorch/CUDAリファレンスとトークンレベルで一致し、隠れ状態の一致はfloat32の丸め誤差範囲内である。このパターンは、同じ構造条件を満たす任意のSSM再帰に転移可能であり、成熟したXLAバックエンドを備えた任意のプラットフォームで動作する。実装はhttps://github.com/CosmoNaught/mamba2-jax で公開されており、Bonsai JAXモデルライブラリにマージされている。
視覚言語モデル(VLM)の近年の進歩は、驚異的なゼロショット能力を示しているものの、これらのモデルを専門領域に適応させることは依然として重要な課題である。独立に訓練されたVLMが正準変換によって関連付けられるという最近の理論的知見を基盤として、我々はこの理解を「領域」の概念に拡張する。異なる領域に跨る画像特徴量は、少数のアンカーを用いて回復可能な正準化された幾何学的変換によって関連付けられると仮説を立てる。少数ショット分類は、限られたラベル付きサンプルがこの変換を推定するために必要なアンカーとして機能するため、このアラインメントにとって自然な設定を提供する。この仮説に動機付けられて、我々はBiCLIPを提案する。これは、クロスモーダルなアラインメントを強化するためにマルチモーダル特徴量に特定の変換を適用するフレームワークである。本手法は、その極めて高い簡潔さと少ないパラメータ数を特徴とする。EuroSAT、DTD、FGVCAircraftを含む11の標準ベンチマークによる広範な評価を通じて、BiCLIPが一貫してState-of-the-Artの結果を達成することを実証する。さらに、学習された変換の直交性と角度分布を分析することで、既存の幾何学的知見を実証的に検証し、構造化されたアラインメントがロバストな領域適応の鍵であることを確認する。コードはhttps://github.com/QuantitativeImagingLaboratory/BilinearCLIP で公開されている。
カシミール語は約700万人によって話されているが、公式の地位と豊かな言語的遺産にもかかわらず、音声技術におけるサポートは著しく不十分である。堅牢なテキスト音声合成(TTS)システムの欠如は、ネイティブスピーカーにおけるデジタルアクセシビリティと包括的な人間とコンピュータの相互作用を制限している。本研究では、カシミール語向けに設計された初めての専用オープンソースニューラルTTSシステムを提案する。インド系言語向けに訓練されたゼロショット多言語ベースラインは、ペルソ・アラビア文字のダイアクリティカルマークと言語特有の音韻規則の不適切なモデリングが主な原因で、理解可能な音声を生成できず、平均オピニオンスコア(MOS)はわずか1.86であることを示す。これらの制限に対処するため、Matcha-TTSフレームワーク内で最適輸送条件付きフローマッチング(OT-CFM)に基づく教師付き言語間適応戦略であるBolboshを提案する。これにより、限られたペアデータ下での安定したアライメントが可能となる。さらに、残響除去、無音部分トリミング、ラウドネス正規化から構成される3段階の音響強調パイプラインを導入し、異種音声ソースを統一してアライメント学習を安定化させる。モデルの語彙を拡張し、カシミール語の書記素を明示的に符号化することで、細かい母音の区別を保持する。本システムはMOS 3.63、メルケプストラム歪み(MCD)3.73を達成し、多言語ベースラインを大幅に上回り、カシミール語音声合成の新たなベンチマークを確立した。我々の結果は、ダイアクリティカルマークに敏感な言語における低リソースTTSには、文字体系を考慮した教師付きフローベースの適応が重要であることを示す。コードとデータは以下で公開されている:https://github.com/gaash-lab/Bolbosh。
本論文では、適応統計モデルによって生成される確率推定を改善するためのマイクロ拡散デノイジング層を導入した、ロスレス圧縮システム「Midicoth」を提案する。Prediction by Partial Matching (PPM) などの圧縮器では、スパースな観測値を扱うために、確率推定は事前分布によって平滑化される。文脈が少数回しか観測されていない場合、この事前分布が予測を支配し、真のソース分布よりも著しく平坦な分布を生成するため、圧縮効率の低下を招く。Midicothは、事前平滑化を収縮過程として扱い、経験的キャリブレーション統計を用いて予測確率を補正する逆デノイジングステップを適用することで、この制限に対処する。この補正をデータ効率的に行うため、本手法は各バイト予測を、ビット単位の木に沿った二値決定の階層に分解する。これにより、単一の256値キャリブレーション問題を一連の二値キャリブレーション課題に変換し、比較的少数の観測から補正項を確実に推定することを可能にする。デノイジングプロセスは複数の連続ステップで適用され、各段階が前の段階で残された残留予測誤差を精緻化する。マイクロ拡散層は、全てのモデル予測が結合された後に適用される軽量なポストブレンドキャリブレーション段階として機能し、最終確率分布の系統的バイアスを補正する。Midicothは、適応PPMモデル、長距離マッチングモデル、トライベースの単語モデル、高次文脈モデル、および最終段階として適用されるマイクロ拡散デノイザーの、5つの完全オンラインコンポーネントを統合する。
連想記憶は長らく系列モデルの設計を支えてきた。しかし、人間の推論は想起を超え、未来状態を予測し目標指向の行動を選択するものであり、これは現代の言語モデルが強く求めながらも本質的に備えていない能力である。従来研究では強化学習やテスト時訓練が用いられてきたが、計画機能はモデル構造の外部に留まっていた。本研究では推論を最適制御問題として定式化し、テスト時制御(TTC)層を提案する。TTC層は推論時に潜在状態に対して有限時間LQR計画を実行し、ニューラル構造内に価値関数を表現し、これを予測前の計画を可能にする入れ子目的関数として活用する。拡張性を確保するため、シンプレクティック定式化に基づくハードウェア効率の良いLQRソルバーを導出し、オーバーヘッドを最小化した融合CUDAカーネルとして実装することで並列実行を可能にした。事前学習済み大規模言語モデルにアダプタとして統合されたTTC層は、MATH-500で最大27.8%の数学推論性能向上、AMCとAIMEではPass@8で2~3倍の改善を示し、最適制御を構造的構成要素として組み込むことが、テスト時訓練を超えた推論のための効果的かつ拡張性の高いメカニズムを提供することを実証した。
オンザフライカテゴリ発見(OCD)は、ラベル付きデータのみで学習されたモデルを用いて、ラベルなしのオンラインストリームから既知のカテゴリを認識すると同時に新規のカテゴリを発見することを目的とする。既存手法では、オフラインで学習した特徴抽出器を固定し、特徴量をクラスプロトタイプとしてバイナリコードに量子化するハッシュベースのフレームワークを採用している。しかし、固定された知識ベースで新規カテゴリを発見することは直観に反する。なぜなら、入力データの学習可能性が完全に無視されるからである。さらに、特徴量子化は情報損失を引き起こし、表現力の低下やクラス内分散の増大を招く。これにより、単一のクラスが複数の擬似クラスに分割される「カテゴリ爆発」が頻繁に生じる。これらの限界を克服するため、本論文では「発見を通じた学習」を可能にするテスト時適応フレームワークを提案する。このフレームワークは、意味情報を考慮したプロトタイプ更新と、安定したテスト時エンコーダ更新という二つの相補的な戦略を組み込んでいる。前者は分類性能を向上させるためにクラスプロトタイプを動的に洗練し、後者は新規情報を直接パラメータ空間に統合する。これらの構成要素により、モデルは新たに遭遇するサンプルを用いて知識ベースを継続的に拡張できる。さらに、オフライン学習段階においてマージン考慮型ロジット較正を導入し、クラス間マージンを拡大するとともにクラス内のコンパクト性を向上させることで、将来のクラス発見のための埋め込み空間を確保する。標準的なOCDベンチマークによる実験により、提案手法が既存のハッシュベースの最先端手法を大幅に上回り、新規クラス認識精度の顕著な改善とカテゴリ爆発の効果的な抑制を実現することを示す。コードは blue{https://github.com/ynanwu/TALON} で公開されている。
誰もが自由形式のテキストで物語を書くことができます——これは学校教育で誰もが学ぶことです。しかし、ビデオを通じたストーリーテリングには、専門的で複雑なツールの習得が必要です。本論文では、生成的なビデオ制作のためのテキスト主導型インターフェース「Doki」を紹介します。Dokiは、ビデオ制作をテキストを書くという自然なプロセスに沿って行えるようにします。Dokiでは、テキストを書くことが主要な操作です:単一のドキュメント内で、ユーザーはアセットを定義し、シーンの構造を決め、ショットを作成し、編集を調整し、音声を追加できます。我々はこのテキストファーストアプローチの設計原則を明確にし、一連の事例を通じてDokiの機能を実証します。実世界での使用を評価するため、ビデオ制作の経験値が異なる参加者を対象に1週間の実地調査を実施しました。本研究は、生成ビデオインターフェースにおける根本的な転換をもたらし、視覚的物語を制作するための強力でアクセスしやすい新たな方法を提示します。
大規模言語モデルにおける長文脈推論は、復号化段階におけるKey-Value(KV)キャッシュの読み込みがボトルネックとなっている。生成処理の逐次的な性質により、各ステップでオフチップの高帯域幅メモリ(HBM)からオンチップのスタティックRAM(SRAM)へKVキャッシュを繰り返し転送する必要がある。Multi-Head Latent Attention(MLA)はKVキャッシュの総容量を大幅に削減するが、テンソル並列化(TP)を用いた分散復号化時にシャーディングのボトルネックが生じる。単一の潜在ヘッドは分割できないため、各デバイスはトークン毎に完全なKVキャッシュを冗長に読み込むことを強制され、メモリトラフィックを過剰に消費し、重みのシャーディングのようなTPの利点を減じている。本研究では、分割可能な潜在状態を実現し効率的な4方向TP復号化を可能とするMulti-Head Low-Rank Attention(MLRA)を提案する。大規模な実験により、MLRAが最先端のパープレキシティと下流タスクの性能を達成するとともに、MLAと比較して2.8倍の復号化速度向上を実現することを示す。コードはhttps://github.com/SongtaoLiu0823/MLRA で公開されている。事前学習済み重み、および学習と評価のデータは https://huggingface.co/Soughing/MLRA で利用可能である。