翻訳付きの日次キュレーションされたAI研究論文
階層的推論モデル(HRM)は、異なる周波数で再帰する2つの小さなニューラルネットワークを使用する新しいアプローチである。この生物学的に着想を得た手法は、数独、迷路、ARC-AGIなどの難解なパズルタスクにおいて、大規模言語モデル(LLMs)を上回る性能を示し、しかも小さなモデル(2700万パラメータ)と少量のデータ(約1000例)で訓練されている。HRMは、小さなネットワークで難解な問題を解決する可能性を大きく秘めているが、まだ十分に理解されておらず、最適ではない可能性がある。我々は、Tiny Recursive Model(TRM)を提案する。これは、HRMよりもはるかに単純な再帰的推論アプローチであり、わずか2層の極小ネットワークを使用しながら、HRMを大幅に上回る汎化性能を達成する。わずか700万パラメータで、TRMはARC-AGI-1で45%、ARC-AGI-2で8%のテスト精度を達成し、ほとんどのLLMs(例:Deepseek R1、o3-mini、Gemini 2.5 Pro)を上回り、しかもそのパラメータ数の0.01%未満で実現している。
アウトカム駆動型強化学習は大規模言語モデル(LLM)における推論を進化させてきたが、現在主流のツール拡張アプローチでは、単一のモノリシックなポリシーを訓練し、完全なコンテキスト下で思考とツール呼び出しを交互に行う。この方法は、長い時間軸や多様なツールに対してスケーラビリティが低く、新しいシナリオへの汎化能力も弱い。エージェントシステムは、専門化されたモジュール間で作業を分解する有望な代替手段を提供するが、ほとんどのシステムは訓練不要であるか、多ターンインタラクションの動的な環境から切り離されたオフライン訓練に依存している。本論文では、進化するメモリを通じて4つのモジュール(プランナー、エグゼキューター、検証器、ジェネレーター)を調整し、多ターンループ内でプランナーを直接最適化する訓練可能なイン・ザ・フロー型エージェントフレームワーク「AgentFlow」を提案する。ライブ環境でのオン・ポリシー訓練のために、多ターン最適化を一連の扱いやすい単一ターンのポリシー更新に変換することで、長い時間軸とスパースな報酬のクレジット割り当てを解決する「Flow-based Group Refined Policy Optimization(Flow-GRPO)」を提案する。これは、検証可能な単一の軌跡レベルのアウトカムを各ターンにブロードキャストし、ローカルなプランナー決定をグローバルな成功と整合させ、グループ正規化されたアドバンテージで学習を安定化する。10のベンチマークにおいて、7Bスケールのバックボーンを持つAgentFlowは、検索タスクで14.9%、エージェントタスクで14.0%、数学タスクで14.5%、科学タスクで4.1%の平均精度向上を達成し、GPT-4oのような大規模なプロプライエタリモデルを凌駕した。さらに、イン・ザ・フロー最適化の利点を確認する分析を行い、計画の改善、ツール呼び出しの信頼性向上、モデルサイズと推論ターンに対するポジティブなスケーリングを示した。
ツール統合型推論は、エージェント型アプリケーションを実現するための重要な焦点として浮上している。その中でも、DeepResearchエージェントは、複雑で開放的な情報探索タスクにおける高いパフォーマンスで注目を集めている。本稿では、Fathom-DeepResearchを紹介する。これは、2つの専門化されたモデルで構成されるエージェントシステムである。1つ目はFathom-Search-4Bで、Qwen3-4Bを基に訓練されたDeepSearchモデルであり、ライブウェブ検索とターゲットウェブページクエリを通じた証拠に基づく調査に最適化されている。その訓練には、以下の3つの進展が組み込まれている:(i) DUETQA、これはマルチエージェントの自己対戦を通じて生成された5Kサンプルのデータセットであり、厳格なウェブ検索依存性と異種ソースの根拠付けを強化する;(ii) RAPO、これはGRPOのゼロオーバーヘッド拡張であり、カリキュラムプルーニング、報酬認識型アドバンテージスケーリング、およびプロンプトごとのリプレイバッファを通じて、検証可能な報酬を用いたマルチターン強化学習を安定化する;(iii) ステップレベルの報酬を操縦可能にし、各ツール呼び出しを認知行動と限界効用によって分類し、検索軌跡の幅、深さ、および視野を明示的に制御する。これらの改善により、必要に応じてツール呼び出しを20回以上に拡張することが可能となる。2つ目はFathom-Synthesizer-4Bで、Qwen3-4Bを基に訓練され、マルチターンのDeepSearchトレースを構造化された引用密度の高いDeepResearchレポートに変換し、包括的な統合を実現する。DeepSearchベンチマーク(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue)およびDeepResearch-Benchで評価された結果、本システムはオープンウェイトカテゴリーにおいて最先端のパフォーマンスを達成し、HLE、AIME-25、GPQA-Diamond、MedQAなどの多様な推論タスクへの強い汎化能力を示した。
プロセス報酬モデル(PRM)は、大規模推論モデル(LRM)の推論能力を強化するための強力なフレームワークとして最近注目を集めており、特にテストタイムスケーリング(TTS)の文脈でその有用性が示されている。しかし、表形式の推論領域におけるLRMの監督ツールとしての潜在能力はまだ十分に探求されていない。詳細な実証分析を通じて、既存のPRMがテキストのみの推論ステップの監督には広く採用されているものの、サブテーブルの検索やスキーマの相互作用といった表固有の操作に苦戦し、重要な性能のボトルネックを引き起こしていることが明らかとなった。この制約を克服するため、我々はTaTTooという新しい表に基づくPRMフレームワークを提案する。TaTTooは、(i) 表形式の推論ステップを明示的に推論し、(ii) ツールベースの検証を統合して正確な報酬監督を提供する。具体的には、まず、表検証の理論的根拠とツールベースの実行を統合することで、60,000以上の高品質なステップレベルのアノテーションを構築するスケーラブルなデータキュレーションパイプラインを設計した。収集したデータに基づき、TaTTooを二段階のパラダイムで訓練する。第一段階では、ツール使用の推論パターンを捉えるためのコールドスタートの教師ありファインチューニングを行い、第二段階では、ツールに基づく報酬形成を用いた強化学習を行い、表ベースの検証にモデルを適合させる。我々は、新たに設計したPRMによって誘発されるポリシー改善を包括的に評価する。数値推論、ファクトチェック、データ分析をカバーする5つの挑戦的な表形式推論ベンチマークにおいて、TaTTooは推論時に下流のポリシーLRMを30.9%改善し、8BパラメータのみでQwen-2.5-Math-PRM-72Bのような強力なPRMベースラインを上回り、多様なTTS戦略にわたる強い汎化能力を示した。
自己回帰型(AR)大規模言語モデル(LLMs)は、幅広い自然言語タスクにおいて顕著な性能を達成してきたが、その内在的な逐次デコードが推論効率を制限している。本研究では、事前学習済みARモデルを並列テキスト生成のための拡散言語モデル(dLLM)に効率的に適応させるFast-dLLM v2を提案する。これは、Dream(580Bトークン)のような完全注意拡散LLMと比較して、トレーニングデータを500分の1に削減しつつ、元のモデルの性能を維持するものである。我々のアプローチでは、ブロック拡散メカニズムと補完的な注意マスクを組み合わせた新しいトレーニングレシピを導入し、ARトレーニング目標を犠牲にすることなく、ブロック単位の双方向コンテキストモデリングを可能にする。さらに、デコードを加速するために、階層的なキャッシュメカニズムを設計した:ブロックレベルキャッシュはブロック間の履歴コンテキスト表現を保存し、サブブロックキャッシュは部分的にデコードされたブロック内での効率的な並列生成を可能にする。並列デコードパイプラインと組み合わせることで、Fast-dLLM v2は生成品質を損なうことなく、標準的なARデコードに対して最大2.5倍の高速化を実現する。多様なベンチマークでの広範な実験により、Fast-dLLM v2は精度においてARベースラインに匹敵またはそれを上回り、dLLMの中で最先端の効率を提供することが示された。これは、高速かつ正確なLLMの実用的な展開に向けた重要な一歩である。コードとモデルは公開される予定である。
拡散言語モデルは、自己回帰型コーダーが持たない双方向コンテキストと穴埋め能力を約束しますが、実用的なシステムは依然として重いままです。私たちは、TPUでトレーニングされ、完全にオープンソースのトレーニングパイプラインを持つ1.7Bパラメータの拡散コーダーであるCoDAを紹介します。CoDAは、大規模な拡散事前トレーニングとコード中心の中間トレーニング、および指示チューニングを組み合わせ、推論遅延を競争力のあるレベルに保つ信頼度ガイド付きサンプリングを可能にします。Humaneval、MBPP、およびEvalPlusにおいて、CoDA-1.7B-Instructは7Bパラメータまでの拡散モデルに匹敵またはそれを上回ります。私たちのリリースには、軽量な拡散ベースのコーディングアシスタントの研究を加速するためのモデルチェックポイント、評価ハーネス、およびTPUトレーニングパイプラインが含まれています。
拡散モデルやフローベースの非自己回帰(NAR)モデルは、大規模言語モデリングにおいて強い可能性を示していますが、自動音声認識(ASR)への応用はまだほとんど検討されていません。本論文では、ASRのための効率的な並列デコーディングを可能にする離散フローマッチングフレームワーク「Drax」を提案します。トレーニングと推論の整合性を高めるため、直接的なランダムノイズからターゲットへの遷移ではなく、推論時に起こり得る中間的なエラーに似た軌跡をモデルに案内する、音声条件付き確率経路を構築しました。理論的分析により、一般化ギャップがトレーニングと推論の占有率の差異に起因し、累積速度誤差によって制御されることを示し、この設計選択の動機付けを行いました。実験的評価では、本手法が最先端の音声モデルと同等の認識精度を達成しつつ、精度と効率性のトレードオフを改善できることを示し、離散フローマッチングがNAR ASRを進展させる有望な方向性であることを明らかにしました。
推論モデルは、問題を段階的に処理し、サブ問題に分解し、長い思考の連鎖を探索することで性能を向上させます。しかし、すべてのステップに拡張された推論を適用することは、サブ問題の難易度と複雑さが大きく異なるため、大幅な冗長性を引き起こします。少数の重要なステップが真に困難で最終的な答えに決定的である一方、他の多くのステップは単純な修正や簡単な計算に過ぎません。したがって、自然な考え方は、推論モデルにこの変動に適応的に応答する能力を与えることであり、すべてのステップを同じレベルの詳細さで扱うのではなく、適応的に調整することです。この目的のために、我々はMixReasoningを提案します。これは、単一の応答内で推論の深さを動的に調整するフレームワークです。その結果、思考の連鎖は、困難なステップに対する詳細な推論と、より単純なステップに対する簡潔な推論の混合物となります。GSM8K、MATH-500、およびAIMEでの実験により、MixReasoningが推論の長さを短縮し、精度を損なうことなく効率を大幅に向上させることが示されました。
推論能力は、大規模言語モデル(LLMs)が複雑なタスクを解決する上で極めて重要であるが、信頼性と拡張性のある推論を実現することは依然として課題である。Chain-of-Thought(CoT)プロンプティングは主流のアプローチとなっているが、既存の手法では生成の制御不能、品質の不足、推論経路の多様性の限界といった問題がしばしば見られる。最近の研究では、実行可能なステップに基づいて推論を強化するためにコードを活用しているが、そのような手法は通常、事前に定義された数学的問題に限定されており、拡張性と汎用性が妨げられている。本研究では、Caco(Code-Assisted Chain-of-ThOught)という新しいフレームワークを提案する。これは、コード駆動の拡張を通じて、高品質で検証可能かつ多様な命令-CoT推論データの合成を自動化するものである。従来の研究とは異なり、Cacoはまず、既存の数学およびプログラミングの解法を統一されたコード形式でコードベースのCoT生成器にファインチューニングし、その後、多様な推論トレースを大量に生成する。特に、コード実行とルールベースのフィルタリングによる自動検証を導入し、論理的正確性と構造的多様性を保証した上で、フィルタリングされた出力を自然言語の命令と言語CoTに逆変換し、タスク適応性を高める。この閉ループプロセスにより、実行可能性が保証された推論データの完全自動化かつ拡張可能な合成が可能となる。作成したCaco-1.3Mデータセットを用いた実験では、Cacoでトレーニングされたモデルが数学的推論ベンチマークで強力な競争力を発揮し、既存の強力なベースラインを上回る結果を示した。さらに分析を行った結果、Cacoのコードに基づく検証と命令の多様性が、未見のタスクに対する優れた汎化性能に寄与していることが明らかとなった。本研究は、人間の介入なしに自立した信頼性の高い推論システムを構築するためのパラダイムを確立するものである。
大規模言語モデル(LLM)は、シングルターンのテキストからSQLへのタスクにおいて顕著な性能を発揮しているが、現実世界のデータベースアプリケーションでは、曖昧なクエリの処理、実行エラー、および変化するユーザー要件に対応するために、主にマルチターンのインタラクションが必要とされる。既存のマルチターナーベンチマークは、会話履歴を静的なコンテキストとして扱うか、読み取り専用操作に評価を限定しており、本番環境レベルのデータベースアシスタントの課題を反映できていない。本論文では、BIRD-INTERACTを紹介する。このベンチマークは、以下の点を通じて現実性を回復する:(1)各データベースを階層的な知識ベース、メタデータファイル、および関数駆動型ユーザーシミュレータと結合した包括的なインタラクション環境を提供し、モデルが人間の監督なしに明確化を求め、知識を取得し、エラーから回復できるようにする;(2)事前定義された会話プロトコル(c-Interact)と、モデルがユーザーシミュレータにクエリを送信するか環境を探索するかを自律的に決定するオープンエンドのエージェント設定(a-Interact)の2つの評価設定;(3)ビジネスインテリジェンスおよび運用ユースケースのための完全なCRUDスペクトラムをカバーする挑戦的なタスクスイートで、実行可能なテストケースによって保護されている。各タスクには、動的なインタラクションを必要とする曖昧なサブタスクとフォローアップタスクが含まれる。このスイートは、包括的なパフォーマンス評価のためのBIRD-INTERACT-FULL(600タスク、最大11,796インタラクション)と、詳細な行動分析と迅速なメソッド開発のためのBIRD-INTERACT-LITE(簡略化されたデータベースを持つ300タスク)で構成される。我々の実証結果は、BIRD-INTERACTの難易度を強調している:GPT-5はc-Interactで8.67%、a-Interactで17.00%のタスクしか完了できない。メモリグラフトとインタラクションテストタイムスケーリングによる分析は、複雑で動的なテキストからSQLへのタスクにおいて、効果的なインタラクションの重要性を検証する。
ビデオ条件付き4D形状生成は、入力ビデオから直接、時間的に変化する3Dジオメトリと視点整合性のある外観を復元することを目的としています。本研究では、ビデオから単一の動的3D表現をエンドツーエンドで合成するネイティブなビデオ-to-4D形状生成フレームワークを提案します。我々のフレームワークは、大規模な事前学習済み3Dモデルに基づく3つの主要なコンポーネントを導入します:(i) すべてのフレームに基づいて生成を条件付けながら、時間インデックス付きの動的表現を生成する時間的注意機構、(ii) 時間的に一貫したジオメトリとテクスチャを促進する時間認識ポイントサンプリングと4D潜在アンカリング、(iii) 時間的安定性を向上させるためのフレーム間でのノイズ共有。我々の手法は、非剛体運動、体積変化、さらには位相的遷移を正確に捉え、フレームごとの最適化を必要としません。多様な実世界のビデオにおいて、我々の手法はベースラインと比較して堅牢性と知覚的忠実度を向上させ、失敗モードを減少させます。
近年の大規模言語モデル(LLM)の事後学習手法は、強化学習(RL)中のトークンレベルのクリッピングメカニズムに依存している。しかし、我々はこの結果監視型強化学習(OSRL)パラダイムにおける根本的な欠陥を特定した:正のアドバンテージを持つトークンの重要度サンプリング(IS)比率が不整合であり、正と負のトークンに対する重み付けが不均衡になる。この不整合は、低確率のトークンの更新を抑制し、既に高確率のトークンを過剰に増幅する。これを解決するため、我々は非対称重要度サンプリングポリシー最適化(ASPO)を提案する。ASPOは、正のアドバンテージを持つトークンのIS比率を反転させるというシンプルかつ効果的な戦略を用いて、それらの更新方向を負のトークンの学習ダイナミクスと整合させる。さらに、ASPOは極端な更新を安定化しつつ勾配の流れを維持するためのソフトデュアルクリッピングメカニズムを組み込んでいる。コーディングおよび数学的推論のベンチマークにおける包括的な実験により、ASPOが早期収束を大幅に緩和し、学習の安定性を向上させ、強力なGRPOベースのベースラインを上回る最終性能を達成することが示された。我々の分析は、OSRLにおけるトークンレベルの重み付けの役割に関する新たな洞察を提供し、LLM RLにおけるISの修正の重要性を強調している。ASPOのコードとモデルはhttps://github.com/wizard-III/Archer2.0で公開されている。
学術論文の普及は、研究の可視性を高める重要な手段となっている。しかし、既存の自動化手法は、ストーリーテリングの限界、美的品質の不足、自己調整の制約といった課題に直面しており、効率的で魅力的な情報発信を実現することが難しい。これらの課題の核心には、評価が正しく行われなければ改善ができないという単純な原則がある。この問題に対処するため、我々はEvoPresentを提案する。これは、一貫したナラティブ、美的意識のあるデザイン、仮想キャラクターによる現実的なプレゼンテーションを統合した自己改善エージェントフレームワークである。EvoPresentの中核となるのはPresAesthであり、これはマルチタスク強化学習(RL)に基づく美的モデルであり、信頼性のある美的スコアリング、欠陥調整、比較フィードバックを提供し、限られた美的トレーニングデータ下でも反復的な自己改善を可能にする。手法を体系的に評価するため、我々はEvoPresent Benchmarkを導入した。これは、650のトップクラスのAI会議論文に基づくマルチモーダルリソース(スライド、動画、スクリプト)を用いて内容とデザインの両方を評価する「プレゼンテーション生成品質」と、異なる美的レベルを持つ2,000組のスライドペアから構成される「美的意識」を含む包括的なベンチマークであり、スコアリング、欠陥調整、比較に関する共同トレーニングと評価をサポートする。我々の研究結果は以下の点を強調している:(i) エージェントの自己改善には高品質なフィードバックが不可欠であり、初期能力だけでは効果的な自己修正を保証できない。(ii) 自動生成パイプラインは、視覚デザインと内容構築の間にトレードオフを示す。(iii) マルチタスクRLトレーニングは、美的意識タスクにおいてより強い汎化性能を示す。
近年の生成医療モデルの進展は、モダリティ固有のシナリオに制約されており、画像、病理、臨床ノートからの補完的な証拠の統合を妨げています。この断片化により、生物医学データの全スペクトルにわたって学習し推論する基盤モデルへの進化が制限されています。本研究では、モダリティ固有のコンポーネントなしにモダリティ間で共有分布を学習する初の医療離散拡散モデルであるMeDiMを提案します。MeDiMは、画像とテキスト間の翻訳、およびプロンプトに応じたドメイン横断的な画像-レポートペアの共同生成といった複数の生成タスクを統合します。離散拡散フレームワークに基づいて構築されたMeDiMは、共有確率空間を通じて視覚と言語表現を橋渡しします。統一された柔軟な医療生成を可能にするため、マルチモーダル大規模言語モデル(MLLM)を拡散バックボーンとして採用し、その事前知識とクロスモーダル推論を活用します。2つの主要な設計が導入されています:(1)双方向コンテキストのための因果的注意マスクの除去、(2)拡散認識のための連続タイムステップ埋め込みの注入。実験では、高忠実度の医療生成(MIMIC-CXRでのFID 16.60、PathGenでのFID 24.19)と正確なレポート生成(METEOR 0.2650および0.2580)が実証されました。共同生成された画像-レポートペアは、下流のパフォーマンスをさらに向上させ(BLEU-1で6.43%、BLEU-2で18.57%、BLEU-3で31.58%、METEORで4.80%の向上)、MeDiMが一貫性があり臨床的に根拠のあるマルチモーダル出力をサポートすることを示しています。
マルチモーダル大規模言語モデル(MLLMs)は、視覚的知覚と自然言語理解を統合することで、最近、放射線学において顕著な進展を遂げている。しかし、これらのモデルはしばしば臨床的に裏付けられていない記述、いわゆる「医療的幻覚」を生成し、正確性と画像に基づいた出力を要求する医療応用において重大なリスクを引き起こす。実証分析を通じて、プロンプト誘発性の幻覚が放射線学MLLMsにおいて依然として広く見られることが明らかとなった。これは主に、臨床セクションに対する過敏性に起因している。この問題に対処するため、我々はClinical Contrastive Decoding(CCD)を導入する。これは、タスク固有の放射線学専門家モデルから構造化された臨床信号を統合する、トレーニング不要かつ検索不要の推論フレームワークである。CCDは、生成中のトークンレベルのロジットを洗練するための二段階のコントラスティブメカニズムを導入し、ベースMLLMを変更することなく臨床的信頼性を向上させる。3つのデータセットと複数のモデルを用いた実験により、CCDが放射線学レポート生成(RRG)において一貫して全体的な性能を向上させることが示された。MIMIC-CXRデータセットでは、最先端のRRGモデルに適用した場合、RadGraph-F1において最大17%の改善が見られた。我々のアプローチは、医療的幻覚を軽減するための軽量で汎用的な解決策を提供し、放射線学における専門家モデルとMLLMsを効果的に橋渡しする。
我々はOneFlowを提案する。これは、可変長かつ並列的なマルチモーダル生成を可能にする初の非自己回帰型マルチモーダルモデルである。テキストと画像生成の間に厳密な因果順序を強制する自己回帰モデルとは異なり、OneFlowは離散的なテキストトークンのための挿入ベースのEdit Flowと画像潜在変数のためのFlow Matchingを組み合わせている。OneFlowは、文法よりも内容を優先する階層的サンプリングにより、テキストと画像の並列合成を実現する。1Bから8Bまでのモデルサイズにわたる制御実験を通じて、OneFlowが生成タスクと理解タスクの両方において自己回帰ベースラインを上回り、最大50%少ない訓練FLOPsを使用することを示す。OneFlowは自己回帰型と拡散ベースのアプローチの両方を凌駕し、並列生成、反復的洗練、自然な推論のような生成といった新たな能力を解き放つ。
文脈内推論の重要な要素は、言語モデル(LM)がエンティティを後で検索できるように結合する能力です。例えば、LMは「アンはパイが好き」という文を「アン」と「パイ」を結合して表現し、「パイが好きなのは誰?」と尋ねられた際に「アン」を検索できるようにします。これまでの研究では、結合されたエンティティの短いリストにおいて、LMが位置ベースのメカニズムを用いて検索を行う強い証拠が見つかっています。このメカニズムでは、「アン」は文脈内での位置に基づいて検索されます。本研究では、このメカニズムがより複雑な設定ではうまく一般化しないことを明らかにしました。文脈内の結合エンティティの数が増えると、位置ベースのメカニズムは中間の位置でノイズが多くなり、信頼性が低下します。これを補うため、LMは位置ベースのメカニズムに加えて、語彙ベースのメカニズム(「パイ」という結合された対応物を用いて「アン」を検索)および反射的メカニズム(直接のポインタを通じて「アン」を検索)を補完的に使用することがわかりました。9つのモデルと10の結合タスクを用いた広範な実験を通じて、LMがこれらのメカニズムを組み合わせてモデルの振る舞いを駆動する一貫したパターンを明らかにしました。これらの知見を活用し、3つのメカニズムを組み合わせた因果モデルを開発し、次のトークンの分布を95%の一致率で推定することに成功しました。最後に、このモデルがエンティティグループが散りばめられたより長いオープンエンドのテキスト入力にも一般化できることを示し、より自然な設定での発見の頑健性をさらに実証しました。全体として、本研究はLMが文脈内でエンティティを結合および検索する方法についてより完全な理解を確立するものです。
大規模言語モデル(LLM)をテキストエンコーダとして訓練するための主流の手法は、モデルをブラックボックス関数として扱い、その生成能力や推論能力を捨てて静的な埋め込みを優先するコントラスティブ損失に依存している。本論文では、GRACE(Generative Representation Learning via Contrastive Policy Optimization)という新しいフレームワークを提案する。GRACEでは、コントラスティブ信号を最小化すべき損失ではなく、生成ポリシーを導く報酬として再解釈する。GRACEにおいて、LLMは、その意味理解を構造化された自然言語で説明する明示的で人間が解釈可能な根拠(rationales)を生成するポリシーとして機能する。これらの根拠は、平均プーリングを介して高品質な埋め込みにエンコードされる。ポリシー勾配最適化を用いて、クエリとポジティブペアの類似性を最大化し、ネガティブペアとの類似性を最小化する多成分報酬関数でモデルを訓練する。これにより、LLMは不透明なエンコーダから、推論プロセスが透明で検査可能な解釈可能なエージェントへと変容する。MTEBベンチマークにおいて、GRACEは幅広いカテゴリーで改善をもたらす:4つのバックボーンにわたる平均で、教師あり設定ではベースモデルに対して全体スコアが11.5%向上し、教師なしバリアントでは6.9%の向上を達成しつつ、一般的な能力を維持している。本論文は、コントラスティブ目標を根拠に対する報酬として扱い、表現学習と生成を統合することで、より強力な埋め込みと透明な根拠を生成する。モデル、データ、コードはhttps://github.com/GasolSun36/GRACEで公開されている。
本論文では、カジュアルに撮影された単眼動画から、世界座標系におけるオンライン4Dヒューマン・シーン再構成を実現する統合的なフィードフォワードフレームワーク「Human3R」を提案する。従来の手法は、多段階のパイプライン、人間とシーン間の反復的な接触認識に基づくリファインメント、人間検出、深度推定、SLAM前処理などの重い依存関係に依存していたが、Human3Rは、グローバルな複数人のSMPL-Xボディ(「全員」)、密な3Dシーン(「全領域」)、およびカメラ軌跡を単一のフォワードパスで同時に復元する(「一括処理」)。本手法は、4Dオンライン再構成モデルCUT3Rを基盤とし、パラメータ効率の良い視覚的プロンプトチューニングを用いることで、CUT3Rの豊かな時空間事前情報を維持しつつ、複数のSMPL-Xボディを直接読み取ることを可能にする。Human3Rは、重い依存関係と反復的なリファインメントを排除した統合モデルである。比較的小規模な合成データセットBEDLAMでわずか1日、1つのGPUで学習した後、リアルタイム速度(15 FPS)と低メモリ使用量(8 GB)で、複数の人間と3Dシーンをワンショットで再構成する優れた性能と効率を達成する。広範な実験により、Human3Rが、グローバルな人間の動き推定、ローカルな人間メッシュ復元、動画深度推定、カメラポーズ推定などのタスクにおいて、単一の統合モデルで最先端または競争力のある性能を発揮することが示されている。Human3Rが、シンプルでありながら強力なベースラインとして機能し、下流アプリケーションに容易に拡張されることを期待する。コードはhttps://fanegg.github.io/Human3Rで公開されている。
現代の自然言語処理モデルは前例のない規模を達成しているが、その評価ツールはしばしば計算上のボトルネックとなり、研究のペースを制限している。これは特に、強化学習における文単位の報酬信号など、トレーニング中の評価指標において顕著であり、GPU上でトークンIDのバッチに対して効率的に動作する必要がある。本論文では、この特定のユースケースのためにゼロから設計されたBLEUメトリックの新しい実装であるTensorBLEUを紹介する。我々のアプローチは、PyTorch内でのGPU加速による文単位の計算のために完全にベクトル化されており、メモリ効率の良いカウント機構を導入している。torch.uniqueを使用してn-gramのコンパクトなバッチ固有の辞書を作成することで、従来のハッシュベースのベクトル化に伴う膨大なメモリコストを回避し、大規模語彙モデルにおいて実用的なものとしている。我々は、CPU上でのトークンIDベースのBLEU計算の標準ライブラリであるNLTKに対してTensorBLEUをベンチマークした。実験結果は、TensorBLEUがコンシューマーグレードのGPU(NVIDIA T4)で13倍以上、データセンタークラスのハードウェア(NVIDIA A100)で40倍以上の高速化を提供することを示している。この性能により、重要なボトルネックがトレーニングループにおいて無視できる部分に変わる。開発目的の「トークンID BLEU」としての役割を明確に定義し、実装をオープンソース化することで、RLベースのモデルファインチューニングなどの分野における研究を加速する強力なツールを提供する。
文脈内ランキング(ICR)は、情報検索(IR)における新たなパラダイムであり、LLM(大規模言語モデル)の文脈理解を活用して、タスクの説明、候補文書、およびクエリを直接モデルの入力プロンプトに組み込み、LLMに適切な文書を特定させるものです。この手法は有効ですが、特に候補リストが増加するにつれて、注意機構の計算量が二次的または超線形的に増加するため、効率性が大きな課題となっています。この問題に対処するため、本論文ではまず、ICR用にファインチューニングされたLLMの注意機構に内在する構造を特定します:(1)文書間ブロックスパース性:各文書ブロック内では注意が密であるが、異なる文書間では疎であること、(2)クエリ-文書ブロック関連性:中間層における特定のクエリトークンから文書ブロックへの注意スコアが、その文書の実際の関連性と強く相関することです。これらの観察に基づき、我々はBlockRank(ブロックワイズ文脈内ランキング)を提案します。これは、(a)観察された文書間ブロックスパース性をアーキテクチャ的に強制し、性能を損なうことなく注意の計算量を二次的から線形に削減し、(b)補助的なコントラスティブ学習目的を用いて、ファインチューニング中に真の関連文書に対するクエリ-文書ブロック関連性を最適化し、注意機構における検索性能を向上させる新しい手法です。BEIR、MSMarco、およびNQにおけるMistral-7Bを用いた実験では、FLARE Mistralが既存のSOTAリストワイズランカーや制御されたファインチューニングベースラインと同等またはそれ以上の性能を示し、推論時の効率性が大幅に向上(100件のMSMarco文書に対して4.7倍)し、長文脈のショートリスト(約500件の文書、約10万トークンの文脈長)においても1秒以内にスケーラブルに動作することが確認されました。これにより、ICRのためのスケーラブルで効果的なソリューションが提示されています。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化するための強力なパラダイムであるが、その成功は効果的な探索戦略にかかっている。理想的な探索戦略は、サンプルの品質を維持しつつ、トレーニングの安定性を確保するという2つの基本的な課題に対処しなければならない。標準的な固定温度サンプリングはシンプルであるが、これらの相反する要求をバランスするのに苦労する。なぜなら、高温ではサンプルの品質が低下し、低温では発見が制限されるからである。本研究では、探索がシーケンスの意味的な方向性を定義する初期のトークンに最も影響を与えるという洞察に基づき、よりシンプルで効果的な戦略である「探索的アニーリングデコーディング(EAD)」を提案する。EADは、生成中にサンプリング温度を高温から低温へとアニーリングすることで、**初期に探索し、終盤に活用する**という直感的な戦略を実装する。この動的なスケジュールは、最初に意味のある高レベルの多様性を促進し、その後、温度を徐々に下げてサンプルの品質を維持し、サンプリング分布をターゲットポリシーに近づけることで、安定したトレーニングに不可欠な条件を満たす。EADは軽量でプラグアンドプレイ可能な方法であり、様々なRLVRアルゴリズムやモデルサイズにおいて、固定温度サンプリングを一貫して上回るサンプル効率の向上を実証する。本研究は、探索を逐次生成の自然なダイナミクスに合わせることが、LLMの推論を改善するための堅牢な道筋を提供することを示唆している。
多段階推論能力を備えた大規模推論モデル(LRMs)は、顕著な問題解決能力を示す一方で、十分に理解されていない深刻な安全性の脆弱性を露呈している。本研究では、メカニズム解釈の観点から、推論モデルにおける安全性アライメントが失敗する理由を調査する。トークン位置にわたる拒否意図を追跡するための線形プローブ手法を用いて、我々は「拒否の崖(refusal cliff)」と呼ばれる顕著な現象を発見した。多くの不十分にアライメントされた推論モデルは、有害なプロンプトを正しく識別し、思考プロセス中に強い拒否意図を維持するが、出力生成直前の最終トークンにおいて拒否スコアが急激に低下する。これは、これらのモデルが本質的に安全でないのではなく、拒否意図が体系的に抑制されていることを示唆している。因果介入分析を通じて、我々は拒否行動に負の影響を与える疎なアテンションヘッドのセットを特定した。これらのヘッドのわずか3%を除去するだけで、攻撃成功率を10%未満に低減できる。これらのメカニズム的洞察に基づき、我々は「Cliff-as-a-Judge」という新しいデータ選択手法を提案する。この手法は、最大の拒否の崖を示すトレーニング例を特定し、推論モデルの安全性アライメントを効率的に修復する。このアプローチは、従来の安全性トレーニングデータのわずか1.7%を使用して同等の安全性向上を達成し、安全性アライメントにおける「少ないほど良い(less-is-more)」効果を実証している。
物理世界を正確なシミュレーション対応の仮想環境にデジタル化することは、拡張現実(AR)や仮想現実(VR)、ゲーム、ロボティクスなど、さまざまな分野において重要な機会を提供します。しかし、現在の3D再構成およびシーン理解手法は、幾何学的完全性、オブジェクトのインタラクティブ性、物理的な妥当性、フォトリアリスティックなレンダリング、信頼性のある動的シミュレーションのための現実的な物理特性といった重要な側面の一つまたは複数において、しばしば不十分です。これらの制限に対処するため、我々はHoloSceneを紹介します。これは、これらの要件を同時に達成する新しいインタラクティブな3D再構成フレームワークです。HoloSceneは、オブジェクトの幾何学、外観、物理特性に加えて、階層的およびオブジェクト間の関係をエンコードする包括的なインタラクティブなシーングラフ表現を活用します。再構成は、観測データ、物理的制約、生成的な事前情報を統合した一貫した目的関数として、エネルギーに基づく最適化問題として定式化されます。最適化は、サンプリングベースの探索と勾配ベースの洗練を組み合わせたハイブリッドアプローチにより効率的に実行されます。結果として得られるデジタルツインは、完全で精密な幾何学、物理的安定性、新規視点からの現実的なレンダリングを特徴とします。複数のベンチマークデータセットで実施された評価は、優れた性能を示しており、インタラクティブゲームやリアルタイムデジタルツイン操作における実用的なユースケースは、HoloSceneの幅広い適用性と有効性を実証しています。プロジェクトページ: https://xiahongchi.github.io/HoloScene.
大規模言語モデル(LLM)は、幅広いタスクにおいて印象的な能力を示すが、その成功が真の推論によるものか、洗練された記憶によるものかは依然として不明である。本論文では、AInsteinというフレームワークを紹介する。これは、LLMが事前学習されたパラメトリック知識のみを使用して、ドメイン固有のファインチューニング、検索拡張、その他の外部支援なしに、AI研究問題に対する有効な解決策を生成できるかどうかをテストするものである。我々のアプローチでは、ICLR 2025の高品質な投稿から蒸留された問題文を抽出し、専門のソルバーエージェントに技術的解決策を提案させ、反復的な批判ループを通じて洗練させる。これは、科学的探究の中核である提案、レビュー、修正のサイクルを模倣するものである。AInsteinを、採択層(Oral、Spotlight、Poster)ごとに層別化した1,214件のICLR論文で評価し、構造化されたルーブリックに基づくLLM-as-a-judgeパラダイムを使用し、ターゲットを絞った手動チェックを補完する。評価は、成功率(解決策が問題に対処しているか?)、再発見(人間が提案した手法と一致するか?)、新規性(有効でオリジナルのアプローチを生み出すか?)の3つの指標で行う。結果は、LLMが実行可能な解決策を再発見し、時には創造的な代替案を提案できる一方で、その問題解決能力は脆弱で、フレーミングに非常に敏感であることを明らかにした。これらの発見は、LLMが自律的な科学的問題解決者としてどの程度機能し得るかについての初めての大規模な証拠を提供し、その潜在的可能性と現在の限界を浮き彫りにするものである。
トレーニング不要の高速化は、拡散モデルに基づくビデオ生成における先進的な研究領域として登場しています。拡散モデルの推論における潜在変数の冗長性は、高速化の自然な突破口を提供します。本論文では、推論プロセスをエンコード、ノイズ除去、デコードの3段階に分解し、キャッシュベースの高速化手法が後者の2段階で大幅なメモリ増加を引き起こすことが多いことを観察しました。この問題に対処するため、異なる段階における推論の特性を分析し、メモリ消費を削減するための段階特化戦略を提案します:1) 非同期キャッシュスワッピング 2) 特徴チャンク化 3) 潜在変数のスライスによるデコード。同時に、これら3つの戦略によって導入される時間オーバーヘッドが、高速化による利益自体を下回ることを保証します。ベースラインと比較して、私たちのアプローチはより高速な推論速度と低いメモリ使用量を実現しつつ、品質劣化を許容範囲内に維持します。コードはhttps://github.com/NKUShaw/LightCacheで公開されています。
直接選好最適化(Direct Preference Optimization, DPO)は、大規模言語モデルの整合性を高めるためのシンプルかつ効果的な手法として登場した。しかし、固定された温度パラメータに依存するため、多様な選好データに対する学習が最適ではなくなり、容易な事例に過剰適合し、有益な事例から十分に学習できないという問題が生じる。これに対処するため、最近ではいくつかの手法が提案されている。IPOは一般的な過剰適合に対処するが、その均一な正則化は過度に保守的である場合がある。よりターゲットを絞ったアプローチであるbeta-DPOも独自の限界を抱えている:バッチレベルの適応は混合マージンのペアに対して単一の妥協的な温度を適用し、線形更新ルールは不安定な負のベータ値を生成する可能性があり、フィルタリング機構は潜在的に有用な学習信号を捨ててしまう。本研究では、安定性を保ち、データを保存し、インスタンスレベルで解決を提供する手法であるマージン適応型直接選好最適化(Margin-Adaptive Direct Preference Optimization, MADPO)を提案する。MADPOは実用的な2段階アプローチを採用している:まず選好マージンを推定するための報酬モデルを学習し、次にこれらのマージンを使用して、個々の訓練サンプルに対してDPO損失に連続的かつ適応的な重みを適用する。この再重み付けスキームにより、難しいペアに対しては効果的なターゲットマージンが増幅され、容易なペアに対しては減衰されるため、学習信号に対する細かな制御が可能となる。我々は包括的な理論分析を提供し、MADPOが良好な最適化ランドスケープを持ち、報酬モデルの推定誤差に対して頑健であることを証明する。感情生成タスクにおける実験を通じて理論を検証し、MADPOが品質の異なるデータセットにおいて強力なベースラインを一貫して大幅に上回ることを示す。最高品質のデータでは次善の手法に対して最大+33.3%、低品質のデータでは+10.5%の性能向上を達成する。これらの結果から、MADPOが選好整合性に対するより頑健で原理的なアプローチであることが確立された。
均衡マッチング(Equilibrium Matching: EqM)を紹介する。これは均衡ダイナミクスの視点から構築された生成モデリングフレームワークである。EqMは、従来の拡散モデルやフローベース生成モデルにおける非平衡・時間条件付きダイナミクスを捨て、代わりに暗黙のエネルギーランドスケープの均衡勾配を学習する。このアプローチにより、推論時には最適化ベースのサンプリングプロセスを採用できる。ここでは、学習されたランドスケープ上で調整可能なステップサイズ、適応型オプティマイザ、適応型計算を用いた勾配降下によってサンプルが得られる。EqMは、拡散/フローモデルの生成性能を経験的に上回り、ImageNet 256×256においてFID 1.90を達成した。EqMは理論的にもデータ多様体からの学習とサンプリングが正当化されている。生成だけでなく、EqMは部分的にノイズがかかった画像のノイズ除去、OOD検出、画像合成などのタスクを自然に扱える柔軟なフレームワークでもある。時間条件付き速度を統一された均衡ランドスケープに置き換えることで、EqMはフローモデルとエネルギーベースモデル間のより密接な架け橋を提供し、最適化駆動型推論へのシンプルな道筋を示す。
大規模言語モデルは科学アシスタントとしての可能性を秘めているが、既存のエージェントはアルゴリズム進化のみに依存するか、あるいは孤立した深い研究に頼るかのいずれかであり、いずれも重大な限界に直面している。AlphaEvolveのような純粋なアルゴリズム進化は、大規模言語モデルの内部知識のみに依存し、複雑な領域ではすぐに頭打ちになる。一方、純粋な深い研究は検証なしにアイデアを提案するため、非現実的または実現不可能な解決策を生み出す。本論文では、深い研究とアルゴリズム進化を統合したエージェントであるDeepEvolveを紹介する。DeepEvolveは、外部知識の検索、クロスファイルのコード編集、およびフィードバック駆動型の反復ループの下での体系的なデバッグを統合する。各反復では、新しい仮説を提案するだけでなく、それらを洗練し、実装し、テストすることで、浅い改善や非生産的な過剰な洗練を回避する。化学、数学、生物学、材料、特許の9つのベンチマークにおいて、DeepEvolveは一貫して初期アルゴリズムを改善し、持続的な利益をもたらす実行可能な新しいアルゴリズムを生成する。無指導の進化と根拠のない研究の間のギャップを埋めることで、DeepEvolveは科学的アルゴリズム発見を進めるための信頼性の高いフレームワークを提供する。私たちのコードはhttps://github.com/liugangcode/deepevolveで公開されている。
RAG(Retrieval-Augmented Generation)システムやウェブエージェントは、マルチホップの深層検索タスクにおいてますます評価されるようになっているが、現在の実践には2つの大きな課題がある。第一に、ほとんどのベンチマークでは質問テキストに推論パスが漏洩しており、モデルが表面的な手がかりを追うだけで、自律的に推論チェーンを発見することができなくなっている。第二に、評価は通常単一の正答率に還元されており、多様な振る舞いを1つのスコアに集約してしまうため、失敗が不十分な検索、知識の不適切な利用、または不適切な拒否のいずれに起因するのかが不明瞭になっている。これらの課題に対処するため、我々はWebDetectiveを提案する。これは、ヒントのないマルチホップ質問と、モデルの行動の完全な追跡可能性を保証する制御されたWikipediaサンドボックスを組み合わせたベンチマークであり、検索の十分性、知識の利用、拒否行動を分離した包括的な評価フレームワークを提供する。25の最先端モデルを評価した結果、すべてのアーキテクチャにわたって体系的な弱点が明らかになった:モデルは十分な証拠があるにもかかわらず知識の利用に苦戦し、証拠が不足している場合には適切な拒否がほとんど見られなかった。これらのパターンは、今日のシステムが与えられた推論パスを実行するのは得意だが、それらを発見する必要がある場合には失敗するという根本的なギャップを露呈している。我々は、ベンチマークが特定した課題に明示的に対処するエージェント型ワークフローEvidenceLoopを開発し、検証ループと体系的な証拠追跡を組み込むことで、検索と合成の両方の能力を向上させた。このベースラインは、WebDetectiveの診断フレームワークが具体的なアーキテクチャの改善を導くことができることを示しており、パターン追従型エージェントではなく、真に自律的な推論システムを開発するための重要なツールとして我々のベンチマークを確立している。
既存のエゴセントリックビジョン理解のためのベンチマークの多くは、主に昼間のシナリオに焦点を当てており、実世界のアプリケーションで避けられない低照度条件を見落としています。このギャップを調査するため、我々は夜間のエゴセントリックビジョンにおける最初の包括的なベンチマークであるEgoNightを提示し、視覚的質問応答(VQA)を中核タスクとします。EgoNightの主な特徴は、昼と夜のアラインメントされたビデオの導入であり、昼間のデータを使用して夜間のアノテーション品質を向上させ、照明条件間の明確な性能差を明らかにします。これを実現するため、Blenderでレンダリングされた合成ビデオと実世界の記録の両方を収集し、シーンとアクションが視覚的および時間的にアラインメントされるようにします。これらのペアビデオを活用し、新規の昼間補強夜間自動ラベリングエンジンと広範な人間による検証を通じて精緻化されたEgoNight-VQAを構築します。各QAペアは信頼性のためにアノテーターによって二重チェックされます。EgoNight-VQAは、90のビデオにわたる3658のQAペアを含み、12の多様なQAタイプをカバーし、300時間以上の人間の作業を要します。最先端のマルチモーダル大規模言語モデル(MLLM)の評価では、昼から夜への転移時に大幅な性能低下が明らかになり、低照度条件下での推論の課題が浮き彫りになります。VQAを超えて、EgoNightは昼夜対応検索と夜間のエゴセントリック深度推定という2つの補助タスクも導入し、既存モデルの限界をさらに探ります。我々は、EgoNight-VQAがアプリケーション駆動型のエゴセントリックビジョン研究を推進し、照明領域を横断して一般化するモデルを開発するための強固な基盤を提供すると信じています。すべてのデータとコードは受理後に公開されます。
医療などの機密性の高い領域における自律型AIエージェントの導入は、安全性、セキュリティ、プライバシーに重大なリスクをもたらします。これらのエージェントは、ユーザーの目的から逸脱したり、データ処理ポリシーに違反したり、敵対的攻撃によって侵害されたりする可能性があります。こうした危険を軽減するためには、エージェントの行動が事前に定義された安全制約に準拠していることを正式に保証するメカニズムが必要であり、これは既存のシステムでは完全に対応できていない課題です。本論文では、VeriGuardという新しいフレームワークを紹介します。このフレームワークは、堅牢で検証可能な正確性を実現するための二段階アーキテクチャを通じて、LLMベースのエージェントに正式な安全性保証を提供します。最初のオフライン段階では、包括的な検証プロセスが行われます。まず、ユーザーの意図を明確化して正確な安全仕様を確立します。その後、VeriGuardは行動ポリシーを合成し、テストと正式な検証を実施して、これらの仕様に準拠していることを証明します。この反復プロセスにより、ポリシーが正しいと判断されるまで洗練されます。続く第二段階では、オンラインでの行動監視が行われ、VeriGuardは実行前に各提案されたエージェントの行動を事前に検証済みのポリシーに対して検証するランタイムモニターとして機能します。このように、徹底的なオフライン検証と軽量なオンラインモニタリングを分離することで、正式な保証を実用的に適用することが可能になり、LLMエージェントの信頼性を大幅に向上させる堅牢な保護を提供します。
感情支援対話(ESC)は、対話を通じて心理的ストレスを軽減し、情緒的価値を提供する上で重要な役割を果たす。近年の研究では、データ拡張や合成コーパスの構築に焦点が当てられることが多いが、効果的な感情支援を支える深層的な認知推論プロセスがしばしば見過ごされている。この課題に対処するため、我々は大規模な合成データに依存せずにESCにおける推論を強化する新たなフレームワーク、CAREを提案する。CAREは、元のESCトレーニングセットを活用し、論理的に一貫した支援的な応答を生成するようモデルを導くことで、認知推論を明示的に強化する。この基盤をさらに発展させ、強化学習を用いて推論プロセスを洗練・強化する。実験結果は、CAREが応答の論理的整合性と支援的品質を大幅に向上させ、共感的で認知的に堅牢かつ人間らしい感情支援システムの開発を推進することを示している。
大規模言語モデルの効率的な展開において、学習後の量子化が広く採用されている一方で、量子化の頑健性を支えるメカニズムは未だ明らかではない。本研究では、最大32Bパラメータと15T学習トークンに及ぶオープンソース言語モデルの学習軌跡における量子化劣化を包括的に分析し、学習ダイナミクスと量子化性能の関係を正確に評価した。主な発見として、大規模学習における量子化誤差は、学習率とその他の学習ハイパーパラメータの複雑な相互作用によって駆動されることが明らかになった。具体的には、学習率が減衰すると、検証損失と量子化誤差が乖離し、これは学習データの規模にほぼ依存しない。学習ダイナミクスに対する介入を調査し、量子化の頑健性を有利に調整できる特定の構成を特定するため、制御された実験環境で最大100Bトークンまでの独自モデルを学習した。その結果、データセット規模の増大が本質的に量子化の有効性を損なうという仮定に疑問を投げかけ、戦略的な学習ハイパーパラメータの介入が大規模な量子化品質を向上させ得ることを実証した。
Referring Video Object Segmentation (RVOS) は、自然言語の記述に基づいてビデオ内の特定のオブジェクトをセグメント化することを要求する。RVOSの核心的な課題は、抽象的な言語概念を特定のピクセル群にアンカーし、ビデオの複雑なダイナミクスを通じてそれらを継続的にセグメント化することである。この難題に直面し、従来の研究ではタスクを実用的な「位置特定→セグメント化」のパイプラインに分解することが多かった。しかし、このカスケード設計は、セマンティクスを粗い幾何学的プロンプト(例:点)に単純化することで情報ボトルネックを生み出し、セグメント化プロセスが初期の言語接地から切り離されるため、時間的一貫性を維持するのに苦労する。これらの根本的な限界を克服するため、我々はFlowRVSを提案する。これは、RVOSを条件付き連続フロー問題として再概念化する新しいフレームワークである。これにより、事前学習済みのT2Vモデルの強み、細かいピクセル制御、テキストとビデオの意味的整合性、時間的整合性を活用することが可能となる。従来のノイズからマスクを生成する方法や直接マスクを予測する方法ではなく、ビデオの全体的な表現からターゲットマスクへの言語誘導変形を直接学習することでタスクを再定式化する。我々のワンステージの生成的アプローチは、主要なRVOSベンチマーク全てで新たな最先端の結果を達成した。具体的には、MeViSでJ&F 51.1(従来のSOTAから+1.6)、ゼロショットのRef-DAVIS17で73.3(+2.7)を達成し、ビデオ理解タスクを連続変形プロセスとしてモデル化することの大きな可能性を示した。
大規模言語モデル(LLMs)は、一見もっともらしいが事実上誤った記述を生成する「幻覚(hallucination)」を起こしやすい。本研究では、この失敗モードの内在的・構造的な起源を、以下の三つの主要な貢献を通じて探求する。第一に、内部的な意味論的失敗を確実に追跡するため、分布意味論(distributional semantics)としての意味を文脈の関数として扱い、モデルの推論の因果関係マップを生成するために確立された解釈可能性技術を統合した統一フレームワークである「分布意味論追跡(Distributional Semantics Tracing, DST)」を提案する。第二に、幻覚が不可避となるモデルの層を特定し、モデルの内部表現が事実性から不可逆的に乖離する特定の「コミットメント層(commitment layer)」を明らかにする。第三に、これらの失敗の根本的なメカニズムを特定する。我々は、異なる計算経路間の衝突を観察し、これを二重過程理論(dual-process theory)の視点から解釈する。すなわち、高速でヒューリスティックな連想経路(System 1に類似)と、低速で慎重な文脈経路(System 2に類似)の間の衝突が、「推論ショートカットハイジャック(Reasoning Shortcut Hijacks)」などの予測可能な失敗モードを引き起こすことを示す。我々のフレームワークは、文脈経路の一貫性を定量化する能力を持ち、幻覚発生率との強い負の相関(rho = -0.863)を明らかにし、これらの失敗が内部的な意味論的弱さの予測可能な結果であることを示唆する。その結果、Transformerアーキテクチャ内で幻覚がどのように、いつ、なぜ発生するかについてのメカニズム的説明が得られる。
ガウス過程(GP)回帰は、エネルギーとその原子座標に関する微分を評価する回数を減らすことで、高次元エネルギー面上での鞍点探索を加速する戦略を提供します。しかし、ハイパーパラメータ最適化における計算オーバーヘッドが大きくなり、このアプローチが非効率になる場合があります。また、探索がGPモデルで十分に表現されていない領域に深入りすると、失敗が発生することもあります。ここでは、幾何学的に最適な輸送尺度と、最遠点サンプリングにおける各原子タイプのWasserstein-1距離の総和を用いた能動的プルーニング戦略を使用することで、これらの課題を解決します。これにより、GP更新のコストが観測数とともに急速に増加するのを防ぐために、幾何学的に多様な構成の固定サイズサブセットを選択します。安定性は、順列不変なメトリックによって早期停止のための信頼できる信頼半径を提供し、信号分散の増大に対する対数障壁ペナルティを課すことで強化されます。これらの物理的に動機付けられたアルゴリズムの変更は、以前に公開された化学反応のデータセットから得られた238の困難な構成において、平均計算時間を半分以下に削減することでその有効性を証明します。これらの改善により、エネルギーと原子力を評価するのに多大な計算労力を要する場合において、GPアプローチは鞍点探索を加速するための堅牢でスケーラブルなアルゴリズムとして確立されました。
視覚言語モデル(VLMs)は通常、短いテキストウィンドウ(<77トークン)で事前学習されるため、長文キャプションの切り捨てが強制されます。しかし、大規模なオープンソース文献から得られる生物医学キャプションの分布を分析すると、77トークンを大幅に超えるキャプションが多数存在することが明らかになりました。この問題に対処するため、我々はVLMsのテキストエンコーダのコンテキスト長を拡張し、長文生物医学キャプションに対する事前学習の影響を調査しました。その結果、より長いコンテキスト(つまり、長文キャプションに含まれる追加の教師信号)が、検索および分類性能の向上と相関することがわかりました。この知見に基づき、我々はBIOMEDICA-LongCAPを導入しました。これは、全文記事から得られたコンテキストを考慮した記述を追加した100万の画像キャプションペアからなるデータセットであり、より長く、追加のテキスト教師信号を提供します。BIOMEDICA-LongCAPを使用して、最大512トークンのウィンドウをサポートするテキストエンコーダを備えた長文コンテキスト生物医学VLMであるBMC-LongCLIPを学習しました。我々のモデルはコンテキスト容量を6.6倍に拡張し、トークンの無駄を55%からわずか2.2%に削減しました。長文キャプション検索ベンチマークにおいて、BMC-LongCLIPはRecall@1で最大+30%の絶対的な向上を達成し、分類においても平均+2%の改善を示しました。さらに、短いコンテキストよりも高速に収束しました。これらの結果は、長文コンテキストモデリングが生物医学VLMsを進歩させるための有望な方向性であることを示しています。
現実世界での大規模言語モデルの展開(例えば、会話型AIシステムやコード生成アシスタント)では、ユーザーが改良、修正、表明された選好を通じてより良い回答を目指す過程で、暗黙的なユーザー不満(DSAT)信号が自然に大量に生成されます。一方で、明示的な満足度(SAT)フィードバックは希少です。既存の選好学習アプローチは、このデータプロファイルにうまく適合していません。なぜなら、それらは高コストな人間のアノテーションに依存しているか、豊富な肯定的な応答を前提としているからです。本論文では、DRIFT(Dissatisfaction-Refined Iterative preFerence Training)を紹介します。DRIFTは、現実世界のDSAT信号に基づいてトレーニングをアンカーし、進化するポリシーから動的にポジティブサンプルを抽出します。実証的に、DRIFTモデルは、現実世界のWildFeedbackデータセットと合成のUltraFeedbackデータセットでトレーニングされ、WildBenchタスクスコアで最大+6.23%(7B)/ +7.61%(14B)、AlpacaEval2勝率で最大+8.95%(7B)/ +12.29%(14B)を達成し、反復DPOやSPINなどの強力なベースラインメソッドを上回ります。大規模なスケールでは、改善が特に顕著です:DRIFTでトレーニングされた14Bモデルは、WildBenchでGPT-4o-miniを凌駕します。さらなる分析により、DRIFTは探索能力を保持し、狭いサブセットに崩壊するのではなく、多様な高報酬ソリューションを生み出すことが示されています。理論的には、この設計が選好マージンを保持し、勾配の退化を回避することを示します。これらの結果は、DRIFTが最も豊富で有益な信号を活用する現実世界のポストトレーニングのための効果的でスケーラブルなレシピであることを示しています。コードとデータはhttps://github.com/cacayaya/DRIFT.gitで利用可能です。
コードデータが大規模言語モデル(LLM)の推論能力を向上させることが示されていますが、コードのどの側面が最も影響を与えているかは不明です。本研究では、この疑問を体系的でデータ中心のフレームワークを用いて調査します。10のプログラミング言語で並列の指示データセットを構築し、コードの構造的または意味的特性を選択的に破壊する制御された摂動を適用します。その後、5つのモデルファミリーと8つのスケールのLLMを各バリアントでファインチューニングし、自然言語、数学、コードタスクにおける性能を評価します。3,331の実験を通じて、LLMが特に数学とコードタスクにおいて、意味的摂動よりも構造的摂動に対して脆弱であることが明らかになりました。擬似コードやフローチャートなどの適切な抽象化は、コードと同様に効果的であり、同じ情報をより少ないトークンでエンコードし、元の構文に従わない場合でも性能を維持または向上させることが多いです。注目すべきは、誤った信号を含む破損したコードでも、表層的な規則性が維持されている場合には競争力を保つことです。最後に、構文スタイルもタスク固有の利得を形成し、Pythonは自然言語推論に有利であり、JavaやRustなどの低レベル言語は数学に有利です。本体系的なフレームワークを通じて、コードの異なる特性が推論にどのように影響するかを明らかにし、LLMの推論能力を向上させるためのトレーニングデータの設計に役立つ知見を提供することを目指します。
機械学習モデルの性能は、訓練データに大きく依存します。大規模で適切に注釈付けされたデータセットの不足は、堅牢なモデルの作成において重大な課題となっています。この問題に対処するため、シミュレーションや生成モデルを通じて生成された合成データが有望な解決策として登場し、データセットの多様性を高め、モデルの性能、信頼性、および耐性を向上させています。しかし、生成されたデータの品質を評価するには、効果的な指標が必要です。本論文では、モデルの訓練を収束させることなく、物体検出タスクにおけるデータ品質を評価するための合成データセット品質指標(Synthetic Dataset Quality Metric, SDQM)を提案します。この指標により、リソースが制約された物体検出タスクにおいて、合成データセットの生成と選択がより効率的に行えるようになります。実験では、SDQMは主要な物体検出モデルであるYOLOv11の平均精度(mAP)スコアと強い相関を示し、従来の指標では中程度または弱い相関しか見られなかったのに対し、顕著な改善が見られました。さらに、SDQMはデータセット品質の向上に役立つ実践的な洞察を提供し、コストのかかる反復的な訓練の必要性を最小限に抑えます。このスケーラブルで効率的な指標は、合成データの評価において新たな基準を確立します。SDQMのコードはhttps://github.com/ayushzenith/SDQMで公開されています。
深層学習モデルによる自動コード認識(ACR)は、徐々に有望な認識精度を達成してきたが、依然として2つの主要な課題が残されている。第一に、従来の研究は主に音声ドメインのACRに焦点を当てており、記号音楽(例:楽譜)のACRはデータ不足のため限定的な注目しか集めていない。第二に、既存の手法は、人間の音楽分析実践に沿った戦略をまだ十分に考慮していない。これらの課題に対処するため、我々は2つの貢献を行う:(1)POP909-CLを導入する。これは、テンポに合わせた内容と、コード、ビート、キー、拍子の人間による修正ラベルを備えたPOP909データセットの拡張版である。(2)BACHIを提案する。これは、タスクを異なる決定ステップ、すなわち境界検出とコードルート、クオリティ、ベース(転回)の反復的ランキングに分解する記号コード認識モデルである。このメカニズムは、人間の耳トレーニング実践を反映している。実験により、BACHIはクラシック音楽とポップミュージックのベンチマークにおいて、最新のコード認識性能を達成し、各モジュールの有効性を検証するアブレーション研究が行われた。
AIモデルはデータ分析と可視化にますます利用されているが、ベンチマークは散布図特有のタスクにほとんど対応しておらず、性能に関する洞察が限られている。このギャップを埋めるため、最も一般的なチャートタイプの一つである散布図に焦点を当て、6つのデータジェネレータと17のチャートデザインから生成された18,000以上の合成注釈付きデータセットと、それに基づくベンチマークを導入した。OpenAIとGoogleのプロプライエタリモデルを、クラスタのバウンディングボックス、その中心座標、および外れ値座標の注釈に基づいて導出された5つの異なるタスクに対してN-shotプロンプティングを用いて評価した。OpenAIのモデルとGemini 2.5 Flashは、特に例を提示された場合、クラスタのカウントにおいて有効な選択肢であり、Flashの場合は外れ値の識別においても90%以上の精度を示した。しかし、位置特定に関連するタスクの結果は不満足であり、PrecisionとRecallは50%前後またはそれ以下であったが、Flashの外れ値識別では65.01%であった。さらに、チャートデザインが性能に与える影響は二次的な要因であるが、アスペクト比が広い散布図(16:9や21:9)やランダムに色付けされた散布図は避けることが推奨される。補足資料はhttps://github.com/feedzai/biy-paperで入手可能である。
過去20年間にわたり、音声感情認識(Speech Emotion Recognition, SER)はますます注目を集めてきた。SERシステムを訓練するために、研究者は事前に定義された感情カテゴリーから感情を選択するクラウドソーシングまたは社内評価者によって注釈付けされた感情音声データベースを収集する。しかし、評価者間の不一致は一般的である。従来の手法では、これらの不一致をノイズとして扱い、ラベルを単一の合意目標に集約する。これにより、SERを単一ラベルタスクとして簡素化するが、人間の感情知覚の内在的な主観性を無視している。本論文はこのような前提に挑戦し、以下の問いを投げかける:(1)少数派の感情評価は捨てるべきか?(2)SERシステムは少数の個人の知覚からのみ学習すべきか?(3)SERシステムはサンプルごとに1つの感情のみを予測すべきか? 心理学的研究によれば、感情知覚は主観的で曖昧であり、感情の境界が重複している。我々は新しいモデリングと評価の視点を提案する:(1)すべての感情評価を保持し、ソフトラベル分布として表現する。個々の評価者の評価に基づいて訓練されたモデルは、標準的なSERシステムと共同で最適化されることで、合意ラベル付けされたテストにおいて性能を向上させる。(2)SER評価を再定義し、すべての感情データを含め、共起する感情(例:悲しみと怒り)を許容する。我々は、ラベル表現の多様性を最大化するためにすべての評価を集約する「包括的ルール」を提案する。4つの英語感情データベースでの実験は、多数派および複数派ラベル付けを上回る性能を示す。(3)訓練中にあり得ない感情の組み合わせを抑制するためのペナルティ行列を構築する。これを損失関数に統合することで、さらに性能が向上する。全体として、少数派の評価、複数の評価者、および複数感情予測を取り入れることで、よりロバストで人間に沿ったSERシステムが得られる。
Vision-Language-Actionモデル(VLA)は、ロボット制御において顕著な性能を発揮してきた。しかし、単一推論パラダイムに基づくため、高精度を要するタスクにおいては根本的な限界がある。外部検証器を用いたテスト時スケーリング手法は有望であるものの、追加の訓練を必要とし、未見の条件への汎化が困難である。本研究では、追加の訓練や外部モジュールを必要とせず、モデルの内部特性を活用する新たなテスト時スケーリングフレームワークであるMasking Distribution Guided Selection(MG-Select)を提案する。本手法では、参照アクショントークン分布からのKLダイバージェンスを信頼度指標として用い、複数の候補から最適なアクションを選択する。参照分布は、同じVLAによって生成されるが、ランダムにマスクされた状態と言語条件を入力とし、最大の不確実性を保ちつつ目標タスク分布に整合するように設計されている。さらに、状態と言語条件にドロップアウトを適用することで、モデルが条件付きおよび無条件分布の両方を学習することを可能にする共同訓練戦略を提案し、参照分布の品質をさらに向上させる。実験結果から、MG-Selectは実世界の分布内/分布外タスクにおいてそれぞれ28%/35%の性能向上を達成し、30回のデモンストレーションで訓練されたRoboCasaのピックアンドプレースタスクにおいて168%の相対的な改善を示した。
近年のマルチモーダル大規模言語モデル(LLM)は、チャートベースの視覚的質問応答において有望な成果を示しているが、注釈のないチャート、すなわちテキスト的なショートカットに依存せずに正確な視覚的解釈を必要とするチャートでは、その性能が著しく低下する。この問題に対処するため、我々はChartAgentを提案する。これは、チャートの空間領域内で直接視覚的推論を明示的に行う新しいエージェント型フレームワークである。テキストベースの連鎖的推論とは異なり、ChartAgentはクエリを視覚的サブタスクに反復的に分解し、注釈の描画、領域の切り抜き(例:円グラフのスライスの分割、棒グラフの分離)、軸の特定などの専門的なアクションを通じて、チャート画像を積極的に操作し、相互作用する。これにより、各サブタスクを達成するために、チャート固有の視覚ツールライブラリを活用する。この反復的推論プロセスは、人間のチャート理解における認知戦略に密接に類似している。ChartAgentは、ChartBenchおよびChartXベンチマークにおいて、従来の手法を最大16.07%の絶対的な向上で凌駕し、特に注釈のない数値集約的なクエリでは17.31%の向上を達成した。さらに、我々の分析によれば、ChartAgentは(a)多様なチャートタイプにわたって有効であり、(b)視覚的および推論的複雑さの異なるレベルにおいて最高スコアを達成し、(c)多様な基盤となるLLMの性能を向上させるプラグアンドプレイフレームワークとして機能する。我々の研究は、ツール拡張型マルチモーダルエージェントを用いたチャート理解のための視覚的基盤に基づく推論を実証した最初の試みの一つである。
現代の選好整合技術、例えばBest-of-N(BoN)サンプリングは、ペアワイズ比較データを用いて訓練された報酬モデルに依存しています。相対的な選好を学習する点では効果的ですが、このパラダイムは応答の許容性を示す信号を捉えることができず、システムは多くの許容できない選択肢の中から最も悪くないものを選ぶリスクにさらされます。これは特に難しいプロンプトにおいて問題となり、そのような誤った許容のリスクはサンプル数と共に増加します。本論文では、この重要な信頼性のギャップを解決するため、新しいデータ収集とモデリングのフレームワークを導入します。離散選択モデルに着想を得て、選好データに外部オプションを追加することで、何がより良いかだけでなく、何が十分に良いかを識別できる報酬モデルを訓練します。この能力を活用し、生成予算を順次ループに分割し、調整された早期終了条件を持つ適応的推論戦略「best of mini-N in-loop」を作成します。実験結果から、整合ガードレールとして調整した場合、信頼性の失敗を70%削減し、推論加速器として調整した場合、IMDBセンチメント設定において平均推論速度を22%以上向上させることが示されました。これにより、実践者が信頼性と計算効率のトレードオフを明示的に管理するための原理的で柔軟なフレームワークを提供します。
近年のコンテキストとメモリのベンチマーク研究は、主に対話インスタンスに焦点を当ててきたが、動的な企業環境におけるメモリ評価の必要性は、その効果的な応用にとって極めて重要である。本論文では、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマーク「MEMTRACK」を紹介する。MEMTRACKは、Slack、Linear、Gitなどの複数のコミュニケーションおよび生産性プラットフォームにわたる非同期イベントを統合することで、現実的な組織ワークフローをモデル化する。各ベンチマークインスタンスは、時系列的にプラットフォームが交錯するタイムラインを提供し、ノイズの多い、矛盾した、相互参照情報、および潜在的なコードベース/ファイルシステムの理解と探索を含む。その結果、本ベンチマークは、取得、選択、矛盾解決などのメモリ能力をテストする。MEMTRACKデータセットは、専門家による手動設計とスケーラブルなエージェントベースの合成を通じてキュレーションされ、現実世界のソフトウェア開発プロセスに基づいた生態学的に妥当なシナリオを生成する。本論文では、単純なQA性能を超えたメモリメカニズムの有効性を捉えるための、正確性、効率性、冗長性に関する適切な指標を導入する。最先端のLLMとメモリバックエンドを用いた実験では、長期間にわたるメモリの活用、クロスプラットフォーム依存関係の処理、矛盾の解決における課題が明らかになった。特に、最高性能のGPT-5モデルでも、MEMTRACKでの正確性スコアは60%に留まった。本論文は、既存の対話設定に焦点を当てた研究を超えて、メモリ強化エージェントの評価研究を進めるための拡張可能なフレームワークを提供し、複雑な組織環境におけるマルチエージェント、マルチプラットフォームのメモリベンチマークの基盤を築くものである。
ヘアケアは日常生活において不可欠な活動であるが、可動性が制限された個人にとってはアクセスが困難であり、また髪の微細な物理構造と複雑なダイナミクスのために自律ロボットシステムにとっても課題となっている。本研究では、DYMO-Hairというモデルベースのロボットヘアケアシステムを提案する。我々は、髪のような体積量に適した新しいダイナミクス学習パラダイムを導入し、アクション条件付き潜在状態編集メカニズムと多様なヘアスタイルのコンパクトな3D潜在空間を組み合わせることで汎化性を向上させる。この潜在空間は、新しい髪の物理シミュレータを用いて大規模に事前学習されており、未見のヘアスタイルに対する汎化を可能にする。ダイナミクスモデルをモデル予測経路積分(MPPI)プランナーと組み合わせることで、DYMO-Hairは視覚的な目標条件付きヘアスタイリングを実行できる。シミュレーション実験では、DYMO-Hairのダイナミクスモデルが多様な未見のヘアスタイルに対する局所的な変形の捕捉においてベースラインを上回ることを示す。DYMO-Hairはさらに、未見のヘアスタイルに対する閉ループヘアスタイリングタスクにおいてもベースラインを上回り、最終的な幾何誤差が平均22%低く、成功率が42%高い結果を示した。実世界の実験では、我々のシステムがウィッグに対するゼロショット転移性を示し、最先端のシステムが失敗する困難な未見のヘアスタイルにおいても一貫した成功を達成した。これらの結果は、モデルベースのロボットヘアケアの基盤を提供し、制約のない物理環境におけるより汎用的で柔軟かつアクセス可能なロボットヘアスタイリングに向けて前進するものである。詳細はプロジェクトページ(https://chengyzhao.github.io/DYMOHair-web/)に掲載されている。
大規模言語モデル(LLM)の推論能力を反映した思考の痕跡を、より小規模なモデルに蒸留することが有効であることが証明されている。しかし、蒸留データの量に応じてモデルの性能がどのようにスケールするかに関する研究は不足している。本研究では、2つの小規模な非推論型LLMに対して、競技プログラミングスキルの蒸留におけるスケーリング傾向を調査する。我々は、コード推論における「谷」が存在するという仮説を検証する。具体的には、競技プログラミングにおける下流タスクの性能は、データ量が増加するにつれて最初に低下し、その後、対数線形よりも急峻な形で着実に向上することを確認した。この傾向を特定した後、異なる蒸留段階において同一データを用いてモデルをさらに微調整し、それぞれの学習段階における結論を裏付けた。その結果、低データ量および中低データ量の領域では、小規模モデルが難しいコーディング問題よりも容易な問題から大きな恩恵を受けることが明らかとなった。また、驚くべきことに、トレーニングデータにおける出力の正しさは、蒸留結果に影響を与えないことも判明した。本研究は、直感を超えたコード推論蒸留のトレーニングダイナミクスを理解するための一歩前進を表している。
大規模言語モデル(LLMs)は多くの自然言語処理(NLP)タスクにおいて優れた性能を発揮するが、依然として幻覚(hallucination)が発生しやすく、実世界での応用における信頼性が制限されている。本論文では、Retrieval-Augmented Generation(RAG)における幻覚を軽減するための4Bパラメータの小型推論モデル(SRM)であるHalluGuardを提案する。HalluGuardは、ドキュメントと主張のペアを「根拠のあるもの」または「幻覚」として分類し、透明性のための根拠に基づく説明を生成する。我々のアプローチは、(i) FineWebから派生し、多段階のキュレーションとデータ再構成を経て洗練されたドメイン非依存の合成データセット、(ii) 合成された根拠のある主張と幻覚的な主張、(iii) オッズ比選好最適化(Odds Ratio Preference Optimization)を用いた選好ベースのファインチューニングにより、大規模モデルの推論を小型のバックボーンに蒸留することを組み合わせている。LLM-AggreFactベンチマークのRAGTruthサブセットにおいて、HalluGuardは84.0%のバランス精度(BAcc)を達成し、MiniCheck(7B; 84.0%)やGranite Guardian 3.3(8B; 82.2%)といった専門モデルと同等の性能を示しながら、パラメータ数を約半分に抑えている。また、ベンチマーク全体では75.7%のBAccを達成し、GPT-4o(75.9%)などの大規模汎用LLMと同等の性能を発揮する。HalluGuardとデータセットは、受理後Apache 2.0ライセンスの下で公開する予定である。