翻訳付きの日次キュレーションされたAI研究論文
検証者報酬からの強化学習(RLVR)は、推論タスクにおける大規模言語モデルの学習後調整手法として広く用いられるようになり、GRPOおよびその派生手法に代表されるグループベースの手法が広く採用されている。これらの手法は学習済み批評家を回避するためにグループ相対的なアドバンテージ推定に依存しているが、その理論的特性は十分に解明されていない。 本研究では、グループベースRLの根本的な問題を明らかにする:グループ相対アドバンテージ推定量は、真の(期待)アドバンテージに対して本質的にバイアスを持つことを理論的に示す。当該推定量が困難なプロンプトではアドバンテージを系統的に過小評価し、容易なプロンプトでは過大評価するため、探索と利用の不均衡を引き起こすことを初めて理論分析により証明する。この問題を解決するため、我々は履歴認識適応難易度重み付け(HA-DW)を提案する。これは、進化する難易度アンカーと学習動態に基づいてアドバンテージ推定値を調整する適応的重み付け手法である。5つの数学的推論ベンチマークにおける理論分析と実験の両方において、HA-DWがGRPOおよびその派生手法に統合された場合、一貫して性能向上をもたらすことを実証する。我々の結果は、バイアスされたアドバンテージ推定の補正が、堅牢かつ効率的なRLVR訓練にとって重要であることを示唆している。
AIエージェントの経済市場への統合は、戦略的相互作用の様相を根本的に変容させる。本研究では、3つの代表的なゲーム理論的設定(交渉:資源配分、取引:非対称情報下での貿易、説得:戦略的情報伝達)において、利用可能な技術群を拡大することの経済的帰結を検証する。単にAI代理人の選択肢を増やすだけで、均衡利得や規制結果が劇的に変化し、多くの場合、規制当局が先制的に技術を開発・公開する誘因が生まれることが明らかになった。逆に「毒リンゴ」効果と名付けた戦略的現象も特定した。すなわち、エージェントは自らも相手も最終的には使用しない新技術を、規制当局の市場設計選択を自らに有利に操作する目的のみで公開することがある。この戦略的公開は、相手方や規制当局の公平性目標を犠牲にして、公開者の厚生を改善する。我々の知見は、静的な規制枠組みが技術拡大を通じた操作に脆弱であることを示し、AI能力の進化に適応する動的な市場設計の必要性を浮き彫りにする。
大規模言語モデル(LLM)がマルチターン対話において効果的にツールを利用できるようにすることは、高度な自律エージェントの構築において不可欠です。しかし、多様で現実的なマルチターンツール利用データの獲得は依然として大きな課題です。本研究では、新しいテキストベースのパラダイムを提案します。私たちは、テキストコーパスが自然に豊富なマルチステップの問題解決経験を含んでおり、これがマルチターンツール利用タスクのための未開拓でスケーラブル、かつ真正なデータソースとして機能し得ることを見出しました。この知見に基づき、私たちはGEMを導入します。これは、関連性フィルタリング、ワークフロー&ツール抽出、軌跡の接地、複雑性洗練の4段階プロセスを通じて、テキストコーパスからマルチターンツール利用軌跡を生成・抽出するデータ合成パイプラインです。計算コストを削減するため、教師ありファインチューニングによる専用の軌跡合成器をさらに訓練します。このモデルは、複雑な生成パイプラインを効率的なエンドツーエンドの軌跡生成器に集約します。実験により、私たちのGEM-32BがBFCL V3マルチターンベンチマークで16.5%の改善を達成することが実証されました。私たちのモデルは、τ-bench(航空および小売)のインダメインデータで訓練されたモデルの性能を一部で凌駕し、テキストベース合成パラダイムから得られる優れた一般化能力が示されました。特筆すべきは、私たちの軌跡合成器が、推論レイテンシとコストを大幅に削減しつつ、完全なパイプラインと同等の品質を達成した点です。
検証可能な報酬による強化学習(RLVR)は、数学のような推論集約的な領域で大きな進展をもたらしてきた。しかし、正解が存在しないオープンエンド生成の最適化は依然として課題である。ルーブリックに基づく評価は検証のための構造化された代理指標を提供するが、既存手法はスケーラビリティのボトルネックと粗い評価基準に悩まされ、指導効果の天井現象を引き起こしている。この問題に対処するため、我々は自動的な粗粒度から細粒度へのルーブリック生成フレームワークを提案する。原理駆動型合成、マルチモデル集約、難易度進化を協調させることで、微妙なニュアンスを捉え得る包括的かつ識別性の高い評価基準を生成する。このフレームワークに基づき、大規模(約110k)かつ複数領域にわたるデータセットRubricHubを導入する。その有用性を、ルーブリックに基づく棄却サンプリングによるファインチューニング(RuFT)と強化学習(RuRL)からなる2段階のポストトレーニングパイプラインを通じて検証する。実験結果では、RubricHubが顕著な性能向上をもたらすことを示す:ポストトレーニングを施したQwen3-14BはHealthBenchにおいて69.3を達成し、GPT-5のようなプロプライエタリなフロンティアモデルを凌駕する最先端(SOTA)結果を得た。コードとデータは近日公開予定である。
個人化された大規模言語モデル(LLM)は、ユーザー満足度を高めるためにモデルの挙動を個々のユーザーに適応させるが、個人化は事実推論を意図せず歪める可能性がある。本論文では、個人化されたLLMが事実に関する問いに対処する際、客観的な真実ではなくユーザーの過去の履歴に沿った回答を生成する現象が存在することを示す。これは「個人化誘発型ハルシネーション」を引き起こし、事実の信頼性を損ない、誤った信念の伝播を招く可能性がある。この現象は、個人化と事実表現の間の表現的な絡み合いに起因する。この問題に対処するため、軽量な推論時アプローチであるFactuality-Preserving Personalized Steering(FPPS)を提案する。FPPSは個人化された挙動を維持しつつ、個人化による事実歪曲を軽減する。さらに、個人化条件下での事実質問応答と個人化性能を統合的に評価する初のベンチマークPFQABenchを導入する。複数のLLM基盤モデルと個人化手法を用いた実験により、FPPSが個人化性能を維持しながら事実精度を大幅に向上させることを実証する。
Vision-Language-Action (VLA) モデルは、多様なマニピュレーションタスクにおける汎用的なロボットポリシーとして登場し、従来は Vision-Language Model (VLM) の埋め込みを介してマルチモーダル入力を直接行動に変換することに依存してきた。近年の進歩では、サブタスク予測(言語)や目標画像合成(視覚)などの明示的な中間推論を導入し、行動生成を誘導する手法が現れている。しかし、これらの中間推論はしばしば間接的であり、精密な行動実行に必要な詳細な情報全体を伝達する能力が本質的に限られている。我々は、最も効果的な推論形式は、行動空間において直接的に熟考するものであると主張する。本論文では、推論プロセス自体が最終的なポリシーを誘導する構造化された粗い行動意図の連鎖として定式化されるパラダイムである Action Chain-of-Thought (ACoT) を提案する。我々は、このACoTパラダイムを具体化する新しいアーキテクチャであるACoT-VLAを提案する。具体的には、明示的行動推論器 (Explicit Action Reasoner: EAR) と暗黙的行動推論器 (Implicit Action Reasoner: IAR) という二つの相補的なコンポーネントを導入する。前者は明示的な行動レベルの推論ステップとして粗い参照軌道を提案し、後者はマルチモーダル入力の内部表現から潜在的な行動事前分布を抽出する。これらが共同してACoTを形成し、下流の行動ヘッドを条件付け、接地されたポリシー学習を可能にする。実世界およびシミュレーション環境における大規模な実験により、提案手法の優位性が実証され、LIBERO、LIBERO-Plus、VLABenchにおいてそれぞれ98.5%、84.1%、47.4%を達成した。
強化学習に基づくエージェント型検索は、LLMが動的計画と外部検索によって複雑な質問を解決することを可能にします。このアプローチは大規模強化学習によって最適化されたエージェント方策により精度を大幅に向上させますが、信頼性における重大な課題が存在します。これらのエージェントは自身の推論限界を認識できず、証拠が不十分な場合や推論が限界に達した場合でも「わかりません」(IDK)をほとんど表明しません。この信頼性の欠如は、もっともらしいが信頼できない回答を生み出し、現実世界の多くのシナリオで重大なリスクをもたらします。そこで我々は、精度を損なうことなく信頼性の高い境界認識を育成する新しい強化学習フレームワーク「Boundary-Aware Policy Optimization(BAPO)」を提案します。BAPOは二つの主要コンポーネントを導入します:(i)推論が限界に達した場合にのみIDK応答を促進するグループベースの境界認識報酬、(ii)初期探索段階でこの報酬を戦略的に停止し、モデルがIDKを近道として悪用するのを防ぐ適応型報酬調整器。4つのベンチマークにおける大規模な実験により、BAPOがエージェント型検索の全体的な信頼性を大幅に向上させることを実証しました。
人間の動作生成は、テキストプロンプトからの生成において近年著しい進歩を遂げています。しかし、既存手法は細粒度の部位レベルでの動作注釈が存在しないため、主にシーケンスレベルまたはアクションレベルの記述に依存しています。これにより、個別の身体部位に対する制御性が制限されています。本研究では、大規模言語モデル(LLM)の推論能力を活用し、原子的で時間認識のある部位レベルのテキスト注釈を付与した高品質な動作データセットを構築します。固定時間セグメントで同期化された部位キャプションを提供するか、グローバルなシーケンスラベルのみに依存する従来のデータセットとは異なり、本データセットは細かな時間解像度で非同期かつ意味的に区別された部位の動きを捉えています。このデータセットに基づき、拡散モデルベースの部位認識動作生成フレームワーク「FrankenMotion」を提案します。このフレームワークでは、各身体部位が独自の時間構造化されたテキストプロンプトによって誘導されます。これは我々の知る限り、原子的で時間認識のある部位レベルの動作注聴を提供し、空間的(身体部位)および時間的(原子的動作)制御を可能にするモデルを実現した初めての研究です。実験により、FrankenMotionが当該設定に適合させ再学習した従来のベースラインモデル全てを凌駕すること、さらに訓練時には未見の動作合成が可能であることを実証します。コードとデータセットは論文公開時に公開予定です。
大規模言語モデル(LLM)の導入には、相互に関連する2つの課題が存在する:(1) モニタリング - トラフィックやドメインの変動に伴い、モデルがどの領域で性能不足に陥っているかを推定すること、(2) 改善 - 最大の性能ギャップを埋めるためにデータ収集の優先順位を決定すること。本研究では、推論時の信号がドメインシフト下におけるスライス単位の精度を推定できるかどうかを検証する。各応答に対して、最終層の次トークン確率(トップkの対数確率から算出)に基づく出力エントロピープロファイルを計算し、11の統計量で要約する。軽量な分類器が個々の事例の正誤を予測し、予測確率を平均化することでドメインレベルの精度推定値を得る。10のSTEM推論ベンチマークを用い、網羅的な訓練/テスト構成(k∈{1,2,3,4}、全ての「10個からk個を選択」する組み合わせ)と、6ファミリーにわたる9つのLLM(3B-20B)で評価を実施。推定値は多くの場合、検証用ベンチマーク精度を追従し、複数のモデルでドメインのほぼ単調な順序付けが確認された。出力エントロピープロファイルは、スケーラブルなモニタリングとデータ収集の優先順位決定において有用な信号であることが示された。
教師ありファインチューニング(SFT)は、大規模言語モデル(LLM)を人間の意図に合わせるための基本的な学習後戦略である。しかし、従来のSFTは単一の正解回答への適合を強制することで、言語の一対多の性質を無視しがちであり、モデルが本質的でない表現に過適合する原因となっている。我々の実証分析は、複数の正解回答を導入することでこの問題を緩和できる可能性を示唆するものの、膨大なデータと計算コストがかかることから、回答の多様性を追求するよりも、単一参照回答による過適合の緩和を優先する戦略的転換が求められる。この目標を達成するため、我々はトークン確率と意味的重要性の内的関連を明らかにする:高確率トークンは核心的な論理構造を担い、低確率トークンは大部分が代替可能な表現である。この知見に基づき、我々はProFitを提案する。これは低確率トークンを選択的にマスキングし、表面的な過適合を防ぐ手法である。大規模な実験により、ProFitが一般的な推論および数学的ベンチマークにおいて、従来のSFTベースラインを一貫して上回ることが確認された。
光フローなどの未来の運動表現は、制御や生成タスクにおいて極めて重要な価値を持つ。しかし、一般化可能な空間的に密な運動表現の予測は依然として主要な課題であり、ノイズの多い実世界データからそのような予測を学習する手法は比較的未開拓である。本研究では、統一的なVision-Language Model(VLM)とDiffusionアーキテクチャを特徴とする、言語条件付き光フロー予測モデルFOFPredを提案する。この独自の組み合わせにより、未来の運動予測において、強力なマルチモーダル推論能力とピクセルレベルの生成精度を両立させる。本モデルはウェブ規模の人間活動データ(拡張性が高いが非構造化された情報源)で学習される。ノイズの多いビデオ-キャプションデータから意味のある信号を抽出するため、重要なデータ前処理技術と、強力な画像事前学習を備えた統一アーキテクチャを採用する。学習済みモデルは、制御と生成という2つの異なる下流タスクに応用される。言語駆動設定下的なロボットマニピュレーションとビデオ生成における評価により、FOFPredのクロスドメインでの汎用性が実証され、統一VLM-Diffusionアーキテクチャの価値と、多様なウェブデータからのスケーラブルな学習が未来の光フロー予測に有効であることが確認された。
3D形状生成の最近の進歩は目覚ましい成果を上げているが、既存手法の多くはクリーンで遮蔽がなく、適切にセグメントされた入力に依存している。こうした条件は実世界のシナリオでは稀である。本論文では、カジュアルに撮影されたシーケンスからの条件付き3Dオブジェクト形状生成の新規手法であるShapeRを提案する。画像シーケンスが与えられると、我々は既製の視覚慣性SLAM、3D検出アルゴリズム、および視覚言語モデルを活用して、各オブジェクトに対し、スパースなSLAM点群、ポーズ付けされたマルチビュー画像、機械生成キャプションのセットを抽出する。これらのモダリティを効果的に条件付けするように学習された整流フロートランスフォーマーが、高精度なメトリック3D形状を生成する。カジュアルに取得されたデータの課題に対するロバスト性を確保するため、オンザフライの合成的データ拡張、オブジェクトレベルとシーンレベルのデータセットに跨るカリキュラム学習スキーム、背景の雑音を処理する戦略など、様々な技術を採用する。さらに、7つの実世界シーンにわたる178の実環境オブジェクトと形状注釈から構成される新しい評価ベンチマークを導入する。実験結果は、この困難な設定においてShapeRが既存手法を大幅に上回り、チャンファー距離において最新技術と比較して2.7倍の改善を達成することを示している。
大規模言語モデルは様々な領域で顕著な能力を発揮しているが、高度な推論を支えるメカニズムは未解明のままである。近年の推論モデルは、複雑な認知課題において同規模の指示チューニングモデルを凌駕するが、これは長い連鎖思考による計算の延長に起因するとされる。本論文では、強化された推論能力が単なる計算の延長から生じるのではなく、個別の性格特性と領域専門性を特徴とする内部の認知的視点間での多様化と議論を可能とする「思考の社会」すなわちマルチエージェント的な相互作用のシミュレーションから創発することを示す。推論過程に量的分析と機械論的解釈可能性手法を適用した結果、DeepSeek-R1やQwQ-32Bなどの推論モデルは、指示チューニングモデルよりもはるかに多様な視点を提示し、推論過程中に異質な性格特性や専門性に関連する特徴間の広範な対立を活性化させることが明らかになった。このマルチエージェント構造は、質問応答、視点の転換、対立する見解の調整といった対話行動、および鋭いやり取りを特徴づける社会情緒的役割に現れ、推論課題における精度優位性を共同で説明する。制御強化学習実験により、基盤モデルは推論精度のみで報酬を与えられると対話行動を増加させ、対話的足場付けによる微調整は基盤モデルよりも推論改善を加速させることが示された。これらの発見は、思考の社会的組織化が解空間の効果的探索を可能にすることを示唆する。推論モデルは、体系的に構造化された場合に多様性が優れた問題解決を可能にする人間集団の集合知との計算的並行性を確立しており、群衆の知恵を活用するエージェント組織の新たな可能性を示唆する。
物理法則は写実的な視覚シミュレーションの基盤であるが、トランスフォーマーに基づく映像生成において依然として重要な見落としとなっている。この隔たりは、古典力学の核心的原理である剛体運動の描画における重大な限界を浮き彫りにしている。コンピュータグラフィックスや物理ベースのシミュレータはニュートンの公式を用いて容易に这类の衝突をモデル化できる一方、現代的な事前学習-微調整パラダイムは、画素レベルの大域的ノイズ除去過程で物体の剛性という概念を捨象している。数学的に完全に正しい制約でさえ、学習後最適化におけるモデル最適化の過程では準最適解(すなわち条件付き解)として扱われ、生成映像の物理的なリアリズムを根本的に制限している。これらの問題意識に動機づけられ、本研究では初めて、物理衝突則を高次元空間で直接強制し、物理知識が条件として扱われるのではなく厳密に適用されることを保証する、映像生成モデルのための物理認識強化学習パラダイムを提案する。続いて、このパラダイムを Mimicry-Discovery Cycle(MDcycle)と名付けた統一フレームワークに拡張し、物理に基づいたフィードバックを活用するモデルの能力を完全に保持したまま、実質的な微調整を可能にする。提案手法を検証するため、新たなベンチマーク PhysRVGBench を構築し、その有効性を徹底的に評価するため広範な定性・定量実験を実施する。
GUIエージェントは明示的・完了型の指示において高い性能を示すが、実世界での展開にはユーザーのより複雑な暗黙的意図との整合が求められる。本研究では、パーソナライズドGUIエージェントのための階層的暗黙的意図整合(PersonalAlign)という新たなエージェントタスクに焦点を当てる。このタスクでは、エージェントが長期的なユーザー記録を永続的コンテキストとして活用し、曖昧な指示における省略された選好を解決するとともに、ユーザー状態に基づいて潜在的なルーチンを予測し、能動的支援を提供する必要がある。この研究を促進するため、長期的なユーザー記録に基づく推論を通じて、エージェントの曖昧な指示解決能力と能動的提案能力を評価するベンチマークAndroidIntentを導入した。異なるユーザーにわたる2万件の長期的記録から、775のユーザー固有の選好と215のルーチンを評価用に注釈付けた。さらに、継続的に更新される個人メモリを維持し、ユーザーの選好とルーチンを階層的に整理してパーソナライズ化を行うHierarchical Intent Memory Agent(HIM-Agent)を提案する。最後に、GPT-5、Qwen3-VL、UI-TARSなどの様々なGUIエージェントをAndroidIntentで評価した結果、HIM-Agentは実行性能と能動的性能をそれぞれ15.7%、7.3%大幅に向上させることが示された。
最先端言語モデルの能力は急速に進化している。これに伴い、強力化するシステムの悪用を防ぐため、より強固な緩和策が求められている。従来の研究では、活性化プローブが有望な悪用緩和技術であることが示されてきたが、重要な課題が残されている:プローブは実運用上の重要な分布シフトにおいて一般化に失敗するのである。特に、短い文脈から長い文脈への入力の変化は、既存のプローブアーキテクチャにとって困難であることがわかった。我々は、この長文脈分布シフトに対処するいくつかの新しいプローブアーキテクチャを提案する。 これらのプローブをサイバー攻撃領域で評価し、マルチターン会話、静的ジャイルブレイク、適応的レッドチーミングなど、実運用に関連する様々なシフトに対する頑健性をテストした。結果は、マルチマックスが文脈長に対処する一方、広範な一般化には、アーキテクチャの選択と多様な分布での学習の組み合わせが必要であることを示している。さらに、プローブをプロンプト分類器と組み合わせることで、プローブの計算効率の高さにより、低コストで最適な精度が達成できることを示す。 これらの知見は、Googleの最先端言語モデルであるGeminiのユーザー向けインスタンスにおいて、悪用緩和プローブの導入成功に貢献した。最後に、AlphaEvolveを用いてプローブアーキテクチャ探索と適応的レッドチーミングの両方を自動改善する初期の良好な結果を得て、AI安全性研究の一部を自動化することは既に可能であることを示唆する。
大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的な能力を示している。しかし、既存のベンチマークは単一のエージェント能力に焦点を当てたままであり、長期的な実世界のシナリオを捉えられていない。さらに、現実的なタスクにおける人間介在型フィードバックへの依存は、スケーラビリティのボトルネックを生み、自動化されたロールアウト収集と評価を妨げている。このギャップを埋めるため、我々は日常的なAI使用から導出された包括的ベンチマークであるAgencyBenchを提案する。これは32の実世界シナリオにわたる6つの核心的エージェント能力を評価し、138のタスク(具体的なクエリ、成果物、評価基準を含む)で構成される。これらのシナリオを解決するには、平均90回のツール呼び出し、100万トークン、数時間の実行時間を要する。自動評価を可能にするため、ユーザーシミュレーションエージェントを用いて反復的フィードバックを提供し、Dockerサンドボックスを用いて視覚的および機能的な評価基準に基づく評価を実施する。実験により、クローズドソースモデルがオープンソースモデルを大きく上回る(48.4% vs 32.1%)ことが明らかになった。さらなる分析から、リソース効率、フィードバック駆動型自己修正、特定のツール使用選好において、モデル間で顕著な差異があることがわかった。最後に、エージェント支援手法の影響を調査し、プロプライエタリモデルは自社のエコシステム内で優れた性能を示す(例:Claude-Agent-SDK経由のClaude-4.5-Opus)のに対し、オープンソースモデルは特定の実行フレームワークで異なる性能ピークを示し、特定のフレームワーク向け最適化の可能性が示唆されることを観察した。AgencyBenchは次世代エージェントの重要な試験場として、モデルアーキテクチャとエージェントフレームワークの共最適化の必要性を浮き彫りにする。我々は本研究成果が自律エージェントの将来方向を照らすと信じ、完全なベンチマークと評価ツールキットをhttps://github.com/GAIR-NLP/AgencyBenchで公開する。
大規模視覚言語モデル(LVLM)は顕著な能力を示しているものの、複数画像の理解と推論における熟達度は未だ十分に解明されていない。既存のベンチマークでは複数画像モデルの評価が始まっているが、その中核的弱点と原因に関する体系的分析は依然として不足している。本研究では、LVLMの複数画像処理能力を厳密に評価する新しいベンチマーク「MIMIC(Multi-Image Model Insights and Challenges)」を提案する。MIMICを用いた一連の診断実験により、LVLMが画像間の情報統合に頻繁に失敗し、複数の概念を同時に追跡・注目することが困難であるという普遍的な課題を明らかにする。これらの課題に対処するため、二つの新規補完的解決策を提案する。データ側では、単一画像注釈を組み合わせて的を絞った豊富な複数画像学習事例を生成する手続き型データ生成戦略を提示する。最適化側では、階層的注意パターンを分析し、複数画像入力に特化した注意マスキング手法を導出する。実験結果では、画像間統合が大幅に改善され、既存の複数画像ベンチマークにおける性能も向上し、従来の最先端手法を各タスクで凌駕することを実証する。データとコードはhttps://github.com/anurag-198/MIMICで公開予定である。
近年のエージェンシック大規模言語モデル(LLM)の進歩により、様々なタスクにわたる推論と行動が可能な汎用プランナーとしての地位が確立されつつある。しかし、既存のエージェントベンチマークは主に記号的あるいは弱い基盤付け環境に焦点を当てており、物理的制約のある現実世界領域における性能は十分に検証されていない。本研究では、Space Planning Problems(SPP)におけるエージェンシック計画策定を評価するための総合的なベンチマーク「AstroReason-Bench」を提案する。SPPは、多様な目的、厳格な物理的制約、長期的な意思決定を特徴とする高リスク問題群である。AstroReason-Benchは、地上局通信と敏捷的地球観測を含む複数のスケジューリング体制を統合し、エージェント指向の統一インタラクションプロトコルを提供する。最先端のオープンソース及びクローズドソースのエージェンシックLLMシステムを評価した結果、現在のエージェントは専門ソルバーに大きく劣ることが明らかとなり、現実的制約下での汎用計画策定の主要な限界が浮き彫りとなった。AstroReason-Benchは、将来のエージェンシック研究に向けた挑戦的かつ診断的なテストベッドを提供する。
近年の拡散ベースの動画生成モデルは視覚的に妥当な動画を合成できるが、物理的制約を満たすことに課題がある。主な理由は、既存手法の多くが単段階である点にある。すなわち、高次元の物理理解と低次元の視覚合成を混在させるため、明示的な物理推論を要するコンテンツの生成が困難なのである。この課題を解決するため、我々は学習不要な三段階パイプライン「PhyRPR:物理推論(PhyReason)―物理計画(PhyPlan)―物理洗練(PhyRefine)」を提案する。本手法は物理理解と視覚合成を分離する。具体的には、PhyReasonは大規模マルチモーダルモデルによる物理状態の推論と画像生成器によるキーフレーム合成を担当し、PhyPlanは制御可能な粗い動きの骨組みを確定的に合成し、PhyRefineは潜在空間融合戦略によりこの骨組みを拡散サンプリングに注入し、計画された動力学を保持しながら外観を洗練する。この段階的設計により、生成過程で明示的な物理制御が可能となる。物理制約下での大規模実験により、本手法が物理的妥当性と動作制御性を一貫して向上させることを実証した。
本論文では、モデルと学習プロトコルを固定することでデータセット選択の効果を分離したNeurIPS 2025「視覚言語推論のためのデータキュレーション(DCVLR)」チャレンジを通じて、マルチモーダル推論のためのデータキュレーションを検討する。主にWalton Multimodal Cold Startから派生したコンパクトな精選データセットを用いた我々の提案手法は、本チャレンジで首位を獲得した。競技後の追加検証により、整列された基本データセットに対する難易度ベースの事例選択が性能向上の主要因であることを示す。固定された学習レシピの下では、データセット規模の拡大は平均精度を確実に向上させるわけではなく、主に試行間の分散を低減する効果に留まる。一方、一般に用いられる多様性基準や合成的データ拡張のヒューリスティクスは追加の利益をもたらさず、むしろ性能を劣化させる場合が多い。これらの結果は、DCVLRを飽和領域における評価として位置づけ、データ効率的なマルチモーダル推論においてデータ整列と難易度が中心的な役割を果たすことを明らかにする。
大規模言語モデルにおいて、出力の多様性は多元性と創造性を支える重要な要素である。本研究では、モデルの思考過程で使用される言語(思考言語)を制御することが、出力多様性の新たかつ構造的な源泉となることを明らかにする。予備調査により、異なる思考言語がモデルの思考空間内で異なる領域を占めることが確認された。この知見に基づき、我々は多言語思考下での二つの反復サンプリング戦略(単一言語サンプリングと混合言語サンプリング)を検討し、思考言語にかかわらず英語で出力されるテキストの多様性評価を実施した。大規模な実験を通じて、思考言語を英語から非英語に切り替えることで出力多様性が一貫して向上し、思考空間において英語から遠い言語ほど多様性の向上幅が大きいという明確な正の相関関係が確認された。さらに、複数の思考言語にわたってサンプルを集約することで合成的効果による追加的な改善が得られること、および言語的多様性を拡大したサンプリングによってモデルの多様性上限が拡張されることを実証する。最後に、これらの発見が多元的アライメントシナリオにおいて実用的な利点をもたらし、LLM出力における文化的知識と価値観のカバレッジが広がることを示す。コードはhttps://github.com/iNLP-Lab/Multilingual-LoT-Diversityで公開されている。