翻訳付きの日次キュレーションされたAI研究論文
大規模推論モデルは強力な問題解決能力を示しているが、現実世界のタスクでは外部ツールの利用と長期的な相互作用が求められることが多い。既存のエージェントフレームワークは通常、事前定義されたワークフローに従うため、自律的かつ全体的なタスク達成が制限されている。本論文では、自律的思考、ツール発見、アクション実行を単一の整合性ある推論プロセス内で行うエンドツーエンドの深層推論エージェント「DeepAgent」を提案する。長期的相互作用の課題、特に複数のツール呼び出しによる文脈長の爆発的増加と相互作用履歴の蓄積に対処するため、過去の相互作用を構造化されたエピソード記憶、作業記憶、ツール記憶に圧縮する自律的記憶折りたたみ機構を導入し、重要な情報を保持しながら誤差蓄積を軽減する。汎用ツール利用を効率的かつ安定的に学習させるため、LLMシミュレートAPIを活用し、ツール呼び出しトークンに細粒度の信用割り当てを行うツール呼び出し優勢属性付与によるエンドツーエンド強化学習戦略「ToolPO」を開発した。汎用ツール利用タスク(ToolBench、API-Bank、TMDB、Spotify、ToolHop)と下流応用(ALFWorld、WebShop、GAIA、HLE)を含む8つのベンチマークでの大規模実験により、DeepAgentがラベル付きツールとオープンセットツール検索の両シナリオにおいて一貫してベースラインを上回ることを実証した。本研究成果は、現実世界応用に向けたより汎用的で高能力なエージェントへの一歩となる。コードとデモはhttps://github.com/RUC-NLPIR/DeepAgentで公開されている。
最先端の推論モデルは、強化学習(RL)による大規模言語モデル(LLM)の学習後調整によって、多様な分野で驚異的な能力を示している。しかし、このパラダイムが広く成功を収めているにもかかわらず、既存研究の多くは、ベースモデルには存在せずRL学習中に新たに出現する真に新奇な振る舞いを解明することに注力してきた。本研究ではこの問題を異なる角度から捉え、追加の学習を一切行わず、純粋なサンプリングによって推論能力が推論時にベースモデルから引き出せるかどうかを検討する。シャープ化された分布からのサンプリング手法であるマルコフ連鎖モンテカルロ法(MCMC)に着想を得て、ベースモデル自身の尤度を活用した簡潔な反復サンプリングアルゴリズムを提案する。各種ベースモデルにおいて、本アルゴリズムがMATH500、HumanEval、GPQAなど多様な単一試行タスクで、RLによる性能向上に迫り、時に凌駕する大幅な推論能力の向上をもたらすことを実証する。さらに本サンプラーは、RL学習後モデルに特徴的な多様性の低下を回避する。決定的に、本手法は学習や精選されたデータセット、検証器を必要としないため、検証が容易な領域を超えた幅広い適用可能性を示唆している。
統一的な一般化可能な意味制御によるビデオ生成は、依然として重要な未解決課題である。既存手法は、構造ベースの制御から不適切なピクセル単位の事前分布を強制することでアーティファクトを生じさせるか、一般化不可能な条件特化のファインチューニングやタスク特化のアーキテクチャに依存している。本研究では、この問題を文脈内生成として再定義する新たなパラダイム「Video-As-Prompt(VAP)」を提案する。VAPは参照ビデオを直接的な意味的プロンプトとして活用し、固定されたVideo Diffusion Transformer(DiT)をプラグアンドプレイ型のMixture-of-Transformers(MoT)エキスパートを通じて誘導する。このアーキテクチャは破滅的忘却を防止し、時間的にバイアスされた位置埋め込みによって頑健な文脈検索のための偽のマッピング事前分布を排除する。 本手法を支え将来の研究を促進するため、100の意味的条件にわたる10万組以上のペアビデオを包含する意味制御ビデオ生成向け最大規模のデータセット「VAP-Data」を構築した。単一の統一モデルとして、VAPはオープンソース手法における新たな最高性能を達成し、条件特化型の主要商用モデルに匹敵する38.7%のユーザー選好率を実現した。VAPの強力なゼロショット一般化能力と多様な下流アプリケーションへの対応は、汎用性の高い制御可能なビデオ生成に向けた重要な進展を示している。
我々は、無限に拡張可能な3D世界――大規模で連続的かつ一貫した幾何学構造と写実的な外観を備えた環境――の生成という課題に取り組む。既存手法は重大な課題に直面している:2Dリフティングアプローチは視点間の幾何学的不整合や外観の不一致に悩み、3D暗黙的表現はスケーラビリティに難があり、現在の3D基盤モデルは主にオブジェクト中心であるためシーンレベル生成への適用が限られる。我々の重要な洞察は、構造化されたシーンブロック生成において事前学習済み3Dモデルの強力な生成事前確率を活用する点にある。この目的で、我々は階層的フレームワークであるWorldGrowを提案する。本手法は3つの核心コンポーネントを特徴とする:(1) 高品質なシーンブロックを抽出するデータキュレーションパイプラインにより、3D構造化潜在表現をシーン生成に適したものとする、(2) 文脈を考慮したシーン拡張を可能にする3Dブロックインペインティング機構、(3) 大域的なレイアウトの妥当性と局所的な幾何学/テクスチャの忠実度を両立する段階的生成戦略。大規模3D-FRONTデータセットによる評価では、WorldGrowは幾何学再構築においてSOTA性能を達成し、写実的かつ構造的一貫性のある出力による無限シーン生成を独自に実現する。これらの結果は、大規模仮想環境構築における本手法の有効性と、将来の世界モデル構築への可能性を示唆している。
人工汎用知能(AGI)に対する具体的な定義の欠如は、現在の特化型AIと人間レベルの認知能力の間にある隔たりを曖昧にしている。本論文はこの問題に取り組むため、AGIを「十分な教育を受けた成人の認知的多様性と習熟度に匹敵する能力」と定義し、定量化可能な枠組みを提案する。これを具体化するために、我々の方法論は人間の認知に関する最も実証的な検証を受けたモデルであるキャテル・ホーン・キャロル理論に基づいている。本枠組みは汎用的な知能を推論、記憶、知覚を含む10の核心的な認知領域に分解し、確立された人間の心理測定バッテリーをAIシステムの評価に適用する。この枠組みを適用した結果、現代のAIモデルには高度に「不均一な」認知プロファイルが明らかになった。知識集約的な領域では熟達しているものの、現在のAIシステムは基礎的な認知機構、特に長期記憶貯蔵に重大な欠陥を有している。その結果得られたAGIスコア(GPT-4が27%、GPT-5が58%)は、急速な進歩とAGI達成までに残された相当な隔たりの両方を具体的に定量化している。
Group Relative Policy Optimization(GRPO)は、フローマッチングに基づくテキストから画像への生成において強力な可能性を示しているが、2つの主要な課題に直面している:不正確なアドバンテージ帰属と、生成の時間的ダイナミクスの軽視である。本研究では、最適化のパラダイムをステップ単位からチャンク単位に移行することで、これらの問題を効果的に緩和できると主張する。この考え方に基づき、我々はT2I生成における初のチャンクレベルGRPOベースのアプローチであるChunk-GRPOを提案する。重要な洞察は、連続するステップをフローマッチングの内在的時間的ダイナミクスを捉えた一貫性のある「チャンク」にグループ化し、ポリシーをチャンクレベルで最適化することである。さらに、性能をさらに向上させるためのオプションの重み付きサンプリング戦略を導入する。大規模な実験により、Chunk-GRPOが選好アライメントと画質の両方において優れた結果を達成することが示され、GRPOベース手法におけるチャンクレベル最適化の可能性が強調された。
離散拡散モデルは、双方向のコンテキストモデリングと理論的な並列化処理が可能なことから、視覚言語タスクにおける有望なアプローチとして登場しました。しかし、その実用化は訓練と推論の間の乖離によって深刻な妨げを受けており、これは破滅的な誤差連鎖を引き起こします。すなわち、並列復号化における初期トークンの誤りが生成コンテキストを汚染し、誤りが連鎖的に増幅する反応を誘発して、文法的な誤りや意味的な虚構(ハルシネーション)を生み出すのです。この根本的な課題に対処するため、我々は生成プロセスを受動的なノイズ除去から能動的な洗練プロセスへと再定義します。本論文ではReDiffを紹介します。これはモデル自身に誤りを特定して修正することを学習させる、洗練機能を強化した拡散フレームワークです。我々のアプローチは2段階の訓練プロセスを特徴とします。第一段階では、人工的に導入した誤りを修正する訓練を通じて基礎的な修正能力を植え付けます。第二段階では、モデル自身の欠陥のある草稿を専門家の修正から学習して修正するように明示的に訓練する、新規のオンライン自己修正ループを実装します。この誤り駆動学習により、モデルは生成済みの出力を再訪して洗練するという決定的に重要な能力を獲得し、誤差連鎖を効果的に断ち切ります。大規模な実験により、ReDiffが生成内容の一貫性と事実的精度を大幅に向上させ、従来のノイズ除去法をはるかに凌ぐ安定かつ効率的な並列生成を実現することが実証されました。コードとモデルはhttps://rediff-hku.github.io/で公開しています。
大規模言語モデル(LLM)のコンテキスト長の拡大は大きな利点をもたらすが、計算コストが高い課題がある。このコストの主な原因は、シーケンス長に対してO(N^2)の計算量を要するセルフアテンション機構であり、メモリとレイテンシの両面で重大なボトルネックとなっている。幸い、アテンション行列は特に長いシーケンスにおいて疎となる傾向があり、最適化の余地が示唆されている。ブロック疎アテンションは、シーケンスをブロック単位に分割し、一部ブロックの計算を省略する有望な解決策として登場した。しかし、この手法の効果は基盤となるアテンションパターンに強く依存し、ブロックレベルの疎性が最適とは言えない場合がある。例えば、単一ブロック内のクエリにとって重要なキートークンが多数の他ブロックに分散している場合、計算の重複が生じる。本研究では、アテンションの置換特性を活用してブロックレベルの疎性を高め、LLMのプリフィリングの計算効率を向上させるプラグアンドプレイ方式「Permuted Block-Sparse Attention(PBS-Attn)」を提案する。実世界の難易度の高い長文コンテキストデータセットで包括的な実験を行った結果、PBS-Attnが既存のブロック疎アテンション手法をモデル精度で一貫して上回り、完全アテンションベースラインに極めて近い性能を達成することを実証した。カスタム開発したpermuted-FlashAttentionカーネルにより、PBS-Attnは長文プリフィリングにおいて最大2.75倍のエンドツーエンド高速化を実現し、実用性を確認した。コードはhttps://github.com/xinghaow99/pbs-attnで公開している。
GUIグラウンディング(自然言語指示を操作可能なUI要素に対応付ける技術)は、GUIエージェントの中核的な能力である。従来の研究では、指示はユーザー意図の静的な代理として扱われることが多く、指示の多様性と品質がグラウンディング性能に与える影響が見落とされてきた。既存のグラウンディングデータセットを詳細に調査した結果、指示には23.3%の欠陥率が存在し、推論時に指示の多様性を活用することで最大76%という大幅な相対的性能向上が得られることを明らかにした。本論文では、指示を動的な分析的経路として捉え、異なる視点を提供し、推論中にモデルが最も効果的な経路を選択できるようにする「指示as推論」パラダイムを提案する。これを実現するため、合成された多様な指示による教師ありファインチューニング(SFT)で多視点推論能力を習得させ、その後強化学習(RL)で経路選択と構成を最適化する、2段階のトレーニングフレームワークを構築した。結果として得られたモデルUI-Ins-7BおよびUI-Ins-32Bは、5つの難易度の高いグラウンディングベンチマークでState-of-the-Artを達成し、推論時に新規の指示経路を選択的に構成・合成する創発的推論能力を示した。特にUI-Ins-32Bは最高のグラウンディング精度を達成し、UI-I2E-Benchで87.3%、ScreenSpot-Proで57.0%、MMBench-GUI L2で84.9%のスコアを記録した。さらに、当モデルは強力なエージェント能力を示し、UI-Ins-7Bを実行器としてAndroidWorldで74.1%の成功率を達成した。詳細な分析により、推論がグラウンディング性能を阻害ではなく強化するようにどのように定式化できるか、また本手法がSFT+RLフレームワークにおけるポリシー崩壊をどのように緩和するかといったさらなる知見が得られた。すべてのコードとモデルチェックポイントはhttps://github.com/alibaba/UI-Ins で公開予定である。
本論文では、視覚的拡散モデルが効果的な幾何学的ソルバーとして機能し、ピクセル空間を操作することで幾何学的問題を直接推論できることを示す。まず、幾何学における長年の未解決問題である「任意のジョルダン曲線が正方形を形成する4点を含むか」を問う内接正方形問題においてこれを実証する。次に、このアプローチをシュタイナー木問題と単純多角形問題という二つの有名な難問に拡張する。 我々の手法は、各問題インスタンスを画像として扱い、ガウスノイズを正確な解に極めて近い有効な近似解を表す画像に変換する標準的な視覚的拡散モデルを学習させる。モデルは、ノイズの多い幾何学的構造を正しい配置に変換することを学習し、幾何学的推論を画像生成として効果的に再定義する。 従来の研究がパラメトリックな幾何学的表現に拡散モデルを適用する際に専用アーキテクチャや領域特化の適応を必要としていたのに対し、我々は問題の視覚的表現に対して動作する標準的な視覚的拡散モデルを採用する。この単純さは、生成モデリングと幾何学的問題解決との間にある驚くべき架け橋を浮き彫りにする。ここで検討した特定の問題を超えて、我々の結果はより広範なパラダイスを示唆する:画像空間での操作は、悪名高い難問を近似するための汎用的かつ実用的な枠組みを提供し、はるかに広いクラスの挑戦的幾何学タスクに取り組む道を開く。
ビデオ大規模言語モデル(VideoLLM)は、視覚言語モデルの能力を時空間入力に拡張し、ビデオ質問応答(VideoQA)などのタスクを可能にします。VideoLLMの最近の進展にもかかわらず、ビデオとテキスト情報をどこでどのように抽出・伝達するかという内部メカニズムは十分に解明されていません。本研究では、機械論的解釈可能性技術を用いてVideoLLMの内部情報フローを調査します。分析により、多様なVideoQAタスクにわたる一貫したパターンが明らかになりました:(1)VideoLLMにおける時間的推論は、中層から中層にかけて活発なクロスフレーム相互作用から始まり、(2)続いて中層でビデオと言語の統合が進行します。これは、時間的概念を含む言語埋め込みとビデオ表現の間のアライメントによって促進されます。(3)この統合が完了すると、モデルは中層から後層で正答を生成する準備が整います。(4)分析に基づき、VideoLLMはこれらの有効な情報経路を選択しつつ、例えばLLaVA-NeXT-7B-Video-FTでは58%といった大量のアテンションエッジを抑制することで、VideoQA性能を維持できることを示します。これらの発見は、VideoLLMが時間的推論を実行する方法の設計図を提供し、モデルの解釈可能性と下流タスクへの一般化能力を向上させる実用的な知見を提供します。ソースコード付きのプロジェクトページはhttps://map-the-flow.github.ioで公開されています。
モデルマージングは、共有基盤モデルの複数のファインチューニング済みチェックポイントから知識を統合する効率的な学習後戦略である。既存手法はパラメータ空間で動作し、タスクベクトルを組み合わせることで競合を緩和するが、パラメータの不整合による制約を受ける。本論文では、代わりに入力表現空間をモデル化するフレームワークであるFunctional Dual Anchors(FDA)を提案する。FDAは合成入力であり、その誘導勾配はタスクベクトルと整合し、事前学習モデルに対するタスク特異的な機能的変化を捕捉する。この視点は、共同マルチタスク学習と事後的マージングを架橋し、堅牢性と柔軟性の両方を提供する。さらに、我々は原理に基づいた初期化手法を導入し、FDAがパラメータ空間モデルマージングと相補的であることを示す。包括的実験により、モデルマージングにおけるFDAの有効性を実証する。
プロンプト設計はテキスト動画生成(T2V)において極めて重要であるが、ユーザーが提供するプロンプトは短く、非構造的で、学習データとの整合性が低い場合が多く、拡散モデルベースのT2Vモデルの生成能力を制限している。本論文では、RAPO++を提案する。これは、学習データに整合した改良、推論時の反復的スケーリング、大規模言語モデル(LLM)のファインチューニングを統合したクロスステージプロンプト最適化フレームワークであり、基盤となる生成バックボーンを変更することなくT2V生成を大幅に改善する。ステージ1では、検索強化型プロンプト最適化(RAPO)が、関係グラフから検索された意味的に関連性の高い修飾語でユーザープロンプトを強化し、学習データ分布に合うように再構築することで、構成性と複数オブジェクトの忠実度を向上させる。ステージ2では、サンプル特化型プロンプト最適化(SSPO)を導入する。これは、意味的整合性、空間的忠実度、時間的一貫性、オプティカルフローなどのタスク特化信号を含むマルチソースフィードバックを用いてプロンプトを反復的に改良する閉ループ機構であり、動画生成品質を段階的に向上させる。ステージ3では、SSPOから得られた最適化されたプロンプトペアを活用して書き換えLLMをファインチューニングし、タスク特化の最適化パターンを内部化することで、推論前であっても効率的かつ高品質なプロンプト生成を可能にする。5つの最先端T2Vモデルと5つのベンチマークを用いた広範な実験により、RAPO++が意味的整合性、構成的推論、時間的安定性、物理的妥当性において大幅な改善を達成し、既存手法を大きな差で凌駕することを実証した。本結果は、RAPO++がモデルに依存せず、コスト効率が高く、スケーラブルなソリューションとして、T2V生成におけるプロンプト最適化の新たな標準を確立するものである。コードはhttps://github.com/Vchitect/RAPO で公開されている。
大規模言語モデル(LLM)の内部表現は、学習済み知識の信頼性の高い代理指標として機能することを明らかにし、履歴データへのアクセスを必要としない継続学習のための新しい表現認識型モデル融合フレームワークRECALLを提案する。RECALLは、クラスタリングされた典型サンプルに対する層別の隠れ表現からモデル間類似度を計算し、適応的かつ階層的なパラメータ融合を実行してモデル間の知識を整合させる。この設計により、浅い層ではドメイン汎用特徴を保持しつつ、深い層ではタスク特化的な適応を可能にする。タスクラベルを必要とする従来手法や性能トレードオフを伴う手法とは異なり、RECALLはシームレスなマルチドメイン統合と破滅的忘念への強い耐性を実現する。5つのNLPタスクと複数の継続学習シナリオにおける大規模実験により、RECALLが知識保持と汎化性能の両方でベースラインを上回り、LLMの進化的発展に対するスケーラブルでデータ不要なソリューションを提供することを示す。
従来のnDCG、MAP、MRRといった情報検索(IR)の評価指標は、人間のユーザーが文書を順次閲覧し、ランクが下がるほど注意が減衰していくという前提に立っている。この前提は、検索結果を大規模言語モデル(LLM)が消費する検索拡張生成(RAG)システムでは成り立たない。LLMは人間とは異なり、検索された文書を順次処理するのではなく、全体として一括処理する。さらに、従来のIR指標は、無視されるだけでなく生成品質を積極的に劣化させる、関連性はあるが不適切な文書の影響を考慮していない。すなわち、「人間と機械の位置に対する減衰」および「人間の関連性と機械の有用性」という2つの主要な不一致により、従来のIR指標はRAGの性能を正確に予測できない。本研究では、関連性のある文書の正の寄与と、注意を散らす文書の負の影響の両方を定量化する、有用性に基づく注釈スキーマを提案する。この基盤に立脚して、我々はUDCG(Utility and Distraction-aware Cumulative Gain)を提案する。この指標は、LLM志向の位置減衰を用いて、エンドツーエンドの回答精度との相関を直接最適化する。5つのデータセットと6つのLLMを用いた実験により、UDCGが従来の評価指標と比較して最大36%相関を改善することを実証した。本研究成果は、IR評価をLLMという消費者に適合させるための重要な一歩を示し、RAG構成要素のより信頼性の高い評価を可能にするものである。
検索拡張生成や連鎖的思考推論などの近年の技術は、より長い文脈と増大する推論コストをもたらしている。文脈圧縮技術はこれらのコストを削減できるが、最も効果的な手法は対象モデルのファインチューニング、あるいはアーキテクチャの変更すら必要とする。これは特定の目的以外で使用する場合、モデルの汎用能力を低下させる可能性がある。本論文では代替手法として、文脈を連続的表現に圧縮し、デコーダLLMにおけるトークン埋め込みと置換するエンコーダを探求する。まず、エンコーダの訓練戦略とアーキテクチャ選択に関する体系的研究を行う。我々の知見に基づき設計されたARC-Encoder(Adaptable text Representations Compressor)は、テキストトークン数よりもx倍(典型的にx∈{4,8})少ない連続的表現を出力する。命令追従型および基盤モデルデコーダに対し、文脈内学習から文脈ウィンドウ拡張まで様々なLLM利用シナリオでARC-Encoderを評価した。結果、ARC-Encoderは推論時の計算効率を改善しつつ、複数ベンチマークでState-of-the-art性能を達成する。最後に、単一のエンコーダが異なるデコーダLLM間で汎化可能であること、すなわち複数デコーダに同時に適応できることを実証する。これによりARC-Encoderは、複数LLMとシームレスに連携するポータブルエンコーダとして柔軟かつ効率的なソリューションとなる。訓練コードをhttps://github.com/kyutai-labs/ARC-Encoder で、ファインチューニングデータセットと事前学習モデルをhttps://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 で公開する。
近年、マルチモーダル連続学習において、過去に学習したタスクの性能を維持しつつマルチモーダル環境で新しいタスクを逐次的に学習することを目指す重要な進展が見られている。しかし、既存の手法は主に粗粒度なタスクに焦点を当てており、細粒度な連続学習設定におけるモダリティの絡み合いに対処するには限界がある。このギャップを埋めるため、我々は新しい連続的音響-視覚セグメンテーション(CAVS)タスクを提案し、音声に導かれて新たなクラスを継続的にセグメント化することを目指す。詳細な分析を通じて、二つの重要な課題が明らかとなった:1)連続タスクにおいて音響オブジェクトが背景としてラベル付けされるマルチモーダル意味ドリフト、2)頻繁に共起するクラスが混同されやすい共起混乱である。本研究では、これらの課題に対処するため、衝突ベースのマルチモーダルリハーサル(CMR)フレームワークを設計した。具体的には、マルチモーダル意味ドリフトに対しては、モダリティ一貫性の高いサンプルをリハーサル用に選択するマルチモーダルサンプル選択(MSS)戦略を提案した。一方、共起混乱に対しては、学習過程において混同されやすいクラスのリハーサルサンプル頻度を増加させる衝突ベースサンプルリハーサル(CSR)メカニズムを設計した。さらに、本手法の有効性を検証するため三つの音響-視覚インクリメンタルシナリオを構築した。総合的な実験により、本手法が単一モーダル連続学習手法を大幅に上回ることを実証した。
大規模言語モデル(LLMs)は、外部環境と相互作用するエージェントシステムにおいてますます利用されるようになっており、これにより信頼できないデータを扱う際にプロンプトインジェクションの影響を受けやすくなっている。この制限を克服するため、我々はツール拡張型LLMエージェント向けに設計された、シンプルかつ効果的な反復的プロンプトサニタイゼーションループであるSIC(Soft Instruction Control)を提案する。本手法では、入力データを繰り返し検査し、エージェントの動作を危険にさらす可能性のある命令が含まれていないかを確認する。悪意のある内容が検出された場合、その内容は書き換え、マスク、または削除され、結果が再評価される。このプロセスは、入力が安全な状態になるか、最大反復回数に達するまで継続される。必須の命令的な内容が残存する場合、エージェントはセキュリティを確保するために動作を停止する。複数回のパスを許可することにより、個々の書き換え処理が失敗する可能性を認めつつ、システムが後続のステップで見逃されたインジェクションを検出し修正することを可能にする。SICは即時の有用性を持つが、最悪ケース分析によれば本手法も絶対確実ではなく、強力な攻撃者は非必須的なワークフローを埋め込むことで15%の攻撃成功率(ASR)を達成し得る。しかしながら、これはセキュリティのハードルを確実に高めるものである。
大規模推論モデル(LRM)の近年の進展により、最終回答を生成する前の中間的な「思考」プロセスが導入され、複雑な下流タスクにおける推論能力が向上している。しかし、機械翻訳(MT)品質の評価ツールとしてのLRMの可能性は十分に探究されていない。本研究はMT評価におけるLRM-as-a-judgeの初の体系的分析を提供する。主要な課題として、LRMには特化した評価素材が必要であること、単純な事例に対して「過剰思考」する傾向があること、スコアリング機構の問題から過大評価が生じることなどを明らかにする。これらの課題に対処するため、合成的で人間的な思考軌跡に基づく学習によるLRM思考の較正を提案する。WMT24 Metricsベンチマークでの実験により、このアプローチが思考コストを約35分の1に大幅に削減しつつ、7Bから32Bまでの様々な規模のLRMで評価性能を向上させることを実証した(例えばR1-Distill-Qwen-7Bは+8.7相関ポイントの改善を達成)。これらの知見は、効率的に較正されたLRMが細粒度の自動MT評価を推進する可能性を示唆している。
物体の動力学をシミュレートする対話的世界モデルは、ロボティクス、VR、ARにおいて重要である。しかし、限られた実世界の映像データから物理整合性のある動力学モデルを学習することは、特に空間的に変化する物理特性を持つ変形体において、依然として大きな課題である。データ不足の課題を克服するため、我々はシミュレータを活用して物理的に妥当かつ多様なデモンゼーションを合成し、効率的な世界モデルを学習する新規フレームワークPhysWorldを提案する。具体的には、まず構成モデル選択と物理特性のグローバルからローカルへの最適化により、MPMシミュレータ内に物理整合性のあるデジタルツインを構築する。続いて、物理特性に部品を考慮した摂動を加え、デジタルツインに対して様々な動作パターンを生成し、広範かつ多様なデモンゼーションを合成する。最後に、これらのデモンゼーションを用いて、物理特性が埋め込まれた軽量なGNNベースの世界モデルを学習する。実映像を用いて物理特性をさらに精緻化できる。PhysWorldは様々な変形体に対して正確かつ高速な未来予測を実現し、新しい相互作用に対しても良好な一般化性能を示す。実験により、PhysWorldは競争力のある性能を発揮しつつ、最近の最先端手法PhysTwinと比較して47倍高速な推論を可能にすることが示された。
我々は、カテゴリー理論を応用してマルチモーダル文書構造を抽出し、情報理論的測度の開発、内容要約と拡張、大規模事前学習モデルの自己教師あり改善を実現する。まず、文書を質問-回答ペアの圏として数学的に表現する。次に、直交化手順を開発し、1つまたは複数の文書に含まれる情報を重複のない部分に分割する。第1段階と第2段階で抽出された構造に基づき、文書に含まれる情報を測定・列挙する手法を開発する。さらにこれらの段階を発展させ、新しい要約技術や、元の文書を拡張する解釈(exegesis)という新たな問題への解決策を提案する。我々の質問-回答ペア手法は、要約技術に対する新規なレート歪み解析を可能にする。大規模事前学習モデルを用いて手法を実装し、数学的枠組みのマルチモーダル拡張を提案する。最後に、RLVRを用いた新規な自己教師あり手法を開発し、圏論的枠組みから自然に導かれる構成可能性や特定の演算における閉性といった一貫性制約を活用して、大規模事前学習モデルを改善する。
強化学習(RL)は大規模言語モデルの能力向上における重要な手法として台頭してきた。しかし、Mixture-of-Experts(MoE)モデルでは、ルーティング機構が不安定性を引き起こし、RL訓練の破綻を招くことさえある。本論文では、MoEモデルの訓練と推論の一貫性を分析し、両フェーズ間のルーティング挙動に顕著な不一致が存在することを明らかにする。さらに同一条件下であっても、ルーティングフレームワークは繰り返しのフォワードパスにおいて異なるエキスパート選択を生じ得る。この根本的な不一致を解決するため、我々は推論エンジンからルーティング分布を記録し訓練中に再生するRollout Routing Replay(R3)を提案する。R3は訓練速度を損なうことなく、訓練-推論方策のKLダイバージェンスを大幅に低減し、極端な不一致を緩和する。多様な設定での大規模実験により、R3がRL訓練を安定化させ、破綻を防止し、GSPOやTISなどの手法を上回る性能を発揮することを確認した。本研究がMoEモデルにおけるRL安定化の新たな解決策を提供できると考える。
Foley Controlは、事前学習済みの単一モダリティモデルを凍結したまま、それらの間の小さなクロスアテンションブリッジのみを学習する、軽量なビデオ誘導Foley手法です。我々は、V-JEPAのビデオ埋め込みを、凍結されたStable Audio Open DiTテキスト-to-オーディオ(T2A)モデルに接続します。これは、モデルが既に持つテキストクロスアテンションの後にコンパクトなビデオクロスアテンションを挿入することで実現し、プロンプトが大域的な意味を設定する一方で、ビデオがタイミングと局所的なダイナミクスを洗練させます。凍結されたバックボーンは強力な周辺分布(ビデオ;テキストが与えられた時のオーディオ)を保持し、ブリッジは同期に必要なオーディオ-ビデオ間の依存関係を学習します——オーディオの事前分布を再学習することなく。メモリ削減と訓練の安定化のために、条件付けの前にビデオトークンをプーリングします。厳選されたビデオ-オーディオベンチマークにおいて、Foley Controlは、最近のマルチモーダルシステムよりもはるかに少ない学習可能パラメータ数で、競争力のある時間的・意味的アライメントを実現しつつ、プロンプト駆動の制御性と制作に適したモジュール性(エンドツーエンドの再学習なしにエンコーダやT2Aバックボーンの交換/アップグレードが可能)を保持します。我々はVideo-to-Foleyに焦点を当てていますが、同じブリッジ設計は他のオーディオモダリティ(例:音声)へも拡張可能です。
AIエージェントは、文献調査の自動化、実験の再現、データ分析、さらには新たな研究方向性の提案を通じて、科学的生产性に革命をもたらす可能性を秘めている。実際、汎用の「深層研究」システムから、AI ScientistやAIGSのような科学特化型エージェントまで、多くの此类のエージェントが既に存在する。これらのエージェントを厳密に評価することは進歩にとって極めて重要である。しかし、既存のベンチマークはいくつかの点で不十分である。それらは、(1) 科学研究といった実世界のユースケースに対する全体的で製品に即した測定基準を提供できていない;(2) 中核的なエージェント能力を管理された条件下で比較するために必要な再現性のあるエージェントツールを欠いている;(3) モデルコストやツールへのアクセスといった交絡変数を考慮していない;(4) 迅速なエージェントのプロトタイピングと評価のための標準化されたインターフェースを提供しない;(5) 真の進歩を特定するために必要な包括的なベースラインエージェントを備えていない。これに対応するため、我々はエージェントをより厳密にベンチマークするための原則とツールを定義する。これらを用いて、我々はAstaBenchを提案する。これは、科学研究を実行するエージェント能力を初めて全体的に測定するスイートであり、科学的発見プロセス全体および複数の科学領域にわたる2400以上の問題を含み、実際に展開されているAstaエージェントへのユーザーリクエストに触発された多くの問題を包含する。本スイートには、制御された再現可能な評価を可能とし、交絡変数をより適切に考慮する、プロダクショングレードの検索ツールを備えた初の科学研究環境が付属する。併せて、科学利用に最適化された9つのクラスに及ぶAstaエージェントと多数のベースラインからなる包括的スイートを提供する。22のエージェントクラスに属する57のエージェントに対する我々の広範な評価は、いくつかの興味深い知見を明らかにしており、最も重要な点は、特定の個々の側面では意味のある進歩が見られるものの、AIは科学研究支援という課題を解決するには程遠い状態であるということだ。
マルチモーダル大規模言語モデル(MLLM)における視覚的推論は、これまで主に静的な完全観測環境下で研究されてきた。このような設定は、現実世界で遮蔽や視野角の制限により情報が不完全となる環境での有効性を制限している。一方、人間は知覚・推論・行動を統合した閉ループプロセスを通じて、環境を能動的に探索し、移動・観察・物体操作を行うことで情報を収集する。こうした人間の能力に着想を得て、我々は部分観測可能な対話型環境へ視覚推論を拡張する能動的視覚推論(AVR)タスクを提案する。AVRはエージェントに以下を要求する:(1)順次的な物理行動による能動的情報獲得、(2)複数ステップにわたる観測の統合に基づく一貫性のある推論、(3)変化する視覚的フィードバックに応じた動的な意思決定。AVRを厳密に評価するため、推論の正確さと情報収集効率の両方を測定可能なマルチラウンド対話環境を備えたシミュレーションベンチマークCLEVR-AVRを開発した。さらに、不確実性の特定、行動条件付き情報利得の予測、情報最大化行動の選択という反復的推論プロセスを詳細に記述した大規模データセットAVR-152kを構築した。これは高次マルコフ決定過程におけるエージェント訓練に不可欠な、豊富な連鎖思考(CoT)注釈を提供する。これに基づき、CLEVR-AVR、具身化推論(OpenEQA、RoboVQA)、受動的視覚推論(GeoMath、Geometry30K)において最先端の性能を達成するMLLM、PhysVLM-AVRを開発した。分析により、現行の具身化MLLMは情報の不完全性を検知できるものの、対話を通じた新規情報の能動的獲得・統合に課題を抱えることが明らかとなり、能動的推論能力における本質的隔たりが浮き彫りとなった。
3D LiDARセンサーは、リモートセンシング応用における自律航法、環境モニタリング、精密マッピングに不可欠である。これらのセンサーが生成する膨大な点群を効率的に処理するため、LiDARデータは角度位置と距離に基づいて点を整理した2Dレンジ画像へ投影されることが多い。このレンジ画像表現は効率的な処理を可能にする一方、従来の投影法は根本的な幾何学的不整合を抱え、不可逆的な情報損失を引き起こし、高精度応用の信頼性を損なう。本研究ではALICE-LRI(Automatic LiDAR Intrinsic Calibration Estimation for Lossless Range Images)を提案する。これは、メーカー提供のメタデータやキャリブレーションファイルを必要とせず、スピニングLiDAR点群からロスレスなレンジ画像生成を実現する初の汎用的でセンサーに依存しない手法である。本アルゴリズムは、レーザビーム配置、角度分布、ビーム単位のキャリブレーション補正といった重要パラメータを推定することで、あらゆるスピニングLiDARセンサーの内部幾何学を自動的に逆解析し、点損失ゼロでのロスレス投影と完全な点群再構成を可能にする。KITTIおよびDurLARデータセット全体を用いた包括的評価により、ALICE-LRIが全点群で点損失ゼロの完全な点保存を達成することを実証した。幾何学的精度はセンサー精度限界内で十分に維持され、リアルタイム性能を伴う幾何学的ロスレス性を確立する。さらに、圧縮ケーススタディを通じて下流タスクにおける顕著な利点を検証し、実用応用における画質の大幅な改善を示す。近似からロスレスへのLiDAR投影のパラダイムシフトは、完全な幾何学的保存を要する高精度リモートセンシング応用に新たな可能性を開くものである。