翻訳付きの日次キュレーションされたAI研究論文
大規模マルチモーダルモデル(LMM)は大きな進歩を遂げているものの、依然としてテキスト中心であり、言語を中核的な推論モダリティとして依存している。その結果、視覚情報が主体となる推論タスクの処理能力に限界がある。最近のアプローチでは、補助画像、深度マップ、または画像クロップを用いて中間的な視覚ステップを監督することでこの問題に対処しようとしている。しかし、これらの戦略は「有用な」視覚的抽象化の形状に制限的な事前知識を課し、重い注釈コストを追加し、タスク間での汎化が困難である。この重要な限界に対処するため、我々は明示的な監督なしでLMMが視覚的推論トークンを発見し利用するように訓練する、タスク非依存のメカニズムを提案する。これらのトークンは大域的に注意を払い、タスク適応的な方法で画像を再エンコードするため、手作りの監督なしに関連する視覚情報を抽出できる。我々の手法は直接的なファインチューニングを上回り、中間抽象化が特定しにくいタスクを含む多様な視覚中心タスクにおいて最先端の結果を達成するとともに、マルチタスク指示チューニングへの汎化も実現する。
大規模な自己回帰モデルは、次トークン予測で事前学習され、強化学習(RL)によるファインチューニングを経て、多くの問題領域で前例のない成功を収めています。RL過程では、これらのモデルはトークン単位で新たな出力を生成することで探索を行います。しかし、トークン単位での行動サンプリングは、特に報酬が疎な場合に学習効率が著しく低下する可能性があります。本研究では、自己回帰モデルの内部表現内で行動し探索することでこの問題を克服できることを示します。具体的には、時間的に抽象化された行動を発見するために、高次かつ非因果的な系列モデルを導入し、その出力がベースとなる自己回帰モデルの残差ストリーム活性化を制御します。階層構造を持つグリッドワールドおよびMuJoCoベースのタスクにおいて、高次モデルが長い活性化系列の塊を内部コントローラに圧縮して学習することを確認しました。重要な点は、各コントローラが長時間スケールにわたって展開される行動的に意味のある行動系列を実行し、学習された終了条件を伴うことです。これにより、複数のコントローラを時間的に組み合わせることで、新規タスクにおける効率的な探索が可能になります。我々が「内部RL」と呼ぶプロセスである直接的な内部コントローラ強化学習が、標準的なRLファインチューニングが失敗する状況下でも疎な報酬からの学習を可能にすることを示します。これらの結果は、自己回帰モデルにおける潜在的行動生成と強化学習の利点を実証し、基盤モデル内での階層的RLを実現する有望な道筋として内部RLを示唆しています。
既存の動画生成モデルは、映像信号の高密度かつ高次元な性質により、長期的な空間的・時間的一貫性の維持に課題を抱えている。この課題を克服するため、我々は空間メモリを明示的に保持する動画生成フレームワーク「Spatia」を提案する。Spatiaは3Dシーンポイントクラウドを永続的な空間メモリとして保持し、この空間メモリを条件として動画クリップを反復的に生成するとともに、視覚的SLAMを通じて継続的にメモリを更新する。この動的・静的分離設計により、生成プロセス全体での空間的一貫性が向上しつつ、現実的な動的エンティティの生成能力が維持される。さらにSpatiaは、明示的なカメラ制御や3D認識インタラクティブ編集などの応用を可能にし、スケーラブルなメモリ駆動型動画生成のための幾何学的に基礎付けられたフレームワークを提供する。
大規模言語モデルは推論過程を明示することが増えているが、その基盤となる認知的構造や個々のステップは、表面的な統計情報を超えて特定・分析することが依然として困難である。本研究では、Schoenfeldのエピソード理論を帰納的で中間スケールの分析レンズとして採用し、ThinkARM(推論の解剖学)というスケーラブルなフレームワークを提案する。この枠組みは推論過程を「分析」「探索」「実装」「検証」などの機能的推論ステップに明示的に抽象化する。数学的問題解決に多様なモデルを適用した結果、この抽象化により再現性のある思考ダイナミクスや、推論モデルと非推論モデルの間の構造的差異が明らかとなり、これらはトークンレベルの視点では見えないものであった。さらに2つの診断的ケーススタディを示し、探索が正答率に関連する重要な分岐ステップとして機能すること、および効率性を重視する手法が応答を一律に短縮するのではなく評価的フィードバックステップを選択的に抑制することを明らかにする。総合的に、我々の結果はエピソードレベルの表現が推論ステップを明示化し、現代の言語モデルにおいて推論がどのように構造化・安定化・変更されるかの体系的分析を可能にすることを実証している。
動画は3D世界の連続的な2D投影である。大規模な動画データで学習した後、グローバルな3D理解は自然に出現するだろうか?我々は、膨大な動画データで事前学習された既存のビデオ基盤モデル(VidFM)の3D理解度を定量化することでこの問題を検証する。本論文では、浅層リードアウトを通じて各種VidFMの特徴量から複数の3D特性を推定し、それらの3D認識能力を測定する初のモデル非依存フレームワークを提案する。我々の研究は、複数の軸にわたるVidFMの3D認識に関する有意義な知見を提示する。特に、3Dデータで全く学習されていないにもかかわらず、最先端の動画生成モデルが3Dオブジェクトとシーンに対する強力な理解を示すことを実証する。このような理解は、3Dタスク向けに特別に訓練された大規模専門モデルを凌駕することさえある。主要VidFMの3Dベンチマーク結果とともに得られた本発見は、スケーラブルな3Dモデル構築に向けた貴重な示唆を提供する。
視覚言語モデル(VLM)を基盤としたマルチモーダルエージェントに対するマルチターン強化学習(RL)は、スパースな報酬と長期的な信用割り当てによって妨げられてきた。最近の手法では、教師モデルにステップ単位のフィードバックを求めることで報酬を密度化している(例:Guided Thought Reinforcement(GTR)やOn-Policy Distillation)。しかし、これらは高コストでしばしば特権的なモデルを教師として依存するため、実用性と再現性が制限されていた。本論文では、GTRを大幅に効率化したアップグレード版であるGTR-Turboを提案する。これは、高価な教師モデルの学習や問い合わせを必要とせずに同等の性能を達成する。具体的には、GTR-TurboはRL訓練中に生成されるチェックポイントの重みを統合し、この統合モデルを「無償の」教師として利用して、教師ありファインチューニングまたはソフトロジット蒸留を通じて後続のRLを導く。この設計により、GPTやGeminiなどの特権的VLMへの依存が排除され、先行研究で観察された「エントロピー崩壊」が緩和され、訓練の安定性が維持される。多様な視覚的エージェントタスクにおいて、GTR-Turboはベースラインモデルの精度を10~30%向上させると同時に、GTRと比較して実時間訓練時間を50%、計算コストを60%削減する。
自己回帰(AR)型視覚生成は、画像を離散シーケンスに変換するトークナイザに依存しています。しかし、トークナイザは正解トークンからクリーンな画像を再構成するように訓練される一方、AR生成器はトークンの尤度のみを最適化します。この不整合により、生成されたトークンシーケンスはピクセル空間からの直接的な監督なしに低品質な画像にデコードされる可能性があります。我々はVA-πを提案します。これは原理に基づいたピクセル空間目的関数でARモデルを直接最適化する軽量な学習後フレームワークです。VA-πは生成器とトークナイザの整合性を変分最適化問題として定式化し、ピクセル再構成と自己回帰モデリングを統合する証拠下限(ELBO)を導出します。離散トークン空間での最適化のために、VA-πは強化学習に基づく整合化戦略を導入し、AR生成器を方策として扱い、ピクセル空間の再構成品質を内在的報酬として利用します。この報酬は、教師強制条件下で予測されたトークンシーケンスが元の画像をどれだけ正確に再構成できるかで測定され、高価な自由実行サンプリングなしにモデルに直接ピクセルレベルの指導を提供します。ELBOの正則化項は自然な正則化器として機能し、トークンの分布的整合性を維持します。VA-πは既存のAR生成器の迅速な適応を可能にし、トークナイザの再学習や外部報酬モデルを必要としません。ImageNet-1Kデータのわずか1%と25分のチューニングで、LlamaGen-XXLにおいてFIDを14.36から7.65に改善し、ISを86.55から116.70に向上させます。また、GenEvalのテキストから画像へのタスクにおいても、視覚生成モデル(LlamaGen: 0.306から0.339へ)と統一マルチモーダルモデル(Janus-Pro: 0.725から0.744へ)の両方で顕著な向上をもたらします。コードはhttps://github.com/Lil-Shake/VA-Piで公開されています。