翻訳付きの日次キュレーションされたAI研究論文
グラフィカルユーザーインターフェース(GUI)のグラウンディングは、自然言語の指示を自律的なインタラクションのための正確なインターフェース位置にマッピングする。現在の強化学習アプローチでは、要素を当たり外れのターゲットとして扱う二値報酬を使用しており、空間的インタラクションの連続的な性質を無視した疎な信号を生成している。ターゲット要素を中心に自然にガウス分布を形成する人間のクリック行動に着想を得て、我々はGUIガウスグラウンディング報酬(GUI-G^2)を導入する。これは、GUI要素をインターフェース平面上の連続的なガウス分布としてモデル化する原則的な報酬フレームワークである。GUI-G^2は、2つの相乗的なメカニズムを組み込んでいる:ガウスポイント報酬は、要素の重心を中心とした指数関数的に減衰する分布を通じて正確な位置特定をモデル化し、カバレッジ報酬は、予測されたガウス分布とターゲット領域の重なりを測定することで空間的整合性を評価する。多様な要素スケールに対処するため、要素の寸法に基づいて報酬分布を調整する適応分散メカニズムを開発した。このフレームワークは、GUIグラウンディングを疎な二値分類から密な連続最適化に変換し、ガウス分布がモデルを最適なインタラクション位置に導く豊かな勾配信号を生成する。ScreenSpot、ScreenSpot-v2、およびScreenSpot-Proベンチマークでの広範な実験により、GUI-G^2が最先端の手法UI-TARS-72Bを大幅に上回り、ScreenSpot-Proでは最大24.7%の改善を示すことが実証された。我々の分析により、連続的モデリングがインターフェースの変動に対する優れたロバスト性と未見のレイアウトに対する強化された一般化を提供し、GUIインタラクションタスクにおける空間推論の新たなパラダイムを確立することが明らかとなった。
大規模言語モデルは最近、流暢なテキスト生成から多様な領域にわたる高度な推論へと進化し、推論言語モデル(RLM)が登場しました。これらの領域の中でも、数学的推論は代表的なベンチマークとして機能します。なぜなら、正確な多段階の論理と抽象的な推論を必要とし、他のタスクにも一般化可能だからです。GPT-3のようなクローズドソースのRLMは印象的な推論能力を示しますが、そのプロプライエタリな性質が透明性と再現性を制限しています。多くのオープンソースプロジェクトがこのギャップを埋めようとしていますが、データセットや詳細なトレーニング設定などの重要なリソースを省略しているため、再現性が妨げられています。RLM開発の透明性を高めるために、私たちはQwen-2.5を基盤とした完全オープンソースのRLMシリーズであるMiroMind-M1シリーズを紹介します。このシリーズは既存のオープンソースRLMの性能に匹敵またはそれを上回ります。具体的には、私たちのモデルは2段階でトレーニングされます。まず、719Kの数学的推論問題と検証済みのCoT(Chain-of-Thought)軌跡を含む慎重に選ばれたコーパスでのSFT(Supervised Fine-Tuning)を行い、次に62Kの挑戦的で検証可能な問題でのRLVR(Reinforcement Learning with Verifiable Reasoning)を行います。RLVRプロセスの堅牢性と効率を向上させるために、Context-Aware Multi-Stage Policy Optimizationというアルゴリズムを導入しました。このアルゴリズムは、長さに応じた段階的トレーニングと適応的な繰り返しペナルティを統合し、コンテキストを意識したRLトレーニングを促進します。私たちのモデルは、AIME24、AIME25、MATHベンチマークにおいて、Qwen-2.5ベースのオープンソース7Bおよび32Bモデルの中で最先端または競争力のある性能と優れたトークン効率を達成しました。再現性を促進するために、完全なスタックを公開します。これには、モデル(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B)、データセット(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K)、およびすべてのトレーニングと評価の設定が含まれます。これらのリソースがさらなる研究を支援し、コミュニティの進歩を促進することを願っています。
大規模推論モデルの最近の進展は、特に複雑な論理タスクの解決において、検証可能な報酬を用いた強化学習(RLVR)がAIの能力を向上させる有望な手法として注目されています。しかし、RLVRがモデルの推論境界を真に拡張するのか、それともベースモデルが既に知っている高報酬の出力を精度向上のために増幅するだけなのかは、依然として不明確です。本研究は、RLVRの潜在的な限界について新たな洞察を提供する理論的・実証的な調査を提示します。まず、RLVRがベースモデルのサポートに制約されること―初期確率がゼロの解をサンプリングできないこと―を指摘し、RLVRが保守的な再重み付けメカニズムとして機能し、完全に独創的な解の発見を制限する可能性があるという新たな理論的視点を提供します。また、エントロピーと報酬のトレードオフを特定します。RLVRは確実に精度を向上させますが、探索を徐々に狭め、正解でありながら過小評価されている解を見落とす可能性があります。大規模な実証実験により、RLVRが一貫してpass@1を改善する一方で、サンプリング予算が大きくなるにつれて、経験的サポートの縮小が拡大を上回り、ベースモデルが以前にアクセスできた正解を回復できないことが検証されました。興味深いことに、RLVRがトークンレベルのエントロピーを増加させ、各生成ステップでの不確実性を高める場合がある一方で、回答レベルのエントロピーは低下し、これらの一見不確実なパスが最終的により少数の異なる回答に収束することを観察しました。これらの発見を総合すると、RLVRが推論の地平線を拡張する上での潜在的な限界が明らかになります。この見えない制約を打破するためには、明示的な探索メカニズムや、過小評価されている解の領域に確率質量を注入するハイブリッド戦略などの将来のアルゴリズム革新が必要となるかもしれません。
近年の生成モデルの進歩により、自然言語の指示に従って画像編集を行うアシスタントが、追加のユーザー入力なしで実現可能となった。その教師あり学習には、数百万のトリプレット(元画像、指示、編集後の画像)が必要である。しかし、ピクセル単位で正確な例を収集することは困難である。各編集は、指示された領域のみに影響を与え、スタイルの一貫性を保ち、物理的な妥当性を尊重し、視覚的な魅力を維持しなければならない。編集品質を評価する堅牢な自動化指標の欠如が、大規模な信頼性のある自動化を妨げている。本研究では、ドメイン、解像度、指示の複雑さ、スタイルを跨いで高忠実度のトリプレットを収集する自動化されたモジュール型パイプラインを提案する。公開されている生成モデルを基盤とし、人間の介入なしで動作する本システムは、タスクに特化したGeminiバリデーターを使用して、指示の遵守度と美的品質を直接スコア化し、セグメンテーションやグラウンディングモデルを不要とする。反転と合成的ブートストラップにより、収集されたデータセットを約2.2倍に拡大し、大規模な高忠実度の学習データを実現する。最も反復的なアノテーションステップを自動化することで、人間のラベリング作業なしで新たな規模の学習が可能となる。このリソース集約的な分野の研究を民主化するため、NHR-Editという358kの高品質トリプレットからなるオープンデータセットを公開する。最大規模のクロスデータセット評価において、すべての公開されている代替データセットを凌駕する。また、Bagel-NHR-EditというオープンソースのファインチューニングされたBagelモデルも公開し、実験において最先端のメトリクスを達成した。
大規模言語モデル(LLM)を基盤としたエージェントの登場は、ウェブベースの情報探索(IS)能力を通じて複雑で開放的な課題に対する解決策を可能にし、人工知能に革命をもたらしました。しかし、高品質な訓練データの不足がISエージェントの開発を制限してきました。既存のアプローチでは、一般的に情報駆動型のパラダイムを採用し、まずウェブデータを収集し、その後その検索結果に基づいて質問を生成します。しかし、これでは情報構造と推論構造、質問と回答の間に不整合が生じる可能性があります。これを緩和するため、我々はデータセットを構築するための形式化駆動型ISデータ合成フレームワーク「WebShaper」を提案します。WebShaperは、集合論を通じてISタスクを体系的に形式化します。この形式化の中心となるのは「知識投影(KP)」の概念であり、KP操作の合成によって推論構造を精密に制御することが可能です。合成プロセスでは、まずシードタスクを作成し、その後多段階の拡張プロセスを経ます。各段階では、エージェント的な「Expander」が現在の形式的質問を、我々の形式化に基づいた検索と検証ツールを用いてより複雑に拡張します。我々は、この合成されたデータセットでモデルを訓練します。実験結果は、WebShaperがGAIAおよびWebWalkerQAベンチマークにおいて、オープンソースのISエージェントの中で最先端の性能を達成することを示しています。
我々は汎用ロボットポリシーの構築に向けた最近の進展、すなわちGR-3の開発について報告する。GR-3は大規模な視覚-言語-行動(VLA)モデルであり、新しい物体、環境、抽象概念を含む指示に対する優れた汎化能力を示す。さらに、最小限の人間軌跡データで効率的にファインチューニング可能であり、新しい設定への迅速かつ低コストな適応を実現する。GR-3は、両手操作や移動を必要とする長期的で繊細なタスクにおいても優れた性能を発揮し、堅牢で信頼性の高い動作を示す。これらの能力は、ウェブスケールの視覚-言語データとの共学習、VRデバイスを通じて収集された人間軌跡データからの効率的なファインチューニング、ロボット軌跡データを用いた効果的な模倣学習を含む多面的なトレーニングレシピによって達成されている。さらに、GR-3と統合することで幅広いタスクを達成可能な、優れた柔軟性と信頼性を備えた汎用両手移動ロボットByteMiniを紹介する。広範な実世界実験を通じて、GR-3が最先端のベースライン手法pi_0を多様な困難なタスクにおいて凌駕することを示す。我々は、GR-3が日常生活において人間を支援可能な汎用ロボットの構築に向けた一歩となることを期待する。
ビデオオブジェクトセグメンテーション(VOS)は、コンピュータビジョンにおける核心的なタスクであり、モデルがビデオフレーム間でターゲットオブジェクトを追跡し、セグメント化することを要求します。最近の取り組みにより顕著な進展が見られるものの、現在の技術は、劇的な視覚的変化、オクルージョン、複雑なシーン変化を扱う点において、人間の能力にまだ及んでいません。この制限は、外観マッチングに依存し、時間的ダイナミクスにわたる頑健な識別を可能にする人間のようなオブジェクトの概念的理解を無視していることに起因します。このギャップに動機づけられ、我々はセグメントコンセプト(SeC)を提案します。これは、従来の特徴マッチングから、高レベルでオブジェクト中心の表現の漸進的な構築と活用へとシフトする概念駆動型のセグメンテーションフレームワークです。SeCは、大規模視覚言語モデル(LVLM)を活用して、多様なフレーム間の視覚的手がかりを統合し、頑健な概念的プライアを構築します。推論中、SeCは処理されたフレームに基づいてターゲットの包括的な意味表現を形成し、後続フレームの頑健なセグメンテーションを実現します。さらに、SeCは、LVLMベースの意味推論と強化された特徴マッチングを適応的にバランスさせ、シーンの複雑さに基づいて計算努力を動的に調整します。高レベルの概念的推論と頑健な意味理解を要求するシナリオでVOSメソッドを厳密に評価するために、我々はセマンティックコンプレックスシナリオビデオオブジェクトセグメンテーションベンチマーク(SeCVOS)を導入します。SeCVOSは、大幅な外観変化と動的なシーン変換でモデルに挑戦するために設計された160の手動アノテーションされたマルチシナリオビデオで構成されています。特に、SeCはSeCVOSにおいてSAM 2.1に対して11.8ポイントの改善を達成し、概念認識型ビデオオブジェクトセグメンテーションにおける新たな最先端を確立しました。
3Dニューラル表現とインスタンスレベル編集モデルの最近の進歩により、高品質な3Dコンテンツの効率的な作成が可能になりました。しかし、特にガウシアンスプラッティングにおいて、一貫性のないマルチビューの2Dパーツセグメンテーションと、スコア蒸留サンプリング(SDS)損失の本質的な曖昧さのため、正確な局所的な3D編集を実現することは依然として困難です。これらの制限に対処するため、我々はRoMaPを提案します。これは、正確で劇的なパーツレベルの変更を可能にする新しい局所3Dガウシアン編集フレームワークです。まず、3Dジオメトリを考慮したラベル予測(3D-GALP)を用いた堅牢な3Dマスク生成モジュールを導入します。これは、球面調和関数(SH)係数を使用して視点依存のラベル変動とソフトラベル特性をモデル化し、視点間で正確で一貫したパーツセグメンテーションを実現します。次に、標準のSDS損失と追加の正則化項を組み合わせた正則化SDS損失を提案します。特に、スケジュールされた潜在混合とパーツ(SLaMP)編集手法を介してL1アンカー損失を導入し、高品質なパーツ編集2D画像を生成し、ターゲット領域のみに変更を限定しながら文脈の一貫性を保持します。ガウシアンプライアの除去などの追加の正則化項は、既存の文脈を超えた変更を可能にすることで柔軟性をさらに向上させ、堅牢な3Dマスキングは意図しない編集を防ぎます。実験結果は、我々のRoMaPが再構築および生成されたガウシアンシーンとオブジェクトの両方において、質的および量的に最先端の局所3D編集を達成し、より堅牢で柔軟なパーツレベルの3Dガウシアン編集を可能にすることを示しています。コードはhttps://janeyeon.github.io/romapで公開されています。
我々は、大規模な人間のビデオデータで訓練された高度な器用さを持つVision-Language-Actionモデル(VLA)であるBeing-H0を紹介する。既存のVLAは、高度な器用さを必要とする複雑な操作タスクに苦戦し、新しいシナリオやタスクへの汎化が不十分である。これは主に、シミュレーションと現実の間に大きなギャップがある合成データや、規模と多様性に欠ける遠隔操作デモンストレーションに依存しているためである。このデータのボトルネックを解決するため、我々は人間の手を基盤としたマニピュレータとして活用し、ウェブデータに存在する豊富な器用さとスケーラビリティを利用することを提案する。我々のアプローチは、物理的指示チューニングという新しい訓練パラダイムを中心としており、人間のビデオからの大規模なVLA事前学習、3D推論のための物理空間アラインメント、ロボットタスクのための事後訓練適応を組み合わせている。さらに、ミリメートルレベルの再構成精度を達成するパートレベルのモーショントークン化手法を導入し、正確な手の軌跡をモデル化して行動学習を行う。提案するパラダイムをサポートするため、モーションキャプチャ、VR、RGBのみのビデオなど、異種のデータソースを統合し、数百万のモーションベースの指示インスタンスを含む大規模なデータセットを作成する包括的なデータキュレーションパイプラインを開発した。我々は、Being-H0が手の動き生成と指示追従において優れていることを実証し、モデルサイズとデータサイズに応じて良好にスケールすることも示した。重要なことに、物理的指示チューニングが適用されることで、Being-H0が現実世界のロボット操作において期待される成果を上げることを観察した。詳細はhttps://beingbeyond.github.io/Being-H0で確認できる。
音声言語モデル(SLM)は、音声入力を取り込み、音声応答を生成するように設計されています。しかし、現在のSLMは、応答する前に内部で無言の思考プロセスを実行する能力を欠いています。一方、人間は通常、内部で複雑な精神的推論を行い、明確かつ簡潔にアイデアを伝えることができます。したがって、SLMに無言の思考プロセスを統合することは非常に望ましいです。単純に完全な連鎖的思考(CoT)推論を生成してから話し始めることで、SLMに思考を可能にすることができますが、これにより音声応答に追加の遅延が生じます。なぜなら、CoT推論は任意に長くなる可能性があるからです。この問題を解決するために、我々はStitchという新しい生成方法を提案します。Stitchは、無言の推論チャンクと音声応答チャンクの生成を交互に行います。音声応答のチャンクのオーディオ再生時間は、そのチャンクのトークンを生成する時間よりもはるかに長いため、残りの自由時間を無言の推論トークンの生成に使用します。オーディオチャンクがユーザーに再生されている間、モデルは次の無言の推論チャンクを生成し続け、思考と発話を同時に実現します。注目すべきは、Stitchが無言のCoTを生成できないベースラインと同等の遅延を維持しながら、数学的推論データセットでそれらのベースラインを15%上回ることです。また、Stitchは非推論データセットでもベースラインモデルと同等の性能を発揮します。いくつかのアニメーションとデモンストレーションはプロジェクトページにあります:https://d223302.github.io/STITCH。
大規模推論モデル(LRM)の推論長を拡張することで性能が低下する評価タスクを構築し、テスト時の計算量と精度の間に逆スケーリング関係が現れることを示す。評価タスクは4つのカテゴリにわたる:ディストラクターを伴う単純な計数タスク、スプリアス特徴を伴う回帰タスク、制約追跡を伴う演繹タスク、および高度なAIリスクである。モデルが長く推論する際に生じる5つの異なる失敗モードを特定した:1)Claudeモデルは無関係な情報にますます注意を奪われる;2)OpenAI o-seriesモデルはディストラクターに抵抗するが問題の枠組みに過剰適合する;3)モデルは合理的な事前分布からスプリアスな相関関係にシフトする;4)すべてのモデルは複雑な演繹タスクに集中し続けることに困難を示す;5)拡張された推論は懸念される行動を増幅する可能性があり、Claude Sonnet 4は自己保存の表現が増加する。これらの結果は、テスト時の計算量スケーリングがモデルの能力向上に有望である一方で、問題のある推論パターンを無意識に強化する可能性があることを示唆している。我々の結果は、LRMのこれらの失敗モードを特定し対処するために、多様な推論長にわたってモデルを評価することの重要性を実証している。
3Dガウシアンスプラッティング(3DGS)は、新規視点合成(NVS)タスクにおいて、その詳細な表現能力と高いレンダリング速度を示しています。しかし、逆レンダリングへの適用では、ガウシアンプリミティブの離散的な性質が幾何学的制約の適用を困難にするため、いくつかの課題が残っています。最近の研究では、符号付き距離場(SDF)を追加の連続表現として導入し、ガウシアンプリミティブによって定義される幾何学を正則化しています。これにより分解品質が向上しますが、メモリ使用量の増加とトレーニングの複雑化という代償を伴います。これらの研究とは異なり、我々は離散化されたSDFを導入し、各ガウシアン内にサンプル値をエンコードすることで連続SDFを離散的に表現します。このアプローチにより、SDFとガウシアンの不透明度をSDF-to-opacity変換を通じて関連付けることが可能となり、レイマーチングの計算コストを回避しつつ、スプラッティングによるSDFのレンダリングを実現します。主要な課題は、離散サンプルを基盤となるSDFと整合させることであり、離散表現では勾配ベースの制約(例:Eikonal損失)を適用することが難しいためです。これに対し、我々はガウシアンをSDFのゼロレベルセットに投影し、スプラッティングによる表面との整合を強制する、すなわち投影ベースの整合性損失を導入します。離散化されたSDFのおかげで、我々の手法はGSを超える追加メモリを必要とせず、複雑な手動設計の最適化を回避しつつ、より高い再照明品質を実現します。実験結果は、我々の手法が既存のガウシアンベースの逆レンダリング手法を上回ることを示しています。コードはhttps://github.com/NK-CS-ZZL/DiscretizedSDFで公開されています。
人間の知能には正確性と頑健性が求められ、前者は後者の基盤となる。映像理解において、正確性は視覚的内容の適切な解釈を保証し、頑健性は困難な条件下でも一貫した性能を維持する。ビデオ大規模言語モデル(video LLMs)の進展にもかかわらず、既存のベンチマークは、映像解釈におけるこれらのモデルと人間の知能の間の正確性と頑健性のギャップを十分に反映していない。本論文では、ビデオLLMsが実世界の映像を人間と同様に効果的に解釈できるかを評価するため、Video Thinking Test(Video-TT)を提案する。Video-TTは、複雑な視覚的物語の理解における真のギャップを反映し、自然な敵対的質問に対する頑健性を評価する。Video-TTは1,000本のYouTube Shorts映像で構成され、各映像には1つの自由回答形式の質問と、視覚的および物語的複雑性を探る4つの敵対的質問が付随する。評価の結果、ビデオLLMsと人間のパフォーマンスの間に有意なギャップが確認された。
検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデル(Large Language Models, LLMs)の推論能力を向上させるための効果的な事後学習手法として確立されており、主に反省や計画といった高次行動の形成に焦点を当てています。しかし、従来のRLVRアルゴリズムは、すべてのトークンに均一な学習信号を適用する傾向があり、低エントロピーの知識関連トークンと高エントロピーの推論関連トークンの異なる役割を考慮していませんでした。最近のいくつかの手法では、勾配マスキングや非同期更新を用いてこれらのトークンタイプを分離しようと試みていますが、これらのアプローチはモデル出力の意味的依存関係を破壊し、効果的な学習を妨げる可能性があります。本研究では、エントロピーを考慮したRLVR手法であるArcherを提案します。この手法は、二重トークン制約と同期更新を特徴とし、推論トークンには弱いKL正則化と高いクリッピング閾値を適用して探索を促進し、知識トークンには強い制約をかけて事実知識を維持します。いくつかの数学的推論およびコード生成ベンチマークでの実験結果は、本手法が従来のRLVR手法を大幅に上回り、同等サイズのモデルの中で最先端の性能に到達またはそれを超えることを示しています。コードはhttps://github.com/wizard-III/ArcherCodeRで公開されています。
大規模言語モデル(LLM)ベースのインテリジェントエージェントの急速な台頭は、堅牢でスケーラブルな評価フレームワークの必要性を浮き彫りにしています。既存の手法は静的ベンチマークと労力を要するデータ収集に依存しており、実践的な評価を制限しています。本論文では、\oursystemnameを紹介します。これは、オープンソースのモデルコンテキストプロトコル(MCP)ベースのフレームワークであり、多様なドメインにわたるLLMエージェントのエンドツーエンドタスク生成と深い評価を自動化します。MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプライン構築における手作業を排除します。5つの実世界ドメインにわたる実証結果は、ドメイン固有の微妙な性能を明らかにするその有効性を示しています。再現可能で標準化されたLLMエージェント評価を促進するため、MCPEvalを公開します。https://github.com/SalesforceAIResearch/MCPEval
ビデオ生成モデルは、高品質でフォトリアルなコンテンツの作成において顕著な進歩を遂げてきた。しかし、物理現象を正確にシミュレートする能力は依然として重要な未解決の課題である。本論文では、物理法則への準拠度に基づいてビデオ生成モデルを評価するための包括的なベンチマークであるPhyWorldBenchを提案する。このベンチマークは、物体の運動やエネルギー保存といった基本原理から、剛体相互作用や人間や動物の動きを含むより複雑なシナリオまで、複数のレベルの物理現象をカバーしている。さらに、現実世界の物理法則を意図的に破るプロンプトを含む「反物理」カテゴリを新たに導入し、モデルがそのような指示に従いながら論理的一貫性を維持できるかどうかを評価する。大規模な人間による評価に加えて、現在のMLLMを活用してゼロショット方式で物理的リアリズムを評価するためのシンプルかつ効果的な手法も設計する。12の最先端のテキストからビデオ生成モデル(オープンソースモデル5つとプロプライエタリモデル5つを含む)を評価し、詳細な比較と分析を行う。1,050の厳選されたプロンプト(基本原理、複合、反物理シナリオを含む)を通じて、これらのモデルが現実世界の物理法則に準拠する際に直面する重要な課題を特定する。その後、さまざまなプロンプトタイプを用いた多様な物理現象に対するパフォーマンスを厳密に検証し、物理原則への忠実度を高めるためのプロンプト作成に関する具体的な提言を導き出す。
動画から4次元時空間ジオメトリを認識し再構築することは、コンピュータビジョンにおける基本的でありながら困難な課題です。インタラクティブでリアルタイムなアプリケーションを実現するため、我々はオートリグレッシブな大規模言語モデルと類似の哲学を共有するストリーミング4次元視覚ジオメトリトランスフォーマーを提案します。シンプルで効率的な設計を探求し、因果的トランスフォーマーアーキテクチャを採用して入力シーケンスをオンライン方式で処理します。時間的因果的アテンションを使用し、歴史的なキーと値を暗黙のメモリとしてキャッシュすることで、効率的なストリーミング長期4次元再構築を可能にします。この設計は、高品質な空間的一貫性を維持しながら、歴史的情報を段階的に統合することでリアルタイム4次元再構築を処理できます。効率的な訓練のために、密な双方向視覚ジオメトリグラウンデッドトランスフォーマー(VGGT)から因果的モデルへ知識を蒸留することを提案します。推論において、我々のモデルは大規模言語モデル分野から最適化された効率的なアテンション演算子(例:FlashAttention)の移行をサポートします。様々な4次元ジオメトリ認識ベンチマークでの広範な実験により、我々のモデルがオンラインシナリオでの推論速度を向上させながら競争力のある性能を維持し、スケーラブルでインタラクティブな4次元視覚システムへの道を開くことが実証されました。コードは以下で公開されています:https://github.com/wzzheng/StreamVGGT。
多段階問題解決は、大規模推論モデル(LRM)が自身の推論を振り返り、フィードバックから修正を行う上で重要でありながらも困難な課題である。既存の強化学習(RL)手法は、検証可能な報酬を用いて単一ターンのパラダイムで大規模推論モデルを訓練する。しかし、既存のRLパラダイムで訓練されたモデルは、多段階にわたる問題解決能力を失い、文脈に基づくフィードバックに応じて回答を修正することが難しく、繰り返しの応答を引き起こすことが観察される。我々は問う:LRMは多段階の文脈で自身の回答を反映することを学習できるか?本研究では、誤った回答後に単一のフィードバック(例:「もう一度試してみよう」)のみを用いた多段階RLでモデルを訓練することで、単一ターンの性能と多段階推論の両方を改善できることを発見した。我々は、反復的な問題解決中に最小限でありながら一般的な単一のユーザーフィードバックを使用する「Unary Feedback as Observation(UFO)」を強化学習に導入する。これは既存の単一ターンRL訓練セットアップに容易に適用可能である。実験結果は、UFOを用いたRL訓練が単一ターンの性能を維持し、多段階推論の精度を最大14%向上させ、言語モデルが多段階問題解決におけるフィードバックにより適切に反応できることを示している。さらに、正しい回答に必要なターン数を最小化しつつ、誤りが発生した際に多様な推論を促すために、各ターンで慎重かつ意図的な回答を生成するようモデルを導く報酬構造を設計した。コード:https://github.com/lichengliu03/unary-feedback
視覚的トークナイザーの基本的な役割にもかかわらず、生成モデリングにおいてより効果的な特性が何であるかは依然として不明確です。我々は、現代の生成モデルが概念的に類似した訓練目標を共有していることに気づきました。それは、ガウシアンノイズやマスキングなどの破損した入力からクリーンな信号を再構築するというプロセスであり、我々はこれを「ノイズ除去」と呼びます。この洞察に基づき、我々はトークナイザーの埋め込みを直接下流のノイズ除去目標に整合させることを提案し、潜在埋め込みが重度に破損された場合でも容易に再構築されるよう促します。これを実現するために、我々はLatent Denoising Tokenizer(l-DeTok)を導入します。これは、補間ノイズとランダムマスキングによって破損された潜在埋め込みからクリーンな画像を再構築するように訓練された、シンプルでありながら効果的なトークナイザーです。ImageNet 256x256での広範な実験により、我々のトークナイザーが6つの代表的な生成モデルにおいて標準的なトークナイザーを一貫して上回ることが示されました。我々の発見は、ノイズ除去をトークナイザー開発の基本的な設計原則として強調し、今後のトークナイザー設計に新たな視点を提供することを期待しています。
機械学習は大規模な並列化によって進展してきたが、我々は重要な盲点を指摘する:一部の問題は本質的に逐次的である。これらの「本質的に逐次的」な問題——数学的推論から物理シミュレーション、逐次的意思決定に至るまで——は、並列化できない依存的な計算ステップを必要とする。複雑性理論に基づいて、この区別を形式化し、現在の並列中心のアーキテクチャがそのようなタスクにおいて根本的な制限に直面することを示す。計算の逐次的な性質を認識することは、機械学習、モデル設計、ハードウェア開発に深い影響を及ぼすと論じる。AIがますます複雑な推論に取り組む中で、並列計算だけでなく、意図的に逐次計算をスケールアップすることが、継続的な進歩にとって不可欠である。
我々は、LLM Economistという新しいフレームワークを提案する。これは、階層的意思決定を伴う戦略的環境において、エージェントベースモデリングを用いて経済政策を設計・評価するものである。下位レベルでは、限定的合理性を持つ労働者エージェント――米国国勢調査に基づく所得と人口統計からサンプリングされた人物条件付きプロンプトとして具現化される――が、文脈内で学習されたテキストベースの効用関数を最大化するために労働供給を選択する。上位レベルでは、プランナーエージェントが文脈内強化学習を用いて、現在の米国連邦税制の区分に基づいた区分線形の限界税率スケジュールを提案する。この構成により、経済シミュレーションは、信頼性のある財政実験に必要な3つの能力を備えることになる:(i)異質な効用関数の最適化、(ii)大規模で人口統計学的に現実的なエージェント集団の原則的生成、(iii)完全に自然言語で表現されたメカニズムデザイン――究極のナッジング問題。最大100の相互作用するエージェント集団を用いた実験では、プランナーがSaez解と比較して集団的社会厚生を改善するシュタッケルベルク均衡に近づくことが示され、定期的な人物レベルでの投票手続きが分散型ガバナンス下でこれらの利益をさらに促進することが明らかになった。これらの結果は、大規模言語モデルベースのエージェントが複雑な経済システムを共同でモデル化、シミュレーション、統治できることを示しており、社会規模での政策評価のための扱いやすいテストベッドを提供し、より良い文明の構築に貢献するものである。
一貫性のある長尺動画の生成は複雑な課題である。拡散モデルに基づく生成モデルは視覚的に印象的な短尺クリップを生成するが、これを長時間に拡張するとメモリのボトルネックや長期的な不整合が生じやすい。本論文では、これらの課題を解決するために凝縮されたトークンを活用する新しい二段階フレームワーク「TokensGen」を提案する。我々の手法は、長尺動画生成を以下の3つの核心タスクに分解する:(1) クリップ内の意味的制御、(2) 長期的な一貫性の制御、(3) クリップ間の滑らかな遷移。まず、テキストと動画トークンに導かれた短尺動画拡散モデル「To2V(Token-to-Video)」を、短尺クリップを意味的に豊かなトークンに凝縮する「Video Tokenizer」と共に学習する。次に、全てのトークンを一度に生成し、クリップ間のグローバルな一貫性を保証する動画トークン拡散トランスフォーマー「T2To(Text-to-Token)」を導入する。最後に、推論時には適応型のFIFO-Diffusion戦略を用いて隣接するクリップをシームレスに接続し、境界のアーティファクトを低減して滑らかな遷移を実現する。実験結果は、我々のアプローチが計算コストを過度に増加させることなく、長期的な時間的および内容的な一貫性を大幅に向上させることを示している。凝縮されたトークンと事前学習済みの短尺動画モデルを活用することで、本手法は長尺動画生成に対するスケーラブルでモジュール型のソリューションを提供し、ストーリーテリング、映画制作、没入型シミュレーションにおける新たな可能性を開くものである。詳細はプロジェクトページ(https://vicky0522.github.io/tokensgen-webpage/)を参照されたい。
小規模なタスク固有データを用いた継続的な事前学習は、大規模言語モデルを新たなターゲット分野で改善する効果的な方法であるが、元の能力の破滅的な忘却を引き起こすリスクがある。一般的な解決策は、ドメイン空間におけるソース分野とターゲット分野のトレーニングデータの混合比率を再調整し、バランスの取れた性能を達成することである。従来のドメイン再調整戦略は、人間の直感や経験的結果に基づいた特定のヒューリスティックを用いた手動指定に依存していた。本研究では、より一般的なヒューリスティックをパラメータ化できることを証明し、ドメインの重み付けを学習する初のモデルベースのエンドツーエンドフレームワークであるData Mixing Agentを提案する。このエージェントは、評価環境からのフィードバックと共に大量のデータ混合軌跡に対して強化学習を行うことで、一般化可能なヒューリスティックを学習する。数学的推論における継続的事前学習の実験では、Data Mixing Agentがソース分野とターゲット分野のベンチマークでバランスの取れた性能を達成する点で強力なベースラインを上回ることが示された。さらに、未見のソース分野、ターゲットモデル、ドメイン空間においても再トレーニングなしで良好な汎化性能を示す。コード生成分野への直接適用も、そのターゲットドメイン間での適応性を示唆している。さらなる分析により、エージェントのヒューリスティックが人間の直感とよく一致し、より少ないソース分野データで優れたモデル性能を達成する効率性が明らかになった。
大規模言語モデル(LLM)ベースのエージェントの科学的発見能力、特に環境の複雑さの変化に対応し、事前知識を活用する方法を評価するためには、現在の研究環境では専門的なベンチマークが不足している。このギャップを埋めるため、我々はPhysGymを導入する。これは、インタラクティブな物理環境におけるLLMベースの科学的推論を厳密に評価するための新しいベンチマークスイートおよびシミュレーションプラットフォームである。PhysGymの主な貢献は、エージェントに提供される事前知識のレベルを高度に制御できる点にある。これにより、研究者は問題の複雑さや事前知識のレベルに沿ってエージェントの性能を詳細に分析することが可能となる。このベンチマークは、エージェントが環境を積極的に探査し、制約下で逐次的にデータを収集し、基礎となる物理法則に関する仮説を立てる必要がある一連のインタラクティブシミュレーションで構成されている。PhysGymは、仮説の正確性とモデルの忠実度を評価するための標準化された評価プロトコルとメトリクスを提供する。我々は、ベースラインLLMからの結果を示すことで、このベンチマークが異なる事前知識とタスクの複雑さに基づいて能力を区別する能力を実証する。
クロスビュー位置推定は、地上レベルの画像と衛星画像を位置合わせすることで、カメラの3自由度(3-DoF)姿勢を推定するタスクであり、自律走行や拡張現実などの大規模な屋外アプリケーションにおいて重要です。既存の手法は、高コストな正解姿勢アノテーションを必要とする完全教師あり学習に依存することが多いです。本研究では、GeoDistillという、ジオメトリをガイドとした弱教師あり自己蒸留フレームワークを提案します。このフレームワークでは、教師-生徒学習と視野角(FoV)に基づくマスキングを用いて、ロバストなクロスビュー位置推定のための局所的特徴学習を強化します。GeoDistillでは、教師モデルがパノラマ画像を位置推定し、生徒モデルはFoVベースのマスキングによって作成された限定視野角の画像から位置を予測します。生徒の予測を教師の予測と位置合わせすることで、生徒は車線などの重要な特徴に注目し、道路などのテクスチャのない領域を無視するようになります。これにより、クエリ画像がパノラマか限定視野角の画像かに関わらず、より正確な予測と不確実性の低減が実現されます。実験の結果、GeoDistillはさまざまなフレームワークにおいて位置推定性能を大幅に向上させることが示されました。さらに、正確な平面位置の正解データを必要とせずに相対的な方位を推定する新しい方位推定ネットワークを導入します。GeoDistillは、実世界のクロスビュー位置推定の課題に対するスケーラブルで効率的なソリューションを提供します。コードとモデルはhttps://github.com/tongshw/GeoDistillで公開されています。
コンピュータ断層撮影(CT)画像の正確な分類は、診断と治療計画において不可欠であるが、既存の手法は病理学的特徴の微妙で空間的に多様な性質に対処するのに苦労することが多い。現在のアプローチでは、画像を均一に処理することが一般的であり、焦点を当てた分析を必要とする局所的な異常を検出する能力が制限されている。本研究では、UGPL(Uncertainty-Guided Progressive Learning)フレームワークを提案する。このフレームワークは、診断上の曖昧さを持つ領域を最初に特定し、その後これらの重要な領域を詳細に分析するというグローバルからローカルへの分析を行う。我々のアプローチは、予測の不確実性を定量化するためにエビデンシャル・ディープラーニングを採用し、空間的多様性を維持する非最大抑制メカニズムを通じて情報量の多いパッチを抽出する。この段階的な精緻化戦略は、適応的融合メカニズムと組み合わさり、UGPLが文脈情報と微細な詳細の両方を統合することを可能にする。3つのCTデータセットを用いた実験により、UGPLが最先端の手法を一貫して上回り、腎臓異常、肺がん、COVID-19検出においてそれぞれ3.29%、2.46%、8.08%の精度向上を達成することが示された。我々の分析によれば、不確実性をガイドとするコンポーネントは大きな利点を提供し、完全な段階的学習パイプラインが実装された場合に性能が劇的に向上することが明らかになった。我々のコードは以下で公開されている:https://github.com/shravan-18/UGPL
大規模言語モデル(LLMs)はプログラミングタスクにおいて高い性能を示しているが、実際の学生のように不完全で反復的、かつスタイル的に多様な「学生らしい」コードを生成できるだろうか?本論文では、初級プログラミングコースの設定において、LLMベースの「学生らしい」コード生成を体系的に研究したParaStudentを紹介する。複数の学期にわたるタイムスタンプ付きの学生提出データセットを用いて、学生の進捗をモデル化し、コード出力を意味的、機能的、およびスタイル的側面から評価するための低解像度および高解像度の実験を設計した。その結果、ファインチューニングが実際の学生の軌跡との整合性を大幅に向上させ、エラーパターン、漸進的改善、およびスタイルのバリエーションをより忠実に捉えることが示された。本研究は、現実的な学生コードのモデル化には、文脈を考慮した生成、時間的モデリング、および多次元的評価を通じて学習ダイナミクスを捉えることが必要であることを示している。実験および評価のコードはhttps://github.com/mmiroyan/ParaStudentで公開されている。