翻訳付きの日次キュレーションされたAI研究論文
我々はLing 2.0を紹介する。これは「あらゆる活性化が推論能力を強化する」という原理に基づいて構築された、推論指向の言語基盤モデルシリーズである。統一されたMixture-of-Experts(MoE)パラダイムの下で数百億から1兆パラメータまでスケーリング可能に設計され、実証的なスケーリング則に導かれた高スパース性、クロススケール一貫性、効率性を重視している。本シリーズは16Bから1Tの総パラメータ規模を持つ3つの非思考(指示)モデル(Ling-mini-2.0、Ling-flash-2.0、Ling-1T)を含み、密モデルと比較して最大7倍のアクティブ演算効率を達成する。Ling 2.0は、モデルアーキテクチャ、事前学習、事後学習、インフラストラクチャにわたる協調的イノベーションを統合している:効率的推論のためのMTPを備えた高スパースMoE、推論指向データと学習中期CoT活性化、強化学習ベースのファインチューニング(DFT、Evo-CoT)、フルスケールFP8学習と細粒度異種パイプラインである。兆規模ではLing-1Tが推論精度と計算効率の新たなパレートフロンティアを確立し、スパース活性化が推論目標と適切に連携することでスケーラブルで効率的な知能を実現可能であることを実証した。総合的に、Ling 2.0は同一基盤上に構築されるRingシリーズを含む、将来の推論・思考モデル発展のための首尾一貫したオープンで効率的な基盤を提供する。
拡散ポリシーなどの生成モデルによってパラメータ化された暗黙的ポリシーは、ロボット工学におけるポリシー学習とVision-Language-Action(VLA)モデルの標準となっている。しかし、これらのアプローチは高い計算コスト、エクスポージャーバイアス、不安定な推論ダイナミクスに悩まされることが多く、分布シフト下での発散を引き起こす。エネルギー基準モデル(EBM)は、エネルギーランドスケープをエンドツーエンドで学習し平衡ダイナミクスをモデル化することでこれらの問題に対処し、改善されたロバスト性と低減されたエクスポージャーバイアスを提供する。しかし、EBMでパラメータ化されたポリシーは歴史的に効果的なスケーリングに苦戦してきた。エネルギー基準トランスフォーマー(EBT)に関する最近の研究は、高次元空間へのEBMのスケーラビリティを実証しているが、物理的実体を持つモデルの中核的課題解決への可能性は未開拓のままである。我々は、ロボットおよび実世界設定の中核的課題を解決する新しいエネルギー基準アーキテクチャ「EBT-Policy」を提案する。シミュレーションと実世界のタスク全体で、EBT-Policyは拡散ベースのポリシーを一貫して上回りながら、より少ない訓練と推論計算を必要とする。驚くべきことに、一部のタスクではわずか2回の推論ステップで収束し、拡散ポリシーの100ステップと比較して50倍の削減を実現した。さらにEBT-Policyは、明示的なリトライ訓練なしで行動クローニングのみを用いた失敗した行動シーケンスからのゼロショット回復など、従来モデルでは見られなかった創発的能力を示す。スカラーエネルギーを不確実性認識推論と動的計算割り当てに活用することで、EBT-Policyは分布シフト下でのロバストで一般化可能なロボット動作への有望な道筋を提供する。
テストタイムスケーリング(TTS)は、推論時に追加の計算リソースを割り当てることで大規模言語モデル(LLM)を改善する手法であり、通常は並列・逐次・ハイブリッドスケーリングによって実現されます。しかし、従来の研究では固定的な協調アーキテクチャ(トポロジーなど)と単一モデル使用が前提とされることが多く、最適なアーキテクチャとモデル組み合わせがタスクによって変化する点が看過されてきました。そこで本研究では、固定予算下でTTSにおける計算最適なモデル組み合わせとアーキテクチャを探索する新たな問題に着目します。これを、ノードが役割とLLMモデルの割当を符号化し、エッジが情報フローを捕捉するマルチLLM協調グラフとして定式化します。この問題は、(i)組み合わせ爆発を起こす探索空間の膨大さ、(ii)タスク特有の要件に応じた設計必要性という二つの難題を抱えています。これらの課題に対処するため、問題を確率的グラフ最適化として再定式化し、予備実験を通じてTTS協調グラフに関する三つの実証的知見を導出します。これらの知見に基づき、我々はAgent-REINFORCEを提案します。これは、サンプリング-勾配-更新のパイプラインをサンプリング-フィードバック-更新に対応付け、フィードバックをテキスト勾配として確率的グラフを更新するLLMエージェント拡張フレームワークであり、最適なマルチLLM協調グラフを効率的に探索します。実験結果では、Agent-REINFORCEが従来手法及びLLMベースラインをサンプル効率と探索性能の両面で上回り、精度と推論遅延の複合目標下で最適なグラフを効果的に同定できることを示します。
我々は、Physical AIのためのCosmos World Foundation Modelsの最新世代である[Cosmos-Predict2.5]を紹介する。フローベースのアーキテクチャを基盤として構築された[Cosmos-Predict2.5]は、Text2World、Image2World、Video2World生成を単一モデルに統合し、Physical AI視覚言語モデルである[Cosmos-Reason1]を活用して、より豊富なテキスト接地と世界シミュレーションの精密な制御を実現する。2億の厳選された動画クリップで学習され、強化学習ベースの事後学習で洗練された[Cosmos-Predict2.5]は、動画品質と指示への適合性において[Cosmos-Predict1]を大幅に上回り、2Bおよび14Bスケールのモデルが公開されている。これらの能力により、ロボティクスと自律システムにおける、より信頼性の高い合成データ生成、ポリシー評価、閉ループシミュレーションが可能となる。さらに我々は、Sim2RealおよびReal2Realの世界変換のためのControlNetスタイルのフレームワークである[Cosmos-Transfer2.5]をファミリーに追加する。[Cosmos-Transfer1]よりも3.5倍小型化されているにもかかわらず、より高忠実度でロバストな長期動画生成を実現する。これらの進歩により、[Cosmos-Predict2.5]と[Cosmos-Transfer2.5]は具身化知能をスケールさせるための汎用的なツールとして確立された。Physical AIの研究と展開を加速させるため、ソースコード、事前学習済みチェックポイント、厳選されたベンチマークをNVIDIA Open Model Licenseの下でhttps://github.com/nvidia-cosmos/cosmos-predict2.5 および https://github.com/nvidia-cosmos/cosmos-transfer2.5 に公開する。これらのオープンリソースが採用の障壁を下げ、次世代の具身化知能構築における革新を促進することを期待する。
マルチモーダル生成モデルの最近の進歩は、画像編集技術に大幅な改善をもたらしている。しかし、現行の生成モデルは、暗黙的な推論を必要とする多様で複雑な画像編集タスクの処理において依然として課題を抱えており、様々な推論シナリオにわたる性能を体系的に評価する包括的ベンチマークの必要性が浮き彫りになっている。既存のベンチマークは主に現実的なシナリオにおける単一オブジェクトの属性変換に焦点を当てており、有効ではあるものの、二つの重大な課題に直面している:(1)実世界アプリケーションで一般的な、複数オブジェクト間の相互作用や人間が定義したルールを含むゲーム世界シナリオがほとんど考慮されていない;(2)生成画像の評価がテキスト参照のみに依存しており、特に複雑な推論シナリオでは体系的な誤判定を招く可能性がある。この課題に対処するため、本研究では推論ベース画像編集評価のための統一ベンチマーク「UniREditBench」を提案する。これは2,700件の入念に精選されたサンプルから構成され、8つの主要次元と18の副次元にわたって実世界とゲーム世界の両シナリオを網羅している。評価の信頼性向上のために、マルチモーダル二重参照評価を導入し、各サンプル評価に対してテキスト参照と正解画像参照の両方を提供する。さらに、自動化されたマルチシナリオデータ合成パイプラインを設計し、高品質な連鎖的思考(CoT)推論アノテーションを付与した大規模合成データセット「UniREdit-Data-100K」を構築した。このデータセットでBagelをファインチューニングし、ドメイン内設定とドメイン外設定の両方で大幅な改善を示す「UniREdit-Bagel」を開発した。オープンソースおよびクローズドソースの画像編集モデルに対する徹底的なベンチマーク評価を通じて、様々な側面におけるそれらの強みと弱点を明らかにしている。
再照明は、実用的な需要と芸術的価値の両方を備えた重要な課題であり、近年の拡散モデルは豊かで制御性の高い照明効果を実現することで強い可能性を示している。しかし、これらのモデルは通常、意味的潜在空間で最適化されるため、視覚空間における物理的正確性が近接性によって保証されず、過曝光したハイライト、位置のずれた影、誤ったオクルージョンなど非現実的な結果を生成することが多い。我々はこの問題に対処するため、画像と動画の両方に対応する統一的な再照明フレームワークUniLumosを提案する。本手法は、フローマッチング基盤にRGB空間の幾何学フィードバックを組み込むことで、出力から抽出した深度マップと法線マップを用いてモデルを監督し、照明効果とシーン構造を明示的に整合させることで物理的な妥当性を高める。ただし、このフィードバックには視覚空間での監督のための高品質な出力が必要であり、標準的な多段階ノイズ除去は計算コストが高い。これを緩和するため、パス一貫性学習を採用し、少ステップの学習体制下でも監督が有効に機能するようにした。細粒度の再照明制御と監督を可能にするため、照明属性の核心を捉えた構造化された6次元注釈プロトコルを設計した。これを基盤として、大規模視覚言語モデルによる照明制御性を評価する分離属性レベルベンチマークLumosBenchを提案し、個々の次元にわたる再照明精度の自動的かつ解釈可能な評価を実現する。大規模な実験により、UniLumosが物理的一貫性を大幅に改善した状態で最先端の再照明品質を達成し、画像と動画の再照明において20倍の高速化を実現することを示す。コードはhttps://github.com/alibaba-damo-academy/Lumos-Customで公開されている。
グラフニューラルネットワークはボトムアップ的なメッセージ伝達によって動作し、直感的に大域的な構造を最初に把握する人間の視覚認識とは根本的に異なる。本研究では、グラフ理解における視覚モデルの過小評価されていた可能性を調査し、確立されたベンチマークにおいてGNNと同等の性能を達成しながら、明らかに異なる学習パターンを示すことを発見した。これらの異なる挙動と、ドメイン特徴とトポロジー理解を混同する既存ベンチマークの限界を踏まえ、我々はGraphAbstractを提案する。このベンチマークは、組織の原型認識、対称性の検出、接続強度の感知、重要要素の特定など、人間のように大域的なグラフ特性を認識するモデルの能力を評価する。結果は、視覚モデルが全体的な構造理解を必要とするタスクでGNNを大幅に上回り、様々なグラフ規模にわたる一般化性を維持する一方、GNNは大域的なパターン抽象化に苦戦し、グラフサイズの増大に伴い性能が劣化することを明らかにした。本研究は、視覚モデルがグラフ構造理解において、特に大域的なトポロジー認識とスケール不変な推論を必要とする問題に対して、顕著でありながら十分に活用されていない能力を有することを実証する。これらの発見は、全体的なパターン認識が支配的なタスクにおいて、より効果的なグラフ基盤モデルを開発するためのこの過小評価された可能性を活用する新たな道を開くものである。
大規模推論モデル(LRM)は複雑な推論において強力な能力を示すが、証拠に依存する事実質問における限界的な改善は限られている。この制限は部分的に「推論-回答ヒット格差」に起因することがわかった。これはモデルが推論中に正しい事実を特定しながらも、それを最終回答に反映できず、結果として事実忠実性が低下する現象である。この問題を解決するため、外部検証器に依存せずに事実性を向上させるメタ推論に基づくアライメントフレームワーク「MR-ALIGN」を提案する。MR-ALIGNはモデルの思考プロセスに沿った状態遷移確率を定量化し、原子思考セグメント単位で有益な推論パターンを強化し欠陥のあるパターンを抑制する、遷移を考慮した暗黙的報酬を構築する。この再重み付けにより、トークンレベルの信号が確率を考慮したセグメントスコアに変換され、事実的正確さにつながる首尾一貫した推論軌道が促進される。4つの事実QAデータセットと1つの長文事実性ベンチマークによる実証評価では、MR-ALIGNが精度と真実性を一貫して向上させ、誤解を招く推論を減少させることを示した。これらの結果は、単なる出力ではなく推論プロセスそのものを調整することが、LRMの事実性向上において極めて重要であることを明らかにしている。
統合マルチモーダルモデル(UMM)は、テキストと画像の理解・生成をシームレスに統合する強力なパラダイムとして登場した。しかし、従来の評価ではこれらの能力が個別に扱われており、マルチモーダルな入出力を伴うタスクが主に単一モーダルの推論を通じて評価されている。すなわち、テキストベースのベンチマークは言語に基づく推論を重視し、視覚ベースのベンチマークは画素に現れる推論結果を重視する。我々は、統合マルチモーダル知能のビジョンの中核をなす能力である、異なるモーダル間で相互に導出・検証・洗練させる「相互クロスモーダル推論」をテストする喫緊の要請に応えるため、ROVERを提案する。ROVERは、相互クロスモーダル推論を明示的に対象とした人間注釈付きベンチマークであり、1876枚の画像に基づく1312のタスクから構成され、互いに補完的な2つの設定をカバーする。(1) 視覚生成のための言語補完推論:言語プロンプトと推論連鎖を用いて忠実な画像合成を導出できるかを評価する。(2) 言語生成のための視覚補完推論:質問応答における自らの推論プロセスを強化する中間視覚化を生成できるかを評価する。17の統合モデルを用いた実験から、2つの重要な知見が得られた。(i) クロスモーダル推論が視覚生成の品質を決定し、インターリーブ型モデルが非インターリーブ型を大幅に上回った。特に、強力な単モーダルモデルの組み合わせでは同等の推論能力が達成されない。(ii) モデルは物理的推論と記号的推論の間に解離を示す:知覚的概念の逐語的解釈には成功するが、記号的タスクにおける視覚的抽象化の構築には失敗し、誤った推論が性能を損なう。これらの結果は、真の全モーダル生成を実現する上で、相互クロスモーダル推論が重要なフロンティアであることを示唆している。
動作模倣はヒューマノイド移動における有望なアプローチであり、エージェントが人間らしい振る舞いを獲得することを可能にする。既存手法は一般にAMASSなどの高品質なモーションキャプチャデータセットに依存するが、これらは不足しており高価であるため、拡張性と多様性が制限される。近年の研究では、Humanoid-Xに代表されるように、大規模なインターネット動画を変換することでデータ収集の拡大を試みている。しかし、これらの手法では浮遊・貫通・足滑りなどの物理的な不自然さが生じやすく、安定した模倣の妨げとなる。これに対し我々は、大規模な人間動画を活用しつつ、注意深いデータ精選と物理制約付きリターゲティングにより物理的な不自然さを解決するPHUMA(物理接地型ヒューマノイド移動データセット)を提案する。PHUMAは関節可動域の制限を強制し、地面接触を保証し、足滑りを排除することで、大規模かつ物理的に信頼性の高い動作を生成する。PHUMAを2つの条件セットで評価した:(i)自己収録したテスト動画からの未見動作の模倣、(ii)骨盤のみの誘導による経路追従。いずれの場合も、PHUMAで学習したポリシーはHumanoid-XおよびAMASSを上回り、多様な動作の模倣において大幅な向上を達成した。コードはhttps://davian-robotics.github.io/PHUMAで公開されている。
現在のモーション条件付き動画生成手法は、許容できない遅延(1動画あたり数分)と、リアルタイム相互作用を妨げる非因果的処理に悩まされている。本論文では、単一GPU上で最大29FPSのストリーミング生成を実現し、サブ秒レベルの遅延を可能にするMotionStreamを提案する。我々のアプローチは、まずテキストから動画へのモデルをモーション制御で拡張することから始める。これにより、大域的なテキストプロンプトと局所的なモーションガイダンスに従う高品質な動画を生成するが、オンザフライでの推論は行わない。そこで、双方向性の教師モデルを、Distribution Matching Distillationを伴うSelf Forcingによって因果的な生徒モデルに蒸留し、リアルタイムストリーミング推論を可能にする。長く、潜在的に無限の時間軸を持つ動画を生成する際には、いくつかの重要な課題が生じる:(1) 有限長で学習したものから無限の時間軸への外挿における領域ギャップの解消、(2) 誤差蓄積を防ぐことによる高品質性の維持、(3) 増大するコンテキストウィンドウに伴う計算コストの増加を招くことなく、高速な推論を維持すること。我々のアプローチの鍵は、注意深く設計されたスライディングウィンドウ因果的アテンションと、アテンションシンクを組み合わせることである。学習時にアテンションシンクとKVキャッシュのローリングを伴うセルフロールアウトを組み込むことで、固定サイズのコンテキストウィンドウを用いて推論時の外挿を適切にシミュレートし、任意の長さの動画を一定速度で生成することを可能にする。提案モデルは、モーション追従性と動画品質においてstate-of-the-artの結果を達成しつつ、生成速度を2桁向上させ、無限長ストリーミングを独自に実現する。MotionStreamにより、ユーザーは軌道を描画し、カメラを制御し、またはモーションを転送して、結果がリアルタイムに展開するのを確認でき、真にインタラクティブな体験を提供する。
我々は、5600億パラメータを有する最先端のオープンソース全モーダルモデル「LongCat-Flash-Omni」を紹介する。本モデルは、単純なタスクから複雑なモダリティ系列モデリングタスクへと移行するカリキュラム学習に着想を得た段階的訓練戦略を採用することで、強力な単モーダル能力を維持しつつ包括的なマルチモーダル能力を獲得している。ゼロ演算エキスパートを特徴とする高性能ショートカット接続型Mixture-of-Experts(MoE)アーキテクチャを採用したLongCat-Flashを基盤とし、効率的なマルチモーダル知覚モジュールと音声再構築モジュールを統合している。5600億パラメータ(活性化は270億)という膨大な規模にもかかわらず、低遅延のリアルタイム音声-視覚相互作用を実現する。訓練インフラストラクチャについては、大規模マルチモーダル訓練に内在するデータとモデルの異質性を管理するために特別に設計されたモダリティ分離並列化スキームを開発した。この革新的なアプローチは、テキスト単体訓練で達成されるスループットの90%以上を維持する卓越した効率性を示す。大規模な評価により、LongCat-Flash-Omniがオープンソースモデルにおける全モーダルベンチマークで最先端の性能を達成することが実証された。さらに、テキスト・画像・動画理解、音声理解と生成など、幅広いモダリティ特定タスクにおいて極めて競争力のある結果を提供する。我々はモデルアーキテクチャ設計、訓練手順、データ戦略の包括的な概要を提供し、コミュニティにおける将来の研究開発を促進するためモデルをオープンソースとして公開する。
近年、大規模言語モデル(LLM)は外部ツールと自律的に連携し、協調的推論を行うことで顕著な問題解決能力を示している。しかし、マルチモーダル情報の本質的に複雑で多様な性質により、マルチモーダル大規模言語モデル(MLLM)が推論過程で外部ツールを柔軟かつ効率的に利用できるようにすることは、未開拓の課題として残されている。本論文では、長期的視覚質問応答タスクにおける視覚文脈の劣化を軽減するために特化した知覚ツールを採用し、大域的な計画と局所的なマルチモーダル知覚を統合するエージェントフレームワーク「ToolScope」を提案する。ToolScopeは主に、大域ナビゲータ、エージェント実行器、応答統合器の3つのコンポーネントで構成される。大域ナビゲータは「望遠鏡」として機能し、高レベルの戦略的指針を提供する。エージェント実行器は反復的に動作し、検索、コード、知覚という外部ツールを統合してMLLMの局所知覚を拡張する。最後に、応答統合器が推論過程を統合し、首尾一貫したユーザーフレンドリーな出力へと整理する。我々はToolScopeを、VQA 2.0、ScienceQA、MAT-Search、MathVistaを含む多様な領域にわたる4つのVQAベンチマークで評価した。その結果、全てのデータセットで平均最大+6.69%の性能向上を達成し、優れた汎化能力を示した。
大規模言語モデル(LLM)の推論能力を強化学習によって向上させる最近のアプローチは、検証可能な報酬を得るための注釈付きデータセットに依存しており、これは人間レベルの性能を超えるモデルの能力を制限する可能性がある。自己対戦は有望な代替手段となるが、既存の手法は外部検証器に依存するか、オープンエンドな学習ができない。本論文では、**オープンエンド自己改善推論器(OpenSIR)** を提案する。これは、外部の監督を必要とせず、教師役と生徒役を交互に切り替えながらLLMが新規問題の生成と解決を学習する自己対戦フレームワークである。新規問題を生成するために、OpenSIRは難易度と多様性の両方を最適化し、適切な挑戦を提供すると同時に異なる概念を探索する問題に報酬を与えることで、オープンエンドな数学的発見を可能にする。単一の自明なシード問題から開始して、OpenSIRは指示チューニングモデルを大幅に改善する:Llama-3.2-3B-InstructはGSM8Kで73.9から78.3に、College Mathで28.8から34.4に向上し、Gemma-2-2B-InstructはGSM8Kで38.5から58.7に上昇した。我々の分析により、OpenSIRが難易度を適応的に調整し、多様な探索を駆動する共進化的な教師-生徒役割を通じてオープンエンド学習を達成し、基礎数学から高度な数学へ自律的に進歩することが明らかになった。
現在のビデオ検索パラダイムは構造的に不整合であり、限定的なベンチマークがそれに対応する狭いデータと単一タスク学習を促進している。このため、多次元的一般化を定義し要求する診断的評価が存在しないことから、普遍的な能力が抑制されている。この循環を打破するため、評価・データ・モデリングの協調設計に基づくフレームワークを提案する。まず、性能測定だけでなく、タスクとドメインにわたる重要な能力ギャップを診断するために設計された16のデータセットからなるUniversal Video Retrieval Benchmark(UVRB)を確立する。次に、UVRBの診断結果に導かれ、普遍性に必要な意味空間を充填するため155万の高品質ペアを生成するスケーラブルな合成ワークフローを導入する。最後に、多様なデータ内の潜在的な相互関係を明示的に活用してGeneral Video Embedder(GVE)を訓練するカリキュラムであるModality Pyramidを考案する。大規模な実験により、GVEがUVRBにおいて最先端のゼロショット一般化性能を達成することを示す。特に、広く用いられるベンチマークは一般能力の予測因子として不適切であり、部分的相关検索が支配的だが見過ごされているシナリオであることが分析により明らかになった。全体として、本協調設計フレームワークは、限られた範囲からの脱却と真に普遍的なビデオ検索への前進に向けた実用的な道筋を提供する。
視覚推論のフロンティアは、問題解決のために画像を変換するツールを知的に作成・操作する能力(思考連鎖における画像思考とも呼ばれる)を備えたOpenAI o1のようなモデルへと移行しつつある。しかし、既存のベンチマークはこの高度な能力を十分に捉えられていない。現在の画像思考手法で最も一般的なベンチマークであるVisual Searchでさえ、位置特定や切り抜きなどの基本操作のみをテストし、より複雑で動的、かつツールに依存する推論に関する洞察をほとんど提供しない。我々はTIR-Benchを提案する。これは13の多様なタスクにわたるエージェンシー的な画像思考を評価する包括的なベンチマークであり、各タスクは思考連鎖における画像処理と操作のための新しいツール使用を必要とする。主要なオープンソースモデルやプロプライエタリモデルから、明示的なツール使用拡張を備えたモデルまで、22の大規模マルチモーダル言語モデル(MLLM)を評価した。結果は、TIR-Benchが普遍的で難易度が高く、強力な性能には真の画像思考能力が必要であることを示している。最後に、直接的なファインチューニングとエージェンシー的なファインチューニングを比較する予備調査を提示する。
視覚言語モデルは、多様なタスクとシナリオにおいて、前例のない性能と汎化能力を示している。これらの基盤モデルをロボットナビゲーションシステムに統合することは、汎用ロボットの構築に向けた道筋を開く。しかし、これらのモデルのナビゲーション能力を評価するには、コストの高い実世界での試験、過度に単純化されたシミュレーション、限定的なベンチマークによって制約されているのが現状である。本研究では、NaviTraceという高品質な視覚質問応答ベンチマークを提案する。このベンチマークでは、モデルが指示と身体性の種類(人間、脚式ロボット、車輪型ロボット、自転車)を受け取り、画像空間内で2Dのナビゲーショントレースを出力しなければならない。1000のシナリオと3000以上の専門家によるトレースを用いて、新たに導入されたセマンティックを考慮したトレーススコアにより、8つの最先端視覚言語モデルを系統的に評価する。この指標は、動的時間伸縮法距離、目標終端点誤差、およびピクセル単位のセマンティクスから導出された身体性に基づくペナルティを組み合わせたもので、人間の選好と相関する。評価の結果、不十分な空間的接地と目標位置の特定に起因する、人間の性能との一貫した差が明らかになった。NaviTraceは、実世界のロボットナビゲーションのためのスケーラブルで再現性の高いベンチマークを確立する。ベンチマークとリーダーボードは以下のURLで公開されている。https://leggedrobotics.github.io/navitrace_webpage/
リバスパズル(絵や記号、文字を駆使して言葉やフレーズを創造的に表現するパズル)を理解するには、画像認識、認知スキル、常識推論、多段階推論、画像に基づく言葉遊びなど多岐にわたる能力が必要であり、これは現在の視覚言語モデルにとっても困難な課題である。本論文では、食、慣用句、スポーツ、金融、エンターテインメントなど18のカテゴリーに跨り、様々な芸術的スタイルと難易度を含む1,333の英語リバスパズルからなる大規模で多様なベンチマーク「|,circlearrowright,text{BUS},|」を提案する。さらに、非構造化された記述とコードベースの構造化推論を組み合わせ、より優れた推論ベースの文脈内例選択を採用するモデル非依存のフレームワーク「RebusDescProgICE」を導入する。これにより、Chain-of-Thought推論と比較して、クローズドソースモデルでは2.1-4.1%、オープンソースモデルでは20-30%の性能向上を「|,circlearrowright,text{BUS},|」において達成した。
本論文では、使いやすさと拡張性を両立させたオープンソース検索ツールキット「Trove」を提案する。本手法では、わずか数行のコードで検索データセットを動的に読み込み処理(フィルタリング・選択・変換・結合)する効率的なデータ管理機能を初めて実現した。これにより、大規模データセットの複数コピーを計算・保存する必要なく、ユーザーは柔軟に様々なデータセット構成を容易に実験できる。Troveは高いカスタマイズ性を有し、多数の組み込みオプションに加え、既存コンポーネントの自由な改変やユーザー定義オブジェクトによる完全置換が可能である。さらに、評価とハードネガティブマイニングのためのローコード統合パイプラインを提供し、コード変更なしでマルチノード実行をサポートする。Troveのデータ管理機能はメモリ消費量を2.6分の1に削減し、推論パイプラインはオーバーヘッドを発生させず、利用可能ノード数に比例して推論時間が線形減少する。最も重要な点として、Troveが如何に検索実験を簡素化し任意のカスタマイズを可能にするか実証し、探索的研究の促進に貢献することを示す。
測定機器の読み取りは、人間にとっては容易で、比較的少ない専門知識で可能である。しかし、予備評価で明らかになったように、現在の視覚言語モデル(VLM)にとっては驚くほど困難な課題であり続けている。本研究では、様々な種類の測定器の実世界画像および合成画像を網羅する視覚的測定読み取りベンチマーク「MeasureBench」と、データ合成のための拡張可能なパイプラインを提案する。本パイプラインは、視覚的外観を制御可能な特定の種類の計器を手続き的に生成し、指針、目盛、フォント、照明、雑音といった主要な詳細についてスケーラブルなバリエーションを可能にする。人気のあるプロプライエタリおよびオープンウェイトのVLMを評価した結果、最も高性能なフロンティアVLMでさえ、測定読み取り全般に苦戦することが示された。一貫して見られる失敗モードは、指示子の位置特定である。モデルは数字やラベルを読み取れるが、指針や位置合わせのキーポイントを誤認するため、もっともらしい文脈的な推論にもかかわらず、大きな数値的誤差を生じる。我々はまた、合成データを用いた強化学習による予備実験を実施し、ドメイン内の合成サブセットでは有望な結果が得られるものの、実世界画像では有望でない結果を得た。本分析は、現在のVLMにおける微細な空間的接地の根本的な限界を浮き彫りにする。本リソースが、視覚に基づく数的処理能力とVLMの精密な空間知覚の将来の進展、すなわち数字を認識することと世界を測定することの間のギャップを埋める一助となることを期待する。
マルチモーダル大規模言語モデル(MLLM)の最近の進展は、2D視覚理解を大幅に改善し、複雑な3D推論タスクへの応用に関心を集めている。しかし、これらのモデルが、堅牢な実世界での性能、特に正確な3D推論における重要な要件であるクロスビュー一貫性に必要な詳細な空間情報を効果的に捕捉できるかどうかは不明である。この問題を踏まえ、我々はMLLMの空間推論能力を評価・改善するために設計されたタスクであるViewpoint Learningを提案する。また、多様な視点を持つ10万のオブジェクト中心画像ペアと対応する質問応答ペアから成るViewpoint-100Kデータセットを提示する。我々のアプローチは、2段階のファインチューニング戦略を採用する。まず、ベースラインMLLMにViewpoint-100Kを用いた教師ありファインチューニング(SFT)により基礎知識を注入し、複数タスクにわたる大幅な改善を実現する。次に、より広範な質問セットに対してGroup Relative Policy Optimization(GRPO)アルゴリズムを用いた強化学習により汎化性能を強化する。さらに、視点表現の学習と首尾一貫した推論思考の維持を同時に行うためのハイブリッドコールドスタート初期化手法を導入する。実験結果は、本アプローチがMLLMの空間推論能力を著しく活性化し、ドメイン内およびドメイン外の推論タスク双方において性能を向上させることを示す。本知見は、MLLMにおける基礎的な空間スキルの開発の価値を強調し、ロボティクス、自律システム、3Dシーン理解における将来の進展を支えるものである。
データ選択は、大規模言語モデル(LLM)の推論能力を強化するための検証可能な報酬を用いた強化学習(RLVR)において極めて重要な側面である。現在のデータ選択手法は、その多くがヒューリスティックに基づいており、理論的保証や一般化性を欠いている。本研究では、学習目標に対する各データ点の貢献度を推定するために、影響関数に基づく理論的基礎を有するアプローチを提案する。オンライン影響推定に必要とされる計算コストが高い方策ロールアウトの問題を克服するため、事前に収集したオフライン軌跡を用いてデータ影響を効率的に近似するオフ方策影響推定法を導入する。さらに、LLMの高次元勾配を扱うために、スパースランダム射影を用いて次元を削減し、記憶容量と計算効率を改善する。これらの技術を活用し、現在の方策に対して最も影響力の大きいデータを反復的に選択する多段階RLフレームワークである、オフ方策影響ガイダンスを用いたカリキュラムRL(CROPI)を開発した。70億パラメータまでのモデルを用いた実験により、CROPIが訓練を大幅に加速させることを実証する。15億パラメータモデルでは、フルデータセットを用いた訓練と比較して、各段階でデータの10%のみを使用しながら、ステップレベルで2.66倍の加速を達成した。我々の結果は、効率的なRLVRのための影響力ベースのデータ選択の大きな可能性を明らかにするものである。
基盤モデルの数学的推論能力を高める上で、適切な北極星メトリック(目標指標)を見極めることは極めて重要である。既存の評価指標は、容易すぎるか、あるいは正しい短答を得ることのみに焦点が当てられているためである。この問題に対処するため、我々は高度な推論ベンチマークスイート「IMO-Bench」を提案する。これはトップ専門家による審査を経ており、若手数学者にとって最も権威ある場である国際数学オリンピアード(IMO)の水準を特に対象としている。 「IMO-AnswerBench」は、検証可能な短答を要する400問の多様なオリンピアード問題でモデルをテストする。次の段階である「IMO-ProofBench」は証明記述能力の評価であり、基本的および高度なIMOレベルの問題に加え、自動採点を容易にする詳細な採点ガイドラインを含む。これらのベンチマークは、Gemini Deep Think(Luong and Lockhart, 2025)によるIMO 2025での金メダルレベル達成という歴史的成果において決定的な役割を果たした。我々のモデルは、IMO-AnswerBenchで80.0%、高度なIMO-ProofBenchで65.7%を達成し、Gemini以外の最高性能モデルをそれぞれ6.9%、42.4%という大きな差で上回った。さらに、Geminiの推論能力で構築した自動採点システムが人的評価と良好な相関を示すことを確認し、長文回答の自動評価の進展を促すため、1000件の証明に対する人的採点を含む「IMO-GradingBench」を構築した。IMO-Benchが堅牢な数学的推論の進展に寄与することを期待し、https://imobench.github.io/ で公開する。
視覚言語行動(VLA)モデルは、自然言語による指示と視覚的観測を理解し、具現化エージェントとして対応する行動を実行することを目的としている。近年の研究では、未来画像を理解-行動ループに統合し、テキストと画像を読み取り、未来画像と行動を生成する、すなわち理解・生成・行動を統一的に行うVLAが実現されている。しかし、これらのモデルは、モダリティ統合に外部の専門家モデルを依存するか、画像生成と行動予測を独立したプロセスとして扱っており、これらのタスク間の直接的な相乗効果の利点を制限している。我々の核となる哲学は、反復的な精緻化により行動が初期化から進化する、絶えず十分な視覚的ガイダンスの下での同期デノイジングプロセスを通じて、生成と行動を共同で最適化することである。我々はこの哲学を、提案する統一拡散VLAおよび共同離散デノイジング拡散プロセス(JD3P)に基づいて具体化する。JD3Pは、複数のモダリティを単一のデノイジング軌道に統合する共同拡散プロセスであり、理解、生成、行動が本質的に相乗的であることを可能にする鍵となるメカニズムとして機能する。我々のモデルと理論は、全てのモダリティの統一トークン化空間とハイブリッドアテンション機構に基づいて構築されている。さらに、性能と効率を最適化する2段階トレーニングパイプラインといくつかの推論時技術を提案する。我々のアプローチは、CALVIN、LIBERO、SimplerEnvなどのベンチマークで state-of-the-art 性能を達成し、自己回帰手法よりも4倍高速な推論を実現する。詳細な分析と実世界評価を通じてその有効性を実証する。プロジェクトページは https://irpn-eai.github.io/UD-VLA.github.io/ で公開されている。
映像生成における基盤モデルは、物理世界をシミュレートする潜在的な世界モデルとして顕著な能力を示しつつある。しかし、一般的な物理法則ではなく、専門的で深い因果関係の知識を要求する外科手術のような高リスク領域への応用は、重要な未開拓の課題として残されている。この課題に体系的に取り組むため、我々は外科手術における映像生成モデル評価のための初の専門家監修ベンチマーク「SurgVeo」、およびモデル出力を基本的外観から複雑な手術戦略まで評価するために考案された新規4段階フレームワーク「手術妥当性ピラミッド(SPP)」を提案する。SurgVeoベンチマークに基づき、高度なVeo-3モデルに、腹腔鏡下手術および脳神経外科手術の手術クリップを用いたゼロショット予測タスクを課す。4名の認定外科医からなるパネルが、SPPに従って生成された映像を評価した。結果は、明確な「妥当性の隔たり」を明らかにする:Veo-3は視覚的知覚妥当性において卓越した成績を収める一方、SPPのより高次元のレベル、すなわち器械操作妥当性、環境反応妥当性、手術意図妥当性においては決定的な失敗を示した。本研究は、外科AIにおける視覚的に説得力のある模倣と因果関係の理解との間の溝を定量的に示した初の証拠を提供する。SurgVeoとSPPからの知見は、専門的で現実的な医療領域の複雑性に対処可能な将来のモデル開発に向けた、重要な基盤とロードマップを確立するものである。
マルチモーダル大規模言語モデル(MLLM)の目覚ましい成功はマルチモーダル埋め込みの進歩を推進してきたが、既存のモデルは本質的に識別的であり、推論主導の生成パラダイムから恩恵を受ける能力が制限されている。本研究では、生成的な埋め込みの開拓に先駆的に取り組み、埋め込みタスクを生成パラダイム内で統合する。我々は、2段階の学習戦略からなる普遍的なマルチモーダル埋め込みフレームワークUME-R1を提案する:第1段階のコールドスタート教師ありファインチューニングにより、モデルに推論能力を付与し、識別的および生成的な埋め込みの両方を生成可能にする;続く強化学習により推論を強化し、生成的な埋め込みの品質をさらに最適化する。この先駆的な研究は以下の4つの重要な知見を明らかにした:1)生成的な埋め込みは、MLLMの強力な生成的推論能力を活用することで、従来の識別的埋め込みを大幅に上回る性能向上を実現する;2)識別的埋め込みと生成的埋め込みは相補的であり、それらを組み合わせたオラクル性能は単独使用を遥かに凌駕する;3)強化学習は生成的埋め込みを効果的に強化し、スケーラブルな最適化パラダイムを確立する;4)推論時の反復サンプリングは下流タスクの網羅性(pass@k)を向上させ、生成的埋め込みの推論時スケーラビリティの可能性を示唆する。映像、画像、視覚的文書にわたる78タスクを含むMMEB-V2ベンチマークで評価した結果、UME-R1は従来の識別的埋め込みモデルを大幅に上回り、より解釈可能で推論主導の生成的マルチモーダル埋め込みの基盤を提供する。コード、モデル、データセットはhttps://github.com/XMUDeepLIT/UME-R1 で公開予定である。
大規模言語モデル(LLM)は自然言語推論において強力な能力を発揮するが、サイバー脅威インテリジェンス(CTI)への応用は依然として限定的である。CTI分析は、大量の非構造化レポートから実践可能な知識を抽出するプロセスであり、LLMを活用することで分析者の負荷を大幅に軽減できる可能性がある。CTIBenchは、複数のCTIタスクにわたるLLM評価のための包括的ベンチマークを提案した。本研究では、データセット作成パイプラインの改良、重複排除、精緻化された評価指標、リスク軽減戦略に焦点を当てた新タスクを含む拡張ベンチマークであるAthenaBenchを開発し、CTIBenchを発展させる。GPT-5やGemini-2.5 Proといった最先端のプロプライエタリモデルと、LLaMAおよびQwenファミリーの7つのオープンソースモデルを含む計12のLLMを評価した。プロプライエタリLLMは全体的に優れた結果を示すものの、脅威アクターの帰属分析やリスク軽減といった推論集約型タスクでは性能が十分ではなく、オープンソースモデルはさらに遅れをとっている。これらの知見は、現行LLMの推論能力における根本的限界を浮き彫りにするとともに、CTIワークフローと自動化に特化して設計されたモデルの必要性を強調するものである。
グラフィカルユーザインタフェース(GUI)グラウンディングは、コンピュータ利用エージェントの主要機能であり、自然言語指示を操作可能な画面上の領域に対応付けるものである。既存のマルチモーダル大規模言語モデル(MLLM)に基づくアプローチは、通常、テキストベースの座標生成タスクとして定式化するが、視覚的入力から直接的に正確な座標を生成することは依然として困難で計算コストが高い。GUIグラウンディングを実装する直観的な方法は、まず指示に関連する視覚的パッチを選択し、その後、それらのパッチ内で正確なクリック位置を決定することである。一般的なMLLMには、その注意機構内に内在する何らかのネイティブなグラウンディング能力が備わっているという観察に基づき、我々は効率的なGUIグラウンディングのための、注意機構ベースで座標を直接出力しない教師ありファインチューニングフレームワーク「GUI-AIMA」を提案する。GUI-AIMAは、MLLMの本質的なマルチモーダル注意を、パッチ単位のグラウンディング信号と整合させる。これらの信号は、簡略化されたクエリ-視覚的注意行列に対するマルチヘッド集約によって、多様なユーザ指示に対して適応的に計算される。さらに、その座標を直接生成しない方式により、プラグアンドプレイ方式のズームイン段階を容易に統合できる。GUI-AIMA-3Bはわずか85,000枚のスクリーンショットで学習され、卓越したデータ効率を示し、軽量な学習でもMLLMのネイティブなグラウンディング能力を引き出せることを検証した。本モデルは3Bモデルの中で最高性能を達成し、ScreenSpot-Proでは平均精度58.6%、OSWorld-Gでは62.2%を達成した。プロジェクトページ: https://github.com/sjz5202/GUI-AIMA
自然言語説明(NLE)は、大規模言語モデル(LLM)が外部の文脈知識(CK)とモデル重みに蓄積されたパラメトリック知識(PK)の両方を参照して意思決定を行うプロセスを記述する。NLEの根拠を評価する上で、これら二つの知識の相互作用の理解は重要であるが、未だ十分に研究されていない。従来研究は主に単一ステップの生成(通常は最終回答)のみを検討し、PKとCKの相互作用をランク1部分空間における二項選択としてのみモデル化してきた。これでは、補完的または支持的知識といったより豊富な相互作用形態が見落とされている。本研究では、PKとCKの寄与をより正確に分離する新規のランク2射影部分空間を提案し、これを初めて長いNLEシーケンスにわたる知識相互作用の多段階分析に応用する。4つのQAデータセットと3つのオープンウェイト指示チューニングLLMを用いた実験により、多様な知識相互作用はランク1部分空間では不十分に表現されるが、我々のランク2定式化で効果的に捕捉できることを示す。多段階分析から、虚構的なNLEはPK方向に強く整合し、文脈に忠実なNLEはPKとCKのバランスを取り、NLEに対する連鎖思考プロンプトはPK依存を減少させることで生成NLEをCK方向へシフトさせることを明らかにした。本研究成果は、より豊かなランク2部分空間による分離を通じて、LLMにおける多段階知識相互作用を系統的に研究する初の枠組みを提供する。コードとデータ:https://github.com/copenlu/pk-ck-knowledge-disentanglement
検索領域において、異種検索器から得られる候補の融合は、特に動画のような複雑なマルチモーダルデータにおいて、長年の課題となっている。典型的な融合技術は訓練不要であるが、順位やスコアの信号のみに依存し、候補の表現を考慮しない。本研究は、リスト単位の再ランキングと融合を、Vision-Language Model (VLM) に対するゼロショット推論タスクとして再定義する、汎用的で訓練不要なフレームワークであるVote-in-Context (ViC) を提案する。中核となる洞察は、コンテンツの証拠と検索器のメタデータの両方をVLMのプロンプト内で直接シリアライズし、モデルが視覚的・言語的コンテンツに対して検索器の合意を適応的に重み付けできるようにすることである。我々は、このフレームワークの汎用性を、クロスモーダル動画検索という挑戦的な領域に適用することで実証する。この目的のために、各動画を画像グリッドとして表現するコンパクトなシリアライゼーションマップであるS-Gridを導入し、必要に応じて字幕を組み合わせることで、動画候補に対するリスト単位の推論を可能にする。ViCは、単一リストの再ランキング手法として評価した場合、個々の検索器の精度を劇的に向上させ、アンサンブル融合手法として評価した場合、CombSUMのような強力なベースラインを一貫して上回る。ActivityNetやVATEXを含む動画検索ベンチマークにおいて、本フレームワークはテキストに加えて複雑な視覚的・時間的信号を扱うその有効性を示し、新たな state-of-the-art ゼロショット検索性能を確立した。ゼロショット設定では、ViCはMSR-VTTにおいて87.1% (t2v) / 89.0% (v2t)、VATEXにおいて99.6% (v2t) というRecall@1スコアを達成し、従来の state-of-the-art ベースラインに対して最大+40 Recall@1という大幅な向上を実現した。我々はViCを、現代のVLMを強力なゼロショット再ランキング・融合器に変える、シンプルで再現性が高く、極めて効果的な手法として提示する。コードとリソースは以下で公開されている: https://github.com/mohammad2012191/ViC