翻訳付きの日次キュレーションされたAI研究論文
「テキストを用いた思考」と「画像を用いた思考」というパラダイムは、大規模言語モデル(LLM)および視覚言語モデル(VLM)の推論能力を大幅に向上させる。しかし、これらのパラダイムには固有の限界が存在する。(1) 画像は単一の瞬間しか捉えられず、動的なプロセスや連続的な変化を表現できないこと、(2) テキストと視覚が異なるモダリティとして分離されているため、統一的なマルチモーダル理解と生成が妨げられることである。これらの限界を克服するため、我々は「動画を用いた思考」という新たなパラダイムを提案する。これはSora-2などの動画生成モデルを活用し、時間的枠組みの中で視覚的推論とテキスト的推論を統合するものである。この探求を支援するため、我々はVideo Thinking Benchmark(VideoThinkBench)を開発した。VideoThinkBenchは二つのタスクカテゴリを含む:(1) 視覚中心タスク(例:目測パズル)、(2) テキスト中心タスク(例:GSM8K、MMMUのサブセット)。評価の結果、Sora-2は有能な推論モデルであることが確認された。視覚中心タスクでは、Sora-2は概して最先端(SOTA)のVLMと同等の性能を示し、目測ゲームなどのいくつかのタスクではVLMを凌駕した。テキスト中心タスクでは、MATHで92%、MMMUで75.53%の精度を達成した。さらに、我々はこれらの能力の源泉を体系的に分析し、自己一貫性や文脈内学習がSora-2の性能を向上させ得ることも明らかにした。総括すると、動画生成モデルが統一的なマルチモーダル理解・生成モデルとなる可能性を示し、「動画を用いた思考」を統一的なマルチモーダル推論パラダイムとして位置づけるものである。
大規模マルチモーダルモデル(LMM)に画像インタラクションと長期推論能力を深く統合させることは、この分野における長年の課題である。近年の視覚中心推論の進展は、LMMのための「画像を用いた思考」パラダイムという有望な方向性を探求しており、画像補助型推論から画像対話型思考への転換を示している。この画期的な進歩によりモデルは細粒度の画像領域に注力できるようになったが、視覚ツール空間の限界とタスク特化型ワークフロー設計によって、進歩は依然として制約を受けている。このギャップを埋めるため、我々はエンドツーエンドの強化学習を通じて対話的な視覚中心思考を実現する汎用マルチモーダル推論アシスタント「V-Thinker」を提案する。V-Thinkerは二つの核心コンポーネントで構成される:(1)多様性・品質・難易度の3次元において対話型推論データセットを自動生成・進化・検証する「データ進化フライホイール」、(2)ポイントレベル監督による知覚調整を経て、二段階強化学習フレームワークにより対話型推論を統合する「視覚的段階的訓練カリキュラム」である。さらに、視覚中心の対話型推論タスクに特化した専門家検証済みベンチマーク「VTBench」を導入する。大規模な実験により、V-Thinkerが一般推論と対話型推論の両シナリオにおいて強力なLMMベースラインを一貫して凌駕することを実証し、画像対話型推論応用の進展に貴重な知見を提供する。
強化学習(RL)は対話を通じた自己改善により大規模言語モデル(LLM)エージェントを強化できる一方で、高コストなロールアウト、限定的なタスク多様性、信頼性の低い報酬信号、インフラの複雑さといった要因が、スケーラブルな経験データ収集を阻害し、実用化には課題が残っている。これらの課題に対処するため、我々は自律エージェントの効果的なオンラインRL訓練を可能にする、スケーラビリティを考慮して多様な経験を合成する初の統一フレームワーク「DreamGym」を提案する。DreamGymは高価な実環境ロールアウトに依存する代わりに、環境ダイナミクスを推論ベースの経験モデルに蒸留し、段階的な推論を通じて一貫性のある状態遷移とフィードバック信号を導出することで、RL向けのスケーラブルなエージェントロールアウト収集を実現する。遷移の安定性と品質を向上させるため、DreamGymはオフライン実世界データで初期化された経験再生バッファを活用し、新たな対話で継続的に拡充することで、エージェント訓練を能動的に支援する。知識獲得を改善するため、DreamGymは現在のエージェント方策に挑戦する新規タスクを適応的に生成し、より効果的なオンラインカリキュラム学習を可能にする。多様な環境とエージェント基盤を用いた実験により、DreamGymが完全合成設定およびシミュレーション-to-実環境転移シナリオの両方においてRL訓練を大幅に改善することが実証された。WebArenaのような非RL対応タスクでは、DreamGymは全てのベースラインを30%以上上回る性能を達成。またRL対応だが高コストな設定では、合成対話のみを用いてGRPOおよびPPOの性能と同等の結果を示した。純粋に合成経験で訓練した方針を実環境RLに転移する際、DreamGymは実世界対話を大幅に削減しつつ顕著な追加性能向上をもたらし、汎用RLのためのスケーラブルなウォームスタート戦略を提供する。
真のマルチモーダル知能の進歩には、反応的なタスク駆動型システムや力任せの長文脈処理から、より広範な「超感覚(supersensing)」パラダイムへの転換が必要であると我々は主張する。空間的超感覚を、言語のみの理解を超えた4つの段階として定義する:意味的知覚(視覚情報の名称特定)、連続的イベント認知(持続的経験にわたる記憶の維持)、暗黙的3D空間認知(ピクセル背後にある世界の推論)、予測的世界モデリング(情報を選別・整理する内的モデルの構築)。現在のベンチマークは初期段階のみをテストすることが多く、空間認知の範囲が狭く、真の世界モデリングを必要とする方法でモデルに挑戦することは稀である。空間的超感覚の進展を促すため、2部構成のベンチマークVSI-SUPERを提案する:VSR(長期的視覚的空間記憶)とVSC(連続的視覚的空間計数)。これらの課題は任意に長い動画入力を必要としながらも、力任せの文脈拡張に耐性を持つ。次に、VSI-590Kを精選しCambrian-Sを訓練することでデータ拡大の限界を検証し、一般能力を損なうことなくVSI-Benchで30%以上の絶対的改善を達成した。しかしVSI-SUPERでの性能は限定的であり、規模の拡大だけでは空間的超感覚が不十分であることを示唆する。将来の方向性として予測的センシングを提案し、自己教師あり次潜在フレーム予測器が驚き(予測誤差)を利用して記憶とイベント分割を駆動する概念実証を示す。このアプローチはVSI-SUPERにおいて主要なプロプライエタリベースラインを大幅に上回り、空間的超感覚には単なる「見る」能力だけでなく、経験を予測し、選択し、組織化するモデルが必要であることを実証する。
私たちは、実世界の文書理解・長尺動画理解・推論タスクに強みを持つNemotronビジョン言語シリーズの最新モデル「Nemotron Nano V2 VL」を紹介します。本モデルは、モデルアーキテクチャ・データセット・学習レシピの大幅な改良により、前身モデルであるLlama-3.1-Nemotron-Nano-VL-8Bを、あらゆる視覚・テキスト領域で凌駕する性能向上を実現しました。Nemotron Nano V2 VLは、ハイブリッドMamba-Transformer LLMであるNemotron Nano V2を基盤とし、革新的なトークン削減技術を組み合わせることで、長文書・長尺動画シナリオにおける高い推論スループットを達成しています。BF16、FP8、FP4形式のモデルチェックポイントを公開するとともに、データセットの大部分、学習レシピ、およびトレーニングコードを共有します。
強力宝くじ仮説(SLTH)は、強力宝くじ(SLT)と呼ばれる高性能なサブネットワークが、ランダムに初期化されたニューラルネットワーク内に潜在していると推測する。近年の理論研究により様々なニューラルネットワーク構造でSLTHが確立されてきたが、トランスフォーマー構造におけるSLTHは理論的な理解が依然として不足している。特に、現在のSLTH理論は、トランスフォーマーの核心的構成要素であるマルチヘッドアテンション(MHA)機構をまだ説明できていない。この隔たりを埋めるため、我々はMHA内におけるSLTの存在に関する理論分析を導入する。H個のヘッドと入力次元dを持つランダム初期化MHAが、キーと値に対して隠れ次元O(dlog(Hd^{3/2}))を有する場合、高い確率で同じ入力次元を持つ任意のMHAを近似するSLTを含むことを証明する。さらに、MHAに対するこの理論を活用することで、正規化層を持たないトランスフォーマーへSLTHを拡張する。ソースモデル(MHA及びトランスフォーマー)内のSLTと近似対象モデルとの誤差が、ソースモデルの隠れ次元を増加させることで指数関数的に減少することを実証的に検証し、理論的知見を支持する。
我々はGUI-360^circを紹介する。これは大規模で包括的なデータセットおよびベンチマークスイートであり、コンピュータ利用エージェント(CUA)の進歩を目的としている。CUAには特有の課題があり、3つの持続的なギャップによって制約を受けている:実世界のCUAタスクの不足、マルチモーダル軌跡の自動収集・注釈パイプラインの欠如、GUIグラウンディング、画面解析、行動予測を統合的に評価する統一ベンチマークの不在である。 GUI-360^circは、LLMを活用した高度に自動化されたパイプライン(クエリ収集、環境テンプレート構築、タスク具体化、バッチ実行、LLM駆動の品質フィルタリング)によりこれらのギャップに対処する。公開されたコーパスには、一般的なWindowsオフィスアプリケーションにおける数千の軌跡にわたる120万以上の実行済みアクションステップが含まれ、フル解像度のスクリーンショット、利用可能な場合のアクセシビリティメタデータ、具体化された目標、中間推論トレース、成功および失敗した行動軌跡を網羅する。本データセットは、GUIグラウンディング、画面解析、行動予測という3つの基本タスク、および現代的なエージェント設計を反映したハイブリッドGUI+API行動空間をサポートする。GUI-360^circを用いた最先端の視覚言語モデルのベンチマーク評価では、グラウンディングと行動予測において実用的な性能に重大な欠陥があることが明らかとなった。教師ありファインチューニングと強化学習は大幅な改善をもたらすが、人間レベルの信頼性とのギャップを埋めるには至らない。我々はGUI-360^circと付属コードを公開し、再現可能な研究を促進し、堅牢なデスクトップCUAの進展を加速させる。 完全なデータセットは https://huggingface.co/datasets/vyokky/GUI-360 で公開されている。
視覚言語モデル(VLM)の近年の進展は、数多くのベンチマークタスクにおいて最先端の性能を達成している。しかし、インターネット規模の、しばしば非公開の事前学習コーパスを使用することは、実務家とユーザーの双方にとって重大な懸念を引き起こす。それは、テストセットの漏洩による過大評価された性能である。従来の研究では、事前学習データの浄化やLLMのためのベンチマーク再設計といった緩和策が提案されてきたが、汚染されたVLMを検出する手法の開発という補完的な方向性は、まだ十分に検討されていない。この問題に対処するため、我々は意図的にオープンソースのVLMを人気のあるベンチマークで汚染し、既存の検出アプローチが完全に失敗するか、一貫性のない挙動を示すことを明らかにする。次に、マルチモーダルな意味的摂動に基づく、新奇で簡潔かつ効果的な検出手法を提案し、汚染されたモデルが制御された摂動下では一般化に失敗することを示す。最後に、複数の現実的な汚染戦略にわたって本手法を検証し、その頑健性と有効性を確認する。コードと摂動を加えたデータセットは公開予定である。
頑健なベンチマークは、マルチモーダル大規模言語モデル(MLLM)の評価において極めて重要である。しかし我々は、強力な視覚的理解なしに、モデルが多くのマルチモーダルベンチマークで高得点を獲得できることを見出した。それらは、バイアス、言語的事前分布、表面的なパターンを利用しているのである。これは、視覚入力を必要と意図された視覚中心のベンチマークにおいて特に問題である。我々はベンチマーク設計における診断的原則を採用する:ベンチマークが不正利用可能であれば、実際に不正利用されるだろう、と。したがって設計者は、まず自らのベンチマークを「不正利用」しようと試みるべきであり、診断的および脱バイアス手法を用いて、非視覚的バイアスを体系的に特定し軽減すべきである。効果的な診断には、「テストセットで学習する」こと、すなわち、公開されたテストセットが内在的に持つ悪用可能なパターンを探ることが必要である。 我々はこの基準を2つの構成要素で具体化する。第一に、「テストセット・ストレステスト」(TsT)手法を用いてベンチマークの脆弱性を診断する。主な診断ツールは、強力な大規模言語モデルを、テストセットの視覚情報を除いたテキスト入力のみに対してk分割交差検証により微調整し、ショートカット性能を明らかにし、各サンプルにバイアススコアs(x)を割り当てるものである。これを補完するため、手作りの特徴量に基づく軽量なランダムフォレスト診断法を用いて、迅速で解釈可能な監査を可能にする。第二に、「反復的バイアス刈り込み」(IBP)手順を用いて高バイアスサンプルをフィルタリングし、ベンチマークの脱バイアスを行う。この枠組みを4つのベンチマーク(VSI-Bench, CV-Bench, MMMU, VideoMME)に適用した結果、広範な非視覚的バイアスが明らかになった。事例研究として、本枠組みを完全に適用してVSI-Bench-Debiasedを作成し、非視覚的解決可能性が低減され、オリジナルよりも大きな視覚情報なしでの性能差が生じることを実証した。
大規模言語モデル(LLM)システムの新興パターンである、分散推論、Mixture-of-Experts(MoE)ルーティング、非同期強化学習ファインチューニングなどは、単純な集団通信を超えた柔軟なポイントツーポイント通信を必要とする。既存の実装は特定のネットワークインターフェースコントローラ(NIC)に依存しており、推論エンジンへの統合やハードウェアプロバイダー間での移植性が妨げられている。本研究では、一般的なNICの機能を橋渡しし、統一インターフェースを提供するTransferEngineを提案する。TransferEngineは、完了通知のためのImmCounterプリミティブを伴う一方向WriteImm操作を、ネットワーク転送の順序保証を仮定せずに提供し、GPUごとに複数のNICを透過的に管理する。NVIDIA ConnectX-7およびAWS Elastic Fabric Adapter(EFA)の両方で400 Gbpsのピークスループットを実証した。本エンジンを3つの実用システムで検証する:(1)動的スケーリングを伴う分散推論のためのKvCache転送、(2)1.3秒で兆パラメータモデルの更新を実現するRL重み更新、(3)ConnectX-7でDeepEPのデコード遅延を上回り、EFAで初めて実用的な遅延を実現したMoEディスパッチ/結合実装である。我々の移植性の高いポイントツーポイント通信が、ベンダーロックインを回避しつつ集団通信を補完することを示す。
本論文では、追加の参照画像を活用して試着精度を向上させながら、対象の衣服を人物画像に直接適合させるEnd-to-End仮想試着モデル「EVTAR」を提案する。既存の仮想試着手法の多くは、非関手的人物画像、人物姿勢、DensePose、身体キーポイントなど複雑な入力に依存しており、労力を要するため実世界への応用が困難である。これに対し、EVTARは2段階の学習戦略を採用し、ソース画像と対象衣服のみを入力とする簡便な推論を実現する。本モデルは、マスクやDensePose、セグメンテーションマップを必要とせずに試着結果を生成する。さらに、EVTARは同じ衣服を着用した異なる人物の参照画像を追加で活用し、衣服のテクスチャや微細なディテールをより忠実に保持する。このメカニズムは、人間が服装を選ぶ際に参考モデルを考慮する方法に類似しており、より現実的で高品質な着装効果をシミュレートする。これらの機能をサポートするため、補助的な参照画像と非対応の人物画像を訓練データに追加して拡充した。EVTARを2つの広く使用されているベンチマークと多様なタスクで評価し、その結果から本手法の有効性を一貫して実証した。
高精度な動画理解能力にもかかわらず、マルチモーダル言語モデルは時間と空間にわたる空間推論に苦戦している。現在の空間訓練アプローチは実世界の動画データに依存しているが、精密な空間注釈を伴う多様な映像の取得がボトルネックとなっている。この課題を解決するため、我々はSIMS-Vを提案する——3Dシミュレータの特権情報を活用し、マルチモーダル言語モデル向けに空間的に豊富な動画訓練データを生成する体系的データ生成フレームワークである。本フレームワークを用いて、質問タイプ・混合比率・データ規模の系統的な ablation 実験を通じて、シミュレーションデータのどの特性が実世界への効果的な転移を促進するかを検証する。我々は、より少ない質問タイプにもかかわらず網羅的カバレッジを上回る、転移可能な空間知能を育成するのに最も効果的な3つの質問カテゴリ(計測測定、視点依存推論、時間的追跡)からなる最小セットを特定した。これらの知見により、極めて効率的な訓練が可能となる——2万5千のシミュレーション例でファインチューニングした7Bパラメータの動画LLMは、大規模な72Bベースラインを上回り、厳格な実世界空間推論ベンチマークにおいてプロプライエタリモデルと競合する性能を達成した。本アプローチは頑健な一般化能力を示し、一般的な動画理解タスクでの性能を維持しながら、具身体化タスクおよび実世界空間タスクにおいて大幅な改善を見せている。
音声テキスト翻訳(ST)システムの自動評価は、一般に翻訳仮説と1つ以上の参照翻訳を比較することで行われます。この手法はある程度有効ではあるものの、ソース入力からの貴重な情報を無視するという参照ベース評価の限界を引き継いでいます。機械翻訳(MT)分野では、ソーステキストを組み込んだニューラル評価指標が人間の判断との高い相関を達成することが最近の進展で示されています。しかし、このアイデアをSTに拡張することは自明ではありません。なぜならソースがテキストではなく音声であり、信頼性の高い文字起こしやソースと参照訳のアライメントが利用できない場合が頻繁にあるためです。本研究では、特にソース文字起こしが利用できない現実の運用条件に焦点を当て、ST向けのソース考慮型評価指標について初めての体系的研究を行います。我々は、入力音声のテキスト代理を生成するための2つの相補的な戦略、すなわち自動音声認識(ASR)文字起こしと参照翻訳の逆翻訳を探求し、合成ソースと参照翻訳の間のアライメント不一致に対処するための新しい二段階クロスリンガル再セグメンテーションアルゴリズムを導入します。79の言語ペアをカバーする2つのSTベンチマークと、多様なアーキテクチャと性能レベルを持つ6つのSTシステムを用いて実施した実験により、単語誤り率が20%未満の場合、逆翻訳よりもASR文字起こしの方が信頼性の高い合成ソースとなること、一方で逆翻訳は常に計算コストが低くながらも有効な代替手段となり得ることが示されました。さらに、我々のクロスリンガル再セグメンテーションアルゴリズムは、ST評価においてソース考慮型MT評価指標を頑健に利用することを可能にし、より正確で原理的な音声翻訳の評価方法論への道を開くものです。
ヒューマノイドサッカーは、身体性知能における代表的な課題であり、ロボットが密結合された知覚-行動ループ内で動作することを要求する。しかしながら、既存のシステムは一般に分離されたモジュールに依存しており、動的環境において遅延応答や一貫性のない動作を生じさせている。さらに、実世界の知覚的制限がこれらの問題を悪化させている。本研究では、視覚知覚と動作制御を直接統合することで、ヒューマノイドロボットが反応的なサッカー技能を獲得することを可能にする、強化学習に基づく統合型コントローラを提案する。本手法は、Adversarial Motion Priorsを実世界の動的環境における知覚的設定に拡張し、動作模倣と視覚に基づく動的制御を架橋する。実世界の視覚的特性をモデル化する仮想知覚システムと組み合わせたエンコーダ-デコーダ構造を導入し、政策が不完全な観測から特権状態を回復し、知覚と行動の間の能動的協調を確立することを可能にする。結果として得られるコントローラは、実世界のRoboCup試合を含む様々なシナリオにおいて、一貫性のある堅牢なサッカー動作を持続的に実行する強い反応性を示す。
本論文では、マルチモーダル大規模言語モデル(MLLM)の推論能力を、思考のタイミングと方法を学習させることで強化する強化学習(RL)による事後学習フレームワーク「SAIL-RL」を提案する。既存手法は、正解のみを報酬とする結果ベースの監督によって健全な推論が保証されない点、および一律の思考戦略によって単純なタスクでは過剰な推論を、複雑なタスクでは推論不足を招く点に課題があった。SAIL-RLはこれらを二重の報酬システムで解決する。「思考報酬」は、事実への接地、論理的一貫性、回答一致性を通じて推論の質を評価し、「判断報酬」は、深い推論と直接回答のいずれが適切かを適応的に決定する。最新モデルSAIL-VL2を用いた実験では、SAIL-RLが4Bおよび8Bスケールの両方で推論及びマルチモーダル理解ベンチマークを改善し、GPT-4oなどの商用クローズドソースモデルに対抗可能な性能を達成するとともに、幻覚生成を大幅に低減した。これにより、SAIL-RLはより信頼性が高く適応的なMLLMを構築するための原理に基づいたフレームワークとして確立される。コードはhttps://github.com/BytedanceDouyinContent/SAIL-RL で公開予定である。