翻訳付きの日次キュレーションされたAI研究論文
マルチモーダル大規模言語モデルは印象的な意味理解能力を示す一方で、空間的盲目性に悩まされ、細粒度の幾何学的推論や物理的ダイナミクスの処理に苦戦することが多い。既存の解決策は通常、明示的な3Dモダリティや複雑な幾何学的足場に依存しているが、これらはデータ不足と汎化課題によって制限されている。本研究では、大規模ビデオ生成モデル内に内在する空間事前知識を活用することで、パラダイムシフトを提案する。時間的に一貫性のあるビデオを合成するために、これらのモデルは本質的に頑健な3D構造事前知識と物理法則を学習していると仮定する。我々はVEGA-3D(Video Extracted Generative Awareness)を提案する。これはプレトレーニング済みビデオ拡散モデルを潜在世界シミュレータとして再利用するプラグアンドプレイフレームワークである。中間ノイズレベルから時空間特徴を抽出し、トークンレベルの適応型ゲート融合機構を介して意味表現と統合することで、明示的な3D教師信号なしでMLLMに高密度な幾何学的手がかりを付与する。3Dシーン理解、空間推論、具身体験操作ベンチマークにおける大規模な実験により、本手法が最先端ベースラインを凌駕することを実証し、生成的事前知識が物理世界理解のためのスケーラブルな基盤を提供することを検証した。コードはhttps://github.com/H-EmbodVis/VEGA-3Dで公開されている。
現在の指示文駆動型ビデオ編集モデルは、精密な意味論的変更と忠実な動きの保存を同時に達成することに課題を抱えています。既存のアプローチでは、これらの問題を緩和するために明示的な外部事前情報(VLM特徴量や構造的条件など)の注入に依存していますが、この依存性がモデルの頑健性と汎化性能の重大なボトルネックとなっています。この制限を克服するため、我々はSAMA(因子分解型セマンティックアンカリングとモーションアライメント)を提案します。このフレームワークは、ビデオ編集をセマンティックアンカリングとモーションモデリングに因子分解します。第一に、スパースなアンカーフレームにおいてセマンティックトークンとビデオ潜在変数を共同で予測することで信頼性の高い視覚的アンカーを確立するセマンティックアンカリングを導入し、純粋に指示文を意識した構造計画を可能にします。第二に、モーション中心のビデオ復元事前学習タスク(立方体インペインティング、速度摂動、チューブシャッフル)において同一のバックボーンを事前学習するモーションアライメントにより、モデルが生のビデオから直接時間的ダイナミクスを内在化できるようにします。SAMAは二段階パイプラインで最適化されます:ペアとなったビデオ-指示文編集データを必要とせず、内在的な意味-運動表現を学習する因子分解事前学習段階と、ペアデータによる教師ありファインチューニング段階です。特筆すべきは、因子分解事前学習のみで強力なゼロショットビデオ編集能力が得られ、提案する因子分解の有効性が実証されました。SAMAはオープンソースモデルの中で最先端の性能を達成し、主要な商用システム(Kling-Omniなど)にも匹敵する性能を示します。コード、モデル、データセットは公開予定です。
私たちは、最高水準の推論能力と強力なエージェント機能を提供する、活性化パラメータ30億のオープンな300億MoEモデル「Nemotron-Cascade 2」を紹介します。コンパクトなサイズにもかかわらず、数学的推論とコーディング推論の性能は最先端のオープンモデルに迫る水準です。DeepSeekV3.2-Speciale-671B-A37Bに次いで2番目となる、2025年国際数学オリンピック(IMO)、国際情報オリンピック(IOI)、ICPC世界決勝において金メダルレベルの性能を達成したオープンウェイトLLMであり、パラメータ数を20分の1に抑えながら驚異的に高い知能密度を実証しています。 Nemotron-Cascade 1からの主な技術的進歩は以下の通りです。厳選されたデータセットによるSFT後、Cascade RLを大幅に拡張してより広範な推論領域とエージェント領域をカバーしました。さらに、Cascade RLプロセス全体で各領域の最強中間教師モデルからのマルチドメインオンポリシー蒸留を導入し、ベンチマークの後退を効率的に回復させつつ、強固な性能向上を持続させることに成功しています。モデルチェックポイントとトレーニングデータのコレクションを公開します。
カスタマイズされた被写体の動的で視点整合性のある動画生成は、没入型VR/AR、仮想プロダクション、次世代Eコマースなど、多岐にわたる新興アプリケーションにおいて強く求められています。しかし、被写体駆動の動画生成が急速に進歩しているにもかかわらず、既存手法の多くは被写体を2Dエンティティとして扱い、単一視点の視覚特徴やテキストプロンプトを通じた同一性転送に焦点を当てています。現実世界の被写体は本質的に3Dであるため、これらの2D中心アプローチを3Dオブジェクトのカスタマイズに適用すると、根本的な限界が明らかになります:3Dジオメトリを再構築するために必要な包括的な空間事前情報を欠いているのです。その結果、新規視点の合成時には、未観測領域に対して真の3Dアイデンティティを保持するのではなく、もっともらしいが任意の詳細を生成することに依存せざるを得ません。真に3Dを意識したカスタマイズを実現することは、多視点動画データセットの不足により依然として困難な課題です。限られた動画シーケンスでモデルのファインチューニングを試みることも可能ですが、これは時間的な過学習を招くことが多いです。これらの課題を解決するため、我々は3Dを意識した動画カスタマイズの新規フレームワークである3DreamBoothと3Dapterを提案します。3DreamBoothは、1フレーム最適化パラダイムを通じて空間ジオメトリと時間的動きを分離します。空間表現の更新を制限することで、網羅的な動画ベースのトレーニングを必要とせず、ロバストな3D事前情報をモデルに効果的に焼き付けます。微細なテクスチャを強化し収束を加速させるため、視覚的条件付けモジュールである3Dapterを組み込みます。単一視点事前学習後、3Dapterは非対称条件付け戦略によりメイン生成ブランチと共に多視点共同最適化を実施します。この設計により、本モジュールは動的選択ルーターとして機能し、最小限の参照セットから視点固有の幾何学的ヒントを問い合わせることが可能になります。プロジェクトページ: https://ko-lani.github.io/3DreamBooth/
リアルタイム実行は、Vision-Language-Action(VLA)モデルを物理世界に展開する上で極めて重要である。既存の非同期推論手法は主に軌道の滑らかさを最適化するが、環境変化への反応における重要な遅延を軽視している。本論文は、アクション chunking ポリシーにおける「反応」の概念を再考し、反応時間を支配する要因について体系的な分析を行う。反応時間が「最初のアクションまでの時間(TTFA)」と実行ホライズンによって共同で決定される一様分布に従うことを示す。さらに、フローベースVLAにおいて一定スケジュールを適用する標準的な手法が非効率であり、システムがすべてのサンプリングステップを完了しなければ動作を開始できないため、反応遅延のボトルネックとなっていることを明らかにする。この問題を解決するため、我々はFast Action Sampling for ImmediaTE Reaction(FASTER)を提案する。FASTERはHorizon-Aware Scheduleを導入することで、フローサンプリング中に近未来のアクションを適応的に優先し、即時反応のノイズ除去を10倍(例: π₀.₅ および X-VLA)圧縮して単一ステップで行いながら、長期的な軌道の品質を維持する。ストリーミング型クライアント-サーバーパイプラインと組み合わせることで、FASTERは実ロボット上の実効反応遅延を大幅に低減し、特に民生用GPUでの展開時に効果を発揮する。高度に動的な卓球タスクを含む実世界実験により、FASTERが汎用ポリシーにおいて前例のないリアルタイム応答性を実現し、正確かつ滑らかな軌道を迅速に生成できることを実証する。
我々はMemento-Skillsを紹介する。これは汎用性が高く継続学習可能なLLMエージェントシステムであり、エージェント設計エージェントとして機能する:経験を通じてタスク特化型エージェントを自律的に構築・適応・改善する。本システムは状態保持プロンプトを用いたメモリベース強化学習フレームワーク上に構築され、再利用可能なスキル(構造化マークダウンファイルとして保存)が永続的かつ進化するメモリとして機能する。これらのスキルは行動とコンテキストの両方を符号化し、エージェントが対話を超えて知識を継承することを可能にする。 基本的な初歩的スキル(Web検索やターミナル操作など)から開始し、エージェントはMemento~2~wang2025memento2で導入されたRead-Write反射的学習メカニズムを通じて継続的に改善する。読取フェーズでは、行動学習可能なスキルルーターが現在の状態保持プロンプトに条件付けられた最も関連性の高いスキルを選択し、書込フェーズでは、エージェントは新たな経験に基づいてスキルライブラリを更新・拡張する。この閉ループ設計により、全ての適応が外部化されたスキルとプロンプトの進化を通じて実現されるため、LLMパラメータを更新することなく継続学習が可能となる。 人間が設計したエージェントに依存する従来手法とは異なり、Memento-Skillsは汎用エージェントが新規タスク向けにエンドツーエンドでエージェントを設計することを可能にする。反復的なスキル生成と洗練を通じて、システムは自身の能力を段階的に向上させる。General AI AssistantsベンチマークとHumanity's Last Examでの実験では持続的な性能向上を示し、それぞれ総合精度で26.2%、116.2%の相対的改善を達成した。コードはhttps://github.com/Memento-Teams/Memento-Skillsで公開されている。
従来のモーション生成は主に2つのパラダイムに従ってきた。キネマティック制御に優れた連続拡散モデルと、意味的制御に効果的な離散トークンベースの生成器である。両者の長所を統合するため、我々は条件特徴抽出(知覚)、離散トークン生成(計画)、拡散ベースのモーション合成(制御)の3段階から成るフレームワークを提案する。この枠組みの中核を成すのがMoTokである。これは拡散ベースの離散モーショントークナイザーであり、モーション復元を拡散デコーダーに委譲することで意味的抽象化と細粒度再構成を分離する。これにより、モーションの忠実性を保ちつつ、コンパクトな単層トークンを実現する。キネマティック条件については、粗い制約は計画段階でのトークン生成を誘導し、細粒度の制約は制御段階で拡散ベースの最適化により強制される。この設計により、キネマティック詳細が意味的トークン計画を妨げるのを防ぐ。HumanML3Dにおける実験では、本手法はMaskControlと比べてトークン数を6分の1に削減しながらも制御性と忠実性を大幅に向上させ、軌道誤差を0.72cmから0.08cmへ、FIDを0.083から0.029へ改善した。従来手法が強いキネマティック制約下で品質劣化するのとは異なり、本手法は忠実性を向上させ、FIDを0.033から0.014に低減した。
単一画像から関節構造を持つ3Dオブジェクトを再構築するには、限られた視覚的証拠からオブジェクトの形状、部品構造、動作パラメータを統合的に推論する必要がある。主な難しさは、動作の手がかりとオブジェクト構造の絡み合いにあり、これが直接的な関節パラメータの回帰を不安定にする。既存手法では、マルチビュー監督、検索ベースの組み立て、補助的な動画生成などを通じてこの課題に対処するが、拡張性や効率性が犠牲になることが多い。我々は、漸進的構造推論に基づく統一フレームワーク「MonoArt」を提案する。MonoArtは、画像特徴から直接関節パラメータを予測するのではなく、視覚的観測を正準形状、構造化された部品表現、動作認識埋め込みへと単一アーキテクチャ内で段階的に変換する。この構造化された推論プロセスにより、外部の動作テンプレートや多段階パイプラインなしで、安定かつ解釈可能な関節推論を実現する。PartNet-Mobilityを用いた大規模実験により、OMが再構成精度と推論速度の両方で最先端の性能を達成することを示す。本フレームワークはさらに、ロボット把持や関節構造を持つシーン再構築へも一般化可能である。
離散トークンを用いた視覚生成は、言語モデルと共有される統一的なトークン予測パラダイムを可能にするため、シームレスなマルチモーダルアーキテクチャの実現を約束するものとして大きな注目を集めている。しかし、現在の離散生成手法は低次元の潜在トークン(典型的には8~32次元)に限定されており、理解に不可欠な意味的豊かさが犠牲になっている。一方、高次元の事前学習済み表現(768~1024次元)はこのギャップを埋めうるが、その離散生成には根本的な課題がある。本論文では、高次元表現における初の離散生成モデルであるCubic Discrete Diffusion(CubiD)を提案する。CubiDは高次元離散表現全体できめ細かなマスキングを実行し——任意の位置の任意の次元をマスキングし部分観測から予測することが可能である。これにより、モデルは空間位置内および位置間の豊かな相関を学習でき、特徴次元数に関わらず生成ステップ数はTに固定される(T ≪ hwd)。ImageNet-256において、CubiDは900Mから3.7Bパラメータにわたる強力なスケーリング特性を示し、離散生成の最先端結果を達成した。重要な点として、これらの離散化トークンが元の表現能力を保持することを検証し、同じ離散トークンが理解タスクと生成タスクの両方に有効に機能することを実証した。本研究が統一マルチモーダルアーキテクチャに向けた将来の研究を促進することを期待する。コードはhttps://github.com/YuqingWang1029/CubiD で公開されている。
我々は、80Mから14Bまでの8種類のサイズを備えた新しい汎用多言語埋め込みモデル群「F2LLM-v2」を発表します。新たに精選された6,000万件の公開高品質データサンプルで学習されたF2LLM-v2は、200以上の言語をサポートし、特に従来十分なリソースが提供されていなかった中・低リソース言語に重点を置いています。LLMベースの2段階埋め込み学習パイプラインをマトリョーシカ学習、モデル枝刈り、知識蒸留技術と統合することで、従来のLLMベース埋め込みモデルよりもはるかに効率的でありながら競争力のある性能を維持するモデルを実現しました。大規模な評価により、F2LLM-v2-14Bが11のMTEBベンチマークで首位を獲得し、ファミリー内の小型モデルもリソース制約のあるアプリケーションにおいて新たな技術水準を確立することが確認されました。オープンソースの埋め込みモデル研究を促進するため、全てのモデル、データ、コード、および中間チェックポイントを公開します。
オムニモーダル大規模言語モデル(OmniLLM)の最近の進展により、音声・映像入力の理解能力が大幅に向上している。しかし、現行の評価は主に10秒から5分程度の短い音声・映像クリップに焦点を当てており、実際の応用で一般的な数十分に及ぶ映像コンテンツへの対応が求められる現実的なニーズを反映しきれていない。この重要な課題に対処するため、我々は長尺音声・映像のクロスモーダル理解に特化した新たなベンチマーク「LVOmniBench」を提案する。本データセットは、オープンプラットフォームから収集した豊富な視聴覚的ダイナミクスを備えた高品質な映像で構成されている。厳格な手動選定とアノテーションを経て、LVOmniBenchは10分から90分の長さの275本の映像と1,014組の質問応答(QA)ペアを含む。本ベンチマークは、OmniLLMの長期的記憶、時間的定位、細粒度理解、マルチモーダル知覚といった領域横断的な能力を厳密に評価することを目的としている。大規模な評価実験により、現行のOmniLLMが長時間の視聴覚入力を処理する際に重大な課題に直面することが明らかになった。オープンソースモデルは概ね35%未満の精度に留まるのに対し、Gemini 3 Proは約65%の最高精度を達成している。本データセットと実証的知見が、長尺音声・映像文脈における複雑なクロスモーダル理解課題を解決する高度なモデルの研究開発を促進することを期待する。
長期的なGUIエージェントは実世界への展開における重要なステップであるが、既存のパラダイム下での効果的なインタラクション記憶は十分に研究されていない。完全なインタラクション系列の再生は冗長でノイズを増幅し、要約は依存関係に重要な情報と追跡可能性を消去しがちである。本論文では、長期的Android GUIエージェントのための固定化記憶診断フレームワークAndroTMemを提案する。中核的ベンチマークであるAndroTMem-Benchは1,069タスク、34,473インタラクションステップ(平均32.1、最大65)で構成される。TCR(タスク完了率)による評価では、重要な中間状態の引き継ぎを必要とするタスクに焦点を当て、AndroTMem-Benchは強固なステップ間因果依存関係を強制するように設計されており、疎ながら不可欠な中間状態が下流行動を決定し、インタラクション記憶を評価の中心に据えている。オープンソース及びクローズドソースGUIエージェントを横断した分析により、インタラクション系列が長くなるにつれ、性能低下が主にタスク内記憶障害によって引き起こされ、単離した知覚誤りや局所的行動誤りではない一貫したパターンが観測された。この診断に基づき、インタラクション系列を因果的に連結された中間状態アンカーのコンパクトな集合として表現する固定化状態記憶(ASM)を提案する。これによりサブゴール指向の検索と帰属意識ある意思決定を実現する。複数設定及び12の評価対象GUIエージェントにおいて、ASMは一貫して完全系列再生と要約ベースのベースラインを上回り、TCRを5%-30.16%、AMSを4.93%-24.66%改善し、固定化された構造化記憶が長期的GUIタスクにおけるインタラクション記憶のボトルネックを効果的に緩和することを示した。コード、ベンチマーク及び関連リソースは[https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem)で公開されている。
本論文では、話者の発話に適切に応答する自然なリスナーの身体動作を生成する新たなタスク「発話に基づく反応的リスナー動作生成」を提案する。しかし、人間の反応が本質的に非決定論的であるため、このような非言語的リスナー行動のモデル化は未開拓で困難な課題である。本タスクを促進するため、我々はReactMotionNetを提示する。これは話者の発話を、適切さの度合いが注釈付けられた複数の候補リスナー動作と対応づけた大規模データセットである。このデータセット設計は、リスナー行動の一対多の性質を明示的に捉え、単一の正解動作を超える監督を提供する。このデータセット設計に基づき、従来の入力-動作の一致に焦点を当てた動作評価指標が無視してきた反応的適切さを評価するために、選好指向の評価プロトコルを開発する。さらに我々は、テキスト・音声・感情・動作を統合的にモデル化し、選好に基づく目的関数で訓練される統合生成フレームワークReactMotionを提案する。これにより、適切かつ多様なリスナー応答が促進される。大規模な実験により、ReactMotionが検索ベースラインやカスケード型LLMベースのパイプラインを上回り、より自然で多様かつ適切なリスナー動作を生成できることを示す。
近年、マルチモーダル大規模言語モデル(MLLM)の進展は、標準的な視覚的質問応答を超え、外部ツールを活用した高度な視覚タスクへの応用が進んでいる。しかしながら、複雑なタスクにおいて多様なツールを正確に実行し、効果的に組み合わせる能力は、依然として大きな課題として残されている。既存のベンチマークは、限られたツールセットと単純なツール使用軌跡に制約されており、複雑で多様なツール間の相互作用を捉えられず、実践的な現実世界の条件下でのモデル性能を評価するには不十分である。 この隔たりを埋めるため、我々はMLLMのツール使用能力を評価する包括的ベンチマークであるVisualToolChain-Bench(VTC-Bench)を提案する。現実的なコンピュータビジョンパイプラインに合わせるため、本フレームワークは32種類の多様なOpenCVベースの視覚操作を特徴とする。この豊富なツールセットにより広範な組み合わせが可能となり、VTC-Benchは多ツールの構成と、長期的で多段階の計画実行を厳密に評価できる。正確な評価のため、9カテゴリの認知的階層に構造化された680の精選された問題と、それぞれに対する正解の実行軌跡を提供する。 19の主要なMLLMを用いた大規模な実験により、現在のモデルが持つ視覚的エージェンシー能力の重大な限界が明らかになった。具体的には、モデルは多様なツールセットへの適応や未経験の操作への汎化が困難であり、最高性能モデルであるGemini-3.0-Proでさえ、本ベンチマークにおいて51%の精度しか達成できなかった。さらに、多ツールの構成は持続的な課題である。複雑なタスクに直面した場合、モデルは効率的な実行計画を立案できず、最適なツールを選択するよりも、狭い範囲の慣れ親しんだ機能の一部に過度に依存する傾向があった。 これらの根本的な課題を特定することにより、VTC-Benchは、より汎用的な視覚的エージェンシーモデルの開発を導く厳密なベースラインを確立する。
マルチモーダル大規模言語モデル(MLLM)は自然景観の解釈において目覚ましい成功を収めているが、人間の認知の基本構成要素である離散記号を処理する能力は、依然として重要な未解決問題である。連続的な視覚データとは異なり、数式、化学構造、言語文字などの記号は、精確でより深い解釈を必要とする。本論文は、トップクラスのMLLMが「離散的意味空間」を言語、文化、数学、物理学、化学の5領域にわたって如何に航行するかを評価する包括的ベンチマークを提案する。我々の調査は逆説的な現象を明らかにした:モデルは基本的な記号認識では失敗する一方、複雑な推論課題では成功することが多く、これは真の視覚的知覚ではなく言語的な確率に依存していることを示唆する。この「認知的ミスマッチ」を暴くことで、科学的発見と抽象的思考を支える記号的言語を真に知覚し理解するという、現在のAI能力における重大な隔たりを浮き彫りにする。本研究は、より厳密で人間に整合した知能システム開発への道筋を示す。
ビデオオブジェクト除去は、動的な対象オブジェクトとその変形、影、反射などの視覚効果を除去し、シームレスな背景を復元することを目的とする。近年の拡散モデルに基づくビデオインペインティングおよびオブジェクト除去手法はオブジェクト自体の除去は可能であるが、これらの効果の完全な消去や一貫性のある背景の合成に課題を残す。手法の限界に加え、多様な環境下での一般的なオブジェクト効果を体系的に捕捉した、学習と評価のための包括的なデータセットの不足が進展を妨げている。この問題に対処するため、我々は大規模なデータセットVOR(Video Object Removal)を提案する。VORは多様なペア動画を提供し、各ペアは対象オブジェクトとその効果が存在する動画と、オブジェクトと効果が除去された対応動画、ならびに対応するオブジェクトマスクから構成される。VORは実写および合成ソースから得られた6万組の高品質な動画ペアを含み、5種類の効果タイプを網羅し、広範なオブジェクトカテゴリと複雑で動的な複数オブジェクトシーンに及ぶ。VORに基づき、我々はEffectEraseを提案する。これは効果を意識したビデオオブジェクト除去手法であり、ビデオオブジェクト挿入を双方向学習スキーム内での逆補助タスクとして扱う。本モデルは、学習を影響を受けた領域に集中させ、柔軟なタスク切り替えを可能にするタスク認識領域ガイダンスを含む。さらに、挿入・除去の一貫性制約により、補完的な振る舞いと、効果領域及び構造的手がかりの共有された位置特定を促進する。VORで学習したEffectEraseは、広範な実験において優れた性能を達成し、多様なシナリオにわたる高品質なビデオオブジェクト効果消去を実現する。
視覚言語モデル(VLM)は、視覚的推論を必要とするタスクにおいてさえ、視覚入力を十分に活用せず、しばしば「盲目」であることが示されている。本研究では、VLMが「選択的に盲目」であることを明らかにする。つまり、代替的な枠組みが同一の視覚的推論を要求する場合であっても、言語的枠組みに基づいて視覚入力に適用する注意の量を調節するのである。視覚的注意をプローブとして用いることで、枠組みが画像全体への注意の量と分布をどのように変化させるかを定量化する。多肢選択やYes/Noのような制約的な枠組みは、自由記述式の枠組みと比較して、画像の文脈への注意を大幅に低下させ、タスク関連領域への焦点を減少させ、情報量の少ないトークンへと注意をシフトさせる。さらに、この注意の誤配分が、精度の低下と枠組み間の不一致の主原因であることを実証する。このメカニズムに基づく知見を踏まえ、学習可能なトークンを用いた軽量なプロンプトチューニング手法を提案する。この手法は、自由記述式設定で観察される頑健で視覚に基づいた注意パターンを促進し、視覚的接地を改善し、様々な枠組みにわたる性能を向上させる。
同時音声翻訳(SimulS2S)は、多言語間のリアルタイムコミュニケーションに不可欠であり、会議やストリーミングプラットフォームへの統合が進んでいる。しかしながら、SimulS2Sの研究は未だ十分に進んでおらず、現行のソリューションはリソース集約的な訓練プロセスに依存することが多く、短い事前分割された発話を対象としており、連続音声への汎化が困難である。この課題を解決するため、我々は長文SimulS2S向けの初の訓練不要なポリシーであるSimulUを提案する。SimulUは、入力履歴と出力生成を制御するために、事前学習済みエンドツーエンドモデルのクロスアテンションを活用する、履歴管理と音声出力選択戦略を採用する。8言語のMuST-Cによる評価では、SimulUが強力なカスケードモデルと比較して、品質と遅延のトレードオフにおいて同等以上の性能を達成することを示した。特化した訓練を不要とするSimulUは、現実的な長文シナリオにおけるエンドツーエンドSimulS2Sの実現への有望な道筋を提供する。
マルチターンLLMエージェントは、複雑な対話型タスクを解決する上で重要性を増しており、強化学習(RL)はその長期的な行動を改善するための重要な要素である。しかし、RLトレーニングには大量のサンドボックス化されたロールアウト軌道の生成が必要であり、既存のインフラストラクチャでは、ロールアウトのオーケストレーションとトレーニングループが密結合されていることが多く、システムの移行や保守を困難にしている。我々は、ロールアウト・アズ・ア・サービスの理念の下、APIサービスを通じて完全なエージェント的ロールアウトライフサイクルを提供するスケーラブルなインフラストラクチャ「ProRL Agent」を提案する。ProRL Agentはまた、ルートレスHPC環境下で多様なエージェント的タスクをサポートする、標準化され拡張可能なサンドボックス環境を提供する。ソフトウェアエンジニアリング、数学、STEM、コーディングタスクにおけるRLトレーニングを通じてProRL Agentを検証する。ProRL Agentはオープンソース化され、NVIDIA NeMo Gymの一部として統合されている。
マルチモーダル大規模言語モデル(MLLM)は視覚と言語の連携において目覚ましい進展を見せているが、空間理解と視点を考慮した推論には依然として課題を残している。近年の研究は、モデルに3D空間推論を明示的に教えるのではなく、幾何学的な手がかりで入力表現を拡張する方向に進んでいる。本論文では、単眼ビデオ入力から高度な3D理解能力を2D視覚言語モデルに付与するフレームワーク「Loc3R-VLM」を提案する。人間の空間認知にヒントを得たLoc3R-VLMは、シーン構造の全体的な表現を構築するための大域的レイアウト再構成と、自己中心的な視点を定位するための明示的な状況モデリングという、二つの連携目標に依存している。これらの目標は、知覚と言語を3D文脈に接地させる直接的な空間的監督を提供する。幾何学的一貫性とメートル法スケールの整合性を確保するため、事前学習済み3D基盤モデルから抽出した軽量なカメラ姿勢事前情報を活用する。Loc3R-VLMは、言語に基づく位置推定において最先端の性能を達成し、状況に基づく3D質問応答および一般的な3D質問応答ベンチマークにおいて、既存の2Dおよびビデオベースの手法を凌駕する。これは我々の空間的監督フレームワークが強力な3D理解を可能にすることを実証している。プロジェクトページ: https://kevinqu7.github.io/loc3r-vlm
重要度比率の制御は、Group Relative Policy Optimization(GRPO)に基づくフレームワークの学習安定性において極めて重要である。しかし、ハードクリッピングのような従来の比率制御手法は、非微分可能な境界と勾配消失領域を有しており、勾配の忠実性を維持できないという問題を抱えている。さらに、これらの手法は極端な偏差を適応的に抑制するハザード認識メカニズムを備えておらず、急激な方策シフトに対して最適化プロセスが脆弱になる。これらの課題に対処するため、我々はロバストで安定した強化学習を実現する新しいフレームワークであるModulated Hazard-aware Policy Optimization(MHPO)を提案する。提案するMHPOは、Log-Fidelity Modulator(LFM)を導入し、有界ではない重要度比率を有界かつ微分可能な領域に写像する。この機構は、高分散の外れ値トークンが損失ランドスケープを不安定化することを効果的に防止するとともに、大域的な勾配安定性を保証する。相補的に、Decoupled Hazard Penalty(DHP)は、生存時間解析からの累積ハザード関数を統合し、正負の方策シフトを独立して制御する。ハザード認識ペナルティによって最適化ランドスケープを形成することにより、提案するMHPOは非対称な方策シフトの細粒度な制御を実現し、過剰な拡張によるモード崩壊を軽減するとともに、安定化された信頼領域内での壊滅的な収縮による方策の劣化を防止する。テキストベース及び視覚言語タスクにわたる多様な推論ベンチマークでの広範な評価により、MHPOが既存手法を一貫して上回り、優れた性能を達成するとともに学習安定性を大幅に向上させることを実証した。
本技術報告は、MOSS-TTSを紹介する。これは、離散音声音響トークン、自己回帰モデリング、大規模事前学習というスケーラブルな設計手法に基づいて構築された音声生成基盤モデルである。24kHzの音声を可変ビットレートRVQと統合意味・音響表現を用いて12.5fpsに圧縮する因果的TransformerトークナイザーであるMOSS-Audio-Tokenizerを基盤とし、2つの相補的な生成モデルを公開する:構造の単純さ、スケーラビリティ、長文脈・制御指向の展開を重視するMOSS-TTSと、より高いモデリング効率、強力な話者維持、短い初音発声時間を実現するためにフレームローカル自己回帰モジュールを導入したMOSS-TTS-Local-Transformerである。多言語およびオープンドメイン設定において、MOSS-TTSはゼロショット音声クローニング、トークンレベルの長さ制御、音素・ピンインレベルの発音制御、滑らかなコードスイッチング、安定した長文生成をサポートする。本報告は、公開モデルの設計、訓練手法、および実験的特徴をまとめたものである。
マトリョーシカガウススプラッティング(MGS):単一モデルによる連続的詳細度制御の実現 単一モデルから調整可能な忠実度でシーンをレンダリングする能力、すなわち詳細度(LoD)は、3Dガウススプラッティング(3DGS)の実用的な展開において極めて重要である。既存の離散的LoD手法が提供する操作点は限定的である一方、近年の連続的LoD手法はより滑らかなスケーリングを可能にするものの、最大能力時の品質劣化が顕著であり、LoDの導入がコストの高い設計判断となっている。本論文では、標準的な3DGSパイプラインにおいて、最大能力時のレンダリング品質を損なうことなく連続的LoDを実現する学習フレームワーク、Matryoshka Gaussian Splatting(MGS)を提案する。MGSは単一の順序付けられたガウス集合を学習し、任意の接頭辞(最初のk個のスプラット)をレンダリングすることで、予算の増加に伴い忠実度が滑らかに向上する一貫性のある再構成を生成する。中核となるアイデアは確率的予算学習である:各イテレーションでランダムなスプラット予算をサンプリングし、対応する接頭辞と集合全体の両方を最適化する。この戦略は2回の順伝搬のみを必要とし、アーキテクチャの変更を一切伴わない。4つのベンチマークと6つのベースラインを用いた実験により、MGSがバックボーン手法の最大能力時の性能を維持しつつ、単一モデルから連続的な速度と品質のトレードオフを実現することを示す。順序付け戦略、学習目的関数、モデル容量に関する詳細なアブレーション研究により、設計の有効性をさらに検証する。
リモートセンシングに適応された視覚言語モデル(VLM)は、ドメイン固有の画像-テキスト監督に強く依存しているが、衛星画像や航空画像に対する高品質なアノテーションは依然として不足しており、作成コストも高い。既存の擬似ラベリング手法は、大規模フロンティアモデルからの知識蒸留によってこの問題に対処するが、大規模な教師モデルへの依存はコストが高く、拡張性を制限し、達成可能な性能を教師モデルの上限に抑えてしまう。本研究では、この依存関係を排除する自己完結型ドメイン適応フレームワーク「OSMDA」を提案する。我々の重要な洞察は、能力のあるベースVLMが自身のアノテーションエンジンとして機能し得る点である。航空画像とレンダリングされたOpenStreetMap(OSM)タイルを組み合わせることで、モデルの光学文字認識および図表理解能力を活用し、OSMの豊富な補助メタデータで強化されたキャプションを生成する。その後、モデルは衛星画像のみからなる結果コーパスで微調整され、手動ラベリングや強力な外部モデルを必要としないドメイン適応VLM「OSMDA-VLM」が得られる。画像-テキストからテキスト生成タスクにおける10のベンチマークにわたる網羅的評価を実施し、9つの競合ベースラインと比較した。実データと均等に混合した場合、本手法は教師モデル依存の代替手法よりも訓練コストが大幅に低いながら、state-of-the-artの結果を達成する。これらの結果は、強力な基盤モデルが与えられた場合、クラウドソーシングされた地理データとの整合性が、リモートセンシングドメイン適応に向けた実用的かつ拡張可能な経路であることを示唆する。データセットとモデル重みは公開予定である。
数学的対象を精密に導出する能力は、数学・物理学・化学を含む下流STEM応用における中核的な要件であり、推論は形式的に構造化された表現で完結しなければならない。しかし現在の数学的・科学的推論に関する言語モデル評価は、自動評価の利便性から数値や多肢選択式といった簡略化された解答形式に大きく依存している。本論文では、数学的対象に対する推論を改善するための3つの貢献を行う:(i) 数学的対象の導出に関する訓練データとベンチマーク「Principiaスイート」を構築し公開する;(ii) 強力なLLM判定器と検証器を用いた訓練レシピを提供し、方策オン型の判定器訓練が性能を向上させることを示す;(iii) 方策オン型訓練が集約によるテスト時計算量のスケーリングにも活用できる方法を示す。Qwen3-235Bやo3のような強力な言語モデルでもPrincipiaでは苦戦する一方、我々の訓練レシピが様々なLLM基盤モデルで大幅な改善をもたらし、既存の数値計算や多肢選択問題の結果も同時に向上させ、推論能力の形式横断的な一般化を実証する。
我々は、多言語時間推論ベンチマーク「MultiTempBench」を提案する。これは、5つの言語(英語、ドイツ語、中国語、アラビア語、ハウサ語)と複数の暦法(グレゴリオ暦、ヒジュラ暦、中国旧暦)にわたる、日付計算、タイムゾーン変換、時間関係抽出の3つのタスクを対象としている。MultiTempBenchは、厳選された750の英語質問を翻訳し、それぞれを制御された日付形式バリエーションに展開して構築された15,000の例を含む。20の大規模言語モデルを評価し、人間の深刻度評価で較正された多言語日付断片化率(mDFR)を導入するとともに、内部の時間表現に対する幾何学的プロービング分析を実施した。その結果、時間的要素のトークン化品質はリソース依存のボトルネックであることが明らかになった。低リソース言語や稀な暦形式では、断片化により年/月/日の分離が妨げられ精度が急落する一方、高リソース環境では数字レベルの分割に対してしばしば頑健であった。トークン化を超えて、交差混合効果回帰分析により、高リソース言語では時間的直線性が時間推論の最強の予測因子であるのに対し、低リソース言語では断片化がより強い予測因子であることが示された。コードは以下で利用可能:https://github.com/gagan3012/mtb
潜在的な物体の識別は、様々なコンピュータビジョンアプリケーションにおける物体認識と分析において極めて重要である。既存手法では、一般に例示画像、事前定義されたカテゴリ、またはテキスト記述に依存して潜在的な物体を位置特定する。しかし、画像やテキストのプロンプトへの依存性は柔軟性を制限し、実世界のシナリオにおける適応性を阻害することが多い。本論文では、外部プロンプトに依存せずに潜在的な物体を識別する、新しいプロンプトフリー汎用領域提案ネットワーク(PF-RPN)を提案する。まず、Sparse Image-Aware Adapter(SIA)モジュールが、視覚的特徴で動的に更新される学習可能なクエリ埋め込みを用いて潜在的な物体の初期位置特定を行う。次に、Cascade Self-Prompt(CSP)モジュールが、自己プロンプトによる学習可能な埋め込みを活用して残りの潜在的な物体を識別し、情報量の多い視覚的特徴をカスケード方式で自律的に集約する。最後に、Centerness-Guided Query Selection(CG-QS)モジュールが、中心性スコアリングネットワークを用いて高品質なクエリ埋め込みの選択を促進する。提案手法は限られたデータ(例:MS COCOデータの5%)で最適化でき、ファインチューニングなしで水中物体検出、工業欠陥検出、リモートセンシング画像物体検出など、様々な物体検出応用領域に直接適用可能である。19のデータセットにわたる実験結果は、本手法の有効性を実証している。コードはhttps://github.com/tangqh03/PF-RPNで公開されている。
本論文では、Flow Matching(FM)における確率経路を再構築し、より高速かつ信頼性の高い生成を実現する汎用フレームワークCOT-FMを提案する。FMモデルは、ランダムまたはバッチ単位のカップリングにより曲線的な軌道を生成することが多く、これが離散化誤差を増大させサンプル品質を低下させる要因となっている。COT-FMは、目標サンプルをクラスタリングし、各クラスタに事前学習済みFMモデルを逆伝播させて得た専用のソース分布を割り当てることでこの問題を解決する。この分割統治戦略により、モデル構造を変更することなく、より正確な局所輸送と著しく直線的なベクトル場を実現する。プラグアンドプレイ方式のCOT-FMは、2次元データセット、画像生成ベンチマーク、ロボット把持タスクにおいて、一貫してサンプリングを加速し生成品質を向上させる。
大規模言語モデル(LLM)は高資源言語ペアにおける機械翻訳で顕著な能力を発揮する一方、低資源翻訳における性能は依然として遅れを取っている。既存の学習後手法は高品質な並列データに大きく依存しているが、こうしたデータは低資源言語では不足しているか、利用できないことが多い。本論文では、単言語テキストのみを用いてLLMの低資源言語翻訳能力を向上させつつ、高資源言語での性能を維持する強化学習手法WALARを提案する。我々の核心的な洞察は、既存のソースベース多言語品質推定モデルにおける失敗モード(あるいは「穴」)の観察に基づく。これらの品質推定モデルを用いた強化学習は、こうした穴を増幅させる傾向があり、多言語LLMの性能低下を招く。我々は、WALARの報酬設計においてこの穴を緩和するため、単語アライメントと言語アライメントを含む技術を開発した。WALARを用いて101言語の翻訳をサポートするLLMを継続学習した。実験結果では、Flores-101データセットにおける1400の言語方向において、我々の新モデルが最も強力なオープンソース多言語LLMの一つであるLLaMAXを大きく上回る性能を示した。
意味のある部品の構成として3Dオブジェクトを理解し生成することは、人間の知覚と推論の基盤です。しかし、ほとんどのテキストから3Dへの生成手法は、部品の意味的・機能的な構造を見落としています。近年の部品を意識したアプローチは分解を導入するものの、主に幾何学的側面に焦点が当てられており、意味的な基盤を欠き、部品がテキスト記述にどのように合致するか、または部品間の関係をモデル化できていません。我々は、意味的に基礎付けられた部品を意識したテキストから3Dへの生成フレームワーク「DreamPartGen」を提案します。DreamPartGenは、各パーツの形状と外観を共同でモデル化する「二重パーツ潜在変数(DPL)」と、言語から導出された部品間の依存関係を捕捉する「関係的意味潜在変数(RSL)」を導入します。同期化された共同デノイジングプロセスにより、幾何学的および意味的な一貫性が相互に強化され、首尾一貫した、解釈可能で、テキストに沿った3D合成が可能になります。複数のベンチマークにおいて、DreamPartGenは形状の忠実度とテキスト-形状の整合性において最先端の性能を発揮します。
工業検査における論理的異常検出は、視覚的外観の変動(例:背景の雑多さ、照明変化、ぼけ)により依然として課題が残っており、これらが視覚中心の検出器において規則レベルの違反の識別を妨げることが多い。しかし、既存のベンチマークでは、論理状態を固定したままこうした妨害要因を変化させた制御環境がほとんど提供されていない。この問題を解決するため、我々は視覚誘発妨害下での論理的異常検出データセット「VID-AD」を提案する。本データセットは10の製造シナリオと5つの撮影条件から構成され、合計50のワンクラスタスクと10,395枚の画像を含む。各シナリオは、数量、長さ、種類、配置、関係から選択された2つの論理的制約によって定義され、異常には単一制約違反と複合違反の両方が含まれる。さらに、正常画像から生成されたテキスト記述のみに依存する言語ベースの異常検出フレームワークを提案する。正例テキストとこれらの記述から合成された矛盾ベースの負例テキストを用いた対比学習により、低次元特徴ではなく論理的属性を捉える埋め込みを学習する。大規模な実験により、評価対象の全設定においてベースライン手法を一貫して上回る性能を示した。データセットは以下で公開されている:https://github.com/nkthiroto/VID-AD
ペルシャ語は、古典詩、伝統音楽、広範なコードスイッチングを通じて、独自の音声理解課題を提起しており、既存のベンチマークではこれらを捕捉できていない。本論文では、ペルシャ語とその文化に特化した大規模音声言語モデル評価のための初のベンチマーク「PARSA-Bench(Persian Audio Reasoning and Speech Assessment Benchmark)」を提案する。本ベンチマークは、音声理解、パラ言語情報分析、文化的音声理解の3分野にわたる16タスク、8,000以上のサンプルで構成される。新規導入した10タスクには、詩の韻律・形式検出、伝統的ペルシャ音楽の理解、コードスイッチング検出が含まれる。テキストのみのベースラインは一貫して音声モデルを上回り、モデルが文字起こし以上の音声特有の情報を活用できていない可能性を示唆する。文化的基盤に立つタスクでは質的に異なる失敗モードが明らかになった:特に韻律(vazn)検出では、モデル規模に関わらず全てのモデルがほぼランダムな精度に留まり、現在のモデルが韻律知覚を獲得できていないことが示された。データセットは https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench で公開されている。