翻訳付きの日次キュレーションされたAI研究論文
我々は、孤立した方策オン最適化の非効率性を解決する新しい学習パラダイムであるHeterogeneous Agent Collaborative Reinforcement Learning(HACRL)を提案する。HACRLは「協調的最適化と独立実行」を実現する:異種エージェントが訓練時に検証済みロールアウトを共有して相互改善しつつ、推論時には独立して動作する。LLMベースのマルチエージェント強化学習(MARL)とは異なり、HACRLは協調的なデプロイを必要とせず、方策オン/オフ蒸留とも異なり、一方向的な教師から生徒への転移ではなく、異種エージェント間の双方向的な相互学習を可能にする。このパラダイムに基づき、我々は原理に基づいたロールアウト共有によってサンプル利用効率とエージェント間知識転移を最大化する協調的RLアルゴリズムHACPOを提案する。能力差と方策分布シフトを緩和するため、HACPOは不偏なアドバンテージ推定と最適化の正確性について理論的保証を持つ4つの専用メカニズムを導入する。多様な異種モデル組み合わせと推論ベンチマークにおける大規模実験により、HACPOが参加全エージェントを一貫して改善し、ロールアウトコストを半分のみ使用しながらGSPOを平均3.3%上回ることを実証した。
本論文では、Heliosを紹介する。これは14Bパラメータのビデオ生成モデルとして初めて、単一のNVIDIA H100 GPU上で19.5 FPSを達成し、強力なベースラインと同等の品質を維持しながら分単位の生成を可能にする。我々は以下の3つの重要次元で画期的な進展を遂げた:(1)自己強制、エラーバンク、キーフレームサンプリングなどの一般的なドリフト対策手法を用いずに長尺ビデオのドリフトに対する頑健性を実現;(2)KVキャッシュ、疎/線形注意機構、量子化などの標準的加速技術なしでリアルタイム生成を達成;(3)並列化やシャーディングフレームワークを用いない学習により、画像拡散モデル規模のバッチサイズを実現しつつ、80GBのGPUメモリ内に最大4つの14Bモデルを配置可能。具体的には、Heliosは14Bパラメータの自己回帰型拡散モデルであり、T2V(テキストからビデオ)、I2V(画像からビデオ)、V2V(ビデオからビデオ)タスクをネイティブにサポートする統合入力表現を採用する。長尺ビデオ生成におけるドリフト軽減のため、典型的な失敗モードを特徴付け、訓練中に明示的にドリフトを模擬する簡潔かつ効果的な訓練戦略を提案するとともに、反復運動を根源的に排除する。効率性に関しては、履歴情報とノイズコンテキストを大幅に圧縮し、サンプリングステップ数を削減することで、1.3Bビデオ生成モデルと同等あるいはそれ以下の計算コストを実現する。さらに、推論と訓練の両方を加速しメモリ消費を削減するインフラストラクチャレベルの最適化を導入する。大規模な実験により、Heliosが短尺・長尺双方のビデオ生成において従来手法を一貫して凌駕することを実証する。コード、ベースモデル、蒸留モデルを公開し、コミュニティのさらなる発展を支援する予定である。
人間が複雑な読解課題をどのように処理するか考えてみましょう。重要なポイントに印を付け、それらの関係を推論し、理解と応答を導くために情報を構造化します。同様に、大規模言語モデルもテキスト構造を活用することで、テキスト処理性能を向上させることができるでしょうか?この問いを探るため、本論文ではまず、思考構造(Structure of Thought: SoT)というプロンプト技術を提案します。これはモデルが中間的なテキスト構造を構築することを明示的に誘導し、8つのタスクと3つのモデルファミリーにわたって性能を一貫して向上させました。この知見を発展させ、モデルのテキストから構造への変換能力を評価・改善するための最初のベンチマークであるT2S-Benchを紹介します。T2S-Benchは、6つの科学分野と32の構造タイプにわたる1,800サンプルを含み、正確性、公平性、品質を保証するよう厳密に構築されています。45の主流モデルによる評価では、大幅な改善の余地が明らかになりました。マルチホップ推論タスクにおける平均精度はわずか52.1%であり、エンドツーエンド抽出においても最先端モデルでさえノード精度は58.1%に留まります。さらに、Qwen2.5-7B-Instructでは、SoTを適用するだけで8つの多様なテキスト処理タスクにおいて平均+5.7%の改善が得られ、T2S-Benchでのファインチューニングによりこの改善幅は+8.6%まで拡大しました。これらの結果は、明示的なテキスト構造化の価値と、SoTとT2S-Benchの相補的な貢献を浮き彫りにしています。データセットと評価コードは https://t2s-bench.github.io/T2S-Bench-Page/ で公開されています。
人間らしいAIコンパニオンには、能動的かつリアルタイムな対話体験が不可欠であるが、以下の3つの課題に直面している:(1)連続ストリーミング入力下での低遅延推論の実現、(2)応答タイミングの自律的判断、(3)リアルタイム制約を満たすための生成コンテンツの質と量の制御。本研究では、自動評価に適した二つのゲームシナリオ(実況解説とガイド)を通じてAIコンパニオンを具体化する。大規模データセット「Live Gaming Benchmark」を提案し、単独実況・共同実況・ユーザーガイドという3つの代表シナリオを構築。さらに、マルチモーダル言語モデルを能動的でリアルタイムな対話エージェントへと変換する汎用フレームワーク「Proact-VL」を開発し、人間のような環境知覚と相互作用を実現する。大規模実験により、Proact-VLが優れた応答遅延と品質を達成しつつ、強力な映像理解能力を維持することを実証。リアルタイム対話アプリケーションにおける実用性を立証した。
大規模言語モデル(LLM)が長時間タスクに使用される機会が増えるにつれ、効果的な長期記憶の維持が重要な課題となっている。現在の手法では、コストと精度の間でトレードオフが生じることが多い。単純な記憶方法では関連情報の検索に失敗しがちである一方、複雑な索引付け手法(メモリグラフなど)は計算負荷が高く、情報の損失を招く可能性がある。さらに、作業用LLMにすべての記憶処理を依存すると、計算コストが高く処理速度も遅くなる。これらの制限を解決するため、我々はMemSifterという新しいフレームワークを提案する。これは記憶検索プロセスを小規模なプロキシモデルにオフロードするものである。主要な作業用LLMへの負荷を増加させる代わりに、MemSifterはより小規模なモデルを使用してタスクを推論し、必要な情報を検索する。このアプローチは、索引付け段階での重い計算を必要とせず、推論時のオーバーヘッドも最小限に抑えられる。プロキシモデルを最適化するため、記憶に特化した強化学習(RL)トレーニングパラダイムを導入した。作業用LLMのタスク達成実績に基づくタスク成果指向の報酬を設計し、複数回の相互作用を通じて検索された記憶の実質的貢献度を測定するとともに、段階的に減少する貢献度によって検索順位を識別する。さらに、カリキュラム学習やモデルマージなどのトレーニング技法を採用して性能を向上させた。MemSifterを8つのLLM記憶ベンチマーク(深層研究タスクを含む)で評価した結果、検索精度と最終タスク達成度の両方において、既存の最先端手法の性能に匹敵あるいは凌駕することが示された。MemSifterは長期LLM記憶における効率的かつスケーラブルなソリューションを提供する。さらなる研究の発展に向け、モデル重み、コード、トレーニングデータをオープンソースとして公開している。
3D/4Dの教師データを用いずに、物理的に妥当な関節を持つ人物-物体インタラクション(HOI)を合成することは、依然として根本的な課題である。近年のゼロショットアプローチでは、ビデオ拡散モデルを活用して人物-物体インタラクションを合成するが、それらは剛体操作に限定されており、明示的な4D幾何学的推論を欠いている。このギャップを埋めるため、我々は関節HOI合成を、単眼ビデオ事前分布からの4D再構成問題として定式化する:拡散モデルによって生成されたビデオのみを入力として、3D教師データを一切使わずに完全な4D関節シーンを再構成する。この再構成ベースのアプローチは、生成された2Dビデオを逆レンダリング問題の教師信号として扱い、接触、関節構造、時間的一貫性を自然に満たす、幾何学的に一貫性があり物理的に妥当な4Dシーンを復元する。我々は、ビデオ事前分布からの4D再構成による関節的人物-物体インタラクション合成のための初のゼロショットフレームワークであるArtHOIを提案する。主な設計要素は以下の通りである:1)フローに基づく部分セグメンテーション:単眼ビデオにおける動的領域と静的領域を分離する幾何学的手がかりとしてオプティカルフローを活用、2)分離型再構成パイプライン:単眼曖昧性の下では人物の動きと物体の関節動作の共同最適化が不安定であるため、まず物体の関節状態を復元し、その後再構成された物体状態を条件として人物の動きを合成する。ArtHOIはビデオベースの生成と幾何学的に意識した再構成を橋渡しし、意味的に整合性が取れて物理的に接地されたインタラクションを生成する。多様な関節シーン(冷蔵庫の開閉、キャビネット、電子レンジなど)において、ArtHOIは接触精度、貫通の低減、関節の忠実度において従来手法を大幅に上回り、再構成を考慮した合成を通じてゼロショットインタラクション合成を剛体操作の枠を超えて拡張する。
我々は、コンパクトなオープンウェイトのマルチモーダル推論モデル「Phi-4-reasoning-vision-15B」を発表し、その開発に影響を与えた動機、設計選択、実験、および知見を共有します。我々の目標は、より小型で効率的なマルチモーダル推論モデルの構築に関する実践的な洞察を研究コミュニティに提供し、これらの知見の成果を、一般的な視覚・言語タスクに優れ、科学的・数学的推論およびユーザーインターフェースの理解に秀でたオープンウェイトモデルとして公開することです。我々の貢献は、慎重なアーキテクチャ選択と厳格なデータ選別により、より少ない訓練および推論時の計算量とトークン数で、小型のオープンウェイトマルチモーダルモデルが競争力のある性能を達成できることを実証した点にあります。最も大きな改善は、体系的なフィルタリング、誤り修正、および合成的なデータ拡張からもたらされ、データ品質が依然としてモデル性能の主要な要因であることを裏付けています。体系的なアブレーション研究により、高解像度で動的解像度のエンコーダが一貫した改善をもたらすことが示され、正確な知覚が高品質な推論の前提条件であることが確認されました。最後に、推論データと非推論データのハイブリッド混合と明示的なモードトークンの採用により、単一のモデルが、より単純なタスクには高速な直接回答を、複雑な問題には連鎖思考推論を提供できることが実証されました。
複雑な推論タスクにおけるテスト時間スケーリングの研究では、複数の解を独立にサンプリングして統合するといった手法により推論時の計算リソースを活用することが、タスク成果の大幅な改善につながることが示されている。しかし、重大なボトルネックは検証にある。サンプリングは、正しい解を候補群の中から確実に識別できる場合にのみ有効なのである。既存のアプローチでは通常、候補をスカラー評価により独立して評価するが、我々はモデルがペアワイズな自己検証においてはるかに強力な能力を発揮することを実証する。この知見を活かし、効率的なペアワイズ順位付けを通じて生成と検証を統合するフレームワークV_1を提案する。V_1は2つの構成要素からなる:1つはV_1-Inferであり、トーナメント形式の順位付けを用いた不確実性誘導型アルゴリズムで、正しさの相対的判断が最も不確かな候補ペアに対して自己検証の計算リソースを動的に割り当てる。もう1つはV_1-PairRLであり、単一のモデルを生成器かつペアワイズ自己検証器として共同訓練する強化学習フレームワークで、検証器が生成器の進化する分布に適応することを保証する。コード生成(LiveCodeBench, CodeContests, SWE-Bench)および数学的推論(AIME, HMMT)のベンチマークにおいて、V_1-Inferはポイントワイズ検証と比較してPass@1を最大10%改善し、最近のテスト時間スケーリング手法を上回る性能を示すとともに、はるかに効率的であった。さらに、V_1-PairRLは、標準的な強化学習およびポイントワイズ共同訓練と比較して7~9%のテスト時間スケーリング効果を達成し、コード生成設定において標準的な強化学習と比べてベースラインのPass@1を最大8.7%改善した。
視点入力から高品質な360°パノラマ動画を生成することは、仮想現実(VR)における重要な応用の一つであり、没入感のある体験には高解像度の動画が特に重要である。既存手法は従来の拡散モデルの計算限界に制約され、ネイティブ生成では1K解像度以下しかサポートできず、解像度向上には最適とは言えない後段の超解像処理に依存している。本論文では、ネイティブで4K解像度の360°動画を生成する新しい時空間自己回帰拡散モデル「CubeComposer」を提案する。動画を6面からなる立方体マップ表現に分解することで、CubeComposerは計画的な時空間順序でコンテンツを自己回帰的に合成し、メモリ要求を削減しながら高解像度出力を実現する。特に多次元自己回帰における課題に対処するため、(1)立方体面と時間ウィンドウを跨ぐ一貫性のある合成のための時空間自己回帰戦略、(2)効率性を改善する疎なコンテキスト注意機構を備えた立方体面コンテキスト管理メカニズム、(3)境界の継ぎ目を排除する立方体対応位置符号化・パディング・ブレンディングを含む連続性認識技術を提案する。ベンチマークデータセットにおける大規模実験により、CubeComposerがネイティブ解像度と視覚品質において既存の最先端手法を凌駕し、実用的なVR応用シナリオをサポートすることを実証する。プロジェクトページ: https://lg-li.github.io/project/cubecomposer
大規模言語モデル(LLM)エージェントは、長期的なタスクにおいて有限のコンテキストウィンドウによって根本的にボトルネックが生じている。行動履歴が長くなるにつれ、ツールの出力や中間推論をコンテキスト内に保持することは急速に非現実的になる:作業コンテキストが過度に長くなり、最終的にはコンテキストの予算を超過し、たとえ遠い過去の証拠が残っていてもそれを利用することが困難になる。既存の解決策は通常、切り捨てや要約の実行によってコンテキストを短縮するが、これらの方法は過去の証拠そのものを圧縮または破棄するため、根本的に非可逆的である。我々は、証拠を破棄せずにコンテキストを圧縮する、索引付き経験記憶メカニズム「Memex」を提案する。Memexは、簡潔な構造化要約と安定した索引からなるコンパクトな作業コンテキストを維持しつつ、完全な精度の基盤となる相互作用を、それらの索引の下に外部の経験データベースに保存する。エージェントは、いつ索引を参照解除して現在のサブゴールに必要な正確な過去の証拠を復元するかを決定できる。我々は、書き込みと読み取りの両方の動作を、コンテキスト予算下での索引付きメモリ使用に合わせて調整された報酬形成を用いた強化学習フレームワーク「MemexRL」で最適化し、エージェントが何を要約し、何をアーカイブし、どのように索引付けし、いつ検索するかを学習するようにする。これにより、要約のみのアプローチよりもはるかに非可逆性の低い、長期的な記憶の形式が実現する。さらに、履歴が増大しても実効的なコンテキスト内計算量を抑えつつ、限定された参照解除で意思決定の質を維持するMemexループの可能性を示す理論分析を提供する。実験では、挑戦的な長期的タスクにおいて、MemexRLで訓練されたMemexエージェントは、作業コンテキストを大幅に小さく使用しながらタスクの成功率を向上させた。
オープンワールド設定、すなわち事前定義されたラベルセットなしで、細粒度の視覚概念を分類するには、モデルが正確かつ具体的であることが求められる。近年の推論機能を持つ大規模マルチモーダルモデル(LMM)は強力な視覚理解能力を示すが、細粒度画像分類を実行する際に過度に汎用的な予測を生成する傾向がある。我々の予備分析により、モデルは本来、細粒度の領域知識を有していることが明らかとなった。しかし、正しい予測(正確性)を損なうことなく、より具体的な予測(具体性)を促進することは、依然として重要な課題であり、十分に研究されていない。本研究では、推論LMMを正しくかつ具体的な予測に向けて誘導する方法を探る。我々は、オープンワールド設定下での細粒度画像分類に対して推論LMMをファインチューニングするため、具体性を考慮した新しい強化学習フレームワーク、SpeciaRLを提案する。SpeciaRLは、オンラインロールアウト内での最良の予測に基づく、検証器を利用した動的な報酬信号を導入し、誤った予測を防ぐためにモデルの能力を尊重しながら具体性を促進する。ドメイン外実験の結果、SpeciaRLは広範な細粒度ベンチマークにおいて、正確性と具体性のバランスで既存手法を凌駕し、オープンワールド細粒度画像分類を前進させることを示した。コードとモデルはhttps://github.com/s-angheben/SpeciaRLで公開されている。
大規模視覚言語モデル(LVLM)は、大量の視覚トークン系列によって生じる多大な計算コストを軽減するために、視覚トークン剪定戦略を採用している。従来の研究は主に注意機構ベースまたは多様性ベースの剪定手法に焦点を当ててきたが、これらの手法の特性と限界に関する詳細な分析はほとんど行われていない。本研究では、特徴の多様性を測る有効ランク(erank)と注意スコアのエントロピーを用いて、視覚トークン処理メカニズムを実証的に分析し、各手法の長所と短所を明らかにする。分析から得られた知見は二つある:(1)erankに基づく定量的分析により、多様性を重視する剪定手法の多くが意図したよりもはるかに少ない特徴多様性しか保持していないことが明らかになった。さらに、CHAIRデータセットを用いた分析から、それらが保持する多様性は、注意ベースの剪定と比較して、幻覚(hallucination)の発生頻度の高さと密接に関連していることが示された。(2)注意ベースの手法は視覚的証拠が集中する単純な画像でより効果的であるのに対し、多様性ベースの手法は特徴が分散した複雑な画像により適していることが観察された。これらの実証的知見に基づき、既存のハイブリッド剪定戦略に画像認識に基づく調整を組み込むことで、性能が一貫して向上することを示す。また、本知見を具現化した最小限の適応型剪定メカニズムを提案し、標準ベンチマークおよび幻覚特化評価の両方において、強固かつ信頼性の高い性能を達成する。プロジェクトページはhttps://cvsp-lab.github.io/AgilePrunerで公開されている。
長編ストーリーテリング動画を、一貫した視覚的ナラティブで生成することは、映像合成における重要な課題である。本論文は、背景の一貫性、複数被写体間のシームレスなショット遷移、長時間ナラティブへの拡張性という3つの核心的制約に対処する新規フレームワーク、データセット、およびモデルを提案する。我々の手法は、背景一貫性生成パイプラインを導入し、キャラクターの同一性と空間的関係を保持しながら、シーン間の視覚的整合性を維持する。さらに、単一被写体に限定された従来研究の限界を超え、複数の被写体がフレーム内に出入りする複雑なシナリオに対応する、遷移を考慮した滑らかなショット遷移生成モジュールを提案する。これを支援するため、従来十分に扱われてこなかった動的なシーン構成をカバーする、10,000の複数被写体遷移シーケンスから成る合成データセットを構築した。VBenchにおける評価では、InfinityStoryはBackground Consistency (88.94)、Subject Consistency (82.11) において最高スコアを達成し、全体平均ランク (2.80) でも最高位となり、安定性の向上、より滑らかな遷移、優れた時間的整合性を示した。
マルチモーダル大規模言語モデルの急速な進歩は印象的な能力を示しているが、そのほとんどがオフラインのパラダイムで動作しており、リアルタイム相互運用性を妨げている。この課題に対処するため、我々はオンライン映像理解を評価するために設計されたReal-tIme Video intERaction Bench(RIVER Bench)を提案する。RIVER Benchは、回顧的記憶、現実知覚、能動的予測のタスクから構成される新規フレームワークを導入し、映像全体への一括応答ではなく、対話型コミュニケーションを精密に模倣する。多様なソースと長さの映像を用いて詳細なアノテーションを行い、リアルタイム対話形式を精確に定義した。様々なモデルカテゴリにおける評価により、オフラインモデルは単一の質問応答タスクでは良好な性能を示すものの、リアルタイム処理には課題を抱えることが明らかとなった。既存モデルのオンライン映像対話における限界、特に長期記憶と未来知覚の欠如に対処するため、モデルがより柔軟にリアルタイムでユーザーと対話できる汎用的な改善手法を提案した。本研究成果が、リアルタイム対話型映像理解モデルの発展を大きく推進し、この新興分野における将来研究に刺激を与えると確信している。データセットとコードはhttps://github.com/OpenGVLab/RIVER で公開されている。
大規模言語モデル(LLM)を活用したエージェントは、SWE-benchなどのベンチマークが示すように、静的バグ修正といったソフトウェア工学タスクの自動化において強力な能力を発揮している。しかし、現実世界では、成熟したソフトウェアの開発は通常、複雑な要求変更と長期的な機能イテレーションに基づいて進められる。これは、静的で単発的な修正パラダイムでは捉えきれないプロセスである。この隔たりを埋めるため、我々は継続的インテグレーション(CI)ループに基づく初のリポジトリレベルベンチマークであるSWE-CIを提案する。本ベンチマークは、コード生成の評価パラダイムを、静的・短期的な機能的正しさから、動的・長期的な保守性へと転換することを目的としている。このベンチマークは100のタスクで構成され、各タスクは平均233日間・71連続コミットにわたる実世界のコードリポジトリの進化履歴に対応する。SWE-CIでは、エージェントが数十回に及ぶ分析とコーディングのイテレーションを通じて、これらのタスクを体系的に解決することが求められる。SWE-CIは、エージェントが長期的な進化を通じてコード品質をどの程度維持できるかについて、貴重な知見を提供する。
具体化対話エージェント(ECA)は、音声、ジェスチャー、表情を通じて人間の対面相互作用を模倣することを目的としている。現在の大規模言語モデル(LLM)ベースの対話エージェントは、具体性と自然な相互作用に不可欠な表現豊かなジェスチャーを欠いている。既存のECAソリューションは、しばしば硬直的で多様性に乏しい動作を生成し、人間らしい相互作用には不向きである。一方、共話ジェスチャー合成のための生成的手法は自然な身体動作を生み出すが、未来の音声コンテキストに依存し、長い実行時間を要する。この課題を解決するため、本論文では実時間音声対話と同期した表現豊かな全身ジェスチャーと表情を生成する、初のオンライン因果的フレームワーク「MIBURI」を提案する。我々は、階層的な動作詳細を多段階の離散トークンに符号化する身体部位認識ジェスチャーコーデックを採用する。これらのトークンは、LLMベースの音声テキスト埋め込みを条件として、時間的ダイナミクスと部位レベルの動作階層を実時間でモデル化する二次元因果的フレームワークにより自己回帰的に生成される。さらに、表現力豊かで多様なジェスチャーを促進し、静止姿勢への収束を防ぐための補助目的関数を導入する。比較評価により、我々の因果的かつ実時間のアプローチが、最近のベースラインと比較して自然で文脈に合致したジェスチャーを生成することを実証する。デモ動画をhttps://vcai.mpi-inf.mpg.de/projects/MIBURI/ でご覧いただきたい。
大規模言語モデルの安全性評価およびレッドチーミングは、現在も主にテキスト中心で行われており、既存のフレームワークには、モデルの整合性が音声、画像、動画入力にまで一般化するかを体系的にテストするための基盤が欠けている。本論文では、MUSE(Multimodal Unified Safety Evaluation)を提案する。これは、自動的なクロスモーダルペイロード生成、3種類のマルチターン攻撃アルゴリズム(Crescendo, PAIR, Violent Durian)、プロバイダーに依存しないモデルルーティング、5段階の安全性分類体系を備えたLLM判定器を、単一のブラウザベースシステムに統合したオープンソースの実行中心プラットフォームである。二重指標フレームワークにより、厳格な攻撃成功率(Complianceのみ)と緩やかなASR(Partial Complianceを含む)を区別し、二値指標では見逃されがちな部分的情報漏洩を捕捉する。さらに、整合性がモダリティ境界を越えて一般化するかを検証するため、ターンごとにモダリティを切り替えるInter-Turn Modality Switching(ITMS)を導入し、マルチターン攻撃を拡張する。4つのプロバイダーにわたる6つのマルチモーダルLLMを用いた実験により、単一ターンではほぼ完全な拒否応答を示すモデルに対しても、マルチターン戦略を用いることで最大90-100%のASRを達成できることが示された。ITMSは、既に飽和状態にあるベースラインの最終ASRを一様に向上させるわけではないが、初期ターンの防御を不安定化させることで収束を加速させた。また、 ablation studyにより、モダリティ効果の方向性は普遍的ではなくモデルファミリーに特異的であることが明らかとなり、プロバイダーを意識したクロスモーダル安全性テストの必要性が強調される。
3Dシーンを探索しながら即座に理解することは、エージェントがオンラインかつほぼリアルタイムで3Dシーンを構築・理解しなければならないエンバディッドタスクにおいて不可欠である。本研究では、ストリーミング画像から同時にオンライン3D再構成と3Dセマンティック理解を可能にする、オープン語彙シーン理解のためのオンライン・フィードフォワード3DGS「EmbodiedSplat」を提案する。既存のオープン語彙3DGS手法がオフラインまたはシーン毎最適化設定に制限されるのに対し、我々の目的は二つある:1) 300枚以上のストリーミング画像から、セマンティクスが埋め込まれた3DGSによるシーン全体をオンライン方式で再構成する。2) フィードフォワード設計により新規シーンへの高い一般化性を持ち、リアルタイム2Dモデルと組み合わせることでほぼリアルタイムの3Dセマンティック再構成をサポートする。これらの目的を達成するため、我々はCLIPグローバルコードブックを備えたオンライン疎係数フィールドを提案する。これは2D CLIP埋め込みを各3Dガウシアンに紐付けつつ、メモリ消費を最小化し、CLIPの完全なセマンティック一般化性を保持する。さらに、3DGSの部分点群を3D U-Netで集約することで3D幾何学的に認識されたCLIP特徴を生成し、2D指向の言語埋め込みに対して3D幾何学的事前情報を補償する。ScanNet、ScanNet++、Replicaを含む多様な室内データセットでの大規模実験により、本手法の有効性と効率性の両方が実証された。プロジェクトページはhttps://0nandon.github.io/EmbodiedSplat/ を参照。
硬く検証可能な報酬を用いた強化学習は、コンパクト言語モデルに物理推論を教えることができるのか、それとも正答へのパターンマッチングを主に学習するのか?この問題を、古典的な工学問題である梁の静力学を用いて検証する。我々は、教師データとなる推論過程を一切用いず、記号ソルバーからの二値の正解報酬のみを用いたパラメータ効率的なRLVRにより、1.5Bパラメータの推論モデルを訓練した。最良のBeamPERLチェックポイントは、ベースモデルに対してPass@1で66.7%の改善を達成した。しかし、獲得された能力は異方性を示した:モデルは合成的な一般化(荷重の増加)は可能であったが、同じ釣り合い方程式を必要とするトポロジーの変化(支承の移動)には対応できなかった。中間チェックポイントが最も強固な推論能力を示し、最適化を継続すると報酬は維持されるものの頑健性は低下した。これらの発見は、結果レベルでのアライメントの重要な限界を明らかにする:厳密な物理報酬を用いた強化学習は、支配方程式の内在化ではなく、手続き的な解答テンプレートを誘導する。報酬信号の精度が解析的に厳密であっても、それだけでは転移可能な物理推論は保証されない。我々の結果は、検証可能な報酬を、テンプレートマッチングを超えた頑健な科学的推論に向けて推進するには、構造化された推論の足場と組み合わせる必要があることを示唆する。
Detection Transformer(DETR)とその変種は、自律システムにおける重要課題である物体検出において強力な性能を示す。しかし、これらのモデルには重大な限界がある。その信頼度スコアは意味的な不確実性のみを反映し、同様に重要な空間的不確実性を捉えることができないため、検出信頼性の評価が不完全となる。一方、Deep Ensemblesは高品質な空間的不確実性の推定を提供できるが、膨大なメモリ消費量のため実世界の応用には非現実的である。より低コストな代替法であるモンテカルロ(MC)Dropoutは、推論時に不確実性推定のために複数の順伝播を必要とするため、高レイテンシが課題である。 これらの限界に対処するため、我々はDETR系モデル向けの効率的かつ効果的な不確実性推定手法であるGroupEnsembleを提案する。GroupEnsembleは、推論時にトランスフォーマーのデコーダに多様なオブジェクトクエリの追加グループを入力することで、複数の個別検出セットを同時に予測する。各クエリグループは共有デコーダによって独立して変換され、同一入力に対する完全な検出セットを予測する。デコーダにはアテンションマスクを適用し、グループ間のクエリ相互作用を防止することで、各グループが独立して検出を行い、信頼性の高いアンサンブルベースの不確実性推定を実現する。デコーダの内在的な並列性を活用することで、GroupEnsembleは順次繰り返しを必要とせず、単一の順伝播で効率的に不確実性を推定する。 自動運転シーンおよび一般的な日常シーンに対して、それぞれCityscapesデータセットとCOCOデータセットを用いて本手法を検証した。その結果、MC-DropoutとGroupEnsembleを組み合わせたハイブリッド手法が、Deep Ensemblesをコストのごく一部で上回り、複数の指標で優れた性能を示した。コードはhttps://github.com/yutongy98/GroupEnsemble で公開されている。
近年、オープンボキャブラリー物体検知への関心が高まっているものの、既存手法の多くは手作業で厳選された細粒度の訓練データセットと、リソース集約的な層単位のクロスモーダル特徴抽出に大きく依存している。本論文では、これらの要素への依存を排除した、簡潔かつ効率的なオープンボキャブラリー物体検出器HDINOを提案する。具体的には、TransformerベースのDINOモデルを基盤とした2段階の訓練戦略を提案する。第1段階では、ノイジーなサンプルを追加の正例オブジェクトインスタンスとして扱い、視覚モダリティとテキストモダリティ間のOne-to-Manyセマンティックアライメントメカニズム(O2M)を構築することで、意味的アライメントを促進する。さらに、初期の検出難易度に基づいて難易度重み付き分類損失(DWCL)を設計し、ハードサンプルのマイニングとモデル性能のさらなる向上を図る。第2段階では、アライメントされた表現に軽量な特徴融合モジュールを適用し、言語的セマンティクスへの感度を高める。Swin Transformer-T設定において、HDINO-Tは、2つの公開検出データセットから得た220万枚の訓練画像を用いてCOCOで49.2 mAPを達成した。これは、手動でのデータ選別やグラウンディングデータを一切使用せず、540万枚および650万枚の画像で訓練されたGrounding DINO-TおよびT-Rex2を、それぞれ0.8 mAP、2.8 mAP上回る結果である。COCOでのファインチューニング後、HDINO-TとHDINO-Lはそれぞれ56.4 mAPと59.2 mAPを達成し、本手法の有効性と拡張性が示された。コードとモデルはhttps://github.com/HaoZ416/HDINO で公開している。