翻訳付きの日次キュレーションされたAI研究論文
我々は、1つの訓練例を用いた検証可能な報酬による強化学習(1-shot RLVR)が、大規模言語モデル(LLMs)の数学的推論能力を向上させるのに有効であることを示す。RLVRをベースモデルであるQwen2.5-Math-1.5Bに適用し、MATH500におけるモデルの性能を36.0%から73.6%に向上させ、6つの一般的な数学的推論ベンチマークにおける平均性能を17.6%から35.7%に改善する単一の例を特定した。この結果は、前述の例を含む1.2kのDeepScaleRサブセット(MATH500: 73.6%, 平均: 35.9%)を用いて得られた性能と一致する。同様の大幅な改善は、様々なモデル(Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B)、RLアルゴリズム(GRPOおよびPPO)、および異なる数学的例(多くの場合、単一の訓練例として使用された際にMATH500で約30%以上の改善をもたらす)においても観察された。さらに、1-shot RLVRの過程で、ドメイン間の汎化、自己反省の頻度の増加、訓練精度が飽和した後も持続するテスト性能の向上(我々が「飽和後汎化」と呼ぶ現象)といった興味深い現象を特定した。また、1-shot RLVRの有効性が主にポリシー勾配損失に起因することを確認し、「グロッキング」現象とは区別されることを示した。さらに、1-shot RLVRの訓練において、探索を促進すること(例えば、適切な係数でエントロピー損失を追加するなど)の重要性を示した。副次的な発見として、結果報酬なしでエントロピー損失のみを適用することで、Qwen2.5-Math-1.5BのMATH500における性能が27.4%向上することを観察した。これらの知見は、RLVRのデータ効率に関する将来の研究を刺激し、RLVRの最近の進展とその基盤となるメカニズムの再検討を促すものである。我々のコード、モデル、データはhttps://github.com/ypwang61/One-Shot-RLVRでオープンソースとして公開されている。
進歩の測定は、あらゆる科学分野の発展において基本的な要素である。ベンチマークが中心的な役割を果たすにつれ、それらは歪みを受けやすくなっている。Chatbot Arenaは、最も優れたAIシステムをランク付けするための主要なリーダーボードとして登場した。しかし、本研究では、歪んだ競技場を生み出す系統的な問題を特定した。非公開のプライベートテスト慣行が、公開前に複数のバリアントをテストし、必要に応じてスコアを取り下げることができる一部のプロバイダーに有利に働いていることがわかった。これらのプロバイダーが最良のスコアを選択できる能力が、パフォーマンス結果の選択的な開示により、Arenaのスコアに偏りをもたらしていることを明らかにした。極端な例として、MetaがLlama-4のリリース前にテストした27のプライベートLLMバリアントを特定した。また、プロプライエタリなクローズドモデルは、オープンウェイトやオープンソースの代替モデルよりも高い頻度(バトル数)でサンプリングされ、Arenaから削除されるモデルが少ないことも明らかにした。これらのポリシーは、時間の経過とともに大きなデータアクセスの非対称性を生み出す。GoogleやOpenAIのようなプロバイダーは、それぞれArenaの全データの推定19.2%と20.4%を受け取っている。対照的に、83のオープンウェイトモデルを合わせても、総データの推定29.7%しか受け取っていない。Chatbot Arenaのデータへのアクセスは大きな利益をもたらすことを示す。限られた追加データでも、Arenaの分布において最大112%の相対的なパフォーマンス向上をもたらす可能性があることを、保守的な推定に基づいて示した。これらのダイナミクスが相まって、一般的なモデル品質ではなく、Arena固有のダイナミクスへの過剰適合が生じている。Arenaは、この貴重な評価プラットフォームを維持するオーガナイザーとオープンコミュニティの多大な努力に基づいて構築されている。我々は、Chatbot Arenaの評価フレームワークを改革し、分野におけるより公平で透明性の高いベンチマークを促進するための実行可能な提言を提供する。
Retrieval-Augmented Generation (RAG) は、クエリに関連する外部知識を基にモデルの応答を根拠付けることで、事実の正確性を大幅に向上させる可能性を示しています。しかし、既存のRAGアプローチのほとんどはテキストのみのコーパスに限定されており、最近の研究では画像や動画などの他のモダリティにRAGを拡張する試みがなされていますが、これらは通常、単一のモダリティ固有のコーパス上で動作します。一方、現実世界のクエリは必要とする知識の種類が多岐にわたるため、単一の知識源では対応できません。これを解決するため、我々はUniversalRAGを提案します。これは、異なるモダリティや粒度を持つ多様なソースから知識を検索し統合する新しいRAGフレームワークです。具体的には、すべてのモダリティを単一の結合コーパスから導出された統一表現空間に強制的に押し込むと、モダリティギャップが生じ、検索がクエリと同じモダリティのアイテムを優先しがちになるという観察に基づき、モダリティを意識したルーティング機構を提案します。この機構は、最も適切なモダリティ固有のコーパスを動的に特定し、その中でターゲットを絞った検索を行います。また、モダリティに加えて、各モダリティを複数の粒度レベルに組織化し、クエリの複雑さや範囲に応じたきめ細かい検索を可能にします。我々はUniversalRAGを複数のモダリティにまたがる8つのベンチマークで検証し、モダリティ固有および統一されたベースラインを上回る優位性を示しました。
私たちは、一般的な推論タスクに特化して訓練された最初の検索モデルであるReasonIR-8Bを紹介します。既存の検索モデルは、推論タスクにおいて限定的な成果しか示していませんでした。これは、既存の訓練データセットが、短い事実ベースのクエリとそれに直接答える文書に焦点を当てているためです。私たちは、各文書に対して、挑戦的で関連性の高いクエリと、一見関連がありそうだが最終的には役に立たないハードネガティブを生成する合成データ生成パイプラインを開発しました。合成データと既存の公開データを組み合わせて訓練することで、ReasonIR-8Bは、広く使用されている推論集約型情報検索(IR)ベンチマークであるBRIGHTにおいて、リランカーなしで29.9 nDCG@10、リランカーありで36.9 nDCG@10という新たな最先端の性能を達成しました。RAGタスクに適用すると、ReasonIR-8Bは、閉じた本のベースラインと比較して、MMLUとGPQAの性能をそれぞれ6.4%と22.6%向上させ、他の検索モデルや検索エンジンを上回りました。さらに、ReasonIR-8Bは、テスト時の計算をより効果的に利用します。BRIGHTにおいて、その性能は、より長く情報量の多い書き換えクエリに対して一貫して向上し、LLMリランカーと組み合わせた場合でも他の検索モデルを上回り続けます。私たちの訓練レシピは汎用的であり、将来のLLMに容易に拡張できます。この目的のために、私たちはコード、データ、およびモデルをオープンソースとして公開します。
大規模言語モデル(LLM)に対する報酬ベースのアライメント手法は、2つの主要な課題に直面しています。1つは、モデルが報酬信号の欠陥を悪用する「報酬ハッキング」への脆弱性、もう1つは、LLMを報酬モデルとして使用する際に、脆弱で労力を要するプロンプトエンジニアリングへの依存です。本論文では、これらの課題に対処するため、メタ報酬モデルを統合し、トレーニング中に報酬モデルのプロンプトを動的に洗練させる「メタポリシー最適化(MPO)」というフレームワークを提案します。MPOでは、メタ報酬モデルがトレーニングの文脈の変化を監視し、ポリシーによる悪用に耐える適応的な報酬信号を維持するために、報酬モデルのプロンプトを継続的に調整します。このメタ学習アプローチにより、より安定したポリシー最適化が促進され、手動での報酬プロンプト設計の必要性が大幅に削減されます。その結果、MPOは、手間をかけて手作りされた報酬プロンプトに導かれたモデルと同等またはそれ以上の性能を発揮します。さらに、MPOは、質問応答や数学的推論などの多様なタスクにおいて、特別な報酬設計を必要とせずにその有効性を維持することを示します。標準的なRLAIFを超えて、MPOのメタ学習定式化は、より高次のアライメントフレームワークに容易に拡張可能です。全体として、この手法は、LLMに対する報酬ベースのRLアライメントにおける理論的および実践的な課題に対処し、より堅牢で適応性の高いアライメント戦略への道を開きます。コードとモデルは公開される予定です。
本論文では、4次元の具現化された世界モデルを学習する効果的なアプローチを提案する。このモデルは、具現化されたエージェントの行動に応答して3Dシーンの時間的進化を予測し、空間的および時間的な一貫性を提供する。我々は、RGB-DN(RGB、深度、法線)ビデオを用いて4次元世界モデルを学習することを提案する。これにより、従来の2次元モデルを超えて、詳細な形状、構成、時間的変化を予測に取り入れるだけでなく、具現化されたエージェントの正確な逆動力学モデルを効果的に学習することが可能となる。具体的には、まず既存のロボット操作ビデオデータセットに、市販のモデルを活用して深度と法線情報を拡張する。次に、この注釈付きデータセットでビデオ生成モデルをファインチューニングし、各フレームのRGB-DN(RGB、深度、法線)を共同で予測する。その後、生成されたRGB、深度、法線ビデオを高品質な4次元シーンに直接変換するアルゴリズムを提示する。本手法は、具現化されたシナリオからの4次元シーン予測において時間的および空間的整合性を保証し、具現化された環境のための新規視点合成を可能にし、従来のビデオベースの世界モデルから導出されたものよりも大幅に優れたポリシー学習を促進する。
指示に基づく画像編集は、自然言語プロンプトを通じて堅牢な画像修正を可能にするが、現在の手法は精度と効率性のトレードオフに直面している。ファインチューニング手法は、多大な計算リソースと大規模なデータセットを必要とする一方で、トレーニング不要の技術は指示の理解と編集品質に苦戦している。我々は、大規模なDiffusion Transformer (DiT)の強化された生成能力とネイティブな文脈認識を活用することで、このジレンマを解決する。本解決策は以下の3つの貢献を導入する:(1) 構造変更を避けつつ、文脈内プロンプトを使用したゼロショット指示準拠のための文脈内編集フレームワーク、(2) 大規模な再トレーニングを必要とせず、効率的な適応と動的エキスパートルーティングにより柔軟性を高めるLoRA-MoEハイブリッドチューニング戦略、(3) 視覚言語モデル(VLM)を使用した初期フィルタ推論時間スケーリング手法により、より良い初期ノイズを早期に選択し、編集品質を向上させる。広範な評価により、我々の手法の優位性が示されている:従来のベースラインと比較して、わずか0.5%のトレーニングデータと1%の学習可能パラメータで、最先端のアプローチを凌駕する。本研究成果は、高精度かつ効率的な指示ガイド付き編集を可能にする新たなパラダイムを確立する。コードとデモはhttps://river-zhang.github.io/ICEdit-gh-pages/で確認できる。
大規模言語モデル(LLM)が事前学習中に著作物にさらされることにより、展開後の意図しない著作権侵害の懸念が生じています。これにより、「著作権削除」手法の開発が進められており、これはモデルが著作物と実質的に類似したコンテンツを生成するのを防ぐことを目的とした学習後のアプローチです。現在の緩和策は平均的なリスクに対してはある程度有効ですが、最悪のケースにおける著作権リスク、特に著作物からの長い逐語的な引用の存在を見落としていることを示します。私たちはBloomScrubを提案します。これは非常にシンプルでありながら極めて効果的な推論時アプローチであり、認証された著作権削除を提供します。この手法では、引用検出と書き換え技術を繰り返し組み合わせることで、潜在的に侵害するセグメントを変換します。効率的なデータスケッチ(Bloomフィルタ)を活用することで、大規模な実世界のコーパスに対してもスケーラブルな著作権スクリーニングを可能にします。長さの閾値を超える引用が削除できない場合、システムは応答を控えることで、認証されたリスク低減を提供します。実験結果は、BloomScrubが侵害リスクを低減し、有用性を維持し、適応的な応答控除を通じて異なるレベルの執行厳格度に対応することを示しています。私たちの結果は、軽量な推論時手法が著作権予防において驚くほど効果的であることを示唆しています。
我々は、事前学習済み大規模言語モデル(LLM)の言語能力を維持しつつ、マルチモーダルタスクに対応するX-Fusionフレームワークを提案する。X-Fusionはモダリティ固有の重みを持つデュアルタワー設計を採用し、LLMのパラメータを凍結したまま、視覚情報を理解と生成の両方に統合する。実験の結果、X-Fusionは画像からテキスト、テキストから画像の両タスクにおいて、代替アーキテクチャを一貫して上回ることが示された。理解に焦点を当てたデータを組み込むことで生成品質が向上し、画像データのノイズを低減することで全体的な性能が向上すること、また特徴量のアライメントは小規模モデルの収束を加速するが、大規模モデルにはほとんど影響を与えないことが明らかになった。これらの知見は、効率的な統一マルチモーダルモデルの構築に貴重な洞察を提供する。
大規模マルチモーダルモデル(例:GPT-4、Gemini、Chameleon)は、数百万のユーザーを抱える強力なツールへと進化してきました。しかし、これらのモデルは汎用的なモデルであり、特定のユーザーの概念に対するパーソナライズされた知識を欠いています。これまでの研究では、テキスト生成のためのパーソナライゼーションが探求されてきましたが、これらの手法を画像生成などの新しいモダリティに適応させる方法はまだ明確ではありません。本論文では、大規模マルチモーダルモデルにおけるパーソナライゼーションを研究する初の試みとして、Yo'Chameleonを紹介します。特定の概念の3〜5枚の画像が与えられた場合、Yo'Chameleonはソフトプロンプトチューニングを活用して、対象に関する情報を埋め込み、(i) 対象に関する質問に答え、(ii) 新しい文脈で対象の画像を生成するためにピクセルレベルの詳細を再現します。Yo'Chameleonは、(i) 複数のモダリティ間でパフォーマンスをバランスさせるための自己プロンプト最適化メカニズムと、(ii) 少数ショット設定で画像品質を向上させるための「ソフトポジティブ」画像生成アプローチを用いてトレーニングされます。
大規模言語モデル(LLM)をインタラクティブエージェントとして訓練することは、長期的な意思決定や確率的な環境フィードバックとの相互作用など、独特の課題を提示します。強化学習(RL)は静的なタスクにおいて進展を可能にしてきましたが、マルチターンエージェントのRL訓練はまだ十分に探求されていません。本論文では、軌跡レベルでのエージェントRLのための汎用フレームワークであるStarPO(State-Thinking-Actions-Reward Policy Optimization)を提案し、LLMエージェントの訓練と評価のためのモジュールシステムであるRAGENを紹介します。3つの様式化された環境での研究から、3つの核心的な知見が得られました。第一に、エージェントRL訓練では、報酬分散の崖と勾配スパイクが繰り返し現れる「エコートラップ」というモードが見られました。これに対処するため、軌跡フィルタリング、批評家の組み込み、デカップリングクリッピングを備えた安定化バリアントであるStarPO-Sを開発しました。第二に、RLロールアウトの形成には、多様な初期状態、中程度のインタラクション粒度、より頻繁なサンプリングが有益であることがわかりました。第三に、細かい粒度で推論を意識した報酬信号がない場合、マルチターンRLを通じてエージェントの推論がほとんど現れず、浅い戦略や幻想的な思考を示す可能性があることが示されました。コードと環境はhttps://github.com/RAGEN-AI/RAGENで公開されています。
マルチモーダル没入型空間ドラマ生成は、マルチモーダルプロンプトに基づいて、劇的なプロソディを持つ連続的なマルチスピーカーのバイノーラル音声を生成することに焦点を当てており、ARやVRなどへの応用が期待されています。このタスクでは、マルチモーダル入力に基づいて空間情報と劇的なプロソディを同時にモデル化する必要があり、データ収集コストが高いという課題があります。私たちの知る限り、本研究はこれらの課題に取り組む最初の試みです。私たちは、バイノーラルドラマ音声、スクリプト、ビデオ、幾何学的ポーズ、テキストプロンプトを含む、初のマルチモーダル記録空間ドラマデータセットであるMRSDramaを構築しました。次に、マルチモーダルプロンプトを通じて没入型空間ドラマを生成する初のモデルであるISDramaを提案します。ISDramaは以下の主要コンポーネントで構成されています:1) マルチモーダルポーズエンコーダー。コントラスティブ学習に基づき、移動するスピーカーによるドップラー効果を考慮して、マルチモーダルプロンプトから統一されたポーズ情報を抽出します。2) 没入型ドラマトランスフォーマー。フローベースのマンバトランスフォーマーモデルで、高品質なドラマを生成し、Drama-MOEを組み込んで適切なエキスパートを選択し、プロソディとポーズ制御を強化します。また、コンテキスト一貫性のあるクラシファイアーフリーガイダンス戦略を設計し、一貫性のある完全なドラマを生成します。実験結果は、ISDramaが客観的および主観的指標においてベースラインモデルを上回ることを示しています。デモとデータセットはhttps://aaronz345.github.io/ISDramaDemoで公開されています。
検索拡張生成(RAG)システムは、複雑なクエリが複数の文書チャンクにわたる情報の統合を必要とするマルチホップ質問応答(MHQA)において、重要な課題に直面している。既存のアプローチは、通常、反復的なLLMベースのクエリ書き換えとルーティングに依存しており、LLMの繰り返し呼び出しと多段階プロセスによる高い計算コストが生じる。これらの制限に対処するため、我々はTreeHopを提案する。これは、クエリの精緻化にLLMを必要としない埋め込みレベルのフレームワークである。TreeHopは、以前のクエリと検索された文書からの意味情報を融合することで、クエリ埋め込みを動的に更新し、埋め込み空間操作のみを通じた反復的検索を可能にする。この方法は、従来の「検索-書き換え-ベクトル化-検索」サイクルを、効率化された「検索-埋め込み-検索」ループに置き換え、計算オーバーヘッドを大幅に削減する。さらに、ルールベースの停止基準を導入して冗長な検索をさらに削減し、効率と再現率のバランスを取る。実験結果は、TreeHopが3つのオープンドメインMHQAデータセットにおいて、先進的なRAG手法と同等の性能を達成し、モデルパラメータサイズの5%-0.4%のみで、同時期のアプローチと比較してクエリ遅延を約99%削減することを示している。これにより、TreeHopは、知識集約型アプリケーションの展開において、より高速でコスト効率の良いソリューションとなる。再現性のために、コードとデータは以下で利用可能である:https://github.com/allen-li1231/TreeHop。
現在の大規模言語モデル(LLM)のアラインメントにおける人間のフィードバックからの強化学習(RLHF)パイプラインでは、通常、シーケンスにスカラー報酬を割り当て、最終トークンをシーケンス全体の品質の代理指標として使用します。しかし、これではフィードバックが疎になり、トークンレベルのクレジット割り当てが最適化されません。本研究では、報酬形成をトークンレベルのクレジット割り当てに焦点を当てた最適化問題として定式化します。SHAPやLIMEなどの説明可能性手法を活用した報酬形成関数を提案し、報酬モデルからトークンごとの報酬を推定します。この形成関数のパラメータを学習するために、ベイズ最適化とポリシー訓練を統合した二段階最適化フレームワークを採用し、トークン報酬推定のノイズを処理します。実験結果から、トークンレベルの報酬割り当てのバランスを改善することで、下流タスクにおけるベースラインを上回る性能向上が達成され、訓練中に最適なポリシーをより迅速に見つけることが示されました。さらに、特徴加算的な属性関数である説明可能性手法が、元の報酬と同様に最適ポリシーを維持することを理論的に示します。
法律実務家、特にキャリア初期の者たちは、適応的で文脈に敏感な推論を必要とする複雑でハイステークスの課題に直面しています。AIは法律業務を支援する可能性を秘めていますが、現在のデータセットやモデルは孤立したサブタスクに焦点を当てており、実世界の実務で求められるエンドツーエンドの意思決定を捉えられていません。このギャップを埋めるため、私たちはLawFlowを導入しました。これは、訓練を受けた法学部生から収集した、実世界の事業体設立シナリオに基づく完全なエンドツーエンドの法律ワークフローのデータセットです。従来の入力-出力ペアや線形の思考連鎖に焦点を当てたデータセットとは異なり、LawFlowは、法律実務の曖昧さ、修正、クライアント適応戦略を反映した、動的でモジュール型かつ反復的な推論プロセスを捉えています。LawFlowを使用して、人間とLLM(大規模言語モデル)が生成したワークフローを比較し、構造、推論の柔軟性、計画実行における体系的な違いを明らかにしました。人間のワークフローはモジュール型で適応的である傾向があるのに対し、LLMのワークフローはより順次的で網羅的であり、下流の影響に対する感度が低いことがわかりました。また、法律専門家は、AIが複雑なワークフローをエンドツーエンドで実行するよりも、ブレインストーミング、盲点の特定、代替案の提示といった支援的な役割を担うことを好むことが示唆されました。これらの知見を基に、私たちは、ハイブリッドプランニング、適応的実行、意思決定ポイントの支援を通じて、AIの支援を人間の目標である明確さ、完全性、創造性、効率性に整合させるための一連の設計提案を、実証的観察に基づいて提案します。私たちの結果は、複雑な法律ワークフローを支援する上でのLLMの現在の限界と、より協調的で推論を意識した法律AIシステムを開発する機会の両方を強調しています。すべてのデータとコードはプロジェクトページ(https://minnesotanlp.github.io/LawFlow-website/)で公開されています。
最近のTalking Head Generation(THG)の進展により、拡散モデルを通じて印象的なリップシンクロナイゼーションと視覚的品質が達成されてきた。しかし、既存の手法は、話者のアイデンティティを保ちつつ感情豊かなポートレートを生成する点で課題を抱えている。現在の感情的なTalking Head Generationには、音声の持つ感情的な手がかりの不十分な活用、感情表現におけるアイデンティティの漏洩、感情間の相関関係の孤立した学習という3つの重要な限界がある。これらの課題に対処するため、我々はDICE-Talkと名付けた新しいフレームワークを提案する。このフレームワークは、アイデンティティと感情を分離し、類似した特性を持つ感情を協調させるという考えに基づいている。まず、クロスモーダルアテンションを通じて音声と視覚の感情的な手がかりを共同でモデル化し、感情をアイデンティティに依存しないガウス分布として表現する分離型感情エンベッダーを開発した。次に、ベクトル量子化とアテンションベースの特徴集約を通じて感情間の関係を明示的に捉える学習可能なEmotion Banksを備えた相関強化型感情条件付けモジュールを導入した。さらに、潜在空間分類を通じて拡散プロセス中の感情的一貫性を強化する感情識別目的関数を設計した。MEADおよびHDTFデータセットでの大規模な実験により、我々の手法が感情精度において最先端のアプローチを上回り、競争力のあるリップシンク性能を維持する優位性が示された。定性的な結果とユーザスタディは、未見のアイデンティティに自然に適応する、アイデンティティを保持した豊かで相関のある感情表現を生成する我々の手法の能力をさらに裏付けた。
Chain-of-Thoughtプロンプティングは、大規模言語モデルの推論能力を促進する上で大きな成功を収めてきました。本研究では、これらの強化された推論能力を活用して、必ずしも推論に焦点を当てていないタスクにおいて大規模言語モデルの頑健性を向上させる方法を探ります。特に、構造化された防御的推論を含む少数の例示を提供するだけで、chain-of-defensive-thoughtと呼ばれるシンプルな方法を用いて、幅広い大規模言語モデルが参照データの破損に対して大幅に改善された頑健性を示すことを実証します。経験的に、この方法の簡潔さと適用性を考えると、その改善は驚くべきものです。例えば、Natural Questionsタスクにおいて、標準的なプロンプティングでは、提供された10個の参照のうち1つがプロンプトインジェクション攻撃によって破損すると、GPT-4oの精度は60%からわずか3%まで低下します。一方、chain-of-defensive-thoughtプロンプティングを使用したGPT-4oは、50%の精度を維持します。
自動運転における特権的プランニングのための強化学習(RL)を調査する。このタスクにおける最先端のアプローチはルールベースであるが、これらの手法はロングテールにスケールしない。一方、RLはスケーラブルであり、模倣学習のような誤差の蓄積に悩まされない。現代の運転用RLアプローチでは、進行度、位置、方向などの複数の個別報酬を合計した複雑な形状の報酬が使用されている。我々は、ミニバッチサイズを増加させた場合、PPOがこれらの報酬の人気のあるバージョンを最適化できないことを示し、これがこれらのアプローチのスケーラビリティを制限していることを明らかにした。代わりに、主に単一の直感的な報酬項、すなわちルート完了を最適化する新しい報酬設計を提案する。違反はエピソードを終了させるか、ルート完了を乗算的に減少させることでペナルティを与える。我々は、このシンプルな報酬で訓練された場合、PPOがより高いミニバッチサイズでうまくスケールし、パフォーマンスが向上することを発見した。大きなミニバッチサイズでの訓練は、分散データ並列処理による効率的なスケーリングを可能にする。我々は、単一の8-GPUノードでPPOをCARLAで300Mサンプル、nuPlanで500Mサンプルにスケールした。結果として得られたモデルは、CARLA longest6 v2ベンチマークで64 DSを達成し、より複雑な報酬を持つ他のRL手法を大きく上回った。CARLAでの使用から最小限の適応のみを必要とする同じ手法は、nuPlanにおいても最良の学習ベースのアプローチである。Val14ベンチマークでは、非反応型交通で91.3、反応型交通で90.6のスコアを記録し、従来の研究よりも一桁高速である。
本レビューは、3DビジョンとマルチモーダルAIの交差点において急速に進展している分野である、ビジョン言語モデル(VLMs)を用いた3D物体検出に関する包括的な調査を体系的に分析する。100以上の研究論文を検討し、ビジョン言語モデルを用いた3D物体検出に特化した初の体系的分析を提供する。まず、ビジョン言語モデルを用いた3D物体検出の独自の課題を概説し、空間推論やデータの複雑さにおいて2D検出との違いを強調する。点群やボクセルグリッドを用いた伝統的なアプローチと、CLIPや3D LLMsのような現代のビジョン言語フレームワークを比較し、これらがオープン語彙検出やゼロショット一般化を可能にすることを示す。テキストと3D特徴を効果的に整合させるための主要なアーキテクチャ、事前学習戦略、プロンプトエンジニアリング手法をレビューする。性能と挙動を説明するために、可視化例と評価ベンチマークについて議論する。最後に、限られた3D言語データセットや計算需要といった現在の課題を指摘し、ビジョン言語モデルを用いた3D物体検出を進展させるための将来の研究方向性を提案する。>物体検出、ビジョン言語モデル、エージェント、VLMs、LLMs、AI