翻訳付きの日次キュレーションされたAI研究論文
言語モデルの能力が高度化するにつれ、ユーザーは正確な応答だけでなく、多様なシナリオにおける人間の好みに沿った挙動も期待するようになっている。これを実現するため、強化学習(RL)パイプラインでは、個別の選好を捉えた複数の報酬を組み込み、モデルを所望の挙動へ導く手法が採用され始めている。しかし近年の研究では、多報酬設定においてGroup Relative Policy Optimization(GRPO)を適用することが常態化しており、その適切性が検証されていない。本論文では、異なるロールアウト報酬の組み合わせにGRPOを直接適用して正規化すると、それらが同一のアドバンテージ値に収束し、訓練信号の分解能が低下して最適解に至らないこと、場合によっては訓練の早期失敗を引き起こすことを示す。次に、これらの課題を解決する新しい方策最適化手法であるGroup reward-Decoupled Normalization Policy Optimization(GDPO)を提案する。本手法は個々の報酬の正規化を分離することで、報酬間の相対的な差異をより忠実に保持し、精度の高い多報酬最適化と訓練安定性の大幅な向上を実現する。GDPOとGRPOを、ツール呼び出し、数学推論、コード推論の3タスクで比較し、正答率指標(精度、バグ率)と制約遵守指標(形式、長さ)の双方で評価した。全ての設定においてGDPOはGRPOを一貫して上回り、多報酬強化学習最適化における有効性と一般性が実証された。
重み減衰(WD)を行列層に適用することは、大規模言語モデルの事前学習における標準的な手法です。先行研究では、確率的勾配ノイズが重み行列Wにブラウン運動的な拡張を引き起こし、その成長がWDによって相殺されることで、特定の重みノルム||W||を持つWD-ノイズ平衡状態が生じることが示唆されています。本研究では、この平衡状態のノルムを訓練手順の有害なアーティファクトと見なし、学習可能な乗数(multiplier)を導入して最適なスケールを学習させることでこの問題に対処します。まず、Wに学習可能なスカラー乗数を付加し、WD-ノイズ平衡状態のノルムが最適ではないことを確認します。学習されたスケールはデータに適応し、性能を向上させます。次に、個々の行と列のノルムも同様に制約されていると論じ、学習可能な行単位・列単位の乗数を導入することでそのスケールを解放します。提案手法は、学習可能でより表現力の高いmuP乗数の一般化と見なすことができます。本手法は、十分に調整されたmuPベースラインを上回り、乗数調整の計算オーバーヘッドを削減し、順伝搬における対称性や学習された乗数の幅スケーリングといった実用的な問題を浮き彫りにします。最後に、AdamオプティマイザとMuonオプティマイザの両方で学習可能乗数を検証し、AdamからMuonへの切り替えに匹敵する下流評価での改善を示します。
夜間の色恒常性は、低照度ノイズと複雑な照明条件により、計算写真学において依然として困難な課題である。本論文では、統計的手法と深層強化学習を組み合わせた新しい夜間ホワイトバランスフレームワーク「RL-AWB」を提案する。本手法はまず、夜間シーンに特化した統計的アルゴリズムを用い、顕著な灰色画素検出と新規照明推定を統合する。この基盤に立脚し、統計的アルゴリズムを中核として活用する初の色恒常性向け深層強化学習アプローチを開発し、専門家のAWB調整のように画像ごとにパラメータを動的に最適化する。クロスセンサー評価を可能にするため、初のマルチセンサー夜間データセットを構築した。実験結果から、本手法が低照度画像と適正照度画像の両方で優れた汎化性能を達成することを示す。プロジェクトページ: https://ntuneillee.github.io/research/rl-awb/
大規模言語モデル(LLM)は多様な領域で強みを示す。しかし、単一の汎用モデルでこれらの領域全体にわたって強力な性能を達成するには、通常、学習と展開のコストが過剰に高くなる規模への拡大が必要となる。一方、小規模なドメイン特化モデルははるかに効率的であるが、学習分布を超えた汎化が困難である。このジレンマを解決するため、我々はFusionRouteを提案する。これは軽量なルーターが各デコードステップで(i)最も適した専門家を選択すると同時に、(ii)ロジット加算によって選択された専門家の次トークン分布を洗練または修正する相補的なロジットを提供する、頑健で効果的なトークンレベル複数LLM協調フレームワークである。固定された専門家出力のみに依存する既存のトークンレベル協調手法とは異なり、我々は純粋な専門家限定ルーティングが根本的に限界があることを理論的に分析する:強いグローバルカバレッジの仮定が成立しない限り、一般的に最適なデコード方策を実現できない。専門家選択に学習可能な相補的生成器を追加することで、FusionRouteは有効な方策クラスを拡大し、穏やかな条件下で最適価値関数の回復を可能にする。実験では、Llama-3とGemma-2ファミリー、数学的推論、コード生成、指示追従を含む多様なベンチマークにおいて、FusionRouteは系列レベルおよびトークンレベルの協調、モデルマージ、直接ファインチューニングを上回り、各タスクにおけるドメイン専門家と競合する性能を示した。
操作データの多様性、量、質は、効果的なロボット方策を訓練する上で極めて重要である。しかし、ハードウェリや物理的セットアップの制約により、多様な環境にわたる大規模な実世界操作データの収集は、拡張が困難な状況が続いている。最近の研究では、テキストプロンプトを条件付きとした画像拡散モデルを用いて、視覚観測における背景や卓上オブジェクトを変更することで操作データの拡張が行われている。しかし、これらの手法は、最先端の方策モデルが要求するマルチビューおよび時間的一貫性のある観測という実用的な必要性を見落としがちである。さらに、テキストプロンプトのみではシーンセットアップを確実に指定することはできない。拡散モデルに明示的な視覚的ガイダンスを提供するため、我々は視覚的アイデンティティプロンプトを導入し、所望のシーンセットアップを生成するための条件付け入力として模範画像を提供する。この目的のために、大規模なロボティクスデータセットから視覚的アイデンティティプールを構築するスケーラブルなパイプラインも構築した。拡張された操作データを用いて下流の視覚-言語-行動モデルおよび視覚運動方策モデルを訓練すると、シミュレーションと実ロボット環境の両方で一貫した性能向上が得られる。
複雑な推論における大規模言語モデル(LLM)の利用は、高い計算コストと遅延によってしばしば妨げられる一方で、リソース効率の良い小規模言語モデル(SLM)は通常、必要な推論能力を欠いています。既存の連携手法(カスケードやルーティングなど)は、クエリ全体をLLMにオフロードするという粗い粒度で動作するため、SLMが推論ステップの大部分を処理可能な場合に著しい計算リソースの浪費が生じます。この問題に対処するため、我々はトークンレベルの連携デコーディングによる効率的な推論フレームワーク「RelayLLM」を提案します。ルーターとは異なり、RelayLLMはSLMを能動的な制御器として機能させ、重要なトークンのみを特別なコマンド経由で動的にLLMに委譲することで、生成プロセスを効果的に「リレー」します。また、ウォームアップ段階とGroup Relative Policy Optimization(GRPO)を含む2段階の訓練フレームワークを導入し、モデルが自立性と戦略的な支援要請のバランスを取れるように指導します。6つのベンチマークによる実証実験では、RelayLLMが平均精度49.52%を達成し、両モデル間の性能差を効果的に埋めることが示されました。特にこれは、生成全トークンのわずか1.07%に対してのみLLMを呼び出すことで実現され、性能が同等のランダムルーターと比較して98.2%のコスト削減を実現しています。
LLMエージェントは、内部推論と外部ツール相互作用を交互に行うことで、マルチターンタスクに取り組む強力なシステムとして登場しました。エージェント強化学習は、これらの能力をさらに洗練させる重要なポストトレーニングパラダイムとして、最近大きな研究関心を集めています。本論文では、AT^2PO(Agentic Turn-based Policy Optimization via Tree Search)を提案します。これは、マルチターンエージェント強化学習における3つの核心的課題—探索多様性の限界、疎な信用割り当て、および政策最適化のミスアラインメント—に取り組む統一フレームワークです。AT^2POは、ターンレベルの木構造を導入し、戦略的探索のためのエントロピー誘導木拡張と、疎な結果からの細粒度な報酬伝播のためのターン単位信用割り当てを同時に実現します。これを補完するものとして、政策更新をエージェント相互作用の自然な意思決定粒度に合わせるターンレベル学習目標である、Agentic Turn-based Policy Optimizationを提案します。ATPOは木探索と直交しており、任意のマルチターン強化学習パイプラインに容易に統合できます。7つのベンチマークによる実験では、最先端ベースラインに対して最大1.84パーセントポイントの平均一貫した改善が実証され、各コンポーネントの有効性を検証する ablation 研究も行われました。コードは https://github.com/zzfoutofspace/ATPO で公開されています。
思考連鎖(CoT)推論は、映像理解タスクにおけるマルチモーダル大規模言語モデルの強力なツールとして登場した。しかし、その必要性や直接回答に対する利点は未だ十分に検証されていない。本論文ではまず、強化学習で訓練された映像モデルにおいて、CoTが段階的な分析を高コストで生成するにも関わらず、直接回答がCoTの性能に匹敵あるいは凌駕する場合が多いことを実証する。この知見に基づき、必要時にのみ推論を行う「VideoAuto-R1」という映像理解フレームワークを提案する。訓練時には、モデルは「一度考え、二度答える」パラダイムに従う:最初に初期回答を生成し、次に推論を行い、最終的に検証済み回答を出力する。両回答は検証可能な報酬によって監督される。推論時には、モデルは初期回答の信頼度スコアに基づいて推論の実行要否を判断する。映像QAおよびグラウンディングベンチマークにおいて、VideoAuto-R1は平均応答長を約3.3倍(例:149トークンから44トークンへ)削減しつつ、最高精度を達成した。さらに、知覚指向タスクでは思考モードの起動率が低い一方、推論集約型タスクでは高い起動率を観測した。これは言語ベースの明示的推論が一般的に有益ではあるものの、常に必須ではないことを示唆している。
視覚言語モデル(VLM)は優れた性能を達成する一方、敵対的攻撃に対して脆弱性を残している。モデルの不確実性を測る指標であるエントロピーは、VLMの信頼性と強く相関する。従来のエントロピーベースの攻撃は全てのデコード段階で不確実性を最大化するが、これは各トークンが生成不安定性に等しく寄与すると暗黙に仮定している。本研究では、自己回帰的生成における臨界決定点である高エントロピートークンのごく一部(約20%)が、出力軌道を不均衡に支配することを明らかにする。これらの位置に敵対的摂動を集中させることで、大幅に小さいバジェットでグローバル手法と同等の意味的劣化を達成する。さらに重要なことに、複数の代表的なVLMにおいて、この選択的攻撃は良性出力の35-49%を有害出力に変換し、より深刻な安全性リスクを露呈する。特筆すべきは、これらの脆弱な高エントロピー分岐点が構造的に多様なVLM間で再現され、実現可能な転移性(未学習ターゲットでの17-26%の有害化率)を可能にすることである。これらの知見に基づき、我々はEntropy-bank Guided Adversarial attacks(EGA)を提案する。本手法は高い有害化変換率と並行して競争力のある攻撃成功率(93-95%)を達成し、現在のVLM安全メカニズムの新たな弱点を明らかにする。
ビデオ世界モデルは、動的で実世界の環境をシミュレートすることを目指すが、既存手法では、カメラと複数オブジェクトの動きに対する統一的な精密制御を実現するのが困難である。これは、ビデオが本質的に投影された2D画像平面内で動力学を作用させるためである。この隔たりを埋めるため、我々はVerseCrafterを提案する。これは統一された4D幾何学的世界状態内で、カメラとオブジェクトの動力学の両方を明示的かつ一貫して制御可能な、4Dを意識したビデオ世界モデルである。 本手法の核心は、静的な背景点群とオブジェクト毎の3Dガウシアン軌道を通じて世界状態を符号化する、新規の「4D幾何学的制御表現」にある。この表現は、オブジェクトの経路だけでなく、時間経過に伴う確率的な3D占有状態も捉え、剛体のバウンディングボックスやパラメトリックモデルに代わる柔軟でカテゴリに依存しない選択肢を提供する。これらの4D制御信号は、事前学習済みのビデオ拡散モデルへの条件付け信号としてレンダリングされ、指定された動力学を精密に遵守する、高精細で視点整合性のあるビデオ生成を可能にする。 残念ながら、もう一つの大きな課題は、明示的な4D注釈を持つ大規模な学習データの不足である。我々はこの課題に対処するため、実世界のビデオから必要な4D制御情報を抽出する自動データエンジンを開発し、大規模かつ多様なデータセット上でモデルを学習させることを可能にした。
専門家混合モデルは、スパースルーティングを通じて領域特化を実現すると広く考えられている。本研究では、この前提を問い直すため、個々の専門家ではなく専門家グループレベルでルーティング動作を分析する事後フレームワーク「COMMITTEEAUDIT」を提案する。3つの代表的なモデルとMMLUベンチマークを用いた検証により、領域不変の「常任委員会」を発見した。これは、領域・層・ルーティング予算を超えて一貫してルーティング量の大半を占める、ルーティングされた専門家からなるコンパクトな連合体である。これはアーキテクチャに共有専門家が既に含まれている場合でも観察される。定性分析により、常任委員会が推論構造と構文の基盤を形成し、周辺専門家が領域特有の知識を扱うことがさらに明らかとなった。これらの発見は、集中化された計算への強い構造的バイアスを示しており、専門家混合モデルにおける特化が通説よりもはるかに限定的であることを示唆する。この内在的バイアスは、均一な専門家利用を強制する負荷分散損失など、現在の訓練目標がモデルの自然な最適化経路に反し、訓練効率と性能を制限している可能性も示唆している。
LLM-as-a-Judgeは、大規模言語モデルを活用したスケーラブルな評価により、AI評価に革命をもたらしました。しかし、評価対象がますます複雑化・専門化・多段階化するにつれ、LLM-as-a-Judgeの信頼性は、内在するバイアス、浅い単一パス推論、現実世界の観測に基づく評価の検証不能性によって制約を受けるようになりました。これが、Agent-as-a-Judgeへの移行を促進しています。エージェント型評価者は、計画立案、ツール拡張による検証、マルチエージェント協調、永続的メモリを活用することで、より頑健で検証可能かつ繊細な評価を実現します。エージェント型評価システムが急速に普及しているにもかかわらず、この変貌する状況を整理する統一的な枠組みが学界には不足しています。このギャップを埋めるため、我々はこの進化を辿る初の包括的なサーベイを提示します。具体的には、このパラダイムシフトを特徴づける主要な次元を特定し、発展段階に基づく分類体系を確立します。核心的な方法論を体系化し、一般領域および専門領域にわたる応用例を調査します。さらに、最先端の課題を分析し、有望な研究方向性を特定し、最終的には次世代のエージェント型評価のための明確なロードマップを提供します。
カメラ制御による生成的ビデオ再レンダリング手法(ReCamMasterなど)は目覚ましい進歩を遂げている。しかし、単一視点設定での成功にもかかわらず、これらの手法はマルチビューシナリオでの一貫性維持に課題を抱えることが多い。生成モデルに内在する確率性により、ホログラフィック領域における時空間的一貫性の確保は依然として困難である。この問題に対処するため、我々は時空間メモリを維持する生成的ホログラフィックの同期を実現するフレームワークPlenopticDreamerを提案する。中核となる考え方は、カメラ誘導型ビデオ検索戦略(過去の生成から salient なビデオを条件入力として適応的に選択)を補助として用い、マルチ入力単一出力のビデオ条件付きモデルを自己回帰的に学習することである。さらに、収束性向上のための段階的コンテキスト拡張、誤差蓄積による長距離視覚的劣化へのロバスト性向上のための自己条件付け、長尺ビデオ生成を支援する長尺ビデオ条件付けメカニズムを学習に組み込んでいる。BasicベンチマークとAgibotベンチマークにおける大規模な実験により、PlenopticDreamerが最先端のビデオ再レンダリングを実現し、優れた視点同期、高精細な画質、正確なカメラ制御、多様な視点変換(例:第三人称から第三人称へ、ロボット把持における頭部視点から把持器視点へ)を提供することを実証した。プロジェクトページ:https://research.nvidia.com/labs/dir/plenopticdreamer/
3D環境における具象化質問応答(EQA)では、複数の視点に分散し部分的に遮蔽された文脈を収集する必要がしばしば生じる。しかし、最近の視覚言語モデル(VLM)の多くは、固定された有限の入力視点集合に制約されており、推論時に質問に関連する文脈を獲得する能力が制限され、複雑な空間推論を妨げている。本稿では、Chain-of-View(CoV)プロンプティングを提案する。これは学習不要のテスト時推論フレームワークであり、粗い探索から細かい探索へのプロセスを通じて、VLMを能動的な視点推論器に変える。CoVはまず、View Selectionエージェントを用いて冗長なフレームをフィルタリングし、質問に沿ったアンカービューを特定する。次に、反復推論と離散的なカメラ動作を交互に行うことで細粒度の視点調整を実行し、基礎となる3Dシーン表現から新しい観測結果を取得する。このプロセスは、十分な文脈が収集されるか、ステップ予算に達するまで継続する。 我々はCoVをOpenEQAで4つの主流VLMに対して評価し、LLM-Matchにおいて平均+11.56%、最大でQwen3-VL-Flashにおいて+13.62%の改善を達成した。CoVはさらにテスト時スケーリングを示し、最小アクション予算を増やすことで平均+2.51%の追加改善(Gemini-2.5-Flashでは最大+3.73%)が得られた。ScanQAとSQA3Dでは、CoVは強力な性能(例:ScanQAで116 CIDEr / 31.9 EM@1、SQA3Dで51.1 EM@1)を発揮した。全体として、これらの結果は、質問に沿った視点選択とオープンビュー探索の組み合わせが、追加の学習を必要とせずに3D EQAの空間推論を改善するための、効果的かつモデル非依存の戦略であることを示唆している。
Chain-of-Thought(CoT)推論は大規模言語モデルにおける多段階の数学的問題解決を改善するが、初期の誤りが自己回帰的復号を通じて不可逆的に伝播するため、エクスポージャーバイアスと誤差蓄積に対して脆弱である。本研究では、CoT推論を反復的なノイズ除去プロセスとして再定式化するDiffCoTを提案する。DiffCoTはスライディングウィンドウ機構により推論ステップレベルで拡散原理を統合し、トークンレベルの自己回帰を保ちつつ中間ステップの統合的生成と遡及的修正を実現する。因果的一貫性を維持するため、推論連鎖の時間的構造を尊重する因果的拡散ノイズスケジューリングをさらに導入する。多様なモデルバックボーンにわたる3つの多段階CoT推論ベンチマークでの大規模実験により、DiffCoTが既存のCoT選好最適化手法を一貫して上回り、CoT推論におけるロバスト性と誤り修正能力の向上をもたらすことが実証された。
文書質問応答(DocQA)は、与えられた文書に基づいて質問に答えることを目的とするが、既存のDocQAエージェントは効果的なツール活用が不足しており、大部分がクローズドソースモデルに依存している。本研究では、エンドツーエンドで学習されたオープンソースの文書エージェントであるDocDancerを提案する。我々はDocQAを情報探索問題として定式化し、文書の探索と理解を明示的にモデル化するツール駆動型エージェントフレームワークを提案する。このようなエージェントのエンドツーエンド学習を可能にするため、DocQAにおける高品質な学習データの不足に対処するExploration-then-Synthesisデータ合成パイプラインを導入する。合成データで学習したモデルは、2つの長文脈文書理解ベンチマーク(MMLongBench-DocおよびDocBench)において有効性を示した。更なる分析は、エージェントツール設計と合成データに関する有益な知見を提供する。
インコンテキスト画像生成・編集(ICGE)は、画像とテキストを交互に配置したプロンプトを通じて視覚的概念を指定することを可能にし、ユーザーの意図を正確に理解し忠実に反映することを要求する。近年の統合マルチモーダルモデルは有望な理解能力を示すが、こうした強みは画像生成に効果的に転移しないことが多い。本論文では、構造化推論に導かれたアラインメントを通じて理解と生成の間の隔たりを埋める統一フレームワーク「Re-Align」を提案する。その中核には、In-Context Chain-of-Thought(IC-CoT)という構造化推論パラダイムがあり、意味的ガイダンスと参照画像の関連付けを分離することで、明確なテキスト目標を提供し、参照画像間の混同を軽減する。さらにRe-Alignは、構造化推論テキストと生成画像の整合性を測定する代理報酬を活用する効果的な強化学習トレーニング手法を導入し、ICGEタスクにおけるモデルの総合的な性能向上を図る。大規模な実験により、Re-Alignが同等のモデル規模とリソースを持つ競合手法を、インコンテキスト画像生成と編集の両タスクで上回ることを実証する。
生成的モデルは3Dビジョンにおいて新規形状の合成にますます利用されているが、その生成が訓練形状の記憶に依存しているかどうかは未解明のままである。記憶メカニズムの理解は、訓練データの漏洩防止と生成結果の多様性向上に寄与しうる。本論文では、3D生成モデルにおける記憶を定量化する評価フレームワークを設計し、異なるデータ・モデリング設計が記憶に与える影響を検証する。まず既存手法の記憶量を本フレームワークで定量化した。次に潜在ベクトル集合(Vecset)拡散モデルを用いた制御実験により、データ側では記憶がデータ様態に依存し、データ多様性と細粒度条件付けで増大すること、モデリング側では適度なガイダンス尺度でピークに達し、長いVecsetと単純な回転データ拡張で軽減できることを明らかにした。本フレームワークと分析は、3D生成モデルの記憶に関する実証的理解を提供し、生成品質を劣化させずに記憶を低減する簡便かつ効果的な戦略を示唆する。コードはhttps://github.com/zlab-princeton/3d_mem で公開している。
ソフト境界は、細い髪の毛のように、自然画像やコンピュータ生成画像で一般的に観察されるが、前景と背景の手がかりが曖昧に混在するため、3Dビジョンにおいては依然として課題となっている。本論文では、3Dビジョンタスクにおいて微細なソフト境界の詳細を復元するためのフレームワーク「Guardians of the Hair (HairGuard)」を提案する。具体的には、まず、画像マッティングデータセットを学習に活用する新規のデータキュレーションパイプラインを提案し、ソフト境界領域を自動的に識別する深度修正ネットワークを設計する。ゲート付き残差モジュールにより、深度修正ネットワークは大域的な深度品質を維持しつつ、ソフト境界周辺の深度を精密に補正し、最先端の深度モデルとのプラグアンドプレイ統合を可能にする。ビュー合成においては、高精細なテクスチャを保持するために深度ベースのフォワードワーピングを実行し、続いて生成的なシーンペインターがディオクルージョン領域を補填し、ソフト境界内の冗長な背景アーティファクトを除去する。最後に、カラーフュージョンが適応的にワープ結果とインペイント結果を統合し、一貫したジオメトリと微細なディテールを備えた新規ビューを生成する。大規模な実験により、HairGuardが、単眼深度推定、ステレオ画像/動画変換、新規ビュー合成において、ソフト境界領域で顕著な改善を示し、最先端の性能を達成することを実証する。
大規模言語モデル(LLM)の推論能力は、強化学習(RL)によって引き出される可能性がある(OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025)。LLMにおける既存のRL試みの成功は、通常、数千規模以上の高品質な学習サンプルに依存している。本論文では、ワンショット学習の驚くべき有効性を実証することにより、LLMに対するRLにおけるデータ要件に関する根本的な前提に挑戦する。具体的には、単一の訓練サンプルを設計することで学際的な影響を引き出す枠組みである、ポリマス学習を提案する。我々は3つの主要な発見を示す:(1)戦略的に選択された単一の数学推論サンプルが、RLを用いて物理学、化学、生物学を含む複数領域にわたる著しい性能向上をもたらす;(2)推論に重要な数学的スキルが、最適なポリマスサンプルの特性を示唆する;(3)学際的要素を統合した工学的に合成されたサンプルが、自然に発生する個別のサンプルを用いた訓練を凌駕する。本手法は、様々な推論ベンチマークにおいて、より大規模なデータセットを用いた訓練よりも優れた性能を達成し、サンプルの量ではなく、質と設計が言語モデルの強化された推論能力を解放する鍵である可能性を示唆する。我々の結果は、単にデータ量を増やすのではなく、訓練サンプルを精密に設計する「サンプルエンジニアリング」と呼ばれるパラダイムシフトを示唆している。
本論文では、3Dガウススプラッティング(3DGS)を用いた開放語彙3Dシーン理解のための効率的なコンテキスト認識フレームワーク「ProFuse」を提案する。本パイプラインは、直接登録設定において視点間の一貫性とマスク内の結束性を強化し、最小限のオーバーヘッドで、レンダリング監督付きファインチューニングを必要としない。事前学習済み3DGSシーンに依存する代わりに、密な対応関係ガイドによる事前登録段階を導入し、正確なジオメトリでガウシアンを初期化すると同時に、視点間クラスタリングによる3Dコンテキスト提案を共同構築する。各提案は、メンバー埋め込みの重み付き集約により得られた大域的特徴を保持し、この特徴は直接登録中にガウシアンに融合され、視点を超えたプリミティブ単位の言語的一貫性を維持する。事前に関連付けが確立されているため、意味的融合は標準的な再構成以外の最適化を必要とせず、モデルは密度化なしに幾何学的洗練を保持する。ProFuseは、強力な開放語彙3DGS理解を実現し、シーンごとにおよそ5分で意味的付加を完了する。これはSOTA比2倍の高速化である。
自己回帰(AR)モデルは画像合成において顕著な成功を収めているが、その逐次的な性質は大きな遅延制約を課す。投機的デコーディングは高速化の有望な手法であるが、既存のアプローチはトークンレベルの曖昧性と空間認識の欠如によって制限されている。本研究では、マルチスケール局所投機的デコーディング(MuLo-SD)を提案する。これは、AR画像生成を高速化するために、マルチ解像度の下書き生成と空間情報を考慮した検証を組み合わせた新しいフレームワークである。本手法は、低解像度の下書きモデルと学習済みアップサンプラーを組み合わせて候補画像トークンを提案し、それらを高解像度のターゲットモデルによって並列に検証する。決定的に重要なのは、最初の棄却後のラスタスキャン再サンプリングではなく、空間的近傍に焦点を当てることで、下書きの誤りを効率的に修正する局所的棄却・再サンプリング機構を組み込んでいる点である。MuLo-SDは最大1.7倍の大幅な高速化を実現し、EAGLE-2やLANTERNといった強力な投機的デコーディングのベースラインを加速性能で上回りながら、同等のセマンティックアライメントと知覚品質を維持することを示す。これらの結果は、MS-COCO 5k検証セットを用いたGenEval、DPG-Bench、FID/HPSv2によって検証されている。広範なアブレーション研究により、アップサンプリング設計、確率プーリング、および近傍拡張を伴う局所的棄却・再サンプリングの影響が明らかになった。本アプローチは、画像合成における投機的デコーディングの新たなstate-of-the-artを確立し、効率性と忠実度の間のギャップを埋めるものである。
大規模言語モデル(LLM)エージェントの近年の進歩は、主にエージェント内部への自己改善メカニズムの組み込み、あるいは多数の並行バリアントの探索に焦点が当てられてきた。これらのアプローチは総合的なスコアを向上させ得るが、不安定で監査が困難な改善軌道をもたらすことが多く、バージョン間での非退行性の保証や障害の原因究明を困難にしている。本研究では、エージェントの改善をリリースエンジニアリングとして再定義する:エージェントは出荷可能な成果物として扱われ、改善は回帰を意識したリリースパイプラインに外部化される。我々はAgentDevelを提案する。これは、現在のエージェントを反復的に実行し、実行トレースから実装に依存しない症状レベルの品質シグナルを生成し、実行可能な診断を通じて単一のリリース候補(RC)を合成し、フリップ中心のゲーティングの下でそれを昇格させるリリースエンジニアリングパイプラインである。AgentDevelは三つの核心的な設計を特徴とする:(i) エージェントの内部構造にアクセスせずに故障の外観を特徴づける、実装に依存しないLLM批評器、(ii) 支配的な症状パターンを集約し監査可能な工学的仕様を生成するスクリプトベースの実行可能診断、(iii) 合格から不合格への回帰および不合格から合格への修正を第一級の証拠として優先する、フリップ中心のゲーティングである。個体群ベースの探索やエージェント内自己改良とは異なり、AgentDevelは単一の正規バージョンラインを維持し、非退行性を主要目的として重視する。実行負荷の高いベンチマークにおける実験により、AgentDevelが再現性と監査可能性のある成果物を生成しながら、著しく少ない回帰で安定した改善をもたらすことが実証された。全体として、AgentDevelはLLMエージェントをソフトウェア開発として構築、デバッグ、リリースするための実践的な開発手法を提供する。
ビヘイビアクローニングは、モデルサイズとデータサイズのスケーリングが多くの関心対象タスクにおいて強力な出発点を提供することが実証され、人気の再興を享受している。本研究では、コンシューマー向けGPU上でリアルタイム推論を目的としたビデオゲームプレイ基盤モデルを訓練するためのオープンレシピを紹介する。すべてのデータ(8,300時間以上の高品質な人間のゲームプレイ)、訓練・推論コード、事前学習済みチェックポイントをオープンライセンスの下で公開する。我々の最良モデルは、人間のプレイに匹敵するレベルで多様な3Dビデオゲームをプレイ可能であることを示す。このレシピを用いて、ビヘイビアクローニングのスケーリング則を体系的に検証し、モデルとデータ規模の変化に伴うモデルの性能と因果推論の変容を解明する。まず単純なトイ問題において、特定の種類の因果推論については、訓練データ量とネットワークの深さを増加させることで、モデルがより因果的なポリシーを学習することを示す。次に、12億パラメータに達するスケールドモデルにおいて、因果性がパラメータ数(および深さ)と訓練ステップ数にどのように変化するかを体系的に研究し、トイ問題で観察されたものと同様のスケーリング結果を得る。
近年、ビデオ拡散モデルの進歩はトランスフォーマーベースのアーキテクチャへと移行し、最先端のビデオ生成を実現している。しかし、その代償として二次関数的な注意複雑性が生じ、長いシーケンスに対する拡張性を大幅に制限している。本論文では、Recurrent Hybrid Attention(ReHyAt)を提案する。これは、ソフトマックス注意の高精度性と線形注意の効率性を組み合わせたもので、チャンク単位の回帰的定式化と一定メモリ使用量を実現する。線形注意のみを用いる同時期の研究SANA Videoとは異なり、ReHyAtのハイブリッド設計により、既存のソフトマックスベースモデルからの効率的な知識蒸留が可能となり、トレーニングコストを約160 GPU時間へと2桁削減しつつ、品質において遜色ない結果を得る。我々の軽量な蒸留とファインチューニングのパイプラインは、将来の双方向ソフトマックスベースの最先端モデルにも適用可能な手法を提供する。VBenchおよびVBench-2.0を用いた実験と人間による嗜好性調査により、ReHyAtが注意コストを二次関数的から線形へ削減しつつ、最先端のビデオ品質を達成し、長時間及びオンデバイスでの実用的なビデオ生成の拡張性を開放することを実証する。プロジェクトページはhttps://qualcomm-ai-research.github.io/rehyat で公開されている。
本論文では、学習時には利用可能であるが推論時には利用できない詳細な記述情報を活用するため、オブジェクト検出への「特権情報を用いた学習(LUPI)」パラダイムの統合を検討する。境界ボックスマスク、顕著性マップ、深度情報などの特権情報を、教師-生徒アーキテクチャを介して深層学習ベースのオブジェクト検出器に注入する、モデルに依存しない一般的な手法を提案する。精度、汎化性能、計算効率への影響を評価するため、5つの最先端オブジェクト検出モデルと、UAVベースのごみ検出データセットやPascal VOC 2012を含む複数の公開ベンチマークで実験を実施した。結果は、LUPIで学習した生徒モデルが一貫してベースラインを上回り、推論の複雑さやモデルサイズを増加させることなく検出精度を大幅に向上させることを示している。特に中規模および大規模オブジェクトでの性能向上が顕著であり、 ablation study により、教師の指導を中間的に重み付けることが特権情報と標準入力からの学習を最適にバランスさせることを明らかにした。本知見は、LUPIフレームワークが、リソース制約のある環境および実世界の環境の両方において、オブジェクト検出システムを高度化するための効果的かつ実用的な戦略を提供することを裏付けている。
拡散モデルの学習後アライメントは、スカラー報酬や二値選好といった単純化された信号に依存している。これは、階層的かつ細粒度である複雑な人間の専門知識との整合性を制限している。この問題に対処するため、我々はまず、ドメイン専門家と協力して階層的で細粒度な評価基準を構築し、画像品質を木構造で組織化された複数の肯定的属性と否定的属性に分解する。これを基盤として、二段階のアライメントフレームワークを提案する。第一段階では、教師ありファインチューニングを通じて補助拡散モデルにドメイン知識を注入する。第二段階では、DPOを拡張した複雑選好最適化(CPO)を導入し、対象の拡散モデルを非二値的・階層的な基準に適合させる。具体的には、補助拡散モデルを用いて、肯定的属性の確率を最大化すると同時に否定的属性の確率を最小化するようにアライメント問題を再定式化する。本手法を絵画生成領域で具体化し、構築した基準に基づいて細粒度属性で注釈付けされた絵画データセットを用いてCPO学習を実施する。大規模な実験により、CPOが生成品質と専門知識との整合性を大幅に向上させ、細粒度基準アライメントの新たな道を開くことを実証する。
最近提案されたピラミッドモデルは、従来の順拡散・逆拡散プロセスを、異なる解像度で動作する複数の段階に分解する。これらのモデルは、ノイズレベルの高い入力は低解像度で処理し、ノイズの少ない入力は高解像度で処理する。この階層的アプローチにより、多段階ノイズ除去モデルにおける推論の計算コストを大幅に削減できる。しかし、既存のオープンソースのピラミッド型ビデオモデルはスクラッチから学習されており、視覚的な説得力という点で最先端のシステムに比べて性能が劣る傾向がある。本研究では、事前学習済み拡散モデルを低コストのファインチューニングによりピラミッドモデルに変換するパイプラインを提案し、出力ビデオの品質を劣化させることなくこの変換を実現する。さらに、ピラミッドモデル内でのステップ蒸留の様々な戦略を調査・比較し、推論効率のさらなる向上を目指す。結果はhttps://qualcomm-ai-research.github.io/PyramidalWanで公開されている。
本論文では、製造業と品質検査におけるマルチモーダル学習の進展を目的として、100万組の整列された画像-テキストペアから成る初の大規模産業用マルチモーダル欠陥データセット「IMDD-1M」を提案する。IMDD-1Mは60以上の材料カテゴリー、400以上の欠陥タイプにわたる高解像度の実世界欠陥画像を含み、各画像には専門家検証済みの注釈と、欠陥の位置、深刻度、文脈的属性を詳細に記述したテキストが付随する。本データセットは分類、セグメンテーション、検索、キャプション生成、生成モデリングなど幅広い応用を可能とする。IMDD-1Mに基づき、産業シナリオに特化して拡散モデルベースの視覚-言語基盤モデルをスクラッチから学習させた。このモデルは汎用的な基盤として機能し、軽量なファインチューニングにより専門領域へ効率的に適応可能である。専門家モデルに必要なタスク特定データの5%未満で同等の性能を達成し、産業検査と生成におけるデータ効率の良い基盤モデル適応の可能性を示す。これにより、スケーラブルでドメイン適応性があり、知識に基づいた製造インテリジェンスへの道を開くものである。
本論文では、視覚的リッチな文書理解に応用される視覚言語モデルの分析と改善のための手法VERSEを提案する。VERSEは、視覚的埋め込み空間を探索することで潜在表現の可視化を可能とし、モデルの実現可能性評価を支援する。さらに、問題のある領域の特定を容易にし、それらのクラスタにおける性能向上のための合成データ生成を導く。本手法は、合成データセットMERITで学習し、実世界データセットであるMERIT Secretで評価することで検証する。結果は、VERSEが誤りを起こしやすいクラスタに関連する視覚特徴を明らかにするのに有効であり、これらの特徴を含むサンプルで再学習することで、一般化性能を劣化させることなくF1スコアを大幅に向上させることを示す。さらに、DonutやIdefics2のようなオンプレミスモデルも、VERSEで最適化することで、GPT-4やPixtralのようなSaaSソリューションの性能に匹敵し、あるいは凌駕することを実証する。
対話エージェントがユーザーとの協働経験を蓄積するにつれ、ユーザー嗜好への適応は、長期的な関係構築と協働品質の持続的向上において不可欠である。本稿では、エージェントが複数セッションにわたりユーザー嗜好を学習し、それを活用して協働品質を高める能力を評価するベンチマーク、MultiSessionCollabを提案する。この環境で成功するエージェントを開発するため、インタラクション経験の蓄積に伴いユーザー嗜好を保持・洗練させるメモリを備えた長期的協働エージェントを提示する。さらに、MultiSessionCollab内のユーザーシミュレータの挙動から学習信号を導出し、エージェントがより包括的な振り返りを生成し、メモリをより効果的に更新するように訓練できることを実証する。大規模な実験により、エージェントにメモリを装備することが長期的協働を改善し、タスク成功率の向上、インタラクションの効率化、ユーザー負荷の低減をもたらすことを示す。最後に、メモリが実環境におけるユーザー体験の向上に寄与することを実証するため、実ユーザーによる評価を実施する。
安全性を考慮して調整された大規模言語モデル(LLM)のファインチューニングは、その安全性を大幅に損なう可能性がある。従来のアプローチでは、多数の安全性サンプルや較正セットが必要であり、リアラインメント時に多大な計算コストがかかるだけでなく、モデルの有用性が顕著に低下するという問題があった。これに対し我々は、たった一つの安全性事例のみを用いて、有用性を犠牲にすることなく、最小限のコストで安全性調整を完全に回復できることを示す。驚くべきことに、この回復効果はファインチューニングで使用された有害事例の数や基盤モデルのサイズに依存せず、わずか数エポックで収束が達成される。さらに、我々は安全性勾配の低ランク構造を明らかにし、このような効率的な修正が可能な理由を説明する。5つの安全性調整済みLLMと複数のデータセットを用いた検証を通じて、本アプローチの汎用性を実証する。
本論文では、単語レベルタイムスタンプを有する現時点で最大規模のオープンソース多言語音声コーパスであるLEMAS-Datasetを提案する。10の主要言語にわたり15万時間以上を網羅する本データセットは、高品質なデータとアノテーションを保証する効率的なデータ処理パイプラインにより構築されている。多様な生成パラダイムにおける本データセットの有効性を検証するため、異なるアーキテクチャとタスク特化性を有する2つのベンチマークモデルを学習した。非自己回帰的フローマッチングフレームワークに基づくLEMAS-TTSは、データセットの大規模性と言語的多様性を活用し、ロバストなゼロショット多言語合成を実現する。提案するアクセント敵対学習とCTC損失は言語間のアクセント問題を緩和し、合成の安定性を向上させる。相補的に、LEMAS-Editはマスク付きトークン補完タスクとして音声編集を定式化する自己回帰デコーダのみのアーキテクチャを採用する。正確な単語レベルアライメントを活用した学習マスク構築と適応的解碼戦略により、自然な遷移を伴うシームレスで滑らかな境界の音声編集を実現する。実験結果は、LEMAS-Datasetで学習したモデルが高品質な合成と編集性能を発揮することを示し、データセットの品質を確認する。この豊富なタイムスタンプ注釈付き細粒度多言語コーパスが、プロンプトベース音声生成システムの将来的発展を推進することを期待する。