翻訳付きの日次キュレーションされたAI研究論文
言語エージェントの長期的な目標は、自身の経験を通じて学習し改善し、複雑な現実世界のタスクにおいて人間を凌駕することです。しかし、強化学習を用いて経験データからエージェントを訓練することは、多くの環境において依然として困難です。これは、検証可能な報酬が欠如している環境(例:ウェブサイト)や、非効率的な長期的なロールアウトを必要とする環境(例:多段階のツール使用)が存在するためです。その結果、現在のほとんどのエージェントは、専門家データを用いた教師ありファインチューニングに依存していますが、これはスケーリングが難しく、汎化性能が低いという課題があります。この制約は、専門家のデモンストレーションの性質に起因しています:それらは限られた範囲のシナリオしか捉えず、エージェントに限られた環境の多様性しか提供しません。私たちはこの制約を、「初期経験」と呼ぶ中間的なパラダイムで解決します:エージェント自身の行動によって生成されるインタラクションデータであり、その結果として得られる将来の状態が報酬信号なしで教師信号として機能します。このパラダイム内で、私たちはそのようなデータを使用する2つの戦略を研究します:(1)暗黙的な世界モデリング:収集された状態を使用して、環境のダイナミクスに基づいてポリシーを接地する;(2)自己反省:エージェントが自身の最適でない行動から学び、推論と意思決定を改善する。私たちは、8つの多様な環境と複数のモデルファミリーにわたって評価を行います。私たちのアプローチは、効果性とドメイン外の汎化性能を一貫して向上させ、初期経験の価値を強調します。さらに、検証可能な報酬がある環境では、初期経験がその後の強化学習のための強力な基盤を提供し、模倣学習と完全な経験駆動型エージェントの間の実用的な橋渡しとして位置づけられることを示す有望な結果が得られました。
現在のマルチモーダル大規模言語モデル(MLLM)は、数学や論理などの推論タスクにおいて高い能力を示しているが、複雑な現実世界の問題を解決するために必要な長鎖型の反射的推論能力については、まだ十分に探求されていない。本研究では、まずこの能力を評価するための広範な実証調査を実施する。慎重に設計されたデータ合成エンジンを活用し、反復的思考とバックトラッキングを必要とする42の挑戦的な合成タスクからなる1,260サンプルのマルチモーダルベンチマーク「MM-HELIX」を構築した。このベンチマークでの実証結果から、既存のMLLMが長鎖型の反射的推論において著しい性能不足を示すことが明らかになった。この制約に対処するため、ポストトレーニングデータを生成し、そのデータを活用するための学習パラダイムをさらに探求する。まず、Step-Elicited Response Generationパイプラインを開発し、命令チューニング段階のための10万件の高品質な反射的推論トレースを含む大規模データセット「MM-HELIX-100K」を作成した。標準的な強化学習が、報酬信号の希薄さや教師あり微調整後の致命的な忘却により複雑なタスクで失敗することを考慮し、オフラインの監督とオンラインの最適化を単一の段階に動的に統合する新しいトレーニング戦略「Adaptive Hybrid Policy Optimization(AHPO)」を提案する。この戦略により、モデルは報酬が希薄な場合に専門家データから学習し、熟達した後は独立した探索を行うことができる。Qwen2.5-VL-7Bベースラインに適用した結果、MM-HELIXベンチマークで+18.6%の精度向上を達成し、一般的な数学および論理タスクにおいても+5.7%の平均性能向上を示す強力な汎化能力を実証した。本研究は、MLLMにおける反射的推論が効果的に学習および汎化可能であることを示し、より能力の高いMLLMの開発への道を開くものである。
データの爆発的増加に伴い、自然言語処理やバイオインフォマティクスなどのタスクにおいて、長系列モデリングの重要性が高まっています。しかし、既存の手法は効率性とメモリ使用量の間で本質的なトレードオフに直面しています。リカレントニューラルネットワークは勾配消失や爆発の問題を抱えており、スケーリングが困難です。トランスフォーマーはグローバルな依存関係をモデル化できますが、二次的な計算量に制約されます。最近では、Mambaのような選択的状態空間モデルがO(n)の時間計算量とO(1)の再帰的推論で高い効率性を示していますが、長距離メモリが指数関数的に減衰するという課題があります。本研究では、数学的導出と情報理論的分析を通じて、Mambaのメモリ減衰メカニズムを体系的に解明し、Mambaの長距離メモリの本質と情報保持の仕組みという根本的な問いに答えます。主要な情報損失を定量化するため、層内および層間の劣化を捉える水平-垂直メモリ忠実度メトリクスを導入します。人間が長文書を読む際に重要な情報を蒸留し保持する方法に着想を得て、状態要約メカニズムと層間・トークン間アテンションを統合した新しいアーキテクチャフレームワークであるMemMambaを提案します。これにより、線形計算量を維持しつつ長距離の忘却を軽減します。MemMambaは、PG19やPasskey Retrievalなどの長系列ベンチマークにおいて、既存のMambaバリアントやトランスフォーマーを大幅に上回る性能を達成し、推論効率で48%の高速化を実現します。理論分析と実験結果の両方が、MemMambaが計算量とメモリのトレードオフにおいてブレークスルーを達成し、超長系列モデリングの新しいパラダイムを提供することを示しています。
統一マルチモーダルモデルは、マルチモーダルコンテンツの生成と編集において有望な結果を示してきましたが、その適用範囲は主に画像領域に限定されています。本研究では、統一モデリングを動画領域に拡張する汎用フレームワークであるUniVideoを提案します。UniVideoは、命令理解のためのマルチモーダル大規模言語モデル(MLLM)と動画生成のためのマルチモーダルDiT(MMDiT)を組み合わせたデュアルストリーム設計を採用しています。この設計により、複雑なマルチモーダル命令を正確に解釈しつつ、視覚的一貫性を保つことが可能になります。このアーキテクチャを基盤として、UniVideoは多様な動画生成および編集タスクを単一のマルチモーダル命令パラダイムの下で統合し、それらを横断して共同で学習します。大規模な実験により、UniVideoがテキスト/画像から動画への生成、コンテキスト内動画生成、およびコンテキスト内動画編集において、タスク特化型の最先端ベースラインと同等またはそれ以上の性能を発揮することが実証されました。特に、UniVideoの統一設計は2つの形式の汎化を可能にします。第一に、UniVideoは単一の命令内で複数の能力を統合することにより、編集とスタイル転送を組み合わせるなどのタスク合成をサポートします。第二に、自由形式の動画編集に関する明示的な学習がなくても、UniVideoは大規模な画像編集データからその編集能力をこの設定に転移させ、グリーンスクリーン処理や動画内の素材変更などの未見の命令を処理します。これらのコア能力に加えて、UniVideoは視覚的プロンプトに基づく動画生成もサポートしており、MLLMが視覚的プロンプトを解釈し、合成中にMMDiTをガイドします。今後の研究を促進するため、我々はモデルとコードを公開する予定です。
任意時空間ビデオ補完のタスクを紹介する。このタスクでは、ユーザーが指定した任意のパッチを任意の空間位置とタイムスタンプに配置してビデオを生成する。これは、ビデオキャンバス上で絵を描くようなものである。この柔軟な定式化により、既存の多くの制御可能なビデオ生成タスク(初フレームの画像からビデオ、インペインティング、拡張、補間など)が単一の統一されたパラダイムの下に自然に統合される。しかし、このビジョンを実現するには、現代の潜在ビデオ拡散モデルにおける根本的な課題がある。因果的VAEによって導入される時間的曖昧さである。ここでは、複数のピクセルフレームが単一の潜在表現に圧縮されるため、フレームレベルの正確な条件付けが構造的に困難となる。この課題に対処するため、VideoCanvasを提案する。これは、In-Context Conditioning (ICC) パラダイムをこの細粒度制御タスクに適応させ、新たなパラメータを追加せずに実現する新しいフレームワークである。空間的配置はゼロパディングによって処理し、時間的アラインメントはTemporal RoPE Interpolationによって達成するハイブリッド条件付け戦略を提案する。これにより、VAEの時間的曖昧さが解消され、凍結されたバックボーン上でピクセルフレームを意識した制御が可能となる。この新たな能力を評価するため、VideoCanvasBenchを開発した。これは、任意時空間ビデオ補完のための最初のベンチマークであり、シーン内の忠実度とシーン間の創造性の両方をカバーする。実験により、VideoCanvasが既存の条件付けパラダイムを大幅に上回り、柔軟で統一されたビデオ生成において新たな最先端を確立することが示された。
化学反応条件の推薦は、化学反応に適した条件パラメータを選択することを指し、化学科学の加速において極めて重要です。大規模言語モデル(LLMs)の急速な発展に伴い、その推論および計画能力を活用して反応条件を推薦することへの関心が高まっています。既存の手法は成功を収めているものの、推薦された反応条件の根拠を説明することはほとんどなく、高リスクの科学ワークフローにおける有用性が制限されています。本研究では、ChemMASというマルチエージェントシステムを提案します。ChemMASは、条件予測を証拠に基づく推論タスクとして再構築し、タスクをメカニズムの基盤付け、マルチチャネル想起、制約を考慮したエージェント間議論、および根拠の集約に分解します。各決定は、化学的知識と検索された先例に基づいた解釈可能な正当化によって裏付けられます。実験結果によると、ChemMASはドメイン固有のベースラインに対して20〜35%の向上を達成し、汎用LLMsをトップ1精度で10〜15%上回りながら、反証可能で人間が信頼できる根拠を提供します。これにより、科学発見における説明可能なAIの新たなパラダイムが確立されます。
近年の長文脈言語モデル(LCLM)は、単一のプロンプトで数十万トークンを処理できるため、大量の検索文書を統合したり、場合によっては直接必要な情報をすべて取り込んだりすることで、知識集約型のマルチホップ推論に新たな可能性をもたらしています。しかし、単に文脈ウィンドウに多くの文書を投入するだけでは、証拠をどのようにつなぐべきかを捉えることができません。このギャップを埋めるために、我々は「思考テンプレート」を提案します。これは、推論を再利用可能な思考キャッシュとして再構築し、過去の問題解決の痕跡から導き出し、証拠の結合方法を構造化し、事実に基づく文書を用いたマルチホップ推論をガイドします。これらのテンプレートを効果的に保つために、自然言語フィードバックを通じてトレーニングデータから導出されたテンプレートを反復的に洗練する更新戦略を提案します。多様なベンチマークとLCLMファミリーにおいて、我々のアプローチは、検索ベースおよび検索不要の設定の両方で、強力なベースラインを一貫して上回る結果を示します。さらに、最適化されたテンプレートは、より小さなオープンソースモデルに蒸留できることを示し、その広範な適用性と透明な推論の再利用を実証します。我々はこのフレームワークを「思考テンプレート拡張LCLM(ToTAL)」と呼びます。
最近の推論モデルに関する研究では、言語モデルのメタ認知能力、すなわち自ら考える方法を知る能力が探求されています。我々は、大規模な推論モデルがこのメタ認知特性を欠いていることを、真のロールアウトと予測されたメタ情報との深刻な不一致を証明することで主張します。メタ予測を真のロールアウトと一致させることが、大幅な性能向上につながると我々は考えています。この仮説を検証するため、自己整合によるメタ認知強化(MASA)を促進するトレーニングパイプラインを設計し、強化されたメタ認知が直接的に精度向上に繋がることを証明しました。既存のメタ認知的推論モデルとは異なり、我々の手法は外部のトレーニングソースを必要とせず、自己生成された信号を活用してメタ認知をトレーニングします。さらに、我々の手法は、i)自明または解けないゼロ分散プロンプトをフィルタリングし、ii)正しい答えに導く可能性が低い長いロールアウトを切り捨てることで、効率的なトレーニングを可能にします。結果は非常に有望で、我々の戦略はドメイン内タスクにおいて精度とトレーニング効率の両方で大幅な改善を示し、ドメイン外のベンチマークに対しても強い汎化性能を示しました。具体的には、我々の手法はGRPOトレーニングを1.28倍以上高速化して同じ性能を達成し、AIME25では19.3%の精度向上、6つの数学ベンチマークでは平均6.2%の精度向上を実現しました。メタ認知的ガイダンスによるトレーニングはドメイン外の汎化を強化し、GPQA-Diamondでは3.87%の向上、論理、科学、コーディングのドメインにまたがる13のベンチマーク全体では2.08%の精度向上をもたらしました。
大規模言語モデル(LLM)の力を活用するには、有用性と無害性の間で繊細なバランスを取る必要があります。これにより、安全でないコンテンツを引き出す敵対的攻撃に対する脆弱性と、無害だがセンシティブなプロンプトに対する過剰な拒否傾向という、2つの相反する課題の間で根本的な緊張が生まれます。現在のアプローチでは、安全でない部分を含むコンテンツを完全に拒否するセーフガードモデルを用いてこのバランスを取ることが多いです。しかし、このアプローチは音楽を完全に止めてしまうようなもので、過剰な拒否を悪化させ、拒否したクエリに対するニュアンスのあるガイダンスを提供できない可能性があります。モデルにより協調的な振り付けを教えるために、我々はWaltzRLを提案します。これは、安全性の整合性を協力的で正和のゲームとして定式化する新しいマルチエージェント強化学習フレームワークです。WaltzRLは、会話エージェントとフィードバックエージェントを共同で訓練し、後者は会話エージェントの応答の安全性と有用性を向上させるための有用な提案を提供するようインセンティブを与えられます。WaltzRLの核心は、会話エージェントがフィードバックをどれだけうまく取り入れるかに基づいて時間とともに進化する動的改善報酬(DIR)です。推論時には、会話エージェントからの安全でないまたは過剰な拒否応答は破棄されるのではなく、改善されます。フィードバックエージェントは会話エージェントと一緒に展開され、必要な場合にのみ適応的に介入し、安全なクエリに対する有用性と低遅延を維持します。5つの多様なデータセットで実施した実験では、WaltzRLがさまざまなベースラインと比較して、安全でない応答(例:WildJailbreakで39.0%から4.6%へ)と過剰な拒否(OR-Benchで45.3%から9.9%へ)を大幅に減少させることが示されました。会話エージェントとフィードバックエージェントが共に進化し、適応的にフィードバックを適用することで、WaltzRLは一般的な能力を低下させることなくLLMの安全性を向上させ、有用性と無害性の間のパレートフロンティアを前進させます。
近年、指示に基づく画像編集および被写体駆動生成の分野で大きな進展が見られるものの、これらのタスクは依然として実用的なユーザーニーズを満たす上で限界に直面している。指示に基づく編集は言語指示のみに依存しており、特定の編集詳細を捉えることがしばしば困難であるため、参照画像が必要となる。一方、被写体駆動生成は具体的な物体や人物の組み合わせに限定されており、より広範で抽象的な概念を見落としている。これらの課題に対処するため、我々はマルチモーダル指示に基づく編集と生成という二つの新たなタスクを提案する。これらのタスクはテキストと画像の両方の指示をサポートし、具体的および抽象的な概念を含む範囲を拡大することで、実用的な応用を大幅に向上させる。我々はDreamOmni2を導入し、データ作成とモデルフレームワーク設計という二つの主要な課題に取り組む。我々のデータ合成パイプラインは以下の三つのステップから構成される:(1) 抽象および具体的な概念の抽出データを作成するための特徴混合手法の使用、(2) 編集および抽出モデルを用いてマルチモーダル指示に基づく編集のトレーニングデータを生成、(3) 抽出モデルをさらに適用してマルチモーダル指示に基づく編集のトレーニングデータを作成。フレームワークに関しては、複数画像の入力を処理するために、インデックスエンコーディングと位置エンコーディングシフトスキームを提案し、モデルが画像を区別しピクセルの混乱を避けることを支援する。さらに、VLMと我々の生成/編集モデルとの共同トレーニングを導入し、複雑な指示をより適切に処理する。加えて、これらの新たなタスクの開発を促進するための包括的なベンチマークを提案した。実験結果は、DreamOmni2が印象的な成果を達成したことを示している。モデルとコードは公開予定である。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデルの複雑な推論能力を向上させてきたが、そのスケーラビリティはしばしば訓練のボトルネックによって制限されている。このボトルネックでは、ポリシーのエントロピーが崩壊し、探索が失われることで性能が頭打ちになる。従来の手法では、一般的にポリシーのエントロピーを高く維持することでこの問題に対処してきたが、意味のある探索を支配する正確なメカニズムは十分に検討されていない。我々の分析によれば、エントロピーに無選択的に焦点を当てることは、無関係なトークンを増幅し、訓練を不安定にするリスクがある。本論文では、RLVR内の探索ダイナミクスを調査し、重要な問題を特定した:価値のある低確率の探索トークン、我々が「推論の火花」(reasoning sparks)と呼ぶものが徐々に排除されることである。事前学習済みモデルではこれらの火花が豊富に存在するが、RLVR中に過剰なペナルティによって系統的に消滅し、探索の退化を引き起こすことがわかった。この問題に対処するため、我々は低確率正則化(Lp-Reg)を導入する。その核心的なメカニズムは、ポリシーをヒューリスティックな代理分布に向けて正則化することである。この代理分布は、ノイズと推定されるトークンをフィルタリングし、残りの候補に対して分布を再正規化することで構築される。その結果、推論の火花の確率が増幅されたノイズの少ない代理分布が得られ、これがKLダイバージェンスを通じてこれらの価値あるトークンを排除から保護するためのソフトな正則化ターゲットとして機能する。実験結果は、Lp-Regが約1,000ステップにわたる安定したオン・ポリシー訓練を可能にすることを示しており、これはベースラインのエントロピー制御手法が崩壊する領域である。この持続的な探索は、5つの数学ベンチマークで平均60.17%の精度を達成し、従来の手法よりも2.66%の改善をもたらす最先端の性能を実現する。コードはhttps://github.com/CarlanLark/Lp-Regで公開されている。
大規模言語モデルは、AI駆動科学における基礎的な課題である科学法則の発見において、強力なツールとして台頭しつつある。しかし、このタスクに対する既存のベンチマークは、根本的な方法論的トリレンマに悩まされており、科学的関連性、スケーラビリティ、記憶化への耐性の間でトレードオフを迫られている。さらに、これらのベンチマークは発見を静的な関数フィッティングとして過度に単純化しており、複雑なモデルシステムをインタラクティブに探索することで埋め込まれた法則を明らかにするという本物の科学的プロセスを捉え損ねている。これらの重要なギャップに対処するため、我々はNewtonBenchを導入する。これは12の物理学領域にわたる324の科学法則発見タスクから構成されるベンチマークである。我々の設計は、メタフィジカルシフト(正統的な法則の体系的な変更)を使用して、スケーラブルで科学的に関連性があり、記憶化に耐性のある問題群を生成することで、評価のトリレンマを緩和する。さらに、評価を静的な関数フィッティングからインタラクティブなモデル発見に昇華させ、エージェントがシミュレートされた複雑なシステムを実験的に探査して隠れた原理を明らかにすることを要求する。我々の大規模な実験は、最先端のLLMにおける発見能力が明確ではあるが脆弱であることを明らかにした:この能力はシステムの複雑さが増すにつれて急激に低下し、観測ノイズに対して極端に敏感である。特に、ツール支援の逆説的な効果を発見した:コードインタプリタを提供することで、より能力の高いモデルが探索から搾取へと早期に移行し、最適ではない解に満足してしまうことがある。これらの結果は、複雑でインタラクティブな環境における堅牢で汎用的な発見が依然として中核的な課題であることを示している。スケーラブルで堅牢かつ科学的に本物のテストベッドを提供することで、NewtonBenchは真の進歩を測定し、本物の科学的発見が可能な次世代AIエージェントの開発を導くための重要なツールを提供する。
大規模言語モデル(LLM)エージェントの最近の進歩は、その汎用的な能力の有望さを示しています。しかし、専門的な現実世界のドメインにおける性能は、外部ツールの効果的な統合や特定のプロンプト戦略の課題によりしばしば低下します。エージェント強化学習のような手法がこれを解決するために提案されていますが、これらは通常、高コストなパラメータ更新に依存しています。例えば、教師ありファインチューニング(SFT)を経て、Group Relative Policy Optimization(GRPO)を用いた強化学習(RL)フェーズを通じて出力分布を変更するプロセスが挙げられます。しかし、我々は、LLMがトークンプライアとして経験的知識を学習することで、同様の出力分布効果を達成できると主張します。これは、実践的なデータ不足に対処するだけでなく、過学習という一般的な問題を回避する、はるかに軽量なアプローチです。この目的のために、我々はパラメータ更新を一切必要としない、コスト効率の高い解決策であるTraining-Free Group Relative Policy Optimization(Training-Free GRPO)を提案します。この手法は、各ロールアウトグループ内で数値的な利点ではなくグループ相対的な意味的利点を活用し、最小限のグラウンドトゥルースデータ上でのマルチエポック学習中に高品質な経験的知識を反復的に蒸留します。このような知識は学習されたトークンプライアとして機能し、LLM API呼び出し中にシームレスに統合されてモデルの振る舞いを導きます。数学的推論とウェブ検索タスクにおける実験では、Training-Free GRPOをDeepSeek-V3.1-Terminusに適用することで、ドメイン外の性能が大幅に向上することが示されました。わずか数十のトレーニングサンプルで、Training-Free GRPOは限られたトレーニングデータとコストでファインチューニングされた小型LLMを上回りました。
大規模言語モデル(LLM)の推論能力向上のためのポストトレーニングでは、検証可能な報酬、すなわち0-1の正解信号を提供する決定論的チェッカーに依存することが増えている。このような二値フィードバックは信頼性が高い一方で脆く、多くのタスクでは部分的に正しい回答や代替回答が存在し、検証器が十分に評価しない場合がある。その結果、全か無かの監督は学習を制限してしまう。報酬モデルはより豊かで連続的なフィードバックを提供し、検証器の補完的な監督信号として機能し得る。本論文では、検証器の信号と報酬モデルのスコアを構造的に統合する強化学習フレームワークであるHERO(Hybrid Ensemble Reward Optimization)を提案する。HEROは、層別正規化を用いて報酬モデルのスコアを検証器が定義するグループ内に制限し、正しさを保ちつつ品質の差異を洗練する。また、分散を考慮した重み付けにより、密な信号が最も重要な難しいプロンプトを強調する。多様な数学的推論ベンチマークにおいて、HEROは報酬モデルのみまたは検証器のみのベースラインを一貫して上回り、検証可能なタスクと検証が難しいタスクの両方で大きな改善を示した。我々の結果は、ハイブリッド報酬設計が検証器の安定性を維持しつつ、報酬モデルのニュアンスを活用して推論能力を向上させることを示している。
単眼画像シーケンスからのオンザフライ3D再構成は、コンピュータビジョンにおける長年の課題であり、リアル・トゥ・シミュレーション、AR/VR、ロボティクスなどのアプリケーションにおいて重要です。既存の手法は大きなトレードオフに直面しています:シーンごとの最適化は高忠実度を実現しますが計算コストが高く、フォワード型の基盤モデルはリアルタイム推論を可能にしますが精度とロバスト性に課題があります。本研究では、ARTDECOを提案します。これは、フォワード型モデルの効率性とSLAMベースのパイプラインの信頼性を統合したフレームワークです。ARTDECOは、ポーズ推定とポイント予測に3D基盤モデルを使用し、マルチスケール特徴を構造化された3Dガウシアンに変換するガウシアンデコーダを組み合わせています。スケールにおいて忠実度と効率性を両立させるために、LoDを考慮したレンダリング戦略を備えた階層型ガウシアン表現を設計し、レンダリングの忠実度を向上させながら冗長性を削減します。8つの多様な屋内および屋外ベンチマークでの実験により、ARTDECOはSLAMに匹敵するインタラクティブな性能、フォワード型システムに類似したロバスト性、シーンごとの最適化に近い再構成品質を提供し、正確なジオメトリと高い視覚的忠実度を兼ね備えた現実世界環境のオンザフライデジタル化への実用的な道筋を示します。詳細なデモはプロジェクトページ(https://city-super.github.io/artdeco/)でご覧ください。
並列スケーリングは、複数のChain-of-Thought(CoT)トレースを同時に生成することで、大規模言語モデル(LLM)の推論能力を向上させる強力なパラダイムとして登場しました。しかし、このアプローチはトレース間の冗長性により、大きな計算効率の低下を引き起こします。私たちの分析によると、並列推論トレースの80%以上が同一の最終回答を生成しており、これは大幅な計算の無駄を表しています。この重要な効率のボトルネックに対処するため、私たちはDeepPruneという新しいフレームワークを提案します。このフレームワークは、動的プルーニングを通じて効率的な並列スケーリングを実現します。私たちの手法は、焦点損失とオーバーサンプリング技術を用いて訓練された専用の判定モデルを特徴とし、部分的な推論トレースから回答の等価性を正確に予測します(等価性予測で0.87のAUROCを達成)。さらに、オンライン貪欲クラスタリングアルゴリズムを組み合わせることで、回答の多様性を保ちながら冗長なパスを動的にプルーニングします。3つの挑戦的なベンチマーク(AIME 2024、AIME 2025、GPQA)と複数の推論モデルにわたる包括的な評価により、DeepPruneは従来のコンセンサスサンプリングと比較してほとんどのケースで80%以上のトークン削減を達成しつつ、3%ポイント以内の競争力のある精度を維持することが示されました。私たちの研究は、効率的な並列推論の新たな標準を確立し、高性能な推論をより効率的にします。私たちのコードとデータはこちらです:https://deepprune.github.io/
大規模言語モデルは最近、推論能力において著しい進歩を示しており、これは主に長い思考連鎖を生成し、内省的な推論を行う能力に起因すると考えられています。しかし、内省が性能向上にどの程度寄与しているかは依然として不明確です。本論文では、5つの数学データセットにおける8つの推論モデルの展開を系統的に分析します。特に、モデルが既に答えを生成した後も出力を確定する前に内省を続ける行動に焦点を当てます。分析の結果、内省は主に確認的であり、モデルの初期回答を変更することは稀であることが明らかになりました。このパターンはモデルやデータセットを問わず一貫しています。内省のトレーニングにおける役割を理解するため、異なる数の内省ステップを含む教師ありファインチューニング(SFT)データセットを構築しました。より多くの内省ステップを含む展開でモデルをトレーニングすると、主に最初の回答の正確性が向上し、内省を通じて最初に間違った回答を修正する能力はあまり向上しないことが観察されました。これを受けて、推論プロセスを数個の妥当な候補回答が生成された時点で停止することで、不要な内省ステップを削減し、推論時のトークン効率を向上させる質問認識型早期停止法を提案します。さらに、生成中に候補回答が出現した後に内省を動的に切り詰めることを提案し、これにより5つの数学データセットにおいて推論トークンを24.5%削減し、精度の低下は2.9%以内に抑えることができました。
従来の研究では、狭い領域(例えば、安全でないコードや誤った医療アドバイス)における悪意あるまたは誤った補完データでファインチューニングされた大規模言語モデル(LLM)が、有害な行動を示すように広範にミスアライメントされる可能性があることが示されており、これを「創発的ミスアライメント」と呼びます。本研究では、この現象が安全性に関する行動を超えて、高リスクシナリオ(例えば、プレッシャー下での嘘や欺瞞的行動)における不誠実さや欺瞞の広範な領域にまで拡張されるかどうかを調査します。これを探るため、オープンソースのLLMを多様な領域におけるミスアライメントされた補完データでファインチューニングします。実験結果から、LLMが不誠実さにおいて広範にミスアライメントされた行動を示すことが明らかになりました。さらに、下流タスクにおける複合ファインチューニング設定でこの現象を探り、標準的な下流タスクにわずか1%のミスアライメントデータを導入するだけで、誠実な行動が20%以上減少することを発見しました。また、より実践的な人間-AI相互作用環境を考慮し、良性および偏見のあるユーザーをシミュレートしてアシスタントLLMと相互作用させます。特に、偏見のあるユーザーが10%存在するだけで、アシスタントが意図せずにミスアライメントされ、不誠実さが悪化する可能性があることがわかりました。要約すると、本研究は創発的ミスアライメントの研究を高リスクシナリオにおける不誠実さや欺瞞の領域に拡張し、このリスクが直接的なファインチューニングだけでなく、下流の混合タスクや実践的な人間-AI相互作用においても生じることを実証しました。
カスケード型ビデオ超解像は、大規模な基盤モデルを用いて高解像度ビデオを生成する際の計算負荷を軽減する有望な技術として登場しました。しかし、既存の研究は主にテキストからビデオを生成するタスクに限定されており、テキスト以外の生成条件を活用できていません。これらの条件は、マルチモーダルなビデオ生成において忠実性を確保するために重要です。本研究ではこの制約を解決するため、テキスト、画像、ビデオを含むハイブリッドモーダル条件を統合した初の生成型ビデオ超解像フレームワークであるUniMMVSRを提案します。潜在ビデオ拡散モデル内での条件注入戦略、学習スキーム、データ混合技術について包括的に検討しました。重要な課題は、ターゲットビデオとの相関が異なる全ての条件タイプをモデルが正確に活用できるよう、データ構築と条件利用方法を設計することでした。実験の結果、UniMMVSRは既存手法を大幅に上回り、優れたディテールとマルチモーダル条件への高い適合度を備えたビデオを生成することが示されました。また、UniMMVSRをベースモデルと組み合わせることで、4Kビデオのマルチモーダルガイド付き生成を実現する可能性を検証しました。これは既存技術では達成できなかった成果です。
既存のマルチモーダル大規模言語モデル(MLLM)では、事前学習済みの視覚エンコーダーと事前学習済みのLLMを連続的なマルチモーダル事前学習を通じて接続する構成学習が事実上のパラダイムとなっています。しかし、このパラダイムのマルチモーダルスケーリング特性は、分離された学習のため探求が困難です。本論文では、エンドツーエンド方式でのMLLMのネイティブ学習に焦点を当て、実用的な設定(データ制約)における設計空間とスケーリング特性を体系的に研究します。MLLMにおける様々な選択肢を慎重に検討することで、性能と学習コストのバランスが最適なメタアーキテクチャを導出しました。その後、ネイティブMLLMのスケーリング特性をさらに探求し、視覚エンコーダーとLLMの間に正の相関関係があることを示しました。これらの知見に基づき、シンプルでコスト効率の高いレシピと組み合わせたネイティブMLLM「NaViL」を提案します。14のマルチモーダルベンチマークでの実験結果は、NaViLが既存のMLLMに対して競争力のある性能を発揮することを確認しています。さらに、我々の知見と結果は、今後のネイティブMLLM研究に対する深い洞察を提供します。
自己進化は、大規模言語モデル(LLM)ベースのエージェントが事前学習後に継続的に能力を向上させるための中心的な研究テーマである。最近の研究では、強化学習(RL)を用いない手法からRLベースの手法への移行が進んでいる。現在のRLベースの手法は、密な外部報酬信号に依存するか、LLM自体から内在的な報酬信号を抽出するかのいずれかである。しかし、これらのアプローチは、人間の知性において観察される自己進化メカニズムとは異なる。人間は相互の議論と協力を通じて学習し、改善する。本研究では、外部の監督なしにエージェント間の相互作用から学習することで自律的に改善を可能にする新しいフレームワークであるCo-Evolving Multi-Agent Systems(CoMAS)を提案する。CoMASは、豊富な議論のダイナミクスから内在的な報酬を生成し、LLMを裁判官として利用してこれらの報酬を定式化し、RLを通じて各エージェントのポリシーを最適化することで、分散的かつスケーラブルな共進化を実現する。実験結果は、CoMASが未訓練のエージェントを一貫して上回り、ほとんどの評価設定において最先端の性能を達成することを示している。アブレーション研究は、相互作用に基づく報酬信号の必要性を確認し、エージェントの数と多様性が増加するにつれて有望なスケーラビリティを明らかにしている。これらの知見は、CoMASをLLMベースのエージェントにおける自己進化の新たで効果的なパラダイムとして確立するものである。
我々は、拡散モデルを用いたビデオスタイル変換の課題に取り組む。この課題の目的は、入力ビデオの文脈を保ちつつ、テキストプロンプトで指定されたターゲットスタイルでレンダリングすることである。主要な課題は、教師データとしてのペアビデオデータの欠如である。我々は、PickStyleというビデオツービデオスタイル変換フレームワークを提案する。これは、事前学習済みのビデオ拡散バックボーンにスタイルアダプターを追加し、ソーススタイル対応を持つペア静止画データを活用して訓練する。PickStyleは、条件付けモジュールの自己注意層に低ランクアダプターを挿入し、ビデオ内容とスタイルの強力な整合性を保ちつつ、モーションスタイル変換のための効率的な特殊化を可能にする。静止画の教師データと動的ビデオのギャップを埋めるため、カメラモーションをシミュレートする共有拡張を適用してペア画像から合成訓練クリップを構築し、時間的プライアを保持する。さらに、我々は、Context-Style Classifier-Free Guidance (CS-CFG)を導入する。これは、クラスフリーガイダンスを独立したテキスト(スタイル)とビデオ(文脈)方向に分解する新しい手法である。CS-CFGは、生成されたビデオで文脈が保持されつつ、スタイルが効果的に変換されることを保証する。ベンチマーク実験により、我々のアプローチが時間的に一貫し、スタイルに忠実で、内容を保持するビデオ変換を実現し、既存のベースラインを質的・量的に上回ることが示された。
近年のマルチモーダル大規模言語モデル(MLLM)の進展により、視覚的理解と推論能力が大幅に向上し、これらを拡散モデルの編集性能向上に活用する関心が高まっています。しかし、急速な進展にもかかわらず、ほとんどの研究ではMLLMの設計選択に関する詳細な分析が不足しています。さらに、MLLMと拡散モデルの統合は、ビデオ編集などの困難なタスクにおいて依然として未解決の課題です。本論文では、画像およびビデオ編集のための統一フレームワークであるInstructXを提案します。具体的には、多様なタスクにおける指示駆動型編集のためにMLLMと拡散モデルを統合する包括的な研究を行います。この研究を基盤として、画像とビデオの統一モデリングにおける協調と差異を分析します。(1) 画像データでのトレーニングが、明示的な監督なしにビデオ編集能力を発現させ、ビデオトレーニングデータの不足による制約を緩和できることを示します。(2) モダリティ固有のMLLM特徴を組み込むことで、画像とビデオ編集タスクを単一モデル内で効果的に統合します。広範な実験により、本手法が多様な画像およびビデオ編集タスクを処理し、最先端の性能を達成できることを実証します。
報酬モデル(RM)は、大規模言語モデル(LLM)を人間の好みに合わせる上で重要な役割を果たします。現実世界のアプリケーションでは、LLMエージェントなどの長い履歴軌跡がますます関わるようになり、モデルの応答が高品質であるだけでなく、提供された文脈に基づいて一貫しているかどうかを評価することが不可欠になっています。しかし、現在のRMは短い文脈設定に限定されており、主に応答レベルの属性(安全性や有用性など)に焦点を当てており、長い文脈と応答の一貫性という重要な次元をほとんど無視しています。本研究では、長文脈RM評価のために特別に設計されたベンチマークであるLong-RewardBenchを紹介します。このベンチマークは、ペアワイズ比較とBest-of-Nタスクを特徴としています。予備調査では、最先端の生成RMでさえ、長文脈シナリオにおいて重大な脆弱性を示し、文脈を意識した選好判断を維持できないことが明らかになりました。モデル出力で観察された失敗パターンの分析に基づき、任意のモデルを堅牢な長文脈RM(LongRM)に拡張する一般的な多段階トレーニング戦略を提案します。実験結果は、このアプローチが長文脈評価のパフォーマンスを大幅に向上させるだけでなく、強力な短文脈能力も保持することを示しています。特に、8BのLongRMは、はるかに大規模な70Bベースラインを上回り、プロプライエタリなGemini 2.5 Proモデルの性能に匹敵することが注目されます。
マルチモーダル検索拡張生成(MM-RAG)は、大規模言語モデル(LLMs)やエージェントを現実世界の知識ベースに適用するための重要なアプローチである。しかし、現在の評価は断片的であり、テキストや画像を単独で扱うか、またはドキュメント中心のマルチモーダルユースケースを捉えられない簡素化されたマルチモーダル設定に焦点を当てている。本論文では、8つのドメインにわたる70,000ページの実世界のPDFページから構築された、初の大規模で現実的なMM-RAGベンチマークであるUniDoc-Benchを紹介する。私たちのパイプラインは、テキスト、表、図から証拠を抽出しリンクさせ、その後、事実検索、比較、要約、論理的推論クエリにまたがる1,600のマルチモーダルQAペアを生成する。信頼性を確保するため、QAペアの20%は複数のアノテーターと専門家の裁定によって検証されている。UniDoc-Benchは、統一されたプロトコルと標準化された候補プール、プロンプト、評価指標の下で、以下の4つのパラダイムを公平に比較することをサポートする:(1) テキストのみ、(2) 画像のみ、(3) マルチモーダルテキスト-画像融合、(4) マルチモーダル共同検索。私たちの実験では、マルチモーダルテキスト-画像融合RAGシステムが、単一モーダルおよび共同マルチモーダル埋め込みベースの検索を一貫して上回り、テキストや画像だけでは不十分であり、現在のマルチモーダル埋め込みが依然として不十分であることを示している。ベンチマークを超えて、私たちの分析は、視覚的コンテキストがテキストの証拠を補完するタイミングと方法を明らかにし、体系的な失敗モードを発見し、より堅牢なMM-RAGパイプラインを開発するための実践的なガイダンスを提供する。
大規模言語モデル(LLM)は多様な領域で顕著な能力を発揮しているが、現実世界の長期的タスクにおけるAIエージェントとして展開する際には依然として重大な課題が存在する。既存のLLMエージェントは、テスト時に静的であり、経験から学習することができないという重大な制約を抱えている。これにより、知識を蓄積し、継続的に業務を改善する能力が欠如している。この課題に対処するため、我々はMUSEという新しいエージェントフレームワークを提案する。MUSEは、階層的なメモリモジュールを中心とした経験駆動型の自己進化システムを導入する。MUSEは多様なレベルの経験を組織化し、それらを活用して複数のアプリケーションにわたる長期的タスクを計画・実行する。各サブタスクの実行後、エージェントは自律的にその軌跡を振り返り、生の軌跡を構造化された経験に変換し、それをメモリモジュールに統合する。このメカニズムにより、エージェントは静的に事前学習されたパラメータを超えて進化し、継続的な学習と自己進化を促進する。我々はMUSEを長期的生産性ベンチマークTACで評価した。軽量なGemini-2.5 Flashモデルのみを使用して、大幅な差で新しいSOTA性能を達成した。十分な実験により、エージェントが自律的に経験を蓄積するにつれて、タスク完了能力が向上し、堅牢な継続的学習と自己進化能力を示すことが実証された。さらに、MUSEから蓄積された経験は強力な汎化特性を示し、新しいタスクに対するゼロショット改善を可能にする。MUSEは、現実世界の生産性タスク自動化が可能なAIエージェントの新しいパラダイムを確立する。
本研究は、テキストから同期した音声付き動画を生成するという、挑戦的でありながら有望なタスクであるText-to-Sounding-Video(T2SV)生成に焦点を当てる。このタスクでは、テキスト条件に基づいて動画と音声を生成し、両モダリティがテキストと整合することを保証する。音声と動画の共同学習における進展にもかかわらず、以下の2つの重要な課題が未解決のまま残されている:(1)動画と音声のテキストが同一である単一の共有テキストキャプションは、モダリティ間の干渉を引き起こし、事前学習済みバックボーンを混乱させることがある。(2)クロスモーダル特徴間の最適な相互作用メカニズムが不明確である。これらの課題に対処するため、まず、干渉を排除するために、動画キャプションと音声キャプションのペアを生成する階層的視覚基盤型キャプショニング(HVGC)フレームワークを提案する。HVGCに基づき、さらに、双方向の情報交換を可能にする堅牢な「橋渡し」として機能するDual CrossAttention(DCA)メカニズムを採用した新規のデュアルタワーディフュージョントランスフォーマーであるBridgeDiTを導入する。これにより、意味的および時間的な同期を実現する。3つのベンチマークデータセットを用いた広範な実験と人間による評価により、本手法がほとんどの指標で最先端の結果を達成することが示された。包括的なアブレーション研究により、本提案の有効性がさらに検証され、今後のT2SVタスクに対する重要な洞察が提供される。すべてのコードとチェックポイントは公開される予定である。
Group Relative Preference Optimization(GRPO)のような強化学習手法は大規模言語モデルの性能を大幅に向上させてきたが、それらを拡散モデルに適用することは依然として課題となっている。特に、GRPOは確率的ポリシーを必要とするが、最もコスト効率の良い拡散サンプラーは決定論的なODEに基づいている。最近の研究では、確率性を導入するために非効率なSDEベースのサンプラーを使用することでこの問題に対処しているが、モデルに依存しないガウシアンノイズに依存しているため、収束が遅くなる。この問題を解決するために、我々はDirect Group Preference Optimization(DGPO)を提案する。DGPOは、ポリシー勾配フレームワークを完全に排除した新しいオンライン強化学習アルゴリズムである。DGPOはグループレベルの選好から直接学習し、グループ内のサンプルの相対情報を活用する。この設計により、非効率な確率的ポリシーが不要となり、効率的な決定論的ODEサンプラーと高速な学習が可能になる。広範な実験結果から、DGPOは既存の最先端手法よりも約20倍速く学習し、ドメイン内およびドメイン外の報酬指標において優れた性能を達成することが示された。コードはhttps://github.com/Luo-Yihong/DGPOで公開されている。
大規模マルチモーダルモデル(LMMs)は、さまざまな能力において顕著な進歩を遂げてきた。しかし、科学分野における複雑な映像推論は、依然として重要な課題であり、挑戦的なフロンティアである。現在の映像ベンチマークは、主に一般的なシナリオを対象としており、認識・識別に大きく依存している一方で、比較的単純な推論タスクが中心となっているため、飽和状態に陥り、高度なマルチモーダル認知能力を効果的に評価することができていない。この重要なギャップを埋めるため、我々は科学コンテキストにおける高度な映像推論を評価するために特別に設計された厳密なベンチマーク「SciVideoBench」を導入する。SciVideoBenchは、25以上の専門的な学術分野にわたる最先端の科学実験映像から派生した1,000の慎重に作成された多肢選択問題で構成されており、半自動システムによって検証されている。各問題は、高度な分野固有の知識、正確な時空間認識、そして複雑な論理的推論を要求し、モデルの高次認知能力に効果的に挑戦する。我々の評価では、Gemini 2.5 ProやQwen2.5-VLを含む最先端のプロプライエタリおよびオープンソースのLMMsにおいて、映像推論能力に大きな性能不足が明らかになり、さらなる進歩の余地があることが示された。推論の複雑さや視覚的基盤といった重要な要因の詳細な分析は、LMMsの将来の発展に向けた貴重な洞察と明確な方向性を提供し、真に有能なマルチモーダルAI共同研究者の進化を促進する。我々は、SciVideoBenchがコミュニティの関心に合致し、最先端AIの境界を広げるための一助となることを期待している。
本研究は、連続時間整合性蒸留を一般のアプリケーションレベルの画像およびビデオ拡散モデルにスケールアップする初めての試みを提示する。連続時間整合性モデル(sCM)は、学術規模の拡散加速において理論的に正当化され、経験的に強力であるが、大規模なテキストから画像やビデオタスクへの適用性は、ヤコビアン-ベクトル積(JVP)計算のインフラストラクチャ上の課題や標準評価ベンチマークの制限により不明確であった。我々はまず、並列処理に対応したFlashAttention-2 JVPカーネルを開発し、100億パラメータを超えるモデルや高次元ビデオタスクでのsCMトレーニングを可能にした。調査の結果、sCMには微細な詳細生成における根本的な品質制限があることが明らかとなり、これは誤差蓄積とその前方発散目的の「モードカバリング」性質に起因すると考えられる。これを改善するため、スコア正則化連続時間整合性モデル(rCM)を提案し、スコア蒸留を長距離スキップ正則化として組み込んだ。この統合により、sCMに「モードシーキング」の逆発散を補完し、視覚品質を効果的に向上させながら高い生成多様性を維持することができる。大規模モデル(Cosmos-Predict2、Wan2.1)および5秒ビデオにおいて最大14Bパラメータで検証された結果、rCMは品質指標において最先端の蒸留手法DMD2に匹敵またはそれを上回り、多様性においても顕著な利点を示し、GANチューニングや広範なハイパーパラメータ探索を必要としない。蒸留されたモデルは1~4ステップで高忠実度サンプルを生成し、拡散サンプリングを15~50倍加速する。これらの結果は、rCMを大規模拡散蒸留を進めるための実用的かつ理論的に根拠のあるフレームワークとして位置づけるものである。
近年の推論モデルの進歩は、強化学習を通じて認知的行動を示してきたが、既存のアプローチでは、長期的な相互作用を伴うマルチターンエージェントにおいて深い推論能力を引き出すことに苦戦している。我々は、DeepMinerという新しいフレームワークを提案し、高難度のトレーニングタスクと動的コンテキストウィンドウを導入することで、そのような能力を引き出す。DeepMinerは、信頼性のあるウェブソースから複雑だが検証可能な質問-回答ペアを生成する逆構築法を提示し、トレーニングデータの難易度と信頼性を確保しながら、マルチターン推論シナリオに認知能力を注入する。さらに、トレーニングと推論の両方において、外部の要約モデルへの依存を排除しつつスライディングウィンドウメカニズムを活用した、洗練されながらも効果的な動的コンテキスト管理戦略を設計し、モデルが継続的に拡大する長期的なコンテキストを効率的に処理できるようにする。Qwen3-32Bに対する強化学習を通じて、DeepMiner-32Bを開発し、複数の検索エージェントベンチマークで大幅な性能向上を達成した。DeepMinerは、BrowseComp-enで33.5%の精度を達成し、従来の最高のオープンソースエージェントを約20ポイント上回り、BrowseComp-zh、XBench-DeepSearch、GAIAでも一貫した改善を示した。特に、我々の動的コンテキスト管理により、標準の32kコンテキスト長内でほぼ100ターンにわたる持続的な相互作用が可能となり、既存のマルチターン相互作用システムを制約するコンテキストの限界を効果的に解決する。
報酬モデリングは、人間のフィードバックからの強化学習(RLHF)の中核をなすが、既存の報酬モデルの多くは、人間の選好の多面的な性質を捉えられないスカラー値やペアワイズ評価に依存している。最近の研究では、回答の質を多面的に捉える構造化された自然言語基準を用いる「ルーブリック・アズ・リワード(RaR)」が探求されている。しかし、信頼性と拡張性を兼ね備えたルーブリックの作成は依然として主要な課題である。本研究では、ルーブリック生成およびルーブリックベースの報酬モデルの訓練用に、多様で大規模な(プロンプト、ルーブリック)ペアのコレクションであるOpenRubricsを紹介する。識別的で包括的な評価信号を引き出すために、好ましい回答と拒否された回答を対比することで、明示的な制約(ハードルール)と暗黙的な質(原則)の両方を導出する「対照的ルーブリック生成(CRG)」を導入する。さらに、ノイズの多いルーブリックを除去するために、リジェクトサンプリングを通じて選好ラベルの一貫性を強化し、信頼性を向上させる。複数の報酬モデリングベンチマークにおいて、我々のルーブリックベースの報酬モデル「Rubric-RM」は、同等サイズのベースラインを6.8%上回る性能を示した。これらの利点は、指示追従や生物医学的ベンチマークにおけるポリシーモデルにも転移する。我々の結果は、ルーブリックが、コストのかかる人間評価と自動化された報酬モデリングのギャップを埋める拡張可能なアライメント信号を提供し、LLMアライメントの新しい原則駆動型パラダイムを可能にすることを示している。
我々はERAという新しいパラダイムを提案します。これは、モデルの出力に特別に設計された活性化関数を適用することで、サンプリングエントロピーを所定の閾値以上に制約するものです。本手法は様々な領域で幅広い有効性を示しています:1) 大規模言語モデル(LLM)において、Qwen2.5-Math-7BのAIME 2025スコアを37.4%向上させ、2) 連続制御強化学習エージェントでは、HumanoidBenchのような難易度の高いタスクにおいてSACなどの強力なベースラインを30%以上上回る性能を達成し、3) 画像分類では、ResNet-50のImageNetトップ1精度を0.69%向上させました。これらの改善は、7%未満の計算オーバーヘッドで実現されています。我々の研究は、出力活性化関数がエントロピー制御の強力なツールであることを実証し、よりシンプルでロバストなアルゴリズム設計に向けた新たな方向性を開拓しました。
大規模言語モデル(LLM)の顕著な成功は、事前学習中に膨大な知識を記憶に統合し、推論時にその記憶から情報を検索する能力に由来しており、これにより知識の記憶、指示の実行、推論といった高度な能力が可能となる。しかし、LLMにおける記憶の検索と統合のメカニズムは未だ十分に理解されていない。本論文では、LLMの動作を説明するための機能トークン仮説を提案する:推論時、機能トークンは文脈から最も予測力の高い特徴を活性化し、次のトークンの予測(記憶の検索)を制御する。事前学習時、機能トークンに続く次のトークン(通常は内容トークン)を予測することで、LLMの学習された特徴の数が増加し、モデルパラメータが更新される(記憶の統合)。ここでの機能トークンは、言語学における機能語(句読点、冠詞、前置詞、接続詞など)にほぼ対応し、内容トークンとは対照的である。本仮説を支持する広範な実験的証拠を提供する。二部グラフ解析を用いて、少数の機能トークンが大多数の特徴を活性化することを示す。ケーススタディでは、機能トークンが文脈から最も予測力の高い特徴を活性化し、次のトークンの予測を導く仕組みをさらに明らかにする。また、事前学習時、機能トークンに続く内容トークンを予測することが訓練損失の大部分を占め、機能トークンが文脈から最も予測力の高い特徴を選択することを強制することを見出した。
大規模言語モデルの事前学習における急速に増大する計算コストは、より効率的なアプローチを必要としています。既存の十分に学習されたチェックポイントには多くの計算コストが投入されていますが、エンジニアリング上の制約やモデル容量の限界により、その多くが十分に活用されていません。この「埋没」コストを効率的に再利用するため、私たちは事前学習済みチェックポイントをリサイクルし、パラメータ数を拡張して学習を継続することを提案します。特に、収束したMixture-of-Expertsモデルに適した直交成長法を提案します。深さ方向の成長には層間コピーを、幅方向の成長にはノイズを注入したエキスパートの複製を用います。チェックポイントシーケンス全体で最適な成長タイミングを決定するため、包括的なスケーリング実験を行い、最終的な精度が埋没コストの量と強い正の相関を持つことを明らかにしました。これは、より多くの事前投資がより良い性能につながることを示しています。私たちはこのアプローチを700億パラメータと1兆以上の学習トークンを有するモデルにスケールし、同じ追加計算予算でゼロから学習する場合と比較して10.66%の精度向上を達成しました。このチェックポイントリサイクルアプローチは、経済的に効率的な大規模言語モデルの事前学習の基盤を確立します。
本研究では、極めて制約の少ない実世界の2D写真から高精細な3D着衣ポートレートを再構築する、初のチューニング不要なソリューション「UP2You」を提案します。従来の手法では「クリーン」な入力(例:遮蔽が最小限の全身画像、または適切にキャリブレーションされたクロスビューキャプチャ)が必要でしたが、UP2Youはポーズ、視点、クロッピング、遮蔽が大きく異なる可能性のある生の非構造化写真を直接処理します。データをトークンに圧縮して低速なオンラインのテキストから3Dへの最適化を行う代わりに、制約のない入力をクリーンな直交マルチビュー画像に効率的に変換するデータレクティファイアパラダイムを導入し、数秒以内の単一フォワードパスで3D再構築を簡素化します。UP2Youの中核となるのは、ポーズ相関特徴量集約モジュール(PCFA)であり、ターゲットポーズに関して複数の参照画像からの情報を選択的に融合することで、より優れた同一性の保持と、観測数が増えてもほぼ一定のメモリ使用量を実現します。また、事前にキャプチャされたボディテンプレートを必要としない、パーシバーベースのマルチリファレンス形状予測器を導入します。4D-Dress、PuzzleIOI、および実世界のキャプチャを用いた広範な実験により、UP2Youが幾何学的精度(PuzzleIOIでChamfer-15%、P2S-18%)とテクスチャ忠実度(4D-DressでPSNR-21%、LPIPS-46%)の両方において、従来の手法を一貫して上回ることが実証されました。UP2Youは効率的(1人あたり1.5分)で汎用性が高く(任意のポーズ制御をサポートし、トレーニング不要なマルチガーメント3D仮想試着が可能)、人間がカジュアルに撮影される実世界のシナリオに実用的です。今後の研究を促進するため、モデルとコードを公開します。プロジェクトページ:https://zcai0612.github.io/UP2You
汎用的な手内物体回転の実現は、ロボティクスにおける重要な課題であり、その主な原因はシミュレーションから現実世界へのポリシー移行の難しさにある。器用な操作に伴う複雑で接触の多いダイナミクスは「現実ギャップ」を生み出し、これまでの研究は単純な形状、限られた物体サイズやアスペクト比、制約された手首姿勢、またはカスタマイズされたハンドを用いた限定されたシナリオに留まっていた。本研究では、シミュレーションで訓練された単一のポリシーが現実世界の多様な物体や条件に汎化することを可能にする新しいフレームワークを提案し、このシミュレーションから現実への課題に対処する。本手法の核心は、現実世界で収集された限られたデータを効果的にフィッティングし、シミュレーションポリシーの動作を適応させることで現実ギャップを埋める関節単位のダイナミクスモデルである。このモデルは、関節間のダイナミクスを因数分解し、システム全体の影響を低次元変数に圧縮し、各関節の進化をその独自のダイナミクスプロファイルから学習することで、これらのネット効果を暗黙的に捉えることにより、高いデータ効率性と異なる全手インタラクション分布への汎化性を実現している。さらに、最小限の人的介入で多様な現実世界のインタラクションデータを収集する完全自律型データ収集戦略を組み合わせている。本手法の完全なパイプラインは、複雑な形状(例:動物)、高いアスペクト比(最大5.33)、小さなサイズの物体を、多様な手首の向きや回転軸を扱いながら回転させるという前例のない汎用性を示している。包括的な現実世界での評価と複雑なタスクのためのテレオペレーションアプリケーションにより、本アプローチの有効性と堅牢性が検証されている。ウェブサイト: https://meowuu7.github.io/DexNDM/
大規模言語モデル(LLMs)と強化学習(RL)の最近の進展により、オープンドメイン質問応答(QA)において強力な性能が実現されています。しかし、既存のモデルは、複数の有効な回答が存在する質問に対処する際に依然として困難を抱えています。通常、単一の正解を想定する標準的なQAベンチマークはこの現実を見落としており、不適切なトレーニング信号を生成しています。曖昧さを扱う既存の試みは、多くの場合、コストのかかる手動アノテーションに依存しており、HotpotQAやMuSiQueなどのマルチホップデータセットに拡張するのが困難です。本論文では、曖昧さを認識し対処するためのアノテーションフリーのエンドツーエンドトレーニングフレームワークであるA^2Searchを提案します。その中核は、曖昧な質問を検出し、軌道サンプリングと証拠検証を通じて代替回答を収集する自動化されたパイプラインです。モデルは、複数の回答を自然に受け入れるように設計されたAnsF1報酬を用いてRLで最適化されます。8つのオープンドメインQAベンチマークでの実験により、A^2Searchが新たな最先端の性能を達成することが示されました。単一のロールアウトのみで、A^2Search-7Bは4つのマルチホップベンチマークで平均AnsF1@1スコア48.4%を達成し、ReSearch-32B(46.2%)を含むすべての強力なベースラインを上回りました。詳細な分析により、A^2Searchが曖昧さを解決し、ベンチマーク間で一般化することがさらに示され、曖昧さを受け入れることがより信頼性の高いQAシステムを構築するために不可欠であることが強調されています。コード、データ、およびモデルウェイトはhttps://github.com/zfj1998/A2Searchで公開されています。
強化学習は、大規模言語モデルの推論能力を向上させるために広く応用されてきました。特に、より小規模なモデルの推論限界を拡張することは、重要な研究テーマとなっています。しかし、Group Relative Policy Optimization (GRPO) のようなアルゴリズムには明らかな欠点があります。モデルのロールアウト応答の上限はモデル自体によって完全に決定されるため、すべてが誤っているか、すべてが正しいサンプルから知識を獲得することができません。本論文では、外部の標準参照回答を組み込んだ Group Contrastive Policy Optimization (GCPO) を提案します。モデルが問題を解決できない場合、参照回答が正しい応答を提供し、モデルを明確に正確な更新方向に導きます。このアプローチには2つの主な利点があります:(1) すべてのサンプルを完全に活用することで、トレーニング効率が向上します。(2) トレーニング中にモデルが参照回答の問題解決戦略を模倣できるため、推論における汎化能力が向上します。GCPOは、複数のベンチマークデータセットで優れた結果を達成し、ベースラインモデルに対して大幅な改善をもたらします。私たちのコードは以下で公開されています:https://github.com/AchoWu/GCPO。
大規模言語モデル(LLM)の効率的な利用は、大規模展開において極めて重要です:適応的なルーティングがない場合、システムは強力なモデルに対して過剰なコストを支払うか、弱いモデルによる低いパフォーマンスをリスクにさらすことになります。各クエリに対して適切なLLMを選択することは、本質的にオンライン意思決定問題です:モデルは強みが異なり、価格は変動し、ユーザーは精度とコストを異なる形で重視します。しかし、ほとんどのルーターは、すべての候補モデルに対するラベルを用いてオフラインで訓練されており、この仮定は展開時に崩れます。展開時には、選択されたモデルの結果のみが観測されるからです。我々はこのギャップを埋めるために、BaRP(Bandit-feedback Routing with Preferences)を提案します。これは、展開時と同じ部分フィードバック制約の下で訓練を行いながら、推論時にパフォーマンスとコストのトレードオフを調整可能な推論をサポートします。プロンプトの特徴とユーザーの選好ベクトルをコンテキストとした文脈的バンディットとしてフレーム化された我々の手法は、訓練中にオンラインフィードバック設定をシミュレートし、各新しいプロンプトに対してルーティング決定を適応させます。これにより、完全情報のオフライン監視に依存する必要がなくなります。包括的な実験により、我々の手法は強力なオフラインルーターを少なくとも12.46%、最大のLLMを少なくとも2.45%上回り、未見のタスクに対しても堅牢に汎化することが示されました。
ヒューマノイドロボットに複雑なスキルを教えるための主要なパラダイムとして、人間の動作を運動学的参照としてリターゲットし、強化学習(RL)ポリシーを訓練する方法が挙げられる。しかし、既存のリターゲットパイプラインは、人間とロボットの間の大きな身体構造のギャップに苦戦し、足のスケーティングや貫通などの物理的に不自然なアーティファクトを生成することが多い。さらに重要なことに、一般的なリターゲット方法は、表現力豊かな移動や移動操作に不可欠な人間と物体、人間と環境の豊かな相互作用を無視している。この問題に対処するため、我々はOmniRetargetを導入する。これは、エージェント、地形、操作対象物の間の重要な空間的および接触関係を明示的にモデル化し、保存するインタラクションメッシュに基づくインタラクション保存型データ生成エンジンである。人間とロボットのメッシュ間のラプラシアン変形を最小化しつつ、運動学的制約を強制することで、OmniRetargetは運動学的に実現可能な軌道を生成する。さらに、タスクに関連する相互作用を保存することで、単一のデモンストレーションから異なるロボットの身体構造、地形、物体の設定への効率的なデータ拡張が可能となる。我々は、OMOMO、LAFAN1、および社内のMoCapデータセットから動作をリターゲットし、広く使用されているベースラインよりも優れた運動学的制約の満足度と接触保存を達成する8時間以上の軌道を生成することで、OmniRetargetを包括的に評価した。このような高品質なデータにより、プロプリオセプティブRLポリシーは、Unitree G1ヒューマノイド上で、すべてのタスクで共有される5つの報酬項と単純なドメインランダム化のみで訓練され、学習カリキュラムなしに、長期間(最大30秒)のパルクールや移動操作スキルを成功裏に実行することが可能となった。
汎用的なロボットマニピュレーションを目指す上で、空間的汎化は最も基本的な能力であり、異なる物体、環境、エージェント自体の空間分布においてもロバストに動作するポリシーを必要とします。これを実現するためには、模倣学習を通じて汎用的な視覚運動ポリシーを訓練するために、異なる空間構成をカバーする大量の人間によるデモンストレーションを収集する必要があります。先行研究では、最小限のソースデモンストレーションから空間的に多様なデータを取得するためにデータ生成を活用する有望な方向性を探求しています。しかし、ほとんどのアプローチはシミュレーションと現実の間の大きなギャップに直面し、固定ベースのシナリオや事前定義されたカメラ視点などの制約された設定に限定されることが多いです。本論文では、現実世界のデータを直接生成するために、点群観測-行動ペアを拡張する現実対現実の3Dデータ生成フレームワーク(R2RGen)を提案します。R2RGenはシミュレータやレンダリングを必要としないため、効率的でプラグアンドプレイです。具体的には、単一のソースデモンストレーションを基に、シーンと軌跡の細かい解析のためのアノテーションメカニズムを導入します。複雑な多物体構成や多様なタスク制約を扱うために、グループ単位の拡張戦略を提案します。さらに、生成されたデータの分布を現実世界の3Dセンサーと整合させるためのカメラ対応処理を提示します。実験的に、R2RGenは広範な実験においてデータ効率を大幅に向上させ、モバイルマニピュレーションにおけるスケーリングと応用の強い可能性を示しています。
大規模言語モデル(LLMs)はその卓越した自然言語理解能力にもかかわらず、検索タスクにおいて十分に活用されていない。本論文では、この制約を克服するため、LLMsを適応させて検索埋め込みをその推論プロセスの直接的な出力として生成する新たなフレームワーク「Search-R3」を提案する。本アプローチは、LLMsの連鎖的思考(chain-of-thought)能力を活用し、複雑な意味解析を段階的に推論することで、より効果的な埋め込みを生成することを可能にする。これを実現するために、以下の3つの補完的メカニズムを導入する。(1) 教師あり学習段階により、モデルが高品質な埋め込みを生成する能力を獲得する。(2) 推論と並行して埋め込み生成を最適化する強化学習(RL)手法。(3) 各訓練イテレーションにおいてコーパスの完全な再エンコーディングを必要とせず、進化する埋め込み表現を効率的に処理する専用のRL環境。多様なベンチマークでの広範な評価を通じて、Search-R3が推論と埋め込み生成プロセスを統合することで、従来の手法を大幅に上回る性能を示すことを実証した。この統合的なポストトレーニングアプローチは、高度な推論と効果的な情報検索を必要とする複雑な知識集約型タスクの処理において、大きな進展を表している。プロジェクトページ: https://github.com/ytgui/Search-R3
近年の生成モデルの進展により、自動運転車の分野において新たな可能性が開かれている。特に、ビデオ生成モデルが制御可能な仮想テスト環境として検討されるようになった。同時に、エンドツーエンド(E2E)運転モデルが、従来のモジュール型自動運転システムに代わる簡潔でスケーラブルな代替手段として登場し、その人気を集めている。しかし、これらの技術をシミュレーションや計画に適用する際には重要な疑問が生じる。第一に、ビデオ生成モデルがますます現実的なビデオを生成できるとしても、それらのビデオは指定された条件に忠実に従い、E2E自律プランナーの評価に十分な現実感を備えているのか?第二に、データがE2Eプランナーの理解と制御に不可欠であることを考えると、そのバイアスを深く理解し、分布外シナリオへの汎化能力を向上させるにはどうすればよいのか?本研究では、これらの疑問に取り組むため、運転モデルと生成世界モデル(Drive&Gen)の間のギャップを埋める。我々は、E2Eドライバーを活用した新しい統計的尺度を提案し、生成されたビデオの現実感を評価する。ビデオ生成モデルの制御性を利用して、E2Eプランナーの性能に影響を与える分布ギャップを調査するためのターゲット実験を実施する。最後に、ビデオ生成モデルによって生成された合成データが、実世界のデータ収集に代わる費用対効果の高い代替手段であることを示す。この合成データは、既存の運用設計領域を超えたE2Eモデルの汎化を効果的に向上させ、自動運転車サービスの新しい運用コンテキストへの拡大を促進する。
新しいオプティマイザが注目を集め、モデルの量子化が効率的なデプロイメントの標準となる中で、重要な疑問が浮上している:量子化が存在する状況下で、オプティマイザの選択はモデルの性能にどのような影響を与えるのか?両分野での進展にもかかわらず、オプティマイザと量子化の相互作用に関する体系的な証拠は限られている。このギャップを埋めるため、我々は量子化下でのモデルのロバスト性に対するオプティマイザ選択の影響を、ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の両方を考慮して研究する。まず、50Mから1.5Bパラメータまでのフル精度モデルを6つのオプティマイザでトレーニングし、ハイパーパラメータの探索を行い、十分に調整されたベースラインを確立する。次に、PTQを適用し、異なるオプティマイザでトレーニングされたモデルの性能がどのように低下するかを評価する。その結果、最大値と平均値の比(MMR)や尖度などの外れ値関連のメトリクスは、異なるオプティマイザ間でのPTQ性能を予測できないことがわかった。これを解析的に示し、MMRが単一の層の誤差しか捉えず、量子化誤差がネットワークを通じて蓄積・伝播する過程を無視しているためであることを明らかにする。QATの性能低下を研究するため、量子化モデルをゼロからトレーニングし、元の精度のベースラインと比較する。その結果、元の事前トレーニング設定で良好な性能を示したオプティマイザがQAT下では最適でなくなる可能性があり、Shampooでトレーニングされたモデルが最も低い精度低下を示すことがわかった。最後に、異なるオプティマイザ下での量子化対応トレーニングのスケーリング則を導出し、Shampooがテストしたすべてのオプティマイザの中で最も高いパラメータ効率を達成することを示す。
本論文では、単一画像から多視点整合性のある物理ベースレンダリング(PBR)マテリアルを予測するフレームワーク、Stable Video Materials 3D(SViM3D)を提案します。最近、ビデオ拡散モデルを用いて単一画像から効率的に3Dオブジェクトを再構築することが成功しています。しかし、反射特性は依然として単純なマテリアルモデルで表現されるか、リライティングや制御された外観編集を可能にするために追加のステップで推定する必要があります。我々は、潜在的なビデオ拡散モデルを拡張し、明示的なカメラ制御に基づいて生成された各ビューと共に、空間的に変化するPBRパラメータと表面法線を出力します。このユニークな設定により、リライティングや3Dアセットの生成を我々のモデルをニューラル事前分布として使用して行うことが可能になります。このパイプラインに、この不適切設定における品質を向上させるための様々なメカニズムを導入します。複数のオブジェクト中心データセットにおいて、最先端のリライティングおよび新規ビュー合成性能を示します。我々の手法は多様な入力に一般化し、AR/VR、映画、ゲーム、その他の視覚メディアで有用なリライト可能な3Dアセットの生成を可能にします。
核融合は、信頼性が高く持続可能なエネルギー生産を追求する上で重要な役割を果たしている。核融合発電の実現に向けた主要な障壁は、プラズマ乱流の理解であり、これはプラズマ閉じ込めを著しく損ない、次世代原子炉設計にとって極めて重要である。プラズマ乱流は、非線形ジャイロ運動方程式によって支配され、5次元分布関数を時間とともに進化させる。その高い計算コストのため、実際にはエネルギー輸送の乱流を近似するために低次元モデルがしばしば用いられる。しかし、これらのモデルは完全な5次元ダイナミクスに特有の非線形効果を省略している。この問題に対処するため、我々はGyroSwinを導入する。これは、5次元非線形ジャイロ運動シミュレーションをモデル化できる初のスケーラブルな5次元ニューラルサロゲートであり、低次元モデルによって無視される物理現象を捉えるとともに、乱流熱輸送の正確な推定を提供する。GyroSwinは、(i)階層型Vision Transformerを5次元に拡張し、(ii)静電ポテンシャル場と分布関数の間の潜在的な3D↔5D相互作用のためのクロスアテンションおよび積分モジュールを導入し、(iii)非線形物理学に着想を得たチャネルごとのモード分離を実行する。我々は、GyroSwinが熱流束予測において広く使用されている低次元数値手法を上回り、乱流エネルギーのカスケードを捉え、完全に解像された非線形ジャイロ運動のコストを3桁削減しながら物理的に検証可能であることを示す。GyroSwinは、10億パラメータまでテストされた有望なスケーリング則を示し、プラズマ乱流のジャイロ運動シミュレーションのためのスケーラブルなニューラルサロゲートへの道を開く。
3D編集 - 3Dアセットの形状や外観を局所的に変更するタスク - は、没入型コンテンツ制作、デジタルエンターテインメント、AR/VRなど幅広い応用が可能です。しかし、2D編集とは異なり、視点間の一貫性、構造の忠実性、細粒度の制御性を保つ必要があるため、依然として課題が残っています。既存のアプローチは、処理速度が遅い、幾何学的な歪みが生じやすい、あるいはエラーが発生しやすく実用的でない正確な3Dマスクに依存していることが多いです。これらの課題に対処するため、我々はデータとモデルの両面で進展を遂げました。データ面では、これまでで最大のペア型3D編集ベンチマークである3DEditVerseを導入しました。これは116,309の高品質なトレーニングペアと1,500の精選されたテストペアで構成されています。ポーズ駆動の幾何学的編集と基盤モデルガイドの外観編集という補完的なパイプラインを通じて構築された3DEditVerseは、編集の局所性、多視点一貫性、意味的整合性を保証します。モデル面では、3D構造を保持する条件付きトランスフォーマーである3DEditFormerを提案します。デュアルガイダンスアテンションと時間適応型ゲーティングを組み込むことで、3DEditFormerは編集可能な領域を保持された構造から分離し、補助的な3Dマスクを必要とせずに正確で一貫性のある編集を可能にします。大規模な実験により、我々のフレームワークが定量的・定性的に最先端のベースラインを上回り、実用的でスケーラブルな3D編集の新たな標準を確立することが示されました。データセットとコードは公開予定です。プロジェクト: https://www.lv-lab.org/3DEditFormer/
ターゲットネットワークの使用は、深層強化学習(RL)における価値関数の推定において広く用いられる手法である。効果的ではあるものの、ターゲットネットワークは安定性を保つ代わりにターゲットの更新が遅くなるという妥協的な解決策であり、学習の遅延を引き起こす。一方、オンラインネットワークをブートストラップターゲットとして使用することは直感的に魅力的であるが、学習が不安定になることがよく知られている。本研究では、ターゲットネットワークとオンラインネットワークの間の最小推定値(MINimum estimate)を用いてターゲットを計算する新しい更新ルールを導入し、MINTOという手法を提案する。このシンプルでありながら効果的な修正を通じて、MINTOがオンラインネットワークを使用したブートストラップによる過大評価バイアスを緩和し、より速く安定した価値関数の学習を可能にすることを示す。特に、MINTOは無視できる程度のコストで、幅広い価値ベースおよびアクター・クリティックアルゴリズムにシームレスに統合できる。MINTOをオンラインRL、オフラインRL、離散および連続行動空間にわたる多様なベンチマークで広範に評価した結果、すべてのベンチマークにおいてMINTOが一貫して性能を向上させ、その汎用性と有効性を実証した。
大規模で視覚的に均質なデータセットで訓練された汎用ロボットポリシーは、ショートカット学習に陥りやすく、これが分布外(OOD)汎化能力を損なうことがある。生成的なデータ拡張は多様性を導入する一般的なアプローチであるが、データ構成という微妙な課題を提示する。実データと合成データを単純に混合すると、視覚的多様性を優先するあまり情報の忠実性が損なわれ、学習信号が劣化する可能性がある。本論文は、堅牢な汎化能力は、原則に基づいた忠実性を考慮したデータ構成に依存することを示唆する。我々は、データ構成を最適化問題として扱うCoherent Information Fidelity Tuning(CIFT)フレームワークを提案する。CIFTは、データセットの特徴空間幾何学に基づく情報忠実性の実用的な代理指標を使用する。これにより、訓練の安定性が低下する脱コヒーレンスポイントと呼ばれる相転移を特定することが可能となる。このチューニングプロセスのために、因果的に分離されたデータスペクトルを合成する生成エンジン、Multi-View Video Augmentation(MVAug)をフレームワークに含める。CIFTをpi_0やDiffusion Policyなどのポリシーアーキテクチャに適用すると、OOD成功率が54%以上向上する。これらの結果は、データ合成だけでなく、忠実性を考慮した構成が、堅牢な汎用ロボットの開発において重要な要素であることを示している。