翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)エージェントの既存ベンチマークは、理想的な設定下でのタスク完遂に焦点を当てる一方で、実世界のユーザー向けアプリケーションにおける信頼性を見落としている。車載音声アシスタントのような領域では、ユーザーが不完全あるいは曖昧な要求を頻繁に発するため、エージェントは対話、ツール活用、ポリシー順守を通じて管理すべき本質的な不確実性が生じる。本論文では、車載アシスタント領域におけるマルチターン・ツール利用型LLMエージェントの一貫性、不確実性対応、能力認識を評価するベンチマーク「CAR-bench」を提案する。この環境はLLMシミュレートユーザー、ドメインポリシー、およびナビゲーション・生産性・充電・車両制御にまたがる58の相互接続されたツールを特徴とする。標準的なタスク完遂に加え、CAR-benchはツールや情報が欠如した状況下での限界認識を試す「Hallucinationタスク」、および明確化や内部情報収集による不確実性解決を要求する「Disambiguationタスク」を導入する。ベースライン結果は、全タスクタイプにおいて一時的成功と一貫した成功の間に大きな隔たりがあることを示す。最先端の推論LLMでさえ、Disambiguationタスクでは早期行動により一貫合格率50%未満となり、Hallucinationタスクではユーザー要求を満たすために頻繁にポリシー違反や情報捏造を行うことから、実世界設定におけるより信頼性の高い自己認識型LLMエージェントの必要性が浮き彫りとなった。
大規模言語モデル(LLM)が自律エージェントへと進化するにつれ、その実世界での適用可能性は著しく拡大するとともに、新たなセキュリティ課題も生じている。既存のエージェント防御メカニズムの多くは、強制チェックのパラダイムを採用しており、エージェントライフサイクルの事前定義された段階で強制的にセキュリティ検証がトリガーされる。本研究では、効果的なエージェントセキュリティは、構造的に分離された強制的手法ではなく、本質的かつ選択的であるべきだと主張する。我々は、イベント駆動型防御フレームワーク「Spider-Sense」を提案する。これは本質的リスク検知(IRS)に基づき、エージェントが潜在的な警戒態勢を維持しつつ、リスクを感知した時のみ防御を発動することを可能にする。一度トリガーされると、Spider-Senseは効率性と精度を両立させる階層型防御メカニズムを起動する。既知のパターンは軽量な類似性マッチングで解決し、曖昧なケースは深い内部推論にエスカレーションするため、外部モデルへの依存が排除される。厳密な評価を可能にするため、現実的なツール実行と多段階攻撃を特徴とする、ライフサイクルを意識したベンチマーク「S^2Bench」を導入した。大規模な実験により、Spider-Senseは競合するあるいは優れた防御性能を達成し、最低の攻撃成功率(ASR)と偽陽性率(FPR)を記録するとともに、わずか8.3%の遅延オーバーヘッドしか生じないことが実証された。
検証可能な報酬を用いた強化学習(RLVR)の大規模言語モデル(LLM)および視覚言語モデル(VLM)への最近の応用は、複雑なタスクにおける推論能力の向上において顕著な成功を示している。RLVR訓練において、応答長の増加は推論能力の成長に寄与する主要因と見なされることが多い。しかし、訓練プロセスにおける応答長の変化パターンは、RLVRアルゴリズムによって大きく異なる。これらの変動を根本的に説明するため、本論文では主流のRLVRアルゴリズムの構成要素を詳細に分析する。応答長に影響を与える要因に関する理論的分析を提示し、大規模な実験を通じて理論を検証する。これらの理論的知見に基づき、我々は長さ不偏系列方策最適化(LUSPO)アルゴリズムを提案する。具体的には、グループ系列方策最適化(GSPO)に内在する長さバイアスを補正し、その損失関数を応答長に対して不偏とすることで、応答長の崩壊問題を解決する。数学的推論ベンチマークとマルチモーダル推論シナリオにおける広範な実験を実施し、LUSPOが一貫して優れた性能を達成することを示す。実験結果は、LUSPOがGRPOやGSPOなどの既存手法と比較して、新たな最先端の最適化戦略であることを実証している。
大規模言語モデル(LLM)エージェントのメモリシステムの多くは、メモリを抽出するための静的な手動作成の操作セットに依存しています。これらの固定された手順は、何を記憶すべきか、どのようにメモリを更新すべきかについての人間の事前知識をハードコードしており、多様なインタラクションパターンに対して硬直的で、長い履歴に対して非効率となっています。この課題に対処するため、我々はMemSkillを提案します。これはメモリ操作を学習可能で進化可能な「メモリスキル」として再定義するもので、インタラクション履歴から情報を抽出・統合・剪定する構造化された再利用可能なルーチンです。エージェントスキルの設計哲学に着想を得て、MemSkillは関連する少数のスキルを選択するコントローラと、スキルに導かれてメモリを生成するLLMベースのエグゼキュータを組み合わせます。スキル選択の学習に加えて、MemSkillは定期的に困難なケース(選択されたスキルが不正確または不完全なメモリを生成した場合)をレビューし、スキルの改良や新規スキルの提案を通じてスキルセットを進化させるデザイナを導入します。これらが一体となり、MemSkillはスキル選択ポリシーとスキルセット自体の両方を改善する閉ループ手順を形成します。LoCoMo、LongMemEval、HotpotQA、ALFWorldにおける実験により、MemSkillが強力なベースラインを上回るタスク性能を達成し、様々な設定にわたって良好な汎化性能を示すことを実証しました。さらに分析を通じて、スキルがどのように進化するかを明らかにし、LLMエージェントのより適応的で自己進化するメモリ管理に向けた知見を提供します。
リアルタイム長尺動画生成の最近のアプローチでは、ストリーミングチューニング戦略を採用し、短いコンテキスト(メモリレス)の教師モデルを用いて長いコンテキストの生徒モデルを訓練することが一般的です。この枠組みでは、生徒モデルは長いロールアウトを実行しますが、5秒という短いウィンドウに制限された教師モデルからの監督しか受けられません。この構造的な不一致は、重大な生徒-教師ミスマッチを生み出します。教師モデルが長期的な履歴にアクセスできないため、生徒モデルに対して大域的な時間的依存関係を指導することができず、結果的に生徒モデルのコンテキスト長に上限を設けてしまうのです。 この問題を解決するため、我々は**Context Forcing**という新しいフレームワークを提案します。これは、長いコンテキストを持つ教師モデルを通じて、長いコンテキストの生徒モデルを訓練するものです。教師モデルが生成履歴全体を認識できるようにすることで、監督のミスマッチを解消し、長期的な一貫性を保つ能力を持つモデルを強固に訓練することを可能にします。 極端に長い持続時間(例:2分)に対してこれを計算量的に実現可能にするため、線形に増加するコンテキストを**Slow-Fastメモリ構造**に変換するコンテキスト管理システムを導入し、視覚的な冗長性を大幅に削減します。大規模な実験結果により、本手法が20秒を超える効果的なコンテキスト長を実現可能であることが示されました。これは、LongLiveやInfinite-RoPEなどの最新手法と比較して2倍から10倍長い値です。この拡張されたコンテキストを活用することで、Context Forcingは長時間にわたって優れた一貫性を維持し、様々な長尺動画評価指標において既存の最先端ベースライン手法を凌駕します。
生成動画モデルは驚異的な視覚的忠実度を達成しているものの、暗黙的な世界のルールを内部化し推論する能力は、重要なながら未開拓のフロンティアとして残されている。この隔たりを埋めるため、本論文はRISE-Videoを提案する。これはテキスト・画像から動画への生成(TI2V)における、先駆的な推論指向ベンチマークであり、評価の焦点を表面的な美観から深層的な認知推論へと転換する。RISE-Videoは8つの厳密なカテゴリにわたる467の厳密に人手注釈されたサンプルから構成され、常識推論や空間力学から専門分野まで多様な次元にわたるモデル知能を探る構造化されたテストベッドを提供する。我々の枠組みは、推論整合性、時間的一貫性、物理的合理性、視覚的品質の4指標から成る多次元評価プロトコルを導入する。さらに拡張可能な評価を支援するため、大規模マルチモーダルモデル(LMM)を活用した人間中心の評価を模倣する自動化パイプラインを提案する。11の最先端TI2Vモデルを用いた大規模実験により、暗黙的制約下での複雑なシナリオ模擬における普遍的な欠陥が明らかになり、将来の世界シミュレーション生成モデル発展への重要な知見を提供する。
LLM批評モデルによる能動的介入は信頼性向上に寄与すると一般に考えられていますが、実際の運用時の影響については十分に理解されていません。我々は、強力なオフライン精度(AUROC 0.94)を有する二値LLM批評モデルが、深刻な性能劣化を引き起こし得ることを実証しました。具体的には、あるモデルでは26パーセントポイント(pp)の性能崩壊を誘発する一方で、別のモデルにはほぼ影響を与えない(±0 pp)という現象を観測しました。この変動性は、LLM批評モデルの精度のみでは介入の安全性を判断できないことを示しています。 我々は「中断-回復のトレードオフ」を特定しました。すなわち、介入は失敗軌道を回復させる可能性がある一方で、本来成功するはずだった軌道を妨害するリスクもあるのです。この知見に基づき、我々は本格導入前に、50タスクという小規模なパイロットテストで介入の有効性を推定する事前評価手法を提案します。各種ベンチマークでの検証では、本テストが結果を正確に予測しました:高成功率タスクでは介入が性能を劣化させ(0~-26 pp)、一方で高失敗率のALFWorldベンチマークでは控えめな改善(+2.8 pp, p=0.014)をもたらしました。したがって、本フレームワークの主たる価値は、深刻な性能後退を未然に防ぐ「介入すべきでない状況」を特定する点にあります。
既存の大規模言語モデル(LLM)エージェントは、長期的な計画を要する対話環境において、将来的な状態をシミュレートする際の誤差の累積が主な原因で課題に直面している。この問題に対処するため、我々は2段階の訓練パラダイムを通じてエージェントが正確な先読み推論を内在化するフレームワーク「ProAct」を提案する。第一に、環境ベースの探索から得られた軌跡に対して教師ありファインチューニングを行う「Grounded LookAhead Distillation(GLAD)」を導入する。複雑な探索木を因果関係に基づく簡潔な推論連鎖に圧縮することで、エージェントは推論時の探索という計算コストを伴わずに、先見性の論理を学習する。第二に、意思決定の精度をさらに高めるため、PPOやGRPOなどの方策勾配アルゴリズムを強化するプラグアンドプレイ型の補助的価値推定器「Monte-Carlo Critic(MC-Critic)」を提案する。軽量な環境ロールアウトを活用して価値推定を較正することで、MC-Criticは高価なモデルベースの価値近似に依存せず、安定した方策最適化を促進する低分散の信号を提供する。確率的環境(2048など)と決定論的環境(Sokobanなど)の両方での実験により、ProActが計画の精度を大幅に向上させることが実証された。特に、ProActで訓練された40億パラメータモデルは、すべてのオープンソースベースラインを上回り、最先端のクローズドソースモデルに匹敵する性能を示すとともに、未経験の環境への頑健な一般化能力を発揮した。コードとモデルはhttps://github.com/GreatX3/ProActで公開されている。
高品質なカーネルはスケーラブルなAIシステムにおいて極めて重要であり、大規模言語モデル(LLM)がそのようなコードを生成できるようになれば、AI開発が大きく進展する。しかし、このタスクでLLMを訓練するには十分なデータと堅牢な環境が必要であり、そのプロセスは報酬ハッキングや怠惰な最適化に陥りやすい。これらの場合、モデルは訓練報酬を不正に操作し、意味のある高速化よりも些末な正しさを優先する可能性がある。本論文では、カーネル生成のための強化学習(RL)を体系的に研究する。まず、報酬ハッキング検査、多段階インタラクションからのデータ収集、長期RL訓練をサポートする堅牢な分散GPU環境「KernelGYM」を設計する。KernelGYMを基盤として、効果的な多段階RL手法を調査し、GRPOにおける自己包含が引き起こす偏った方策勾配問題を特定する。この問題を解決するため、多段階RLに対して不偏なアドバンテージ推定を提供する「Turn-level Reinforce-Leave-One-Out(TRLOO)」を提案する。怠惰な最適化を軽減するため、訓練安定性向上に向けたミスマッチ補正を組み込み、問題を克服する「プロファイリングベース報酬(PR)」および「プロファイリングベース棄却サンプリング(PRS)」を導入する。訓練済みモデル「Dr.Kernel-14B」は、KernelbenchにおいてClaude-4.5-Sonnetと競合する性能に到達した。最後に、Dr.Kernel-14Bに対する逐次的なテスト時スケーリングを検討する。KernelBench Level-2サブセットでは、生成されたカーネルの31.6%がTorchリファレンスに対し1.2倍以上の高速化を達成し、Claude-4.5-Sonnet(26.7%)およびGPT-5(28.6%)を上回った。全段階から最良候補を選択した場合、この1.2倍高速化率はさらに47.8%に向上する。環境、訓練コード、モデル、データセットを含む全リソースはhttps://www.github.com/hkust-nlp/KernelGYM で公開されている。
学習時特権情報(PI)は、言語モデルが本来失敗するタスクを成功させることを可能にし、困難で長期的な設定における強化学習の強力なツールとなり得る。しかし、PIを用いて獲得した能力を、推論時にPIなしで動作しなければならない方策に転移させることは、依然として根本的な課題である。本研究では、マルチターンのエージェント環境におけるフロンティアモデルの蒸留という文脈でこの問題を検討する。クローズドソースシステムでは通常、内部の推論過程を隠蔽し、行動軌跡のみを公開するため、標準的な蒸留パイプラインは機能しなくなる。成功した行動は観測可能だが、推論過程は観測不能だからである。この問題に対処するため、我々はπ-Distillを提案する。これは、PI条件付き教師モデルと条件なし生徒モデルを同一モデルで同時に学習する共同教師-生徒目的関数である。さらに、代替手法として、生徒モデルとPI条件付き教師モデルとの間の逆KLペナルティを用いた強化学習(RL)で学習を行うOn-Policy Self-Distillation(OPSD)も提案する。我々は、これらのアルゴリズムが行動のみのPIを用いてフロンティアエージェントを効果的に蒸留することを示す。具体的には、π-Distill、および場合によってはOPSDが、完全な連鎖思考(Chain-of-Thought)の監視へのアクセスを仮定した業界標準手法(教師ありファインチューニング後のRL)を、複数のエージェントベンチマーク、モデル、PIの形式において凌駕することを見出した。結果を補完するため、PIを用いた効果的な学習を可能にする要因、主にπ-Distillに焦点を当て、OPSDが競合する条件を明らかにする広範な分析を行う。
大規模言語モデルがビベコーディングのような複雑で長期的なタスクを自動化するにつれ、監督のギャップが生じている。モデルは実行において優れる一方、ユーザーは不十分な領域知識、正確な意図を明確に表現する難しさ、複雑な出力を確実に検証する能力の欠如により、効果的にモデルを導くことに苦戦することが多い。これは、スケーラブルな監視における重大な課題、すなわち、人間自身が仕様化または検証する能力を超えるタスクにおいて、人間がAIシステムを責任を持って操縦できるようにするという課題を提起している。この問題に取り組むため、我々は「スケーラブル対話型監視」を提案する。このフレームワークは、複雑な意図を管理可能な意思決定の再帰的木構造に分解し、人間の監督を増幅する。自由回答型のプロンプトに依存するのではなく、本システムは各ノードで負荷の低いフィードバックを引き出し、これらの信号を再帰的に集約して精密な大域的ガイダンスを生成する。Web開発タスクでの検証により、本フレームワークは非専門家が専門家レベルの製品要求仕様書を作成することを可能とし、要求との整合性において54%の改善を達成した。決定的に重要なのは、このフレームワークがオンラインユーザーフィードバックのみを用いた強化学習によって最適化可能であることを実証した点であり、AIのスケーリングに伴う人間の制御維持への実用的な道筋を提供する。
数学的成果の検索は依然として困難な課題である。既存のツールの多くは論文全体を検索するが、数学者や定理証明エージェントが求めているのは、クエリに答える特定の定理、補題、命題であることが多い。意味検索は急速に進歩しているものの、研究レベルの数学定理のような大規模で高度に専門的なコーパスにおけるその挙動は十分に理解されていない。本研究では、arXivおよびその他7つの情報源から抽出した920万の定理記述からなる統一コーパスを対象に、大規模な意味的定理検索を導入し、調査する。これは公的に利用可能な最大の、人間によって記述された研究レベルの定理のコーパスを代表するものである。各定理は、検索表現として簡潔な自然言語による記述で表現し、表現の文脈、言語モデルの選択、埋め込みモデル、プロンプト戦略が検索品質に与える影響を系統的に分析する。専門の数学者が作成した定理検索クエリからなる精選された評価セットにおいて、我々の手法は既存のベースラインと比較して、定理レベルおよび論文レベルの両方の検索を大幅に改善し、意味的定理検索がウェブ規模で実現可能かつ効果的であることを実証する。定理検索ツールは https://huggingface.co/spaces/uw-math-ai/theorem-search で、データセットは https://huggingface.co/datasets/uw-math-ai/TheoremSearch で利用可能である。
データセット蒸留(DD)は、大規模な実世界のデータセットからコンパクトなデータセットを作成することを目的としている。近年の手法は効率性と品質のバランスを取るためにヒューリスティックなアプローチに依存することが多いが、元のデータと合成データの間の根本的な関係は未だ十分に探究されていない。本論文は、確固たる理論的枠組みに基づいて、知識蒸留ベースのデータセット蒸留を再検討する。我々は、サンプル内の重要な情報と、訓練セット内の本質的なサンプルをそれぞれ捉える概念である「情報量(Informativeness)」と「有用性(Utility)」を導入する。これらの原理に基づき、最適なデータセット蒸留を数学的に定義する。次に、蒸留データセットの合成において情報量と有用性のバランスを取るフレームワークであるInfoUtilを提案する。InfoUtilは二つの主要な構成要素を含む:(1)シャプレイ値帰属を用いたゲーム理論的な情報量最大化により、サンプルから鍵となる情報を抽出する、(2)勾配ノルムに基づいて大域的に影響力のあるサンプルを選択するという原理に基づいた有用性最大化。これらの構成要素により、蒸留データセットが情報量に富み、かつ有用性が最適化されることが保証される。ImageNet-1KデータセットとResNet-18を用いた実験により、本手法が従来の最先端手法よりも6.1%の性能向上を達成することを実証する。
既存のベンチマークで高い性能を示すにも関わらず、大規模言語モデルが真に新奇な科学的情報に対して推論できるかどうかは不明瞭である。現在の評価手法の多くはエンドツーエンドのRAGパイプラインを対象としており、推論能力が検索やツールチェーンの選択と混同され、さらにパラメトリック記憶とオープンウェブの不安定性によって信号が汚染されている。本論文では、深い検索の核心的な困難性(多段階の統合、ノイズ除去、証拠に基づく結論形成)を維持しつつ、文書に基づく推論を分離した制御環境「DeR2」を提案する。DeR2は、証拠へのアクセスと推論を4つの体制(Instruction-only、Concepts、Related-only、Full-set)によって分離し、検索損失と推論損失を操作可能にするとともに、解釈可能な体制間ギャップを生成することで、細粒度な誤り帰属を可能にする。パラメトリックな情報漏洩を防ぐため、証拠なしではパラメトリックに解決不能であることを要求しつつ、オラクル概念による解決可能性を保証する二段階検証を適用する。再現性を確保するため、各インスタンスは凍結された文書ライブラリ(2023-2025年に発表された理論論文から抽出)と、専門家による注釈付き概念、検証済み理論的根拠を提供する。多様な最先端基盤モデルを用いた実験では、大きな性能差と有意な改善余地が明らかとなった:Full-set条件下ではInstruction-onlyよりも性能が低下するモード切替脆弱性を示すモデルがある一方、概念を正しく列挙しながら手続きとして実行できない構造的概念誤用を示すモデルも存在した。
人間は、明示的な全身運動のレベルで物体との全身的相互作用を計画することは稀である。アフォーダンスのような高次意図が目標を定義する一方で、協調的なバランス、接触、操作は、基礎となる物理的・運動的な事前分布から自然に創発しうる。このような事前分布を拡張することは、ヒューマノイドが多様な文脈において物理的に一貫した全身協調を維持しつつ、移動操作スキルを構成し一般化することを可能にする鍵である。この目的のために、我々はInterPriorを提案する。これは大規模模倣事前学習と強化学習による事後学習を通じて、統合的な生成制御器を学習するスケーラブルなフレームワークである。InterPriorはまず、完全参照模倣エキスパートから、多様な観測と高次意図から動作を再構築する、目標条件付きの多目的な変分方策を蒸留する。蒸留された方策は学習した動作を再構築するが、大規模な人間-物体相互作用の広大な構成空間のために信頼性のある一般化はできない。この問題に対処するため、物理的摂動を伴うデータ拡張を適用し、続いて強化学習によるファインチューニングを実行して、未見の目標や初期化に対する性能を向上させる。これらのステップを組み合わせることで、再構築された潜在スキルを有効な多様体に統合し、学習データを超えて一般化する動作事前分布を生成する(例えば、未見の物体との相互作用のような新しい行動を取り込むことができる)。さらに、ユーザー対話型制御における有効性と、実ロボットへの展開可能性を実証する。
大規模言語モデル(LLM)の社会的知能を評価するため、対話型環境での評価が増加している。しかし、既存のベンチマークはエージェント間の理想化されたコミュニケーションを想定することが多く、より現実的な不完全な状況下でLLMが対話を維持・修復できるかを診断する能力が限られている。このギャップを埋めるため、我々は認知差に起因するコミュニケーション障壁下での社会的相互作用をシミュレート可能な社会学習環境「SocialVeil」を提案する。人間相互作用におけるコミュニケーション課題に関する系統的文献レビューに基づき、SocialVeilは意味的曖昧性、社会文化的ミスマッチ、感情的干渉という3つの代表的な障壁タイプを導入する。また、障壁を考慮した2つの評価指標(未解決混乱度と相互理解度)を導入し、障害されたコミュニケーション下での対話品質を評価する。720のシナリオと4つの先進的LLMを用いた実験では、障壁が一貫して性能を低下させ、相互理解度は平均45%以上減少、混乱度は約50%上昇することが示された。人間による評価はこれらのシミュレーション障壁の忠実度を検証した(ICC≈0.78、ピアソン相関r≈0.80)。さらに、適応戦略(修復指示と対話型学習)の効果が限定的であり、障壁のない性能には程遠いことを実証する。本研究は社会的相互作用環境を実世界のコミュニケーションに近づける一歩となり、LLMエージェントの社会的知能を探求する新たな可能性を開くものである。
自己回帰型大規模言語モデル(LLM)は高い性能を発揮する一方、本質的に逐次的なデコード処理を必要とするため、推論時の遅延が大きく、GPUの利用率も低いという課題がある。投機的デコードは、高速な下書きモデルを用いて出力を生成し、ターゲットLLMによる並列検証を行うことでこのボトルネックを緩和する。しかし、既存の手法では依然として自己回帰型の下書き生成に依存しており、逐次処理が残るため実効的な高速化には限界がある。拡散モデルに基づくLLMは並列生成が可能な代替手段として有望だが、現状の拡散モデルは自己回帰型モデルに比べて性能が劣ることが一般的である。本論文では、軽量なブロック拡散モデルを並列下書き生成に用いる投機的デコードフレームワーク「DFlash」を提案する。DFlashは単一の順伝播で下書きトークンを生成し、ターゲットモデルから抽出した文脈特徴を下書きモデルの条件付けに活用することで、高品質な出力と高い受理率を実現する効率的な下書き生成を可能にする。実験の結果、DFlashは様々なモデルとタスクにおいて6倍以上のロスレス加速を達成し、最新の投機的デコード手法であるEAGLE-3と比較して最大2.5倍高い高速化を実現することが示された。
視覚言語モデルはテキスト推論において優れた性能を発揮するが、細粒度の空間理解や連続的な行動計画には課題があり、複雑な視覚推論に必要な力学のシミュレーションが困難である。本研究では、ビデオ生成モデルを用いた視覚推論の定式化を提案し、生成されたフレームが初期状態と解の中間推論ステップとして機能し得ると仮定する。評価では二つの異なる領域を設定する:視覚変化が少ない離散的順次計画タスクである迷路ナビゲーションと、視覚変化が大きい連続的操作タスクであるタングラムパズルである。実験から三つの重要な知見が得られた:(1) ロバストなゼロショット一般化:両タスクにおいて、モデルは特定のファインチューニングなしに見えないデータ分布に対しても強力な性能を示す。(2) 視覚的コンテキストの活用:エージェントアイコンやタングラム形状などの視覚的コンテキストを明示的な制御として効果的に利用し、高い視覚的一貫性を維持するとともに、未見のパターンに対しても計画能力を頑健に適応させる。(3) 視覚的テスト時スケーリング:順次計画においてテスト時スケーリング則を確認。生成ビデオ長(視覚的推論予算)を増加させることで、空間的・時間的に複雑な経路に対するゼロショット一般化性能が向上する。これらの発見は、ビデオ生成が単なるメディアツールではなく、視覚推論のためのスケーラブルで一般化可能なパラダイムであることを示唆する。
強化学習(RL)を用いた事後学習は、テストタイムスケーリングにより大規模言語モデル(LLM)の推論能力を大幅に改善してきた。しかし、冗長な推論過程を経てこのパラダイムをマルチモーダルLLM(MLLM)に拡張しても、知覚タスクでの向上は限定的であり、むしろ性能を低下させる場合さえある。 我々は、出力トークン系列ではなく内部の注意分布を直接最適化する政策勾配方策である**強化学習型注意学習(Reinforced Attention Learning: RAL)**を提案する。生成内容の最適化から、入力のどこに注意を向けるかの最適化へと重点を移すことで、RALは複雑なマルチモーダル入力における効率的な情報配分と、より優れた接地(grounding)を促進する。様々な画像・動画ベンチマークによる実験では、GRPOやその他のベースラインを一貫して上回る結果を示した。さらに、**オン方策注意蒸留(On-Policy Attention Distillation)**を導入し、潜在的な注意行動を転移することが、標準的な知識蒸留よりも強力なクロスモーダル連携を実現することを実証する。本結果は、注意方策をマルチモーダル事後学習における理論的で汎用的な代替手法として位置づけるものである。
大規模言語モデル(LLM)は、言語中心のタスクにおいて強力な性能を発揮している。しかし、エージェント環境では、LLMは行動の結果を予測し、環境のダイナミクスに適応することにしばしば困難をきたすため、LLMベースのエージェントにおける世界モデリング能力の必要性が浮き彫りになっている。本研究では、強化学習世界モデル学習(RWML)を提案する。これは、シミュレーションtoリアルギャップ報酬を用いて、テキスト状態におけるLLMベースのエージェントのための行動条件付き世界モデルを学習する自己教師あり手法である。本手法は、モデルが生成するシミュレートされた次の状態と、環境から観測された実際の次の状態とを、事前学習済みの埋め込み空間内で整合させ、内部的な世界シミュレーションと実際の環境ダイナミクスとの一貫性を促進する。トークンレベルの忠実度(すなわち、正確な文言の再現)を意味的等価性よりも優先し、モデル崩壊を引き起こしうる次の状態トークン予測とは異なり、本手法はよりロバストな訓練信号を提供し、LLM-as-a-judgeよりも報酬ハッキングの影響を実証的に受けにくい。ALFWorldおよびτ^2 Benchにおいて本手法を評価した結果、完全に自己教師ありでありながら、ベースモデルを大幅に上回る性能向上が確認された。タスク成功報酬と組み合わせた場合、本手法はALFWorldおよびτ^2 Benchにおいて、直接タスク成功報酬を用いた強化学習をそれぞれ6.9ポイント、5.7ポイント上回り、専門家データを用いた訓練と同等の性能を発揮した。
マルチモーダル大規模言語モデル(MLLM)は、視覚と言語を橋渡しすることで、マルチモーダル知覚と推論において目覚ましい進歩を遂げてきた。しかし、既存のMLLMの多くは主にテキストによる連鎖思考(CoT)を用いて推論を行うため、視覚集約的なタスクにおける有効性が制限されている。近年のアプローチでは、固定数の連続潜在状態を「視覚的思考」として推論プロセスに注入し、視覚的パフォーマンスを向上させているが、多くの場合、テキストベースの論理的推論能力の低下という代償を伴う。我々は、この核心的な制限は、異なるユーザークエリに対して最も適した思考モダリティを適応的に選択できない、硬直的な事前定義された推論パターンにあると考える。本論文では、入力に応じて動的に3つの推論モード((1) テキストのみの推論、(2) 視覚のみの推論(連続潜在状態を視覚的思考として)、(3) 視覚とテキストの交互推論)を切り替える、推論切り替え可能なMLLMであるSwimBirdを提案する。この能力を実現するため、我々はテキスト思考に対する次のトークン予測と視覚思考に対する次の埋め込み予測を統合するハイブリッド自己回帰的定式化を採用し、3つの推論パターン全てをカバーする多様な教師ありファインチューニングデータセットSwimBird-SFT-92Kを構築するための体系的な推論モードキュレーション戦略を設計した。柔軟でクエリ適応的なモード選択を可能にすることで、SwimBirdは強力なテキスト論理を維持しつつ、視覚が密集したタスクにおけるパフォーマンスを大幅に向上させる。テキスト推論と挑戦的な視覚理解をカバーする様々なベンチマークによる実験により、SwimBirdが従来の固定パターンマルチモーダル推論手法を上回るState-of-the-artの結果と堅牢な性能向上を達成することを実証する。
大規模言語モデル(LLM)を中核とするマルチエージェントシステム(MAS)は、顕著な集団的知性を発揮し、その中でマルチエージェントメモリは継続的適応のための重要なメカニズムとして機能する。しかし、既存のマルチエージェントメモリ設計は、以下の二つの根本的なボトルネックに制約されている:(i)役割を考慮したカスタマイズの欠如に起因するメモリの均質化、(ii)過度に細粒度なメモリエントリによって引き起こされる情報過負荷。これらの課題を解決するため、本論文ではLatentMemを提案する。これは、エージェント固有のメモリをトークン効率の良い方法でカスタマイズする学習可能なマルチエージェントメモリフレームワークである。具体的には、LatentMemは、生のインタラクション軌跡を軽量な形式で保存する経験バンクと、検索された経験とエージェント固有の文脈に基づいてコンパクトな潜在メモリを合成するメモリコンポーザーで構成される。さらに、タスクレベルの最適化信号を潜在メモリを介してコンポーザーに伝播させ、コンパクトで高効用な表現の生成を促進するLatent Memory Policy Optimization(LMPO)を導入する。多様なベンチマークと主流のMASフレームワークを用いた広範な実験により、LatentMemがベースライン設定に対して最大19.36%の性能向上を達成し、基盤となるフレームワークへの変更を一切必要とせず、既存のメモリアーキテクチャを一貫して上回ることを実証する。
深層研究エージェントは、複雑な問い合わせに対処する強力なシステムとして登場している。一方、LLMベースの検索システムは、指示追従や推論において優れた能力を示している。これにより、LLMベースの検索システムが深層研究エージェントのワークフローに効果的に寄与し得るかどうかという重要な疑問が生じる。これを検討するため、我々は科学文献検索のベンチマークであるSAGEを導入する。SAGEは4つの科学分野にわたる1,200のクエリと、20万編の論文からなる検索コーパスで構成される。6種類の深層研究エージェントを評価した結果、全てのシステムが推論集約的な検索に苦戦することがわかった。DR Tuluを基盤として、BM25とLLMベース検索システム(ReasonIRおよびgte-Qwen2-7B-instruct)を代替検索ツールとして比較した。驚くべきことに、既存のエージェントがキーワード指向のサブクエリを生成するため、BM25はLLMベース検索システムを約30%大幅に上回った。性能向上のため、我々はLLMを用いてメタデータとキーワードで文書を拡張し、既存の検索システムにとって検索を容易にする、コーパスレベルのテスト時スケーリングフレームワークを提案する。これにより、短答式問題と自由記述問題において、それぞれ8%および2%の性能向上が得られた。
大規模言語モデル(LLM)における不確実性定量化(UQ)は、日常的なLLMアプリケーションの安全対策における重要な構成要素である。しかし、LLMエージェントが高度に複雑なタスクで展開される機会が増えているにもかかわらず、UQ研究の大半は依然として単一ターンの質問応答を中心としている。本論文では、UQ研究は対話型エージェントを含む現実的な設定へ移行すべきであり、エージェントUQのための新たな理論的枠組みが必要であると主張する。本論文は、既存の多様なUQ設定を包含する、エージェントUQの最初の一般的な定式化を提示する。この定式化の下で、従来研究はLLMのUQを不確実性蓄積プロセスとして暗黙的に扱っていることを示し、この視点が開放世界における対話型エージェントでは破綻することを明らかにする。対照的に我々は、行動の「相互行為性」に着目してエージェントの軌跡における可縮小な不確実性を明示的にモデル化する、条件付き不確実性縮小プロセスという新たな視点を提案する。この視点から、LLMエージェント設定におけるUQ設計に実践的な指針を与える概念的枠組みの概要を示す。最後に、フロンティアLLM開発および分野特化型アプリケーションにおけるエージェントUQの実用的意義と、未解決の問題について結論づける。
マルチモーダル大規模言語モデル(MLLM)は近年、ユニバーサルなマルチモーダル検索に応用され、連鎖的思考(CoT)推論による候補の再ランキング精度向上が図られている。しかし、既存手法は依然として言語主導が中心であり、静的な視覚符号化に依存し、細粒度の視覚的証拠を能動的に検証する能力を欠くため、視覚的に曖昧な場合に推測に依存した推論が生じやすい。本論文では、マルチモーダル検索を視覚的検証に基づくエージェント型推論プロセスとして再定義する、証拠駆動型検索フレームワーク「V-Retriever」を提案する。V-RetrieverはMLLMが外部視覚ツールを介して推論途中で選択的に視覚的証拠を取得し、仮説生成と対象を絞った視覚的検証を交互に行うマルチモーダル交差推論を実現する。このような証拠収集型検索エージェントを訓練するため、教師あり推論活性化、反駁に基づく精緻化、証拠整合性目標による強化学習を組み合わせたカリキュラム学習戦略を採用する。複数のマルチモーダル検索ベンチマークにおける実験により、検索精度(平均23.0%向上)、知覚駆動型推論の信頼性、一般化性能において一貫した改善を実証した。
RLベースの事後学習手法であるGRPOは、個別の推論タスクにおいて大規模言語モデルを改善するために広く用いられている。しかし、実世界での運用には、多様なタスクにわたる信頼性の高い性能が求められる。GRPOを単純にマルチタスク化した場合、最適化が特定のタスクに偏り、他のタスクの改善が停滞する不均衡な結果を招くことが多い。さらに、プロンプトがゼロ利得(したがってゼロ勾配)を生み出す頻度はタスクによって大きく異なり、これが最適化信号への実質的な寄与をさらに歪めてしまう。これらの課題に対処するため、我々は新たなマルチタスクGRPO(MT-GRPO)アルゴリズムを提案する。このアルゴリズムは、(i) 動的にタスク重みを調整して最悪タスクの性能を明示的に最適化し、タスク間の均衡の取れた進捗を促進し、(ii) 調整された重みがタスク単位の方策勾配に反映されるように、比率保存型サンプラーを導入する。3タスクおよび9タスク設定での実験により、MT-GRPOが最悪タスク精度において一貫してベースライン手法を上回ることを示す。特に、標準GRPOやDAPOと比較して、MT-GRPOは最悪タスク性能においてそれぞれ16-28%、6%の絶対的な改善を達成しつつ、競争力のある平均精度を維持した。さらに、3タスク設定では、最悪タスク精度50%を達成するまでの学習ステップ数が50%削減され、タスク横断的な信頼性の高い性能達成における効率性が大幅に向上することが示された。
大規模言語モデル(LLM)の急速な進化により、その能力は基本的な対話から高度な科学的推論へと拡大している。しかし、生物学における既存のベンチマークは、研究者に求められる重要なスキル、すなわち実験結果と文脈的知識を統合して意味のある結論を導き出す能力を評価し損ねることが多い。このギャップを埋めるため、我々は生物AIシステムの実験的推論能力を評価する包括的ベンチマーク「BABE(Biology Arena BEnchmark)」を提案する。BABEは査読付き研究論文と実世界の生物学的研究から独自に構築されており、課題が実際の科学探求の複雑さと学際性を反映することを保証する。BABEはモデルに対し、因果推論と複数スケールにわたる推論の実行を求める。本ベンチマークは、AIシステムが実践科学者と同様の推論をどの程度うまく行えるかを評価する堅牢な枠組みを提供し、生物学研究への貢献可能性をより真に迫った形で測定するものである。
ポリシーミラー降下法(PMD)は、KL正則化された方策改善部分問題を反復的に解くことで、強化学習(RL)に原理に基づいた枠組みを提供する。この手法はKimi K1.5/K2のような先進的な大規模言語モデルの学習に採用されているが、理想的な閉形式のPMD更新には信頼性のある分配関数の推定が必要であり、これはLLMの膨大な行動空間において限られたロールアウトで作業する際の重大な課題である。本研究では、サンプリング方策下での平均報酬で対数分配項を近似し、対数方策空間で回帰を行う「PMD-mean」と呼ばれる実用的なアルゴリズムを検討する。具体的には、PMD-meanの集団解を特徴付け、それが適応的な混合KL-χ^2正則化器を用いたミラー降下部分問題を暗黙的に最適化することを示す。この追加のχ^2正則化は確率の大きな変化を抑制し、期待報酬が低い場合にはより保守的な更新を行い、有限サンプル推定誤差に対する頑健性を高める。数学的推論タスクにおける実験により、PMD-meanが優れた性能を達成し、安定性と時間効率が向上することを示す。これらの知見はPMD-meanの理解を深め、LLM向けRLアルゴリズムの原理に基づいた改善への道筋を示す。コードはhttps://github.com/horizon-rl/OpenKimi で公開されている。
Rotary Positional Embedding (RoPE) は大規模言語モデル (LLM) における文脈長拡張の重要な構成要素である。RoPEをより長い文脈に適応させるための様々な手法が提案されているが、それらの指導原理は概ね2つのカテゴリに分類される。(1) 未見の位置を扱えるようにRoPEの周波数を調整する、分布外 (OOD) 問題の緩和と、(2) RoPEで計算される注意スコアは常に意味的に類似したトークンを優先すべきであると仮定する意味的モデリングである。本研究では、これら一見異なる目的を、最小限の介入、すなわちCoPE: RoPEの低周波数成分のソフトクリッピングによって統合する。CoPEはOOD外れ値を除去し意味的シグナルを改善するだけでなく、ハードクリッピングによって引き起こされるスペクトル漏れも防止する。大規模な実験により、我々のソフトクリッピング戦略をRoPEに適用するだけで、256kの文脈長にまでスケールする顕著な性能向上が得られることが実証され、理論分析を裏付けるとともに、CoPEが長さ一般化における新たなstate-of-the-artを確立するものである。コード、データ、モデルはhttps://github.com/hrlics/CoPE で公開されている。
検索拡張生成(RAG)の最近の進展は、単純なベクトル類似性から、知識グラフ(KG)とPersonalized PageRank(PPR)を利用してマルチホップ依存関係を捕捉するHippoRAGのような構造認識アプローチへと移行している。しかし、これらの手法は「静的グラフの誤謬」に悩まされている。すなわち、インデックス作成時に決定された固定の遷移確率に依存するため、エッジの関連性がクエリに依存する性質を無視し、ランダムウォークが重要な下流の証拠に到達する前に高次数の「ハブ」ノードに逸脱する意味的ドリフトを引き起こす。その結果、モデルは高い部分的な再現率を達成するが、マルチホップクエリに必要な完全な証拠連鎖を検索できないことが多い。この問題に対処するため、我々はHippoRAG 2アーキテクチャを基盤とし、静的KGをクエリ適応型のナビゲーション構造に変換するフレームワーク「CatRAG:文脈認識トラバーサルによる頑健なRAG」を提案する。本フレームワークでは、ランダムウォークを誘導する多面的なアプローチを導入する。(1)弱いエンティティ制約を注入してランダムウォークを正則化する「記号的アンカリング」、(2)グラフ構造を動的に調整し、クエリの意図に沿った経路を増幅しながら無関係な経路を刈り込む「クエリ認識型動的エッジ重み付け」、(3)ランダムウォークを証拠となり得る部分に構造的に固定するコスト効率の良いバイアスである「重要事実パッセージ重み強化」である。4つのマルチホップベンチマークによる実験では、CatRAGが一貫して最新のベースライン手法を上回ることを示した。分析の結果、標準的な再現率指標ではわずかな向上に留まる一方で、CatRAGは推論の完全性、すなわち証拠経路全体を欠落なく復元する能力において大幅な改善を達成することが明らかになった。これらの結果は、我々のアプローチが部分的な文脈の検索と完全に接地された推論の実現との間のギャップを効果的に埋めるものであることを示している。リソースはhttps://github.com/kwunhang/CatRAG で公開されている。
大規模言語モデル(LLM)がモデル規模とデータ規模の拡大によって経験的に顕著な成功を収めるにつれ、事前学習はますます重要である一方で計算コストが膨大となり、急速な開発の妨げとなっている。計算コストをかけて開発された多数の事前学習済みLLMが利用可能であるにもかかわらず、現実世界における基本的な疑問、すなわち「既存の小規模な事前学習済みモデルを活用して大規模モデルの学習を加速できるか」という点は十分に検討されていない。本論文では、LLMが早期の段階および初期の層で後期の知識を明示的に学習できるようにする「後期から前期への訓練(Late-to-Early Training: LET)」パラダイムを提案する。中核となる考え方は、事前学習済み(すなわち学習後期段階の)モデルの後期層からの表現を用いて、学習初期段階におけるLLMの初期層を指導することである。我々はLETの有効性を支える二つの主要メカニズム、すなわち「後期から前期ステップへの学習」と「後期から前期層への学習」を特定した。これらのメカニズムは、言語モデリング能力と下流タスクの性能の両方を堅牢に向上させながら、学習の収束を大幅に加速し、より高速な学習と優れた性能を実現する。14億パラメータおよび70億パラメータモデルを用いた大規模な実験により、LETの効率性と有効性が実証された。特に、Pileデータセットを用いて14億パラメータLLMを訓練する際、本手法は標準的な訓練と比較して最大1.6倍の高速化を達成し、下流タスクの精度で約5%の改善を示した。これは、目標モデルよりも10倍少ないパラメータを持つ事前学習済みモデルを使用した場合でも同様である。
我々はInfinite-Worldを提案する。これは複雑な実世界環境において1000フレーム以上にわたりコヒーレントな視覚的メモリを維持可能な、頑健なインタラクティブ世界モデルである。既存の世界モデルは完全なグラウンドトゥルースを持つ合成データでは効率的に最適化可能だが、ノイズの多い姿勢推定と視点再訪の不足により、実世界動画に対する効果的な学習パラダイムを欠いている。この課題を解決するため、我々はまず、階層的姿勢非依存メモリ圧縮器(HPMC)を導入する。HPMCは履歴潜在変数を固定バジェット表現へ再帰的に蒸留し、生成バックボーンとの共同最適化により、幾何学的事前情報を必要とせず、計算コストを限定した遠隔過去への生成的アンカリングを実現する。第二に、連続運動を三値論理に離散化する不確実性考慮行動ラベリングモジュールを提案する。この戦略により、生動画データの活用を最大化しつつ、ノイジーな軌跡による決定論的行動空間の汚染を防ぎ、頑健な行動応答学習を保証する。さらに、予備的なトイスタディからの知見に基づき、30分のコンパクトなデータセットを用いた再訪集中ファインチューニング戦略を採用し、モデルの長距離ループ閉鎖能力を効率的に活性化する。客観的指標とユーザスタディを含む大規模実験により、Infinite-Worldが視覚品質、行動制御性、空間一貫性において優れた性能を達成することを実証する。
シャンプーは主要な近似二階最適化手法の一つである。その派生版はMLCommons AlgoPerf競技会で優勝し、活性化の外れ値が少なく圧縮が容易なモデルを生成することが実証されている。しかし、シャンプーの適用には現在、内部演算の計算コストが高いため、大幅な計算速度の低下という代償が伴う。本論文では、この欠点に対処する重要な一歩として、\method(Distributed Accelerated SHampoo)を提案する。これは、主に二つの新技術に基づく分散シャンプーの高速実装である。第一に、前処理行列のブロックを3Dテンソルに積み重ねることでGPU利用率を大幅に向上できることを示す。第二に、シャンプーに必要な逆行列の平方根計算に対して、より高速な新手法としてNewton-DB反復法とチェビシェフ多項式近似を導入する。これらのアルゴリズム的貢献に加えて、行列スケーリングがシャンプーの収束にどのように決定的に影響するかについて初めて詳細な分析を行う。実用面では、当社のGPUを意識した実装は、最適化が十分に行われた分散シャンプーと比較して最大4.83倍の高速化をオプティマイザステップで達成し、Newton-DBは全テスト手法中で反復ごとの検証パープレキシティが最小となった。コードはhttps://github.com/IST-DASLab/DASH で公開されている。
蒸留自己回帰拡散モデルはリアルタイムの短編動画合成を可能にするが、長系列生成において深刻な誤差蓄積に悩まされる。既存のテスト時最適化(TTO)手法は画像や短いクリップに対して有効であることが証明されているが、不安定な報酬地形と蒸留パラメータの過敏性により、長系列におけるドリフト軽減には失敗することが判明した。これらの制限を克服するため、我々は学習不要の代替手法であるテスト時補正(TTC)を提案する。具体的には、TTCは初期フレームを安定した参照アンカーとして利用し、サンプリング軌道上の中間確率的状態を較正する。大規模な実験により、本手法が様々な蒸留モデルとシームレスに統合し、30秒ベンチマークにおいてリソース集約的な学習ベース手法の品質を維持しながら、無視可能なオーバーヘッドで生成長を拡張できることが実証された。
高度な自己回帰型動画生成モデルは視覚的忠実度と対話性が向上しているが、アテンションの二次計算量が効率的な展開における主要なボトルネックとなっている。既存の疎アテンション手法は双方向モデルで有望な成果を示しているが、これらを自己回帰型モデルに適用すると、チャンク生成の孤立した考慮と過去の情報豊富なコンテキストの不十分な活用という2つの理由から性能が大幅に低下する。この観察に基づき、我々は自己回帰型動画生成モデルに特化した初の疎アテンション手法であるLight Forcingを提案する。本手法は、各チャンクの寄与を定量的に評価し疎性配分を決定するChunk-Aware Growth機構を組み込んでいる。この漸進的疎性増加戦略により、現在のチャンクは生成過程中に先行チャンクの知識を継承できる。さらに、情報量の多い履歴コンテキストと局所コンテキストを粗密に捕捉する階層的疎アテンションを導入する。この2段階マスク選択戦略(フレームレベルとブロックレベル)により、多様なアテンションパターンに適応的に対応できる。大規模実験により、本手法が既存の疎アテンションよりも品質(VBenchで84.5点)と効率性(エンドツーエンドで1.2~1.3倍の高速化)の両面で優れることを実証した。FP8量子化とLightVAEとの組み合わせにより、RTX 5090 GPUで2.3倍の高速化と19.7 FPSを達成している。コードはhttps://github.com/chengtao-lv/LightForcing で公開予定である。
我々は、限定的なインタラクション予算下での対話的環境探索能力について言語モデルを評価する。探索難易度を制御可能な3つのパラメトリックタスクを連続環境と離散環境にわたって導入した。最先端モデルを横断的に分析した結果、体系的な探索不足と非最適解が確認され、性能は単純な探索―利用ヒューリスティックベースラインよりも大幅に劣ることが多く、予算増加に対するスケーリングも弱いことが明らかになった。最後に、2つの軽量介入手法を検討する:固定予算を並列実行に分割する手法(理論的には利得が期待されないタスクにおいて驚くべき性能向上を示す)と、インタラクション履歴の定期的な要約(重要な発見を保持し探索をさらに改善する)である。
検証済み報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させるための重要なパラダイムとして登場した。既存のRLVR手法の多く(GRPOとその変種など)は、尤度比のクリッピングにより方策の乖離を制約することで、安定した更新を保証している。本論文では、既存手法を一般化された方策乖離の概念を通じて特徴づける統一クリッピングフレームワークを提案する。このフレームワークは、尤度比とKLダイバージェンスの両方を含み、代替的な測度へと拡張可能である。これにより、異なる方策乖離測度が探索と性能に与える影響を体系的に分析するための原理的な基盤が提供される。さらに我々は、KLダイバージェンスの分散低減型モンテカルロ推定量であるKL3推定量を、重要な方策乖離制約として特定する。理論的に、KL3に基づく制約は、確率質量を高信頼度の行動へ再分配する非対称な比率ベースのクリッピングと数学的に等価であることを示し、GRPOスタイルの手法の単純さを保ちつつ、より強力な探索を促進する。数学的推論ベンチマークにおける実験結果は、KL3推定量をGRPOに組み込むことで、学習の安定性と最終性能の両方が改善されることを実証し、方策最適化における原理に基づいた方策乖離制約の重要性を明らかにする。
視覚言語モデル(VLM)は、画像の位置情報推定において優れた性能を示しており、この能力は先進的なマルチモーダル大規模推論モデル(MLRM)によってさらに鋭敏化されている。このことは重大なプライバシーリスクを引き起こす。広く利用可能なこれらのモデルが、気軽に共有された写真から機密性の高い位置情報を推論するために悪用される可能性があり、多くの場合、通り単位の精度に達し、共有者が同意または意図した開示水準を超える詳細さに及ぶためである。最近の研究では、このリスクに対処するため位置情報開示に対する包括的な制限を適用することが提案されているが、これらの対策は悪意のある行為と正当な位置情報利用とを区別できていない。むしろVLMは、画像内の要素を推論して適切な情報開示水準を決定し、プライバシーと有用性のバランスを取ることで、文脈的整合性を維持すべきである。モデルが文脈的整合性をどの程度尊重するかを評価するため、我々はVLM-GEOPRIVACYベンチマークを導入する。これはVLMに対し、実世界の画像に含まれる潜在的な社会的規範と文脈的手がかりを解釈し、適切な位置情報開示水準を決定することを求めるものである。主要な14のVLMを評価した結果、モデルは画像を正確に位置推定できる能力を持つにもかかわらず、人間のプライバシー期待との整合性が低いことが明らかになった。機密性の高い文脈で過剰な開示を行うことが多く、プロンプトベースの攻撃に対して脆弱である。我々の結果は、マルチモーダルシステムにおける新しい設計原則として、文脈条件付きプライバシー推論の組み込み必要性を提唱するものである。
Low-Rank Adaptation (LoRA) は、大規模言語モデル (LLM) の効率的なファインチューニングにおける主流の手法である。このパラダイムを発展させ、近年の研究では代替的な初期化戦略や構造的変更が提案され、標準的なLoRAを上回る大幅な改善が報告されている。しかし、ニューラルネットワークの学習設定に対する感度が既知であるにもかかわらず、これらの改善は、固定された、あるいは限定的に調整されたハイパーパラメータ設定下で実証されることが多い。本研究では、代表的な4つのLoRA変種法を標準的なLoRAとともに、広範なハイパーパラメータ探索を通して系統的に再評価する。様々なモデル規模における数学的タスクとコード生成タスクにおいて、異なるLoRA手法はそれぞれ異なる学習率の範囲を好むことを明らかにする。決定的に重要なのは、学習率が適切に調整されれば、すべての手法が同様のピーク性能(1-2%以内の差)を達成し、ランク依存の振る舞いの差異は僅かであることだ。これらの結果は、標準的なLoRAが依然として競争力のあるベースラインであり、単一の学習設定下で報告される改善は、一貫した手法上の優位性を反映していない可能性を示唆する。最後に、二次の解析により、最適学習率範囲の差異は最大ヘッセ行列固有値の変動に起因することが明らかとなり、古典的な学習理論と一致する。
我々は、音響言語モデルにおける2つの基礎的問題を研究する:(1) 理解と生成の両方の中間表現として機能する音響トークナイザをいかに設計するか;(2) 大規模言語モデルと同様に、少数事例・零事例設定で汎化する音響基盤モデルをいかに構築するか。この目的のために、以下の2つの貢献を行う。第一に、ReasoningCodecを提案する。これは音響を (i) 音響理解と階層的生成のためのテキスト整合的な高次元分析・計画表現を符号化する推論トークンと、(ii) 高忠実度波形再構成のための意味論的に豊かな音響手がかりを符号化する再構成トークンに分解する離散音響コーデックである。この設計は、強力な連続表現に匹敵する理解性能を達成しつつ、従来の離散トークナイザよりも生成品質と再構成忠実度を向上させる。第二に、テキストと音響の統合的自己回帰アーキテクチャと、多段階学習・多タスクデータ構築を導入する。この枠組みを用いて、100Bのテキストトークンと60Bの音響トークンでUniAudio 2.0を学習させる。多様な音声・音響・音楽タスクにおいて、UniAudio 2.0はドメイン内評価で競争力のある性能を示し、未見タスクへの強力な少数事例・零事例汎化能力を実証する。デモ・コード・チェックポイントはhttps://dongchaoyang.top/UniAudio2Demo/に公開予定である。
ニューラル音声コーデックは、連続音声をLLMで処理可能な離散トークン列に変換する、現代の対話音声技術の中核をなす。しかし、既存のコーデックは一般に固定フレームレートで動作し、時間的に均一にトークンを割り当てるため、不必要に長い系列を生成してしまう。本研究では、ソフト文字単位アライメントと明示的な継続時間モデリングを通じて可変フレームレートのトークン化を実現するDyCAST(Dynamic Character-Aligned Speech Tokenizer)を提案する。DyCASTは学習時にトークンと文字単位の言語単位の関連付けを学習し、復号時にトークン継続時間を直接制御可能なアライメント不要の推論を可能とする。低フレームレートにおける音声再合成品質を向上させるため、ビットレートを増加させずに再構成忠実度を高める検索強化型復号機制も導入する。実験により、DyCASTが固定フレームレートコーデックよりも大幅に少ないトークン数で、競合する音声再合成品質と下流タスク性能を達成することを示す。コードとチェックポイントはhttps://github.com/lucadellalib/dycast で公開予定である。
近年のビデオ生成モデルは、画素空間のビデオを潜在表現に圧縮するビデオオートエンコーダに大きく依存している。しかし、既存のビデオオートエンコーダには、(1)単純なビデオにおいてトークンを浪費する固定レート圧縮、(2)可変長の潜在モデリングを妨げる非柔軟なCNNアーキテクチャ、(3)圧縮された潜在から適切な詳細を復元するのが困難な決定論的デコーダ、という3つの主要な課題がある。これらの問題を解決するため、我々は適応的1次元符号化と拡散ベース復号を可能にするトランスフォーマーベースのフレームワークであるOne-Dimensional Diffusion Video Autoencoder (One-DVA)を提案する。エンコーダはクエリベースのVision Transformerを用いて時空間特徴を抽出し潜在表現を生成し、可変長ドロップアウト機構が潜在長を動的に調整する。デコーダは画素空間のDiffusion Transformerであり、潜在を条件入力としてビデオを再構築する。2段階の学習戦略により、One-DVAは同一圧縮率において再構成指標で3D-CNN VAEに匹敵する性能を達成する。さらに重要なのは、適応的圧縮をサポートすることでより高い圧縮率を実現できる点である。下流の潜在生成タスクをより良く支援するため、我々は生成モデリング向けにOne-DVAの潜在分布を正則化し、生成プロセスに起因するアーティファクトを軽減するためにデコーダをファインチューニングする。
ビデオモーション転送は、参照ビデオで観察されたモーションパターンを転送しながら、テキストプロンプトに従って視覚コンテンツを生成することでビデオを合成することを目的としています。近年の手法は、Diffusion Transformer(DiT)アーキテクチャを主に採用しています。十分な実行速度を達成するため、いくつかの手法はDiT内の計算を加速しようと試みていますが、構造的な非効率性の根本原因に対処できていません。本研究では、従来研究に存在する2種類の計算の冗長性を特定し、排除します。モーションの冗長性は、一般的なDiTアーキテクチャが、フレーム間の動きが小さく滑らかであるという事実を反映していないために生じます。勾配の冗長性は、拡散軌道に沿って勾配がゆっくりと変化することを無視した場合に発生します。モーションの冗長性を軽減するため、対応するアテンション層を局所近傍にマスキングし、不必要に離れた画像領域間で相互作用の重みが計算されないようにします。勾配の冗長性を活用するため、過去の拡散ステップからの勾配を再利用し、不要な勾配計算をスキップする最適化手法を設計します。平均して、FastVMTは生成されるビデオの視覚的品質や時間的一貫性を劣化させることなく、3.43倍の高速化を実現します。
SAM3Dは複雑なシーンからのスケーラブルなオープンワールド3D再構成を実現するが、その実用化は過度な推論遅延によって妨げられている。本研究では、その推論ダイナミクスに関する初の体系的な調査を行い、一般的な高速化手法がこの文脈では脆弱であることを明らかにする。これらの失敗は、パイプラインに内在するマルチレベルな不均質性、すなわち形状とレイアウト間の運動学的差異、テクスチャ精細化の本質的なスパース性、および幾何学構造に跨るスペクトル的なばらつきを無視することに起因することを示す。この問題に対処するため、我々は計算量を瞬間的な生成複雑度に動的に適合させる訓練不要のフレームワークFast-SAM3Dを提案する。本手法は三つの不均質性を考慮したメカニズムを統合する:(1) 構造的進化と敏感なレイアウト更新を分離するモダリティ対応ステップキャッシング、(2) 高エントロピー領域に精細化を集中させる時空間トークン統合切削、(3) 復号解像度を適応的に調整するスペクトル対応トークン集約。大規模な実験により、Fast-SAM3Dが検知可能な忠実度低下をほぼ伴わずに最大2.67倍のエンドツーエンド高速化を実現し、効率的な単一視点3D生成の新たなパレートフロンティアを確立することを実証する。コードはhttps://github.com/wlfeng0509/Fast-SAM3Dで公開されている。
AI安全性において、創発的ミスアライメントは重大なリスク要因である。本論文では、11の多様なドメインにわたる安全でないデータセットでファインチューニングされた大規模言語モデル群を構築し、バックドアトリガーの有無による影響を無関係なユーザープロンプト群で評価した。Qwen2.5-Coder-7B-InstructとGPT-4o-miniを用いた評価実験から二つの主要な知見を得た:(i)バックドアトリガーは77.8%のドメインでミスアライメント率を上昇させ(平均4.33ポイント低下)、特に危険な金融助言と有害な法的助言のドメインで最大の影響が確認された;(ii)ドメイン間の脆弱性には顕著な差があり、不正解数学問題ドメインでのミスアライメント率0%から、グロ映画雑学ドメインでの87.67%まで幅広く分布した。 第~sec:研究探求節では追加実験を通じて複数の研究課題を検証し、メンバーシップ推論指標(特に非指示チューニングベースモデル補正版)が広範なミスアライメントの程度を予測する優れた事前指標となることを明らかにした。さらに、異なるデータセットでファインチューニングされたモデル間のミスアライメントを調査し、一つの創発的ミスアライメントモデルから抽出した方向ベクトルが他モデルの振る舞い制御に一般化可能か分析した。本研究は、AIセキュリティとポストトレーニングに示唆を持つドメイン別ミスアライメントの分類的階層化を初めて提供するとともに、ミスアライメントデータセット構築の標準化レシピを確立した。すべてのコードとデータセットはGitHubで公開している。https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
大規模言語モデル(LLM)ベースのマルチエージェントシステムは表現力豊かなエージェント推論を可能にするが、スケーリングにコストがかかり、時間ステップ整合型の状態遷移シミュレーションに対して較正が不十分である。一方、古典的なエージェントベースモデル(ABM)は解釈性に優れるが、詳細な個体レベルの信号や非定常的な行動の統合が困難である。本研究では、推論を行動的に一貫したエージェントクラスタに移行するPhysicsAgentABMを提案する。状態特化型の記号的エージェントが力学的遷移事前分布を符号化し、マルチモーダルニューラル遷移モデルが時間的・相互作用的ダイナミクスを捕捉し、不確実性考慮型認識的融合により較正されたクラスタレベルの遷移分布を生成する。個々のエージェントは局所的制約下で確率的に遷移を実現し、集団推論と個体レベルの変動性を分離する。さらに、クロスコンテキスト的な行動応答と新規の対照損失に基づくLLMエージェント駆動クラスタリング手法ANCHORを導入し、LLM呼び出しを最大6~8倍削減する。公衆衛生、金融、社会科学における実験により、力学的モデル、ニューラルモデル、LLMベースラインを一貫して上回るイベント時間精度と較正性能を実証した。不確実性考慮型神経記号的融合による集団レベルの推論を中核に生成型ABMを再構築することで、PhysicsAgentABMはLLMを用いたスケーラブルで較正されたシミュレーションの新たなパラダイムを確立する。
拡散大規模言語モデル(dLLM)は、非自己回帰的なデコード手法において優れた長文処理能力を発揮する。しかし、双方向の完全注意機構には多大な計算コストが伴い、推論効率を制限している。疎な注意機構は有望だが、既存の手法は依然として効果的ではない。これは、未デコードのトークンに対する注意の重要度を推定する必要がある一方で、拡散過程においてマスクされていないトークンの位置が未知であることに起因する。本論文では、正確かつ効率的な長文dLLM推論のための、学習不要の新しい注意疎化フレームワーク「Focus-dLLM」を提案する。隣接するステップ間でトークンの信頼度に強い相関があるという発見に基づき、まずマスクされていない領域を予測する過去の信頼度誘導指標を設計する。これを基盤として、影響力の大きい注意のシンクを保持しつつ、冗長な注意計算を正確に推定・削除するシンク対応枝刈り戦略を提案する。さらにオーバーヘッドを削減するため、観測された層間一貫性を活用し、特定されたシンク位置を層間で再利用する。実験結果から、本手法が32Kの文脈長条件下で29倍以上のロスレスな高速化を実現することが示された。コードはhttps://github.com/Longxmas/Focus-dLLM で公開されている。