翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)における強化学習(RL)では、訓練の安定性が依然として中心的な課題である。ポリシーの陳腐化、非同期訓練、および訓練と推論エンジンの不整合は、すべて行動ポリシーが現在のポリシーから乖離する原因となり、訓練の崩壊リスクを伴う。重要度サンプリングはこの分布シフトに対する原理的な補正を提供するが、高い分散に悩まされており、トークンレベルのクリッピングやシーケンスレベルの正規化といった既存の対策は、統一された理論的基盤を欠いている。我々はVariational sEquence-level Soft Policy Optimization(VESPO)を提案する。提案分布に対する変分定式化に分散削減を組み込むことで、VESPOは長さの正規化を必要とせず、シーケンスレベルの重要度重みに直接作用する閉形式のリシェイピングカーネルを導出する。数学的推論ベンチマークによる実験では、VESPOが64倍までの陳腐化率および完全非同期実行下で安定した訓練を維持し、密モデルとMixture-of-Expertsモデルの両方で一貫した性能向上をもたらすことが示されている。コードはhttps://github.com/FloyedShen/VESPOで公開されている。
大規模推論モデル(LRM)の最近の進歩は、長い思考連鎖(CoT)を通じて複雑な推論タスクにおける能力を大幅に向上させてきた。しかし、このアプローチはしばしば大幅な冗長性を生み出し、計算効率を損ない、リアルタイムアプリケーションにおいて重大な遅延を引き起こす。最近の研究では、長い推論連鎖が正答率と無関係であることが多く、精度に悪影響を及ぼし得ることが示されている。この現象をさらに詳細に分析した結果、我々は驚くべきことに、LRMが暗黙的に思考を停止する適切なタイミングを知っている一方で、この能力が現在のサンプリング手法によって覆い隠されていることを実証的に明らかにした。この発見に動機付けられ、我々はこの効率的な推論の潜在能力を解放する新しいサンプリング手法であるSAGE(Self-Aware Guided Efficient Reasoning)を提案する。さらに、SAGEを混合サンプリングとしてグループベース強化学習(SAGE-RL)に統合することで、SAGE-RLはSAGEが発見した効率的な推論パターンを標準的なpass@1推論に効果的に組み込み、複数の難易度の高い数学的ベンチマークにおいてLRMの推論精度と効率の両方を著しく向上させることができる。
拡張現実(XR)には、ユーザーの追跡された実世界の動作に応答する生成モデルが求められるが、現在のビデオ世界モデルはテキストやキーボード入力といった粗い制御信号しか受け付けず、具現化されたインタラクションの有用性を制限している。本研究では、追跡された頭部姿勢と関節レベルでの手の姿勢の両方を条件付けとする人間中心のビデオ世界モデルを提案する。この目的のために、既存の拡散トランスフォーマーの条件付け戦略を評価し、3D頭部・手部制御の効果的なメカニズムを提案することで、精巧な手と物体のインタラクションを可能にする。この戦略を用いて双方向ビデオ拡散モデルの教師モデルを学習し、因果的でインタラクティブなシステムに蒸留することで、一人称視点の仮想環境を生成する。この生成現実システムを被験者を用いて評価し、関連するベースラインと比較して、タスク性能の向上と、実行された行動に対する制御感覚が有意に高いレベルであることを実証する。
視覚的類推学習は、テキスト記述ではなく実演を通じて画像操作を可能にし、言葉で表現するのが困難な複雑な変換をユーザが指定できるようにする。三重項 {a, a', b} が与えられたとき、a : a' :: b : b' となるように b' を生成することが目標である。近年の手法は、単一の低ランク適応(LoRA)モジュールを使用してテキストから画像へのモデルをこのタスクに適応させるが、固定された適応モジュール内で多様な視覚変換の空間を捉えようとすることは、汎化能力を制限する根本的な課題に直面する。制約のある領域におけるLoRAが意味的かつ補間可能な空間を張ることを示した最近の研究に着想を得て、我々はLoRWeBを提案する。これは学習済み変換プリミティブの動的合成(非公式には「LoRAの空間」内での点選択)を通じて、推論時に各類推タスクに対してモデルを特殊化する新規アプローチである。我々は二つの主要コンポーネントを導入する:(1)異なる視覚変換の空間を張るための学習可能なLoRAモジュール基底、(2)入力の類推ペアに基づいてこれらの基底LoRAを動的に選択し重み付けする軽量エンコーダ。包括的評価により、本手法が最先端の性能を達成し、未見の視覚変換への汎化を大幅に改善することを実証する。我々の発見は、LoRA基底分解が柔軟な視覚操作のための有望な方向性であることを示唆する。コードとデータは https://research.nvidia.com/labs/par/lorweb で公開されている。
デコーディングは言語モデルとその応用の間に位置する重要な要素であるにもかかわらず、未だに経験的なパラメータ調整作業として扱われがちです。我々はデコーディングを原理に基づく最適化層として捉えるべきだと主張します。つまり、各トークン生成時に、モデルスコアと構造的選好性/制約のトレードオフを図る正則化問題を確率単体上で解決するという枠組みです。この統一テンプレートは、貪欲法デコーディング、Softmaxサンプリング、Top-K、Top-P、Sparsemax型スパース性などを特殊ケースとして包含し、最適性条件を通じてそれらの共通構造を説明します。 さらに重要なのは、この枠組みが新たなデコーダを経験則に頼らず設計できる点です。これを実証するため、マルチサンプルパイプライン(自己一貫性、再ランキング、検証器選択)向けにKLダイバージェンスを基準としたカバレッジ目的関数であるBest-of-K(BoK)を設計しました。BoKは固定Kサンプル予算内で良好な代替案をカバーする確率を最大化し、実証的な性能向上をもたらします。例えば高サンプリング温度条件下では、Qwen2.5-Math-7BのMATH500における精度を+18.6%改善できることを示しました。
人間は、自己中心的な知覚を用いて雑然とした環境内で物体を再配置し、大域座標に依存せずに遮蔽物を回避することができる。この能力に着想を得て、我々は単一の自己中心カメラを用いた移動ロボットのための長期間・多物体・把持を伴わない再配置タスクを研究する。本論文では、動的シーンで頻繁に失敗する明示的大域状態推定に依存しない、自己中心的で知覚駆動型の再配置を可能にする政策学習フレームワーク「EgoPush」を提案する。EgoPushは、絶対姿勢ではなく物体間の相対的空間関係を符号化する物体中心の潜在空間を設計する。この設計により、特権的強化学習(RL)教師は疎なキーポイントから潜在状態と移動動作を共同で学習し、その後、純粋に視覚的な学生政策へと蒸留される。全能的な教師と部分観測の学生の間の監督ギャップを軽減するため、教師の観測を視覚的にアクセス可能な手がかりに制限する。これにより、学生の視点から回復可能な能動的知覚行動が誘発される。長期的な信用割り当ての問題に対処するため、時間的に減衰する段階ローカル完了報酬を用いて、再配置タスクを段階レベルに分解する。大規模なシミュレーション実験により、EgoPushがエンドツーエンドRLベースラインを成功率で大幅に上回ることを示し、アブレーション研究により各設計選択を検証する。さらに、実世界の移動プラットフォームにおいてゼロショットのsim-to-real転移を実証する。コードとビデオはhttps://ai4ce.github.io/EgoPush/で公開されている。
身体性エージェントがVR、テレプレゼンス、デジタルヒューマン応用の中心となるにつれ、その動作は音声に連動したジェスチャーを超える必要がある。エージェントはユーザーの方向を向き、動きに反応し、自然な視線を維持すべきである。現在の手法にはこの空間的認識が欠けている。我々はこのギャップを埋める、初のリアルタイムで完全因果的な空間認識会話動作生成手法を提案し、ストリーミングVRヘッドセットへの展開を可能にする。ユーザーの位置と双方向音声を入力として、本手法は音声と同期したジェスチャーを生成すると同時に、ユーザーに応じてエージェントの方向制御を行う全身動作を生成する。提案アーキテクチャは、因果的TransformerベースのVAEとストリーミング推論のためのインターリーブ潜在トークン、ユーザー軌跡と音声を条件とするフローマッチングモデルを組み合わせている。様々な視線選好に対応するため、分類器不要ガイダンスを用いた視線スコアリング機構を導入し、学習と制御を分離する。モデルはデータから自然な空間的調整を学習し、推論時にユーザーがアイコンタクトの強度を調整可能である。Embody 3Dデータセットにおいて、本手法は300 FPS超の状態-of-the-art動作品質を達成(非因果的ベースライン比3倍高速)し、自然な会話の微妙な空間的ダイナミクスを捉える。実稼働VRシステムでの検証により、空間認識会話エージェントのリアルタイム展開を実現した。詳細はhttps://evonneng.github.io/sarah/ を参照されたい。
計算資源とメモリ制約が厳しい産業界の自然言語処理において、コンパクトな事前学習双方向エンコーダーは依然として基盤技術であり続けています。その有効性は、BERTスタイルのアーキテクチャで広く普及したセルフアテンションの、シーケンスレベルの並列処理による高品質な双方向文脈化能力に由来します。最近、Aveyは自己回帰的かつアテンション不要な代替手法として導入され、エンコーダー専用への適応が自然に可能であることが示されました。本論文では、Aveyをエンコーダー専用パラダイム向けに再構築し、分離された静的・動的パラメータ化、安定性志向の正規化、ニューラル圧縮といったアーキテクチャ上の複数の革新を提案します。実験結果では、この再構築されたアーキテクチャが広く使用されている4つのTransformerベースのエンコーダーと比較して優位性を示し、標準的なトークン分類および情報検索ベンチマークで一貫して優れた性能を発揮しながら、長文コンテキストへの効率的なスケーリングを実現しています。
検証可能な報酬による強化学習(RLVR)は、大規模マルチモーダルモデル(LMM)の視覚的反射および推論能力を強化するのに効果的であることが実証されている。しかし、既存のデータセットは小規模な手動作成または既存リソースの再構成に依存している場合が多く、データの多様性と網羅性が制限されるため、モデル性能のさらなる向上が妨げられている。この課題に対処するため、我々はDeepVision-103Kを提案する。これは多様なK12数学トピック、広範な知識ポイント、豊富な視覚要素を網羅するRLVRトレーニング向け総合データセットである。DeepVisionで学習したモデルはマルチモーダル数学ベンチマークで強力な性能を発揮し、一般的なマルチモーダル推論タスクへも効果的に汎化した。詳細分析により、学習済みモデルでは視覚知覚・反射・推論能力が強化されていることが明らかとなり、マルチモーダル推論の発展におけるDeepVisionの有効性が実証された。データ:https://huggingface.co/datasets/skylenage/DeepVision-103K
既存のオンライン動画セグメンテーションモデルは、通常、フレーム単位のセグメンターと複雑な専用トラッキングモジュールを組み合わせた構成を採っている。これらのモジュールは有効ではあるが、構造的な複雑さと計算コストの大幅な増加をもたらす。最近の研究では、十分な容量と大規模な事前学習を備えたプレーンなVision Transformer(ViT)エンコーダーが、特殊なモジュールを必要とせずに正確な画像セグメンテーションを実行できることが示されている。この知見に基づき、我々は専用のトラッキングモジュールを不要とするシンプルなエンコーダー専用動画セグメンテーションモデル、Video Encoder-only Mask Transformer(VidEoMT)を提案する。エンコーダー専用ViTにおける時間的モデリングを実現するため、VidEoMTは軽量なクエリ伝播メカニズムを導入し、前フレームのクエリを再利用することでフレーム間の情報伝達を行う。さらに、新規コンテンツへの適応性とのバランスを図るため、伝播されたクエリと時間的に不変な学習済みクエリ群を組み合わせるクエリ融合戦略を採用する。その結果、VidEoMTは複雑さを追加することなくトラッカーの利点を獲得し、ViT-Lバックボーンで最大160 FPSを達成しつつ、競争力のある精度を5倍から10倍高速に実現する。コード:https://www.tue-mps.org/videomt/
本論文では、単眼ビデオからの4次元再構成のための統一的フィードフォワードフレームワークである4RCを提案する。従来手法が典型的に運動を形状から分離するか、まばらな軌跡や2視点シーンフローといった限定的な4D属性しか生成しないのに対し、4RCは密なシーン形状と運動ダイナミクスを統合的に捕捉する包括的4D表現を学習する。中核となるのは、革新的な「一度エンコード、任意時刻・任意クエリ」パラダイムである。トランスフォーマーバックボーンがビデオ全体をコンパクトな時空間潜在空間にエンコードし、条件付きデコーダが任意の目標時刻におけるクエリフレームの3D形状と運動を効率的に問い合わせる。学習を促進するため、ビュー毎の4D属性を基本形状と時間依存の相対運動に分解し、最小限に因子化された形式で表現する。大規模な実験により、4RCが多様な4D再構成タスクにおいて従来手法及び同時期手法を凌駕することを実証する。
強化学習は、シミュレーションキャラクターの多様な動作を再現する制御ポリシーを学習するための枠組みを提供する。しかし、そのようなポリシーは、人間や物理的なロボットでは実現不可能な不自然な高周波信号を利用することが多く、現実世界の行動の適切な表現とはなりえない。既存研究では、この問題に対処するため、時間経過に伴うアクションの大きな変化をペナルティとする報酬項を追加する手法が取られてきた。この項には、多くの場合、大幅な調整作業が要求される。本研究では、自動微分を通じて、シミュレーション状態の変化に対するアクションの変化を直接ペナルティ化する、アクションJacobianペナルティを提案する。これにより、タスク固有の調整なしで、非現実的な高周波制御信号を効果的に排除できる。アクションJacobianペナルティは有効である一方、従来の全結合ニューラルネットワークアーキテクチャと併用すると、計算コストが大幅に増加する。この問題を軽減するため、学習時のアクションJacobianペナルティ計算の計算負荷を大幅に削減するLinear Policy Net (LPN) と呼ばれる新たなアーキテクチャを提案する。さらに、LPNはパラメータ調整が不要であり、ベースライン手法と比較して学習の収束が速く、推論時には全結合ニューラルネットワークよりも効率的に問い合わせることができる。我々は、Linear Policy NetをアクションJacobianペナルティと組み合わせることで、バックフリップのような動的動作や様々な挑戦的なパルクール技能を含む、異なる特性を持つ数々の動作模倣タスクを解決しつつ、滑らかな信号を生成するポリシーを学習できることを実証する。最後に、このアプローチを応用し、アームを装備した物理的な四足歩行ロボットにおける動的動作のためのポリシーを作成する。
拡散言語モデル(DLM)は、反復的なノイズ除去プロセスにより高い推論コストが生じるため、効率的な枝刈りの動機付けとなっている。既存の枝刈りヒューリスティックは、主に自己回帰(AR)LLMから継承されたもので、ARモデルにおける注意の吸収トークン(attention sink)が安定したグローバルアンカーとして機能するため、これらを保持することが一般的である。本論文では、この前提がDLMには当てはまらないことを示す:DLMでは、注意の吸収位置は生成軌跡全体を通じて著しく高い分散を示し(支配的な吸収位置がタイムステップ間でどのようにシフトするかで測定)、吸収がしばしば一時的であり、ARモデルほど構造的に必須ではないことを示唆している。この観察に基づき、我々は{bf Sink-Aware Pruning}を提案する。これは、DLMにおける不安定な吸収を自動的に識別し枝刈りする手法である(従来研究では通常AR LLMの吸収を保持する)。再学習なしで、本手法はより優れた品質と効率のトレードオフを達成し、同等の計算量条件下で強力な既存の枝刈りベースラインを上回る。コードはhttps://github.com/VILA-Lab/Sink-Aware-Pruningで公開されている。
大規模視覚言語モデル(LVLM)は目覚ましい進歩を遂げているが、視覚的証拠に依存せずに回答を生成する「言語バイアス」に悩まされることが多い。従来の研究は、デコーディング戦略、アーキテクチャ変更、または精選された指示データを通じてこの問題の緩和を試みてきたが、個々の訓練サンプルやトークンが画像から実際にどれだけ恩恵を受けているかを定量的に測定する手法は一般的に欠如していた。本研究では、視覚入力を通じて得られる予測の不確実性の低減を測定する、パープレキシティに基づく指標「視覚情報ゲイン(VIG)」を提案する。VIGはサンプルレベルおよびトークンレベルでの詳細な分析を可能にし、色、空間関係、属性などの視覚に基づいた要素を効果的に浮き彫りにする。これを活用し、高VIGのサンプルとトークンを優先するVIG誘導型選択的訓練スキームを提案する。このアプローチは、視覚的に情報量の多いサンプルとトークンに焦点を当てることで、視覚的接地を改善し言語バイアスを軽減し、監督データ量を大幅に削減しながら優れた性能を達成する。
ツール統合を備えた大規模言語モデル(LLM)を中核とする対話エージェントは、固定されたタスク指向対話データセットにおいて高い性能を達成するが、予期せぬユーザー起因のエラーに対して依然として脆弱である。本論文はエラー予防ではなく、誤った対話コンテキストの正確な診断と適切な回復計画の実行を必要とする**エラー回復**に焦点を当てる。モデルのファインチューニングやプロンプト修正には多大なコストと時間がかかるという現実的な制約の下で、エージェントが文脈的に欠陥のある対話から回復できるか、またモデルパラメータやプロンプトを変更せずにその挙動を適応させられるかを探求する。 この目的のために、我々は**Reasoning Inception (ReIn)** を提案する。これは、エージェントの意思決定プロセスに初期推論を組み込むテスト時介入手法である。具体的には、外部の inception モジュールが対話コンテキスト内の事前定義されたエラーを特定し、回復計画を生成する。これらはその後、エージェントのパラメータやシステムプロンプトを変更することなく、修正行動を導くためにその内部推論プロセスに統合される。 ReIn を評価するため、ユーザーの目標達成を直接妨げる対話失敗シナリオ(ユーザーの曖昧な要求および未サポートの要求)を系統的にシミュレートする。多様なエージェントモデルと inception モジュールの組み合わせにおいて、ReIn はタスク成功率を大幅に改善し、未見のエラータイプへも一般化した。さらに、明示的なプロンプト修正手法を一貫して上回り、効率的なオンザフライ手法としての有用性が強調される。その動作メカニズム、特に命令階層との関係に関する詳細な分析は、ReIn と共に回復ツールを共同定義することが、基盤モデルやシステムプロンプトを変更することなく対話エージェントのレジリエンスを向上させる安全かつ効果的な戦略となり得ることを示唆している。
効率的な確率的最適化手法は通常、決定論的領域で良好な性能を示す更新方向と、確率的摂動に適応する機構を統合する。Adamが適応的なモーメント推定を用いて安定性を促進する一方、Muonは直交化モーメントを通じて重み層の行列構造を利用し、大規模言語モデル学習において優れた性能を示す。本研究では、新たな最適化手法NAMOとその対角拡張版NAMO-Dを提案する。これらは、直交化モーメントとノルムベースのAdam型ノイズ適応を原理的に統合した初めての手法である。NAMOは単一の適応的ステップサイズを用いて直交化モーメントをスケーリングし、直交性を保持しながらMuonを上回る性能を無視できる追加コストで実現する。一方、NAMO-Dは直交化モーメントにクランプされた要素を持つ対角行列を右から乗算する。この設計はニューロン単位のノイズ適応を可能にし、一般的なほぼブロック対角なヘッシアン構造と整合する。標準的な仮定の下で、両アルゴリズムの決定論的設定における最適収束率を理論的に示し、確率的設定ではそれらの収束保証が確率的勾配のノイズレベルに適応することを示す。GPT-2モデルの事前学習実験により、NAMOとNAMO-DはAdamW及びMuonのベースラインと比較して性能が向上し、NAMO-Dは、条件の良い更新方向の維持と細粒度ノイズ適応の活用という競合する目標のバランスを取る追加のクランプハイパーパラメータを通じて、NAMOをさらに上回る改善を達成することが実証された。
大規模言語モデルの評価とアライメントパイプラインでは、自然言語の評価基準に基づき動作し、ベンチマークで検証されるLLMベースの評価器への依存度が高まっている。本研究では、このワークフローに従来認識されていなかった脆弱性が存在することを明らかにし、これを「評価基準誘起選好ドリフト(RIPD)」と命名する。評価基準の修正がベンチマーク検証を通過した場合でも、対象ドメインにおける評価器の選好に体系的かつ方向性のある変化を生じさせる可能性がある。評価基準は高次元の意思決定インターフェースとして機能するため、一見自然で判断基準を維持するような修正からもこのドリフトが生じ、集計されたベンチマーク指標や限定的なスポットチェックでは検出が困難である。さらに、この脆弱性が評価基準に基づく選好攻撃として悪用され得ることを示す。ベンチマーク適合的な評価基準の修正により、対象ドメインにおいて固定された人間評価や信頼済み参照基準から判断が逸脱し、RIPDが体系的に誘発されて対象ドメインの精度が最大9.5%(有益性)および27.9%(無害性)低下する。これらの判断が下流の学習後処理における選好ラベル生成に用いられると、誘発されたバイアスはアライメントパイプラインを伝播し、学習済みポリシーに内在化される。これにより、モデル挙動に持続的かつ体系的なドリフトが生じる。総合的に、我々の知見は評価基準が敏感で操作可能な制御インターフェースであることを浮き彫りにし、評価器の信頼性のみならずシステムレベルのアライメントリスクを明らかにするものと言える。コードはhttps://github.com/ZDCSlab/Rubrics-as-an-Attack-Surfaceで公開されている。警告:一部のセクションには、すべての読者に適切ではない可能性のある有害な内容が含まれている場合があります。
潜在的な集団特性に関する不確実性を低減する情報を、調査やその他の集団的評価から引き出すには、実際のコストや欠測データを考慮した限定的な質問リソースの配分が必要である。大規模言語モデルは自然言語による適応的な対話を可能にするが、既存の手法の多くは固定された回答者プールに対して質問内容を最適化するもので、回答が部分的または不完全な場合に回答者選択を適応させたり集団構造を活用したりしない。この課題に対処するため、我々はエージェントが質問と回答者の両方を明示的な質問・参加予算制約下で適応的に選択する多ラウンド設定である「適応的集団情報抽出」を研究する。理論に基づいたフレームワークとして、(i) LLMベースの期待情報ゲインによる質問候補の評価と、(ii) 観測された回答と参加者属性を集約して欠測回答を補完し、ラウンドごとの回答者選択を導く異種グラフニューラルネットワーク伝播を組み合わせる。この閉ループ手順により、構造化された類似性を通じて集団レベルの回答を推論しつつ、情報量の多い少数の個人に効率的に質問を行う。3つの実世界意見データセットにおける実験では、制約予算下での集団レベル回答予測において本手法が一貫して改善を示し、特にCESデータセットでは10%の回答者予算で12%以上の相対的改善を達成した。