翻訳付きの日次キュレーションされたAI研究論文
大規模推論モデル(LRM)は顕著な推論能力を示す一方で、過剰思考(単純な問題に対して冗長な計算ステップを費やす)や思考不足(内在的な能力があるにもかかわらず十分な推論経路を探索できない)に悩まされることが多い。これらの問題は非効率性と潜在的な不正確さを招き、リソース制約のある環境での実用展開を制限している。既存の過剰思考緩和手法(反射的キーワードの抑制や推論長の調整など)は、意図せず思考不足を誘発し精度を損なう可能性がある。そこで我々は、バランスの取れた思考による効率的な推論を実現する訓練不要のフレームワーク「ReBalance」を提案する。ReBalanceは信頼度を推論ダイナミクスの連続的指標として活用し、高い信頼度分散から過剰思考を、一貫した過信から思考不足を識別する。小規模データセットからの隠れ状態を推論モードのプロトタイプに集約することで、LRMの推論軌道を誘導するステアリングベクトルを計算する。動的制御関数はこのベクトルの強度と方向をリアルタイム信頼度に基づいて調整し、過剰思考時には冗長性を除去し、思考不足時には探索を促進する。0.5Bから32Bまでの4モデル、数学推論・一般質問応答・コード生成の9ベンチマークで実施した大規模実験により、ReBalanceが出力の冗長性を効果的に削減し精度を向上させることを実証した。これは効率的かつ頑健なLRM展開のための、一般的で訓練不要なプラグアンドプレイ戦略を提供する。コードはhttps://github.com/yu-lin-li/ReBalance で公開されている。
大規模言語モデル(LLM)エージェントは複雑なタスクに活用される機会が増えているが、デプロイされたエージェントは静的状態のままであり、ユーザーニーズの変化に適応できないことが多い。これにより、継続的なサービス提供の必要性と、変化するタスク分布に対応するための能力更新の要請との間に緊張関係が生じている。20以上のチャネルで多様なワークロードを扱うOpenClawのようなプラットフォームでは、既存の手法は、知識を蒸留せずに生の軌跡データを保存するか、静的なスキルライブラリを維持するか、あるいは再トレーニングのための中断を伴うダウンタイムを必要とする。本論文では、ベースLLMポリシーと再利用可能な行動スキルのライブラリを共同で進化させる継続的メタ学習フレームワーク「MetaClaw」を提案する。MetaClawは二つの相補的メカニズムを採用する。スキル駆動型高速適応は、LLMエボルバーによる失敗軌跡の分析を通じて新規スキルを合成し、ダウンタイムゼロでの即時改善を実現する。 Opportunistic Policy Optimization(日和見的ポリシー最適化)は、クラウド上のLoRAファインチューニングとプロセス報酬モデルを用いた強化学習(RL-PRM)による勾配ベースの更新を実行する。これは、システムの非アクティブ状態とカレンダーデータを監視するOpportunistic Meta-Learning Scheduler(OMLS)によって、ユーザー非アクティブ期間中にトリガーされる。これらのメカニズムは相互に強化し合う:洗練されたポリシーはスキル合成のためのより優れた軌跡を生成し、豊富なスキルはポリシー最適化のための高品質なデータを提供する。データ汚染を防ぐため、バージョニングメカニズムがサポートデータとクエリデータを分離する。プロキシベースのアーキテクチャ上に構築されたMetaClawは、ローカルGPUなしでプロダクション規模のLLMにスケールする。MetaClaw-BenchとAutoResearchClawによる実験では、スキル駆動型適応が精度を最大32%相対向上させることが示された。フルパイプラインにより、Kimi-K2.5の精度は21.4%から40.6%に向上し、複合ロバスト性が18.3%増加した。コードはhttps://github.com/aiming-lab/MetaClawで公開されている。
MLLM(大規模言語モデル)の様々な動画タスクへの応用が進展しているにもかかわらず、動画イベント予測(VEP)は比較的未開拓の領域として残されています。VEPでは、モデルが動画の細粒度な時間的モデリングを実行し、動画と将来イベント間の論理的関係を確立する必要がありますが、現在のMLLMはこの点で依然として課題を抱えています。本研究ではまず、VEPタスクにおける現行の主要MLLMの包括的評価を提示し、将来イベント予測の論理的推論能力の欠如や視覚情報の不十分な活用など、予測が不正確になる原因を明らかにします。これらの課題に対処するため、我々はChain of Events(CoE)パラダイムを提案します。これは時間的イベント連鎖を構築することで、MLLMが暗黙的に視覚コンテンツと動画・将来イベント間の論理的関連性に注目することを促し、複数の訓練プロトコルによってモデルの推論能力を強化します。公開ベンチマークによる実験結果は、本手法がオープンソースおよび商用の主要MLLMを凌駕し、VEPタスクにおいて新たなstate-of-the-artを確立することを実証しています。コードとモデルは近日公開予定です。
ビデオ拡散モデルは、短く説得力のあるクリップを超えて、カメラ運動・再訪・介入の下で一貫性を維持する必要がある世界シミュレーターへと進化しつつある。しかし、空間的記憶は依然として主要なボトルネックである。明示的な3D構造は再投影ベースの一貫性を改善できるが、移動物体の描写には課題があり、暗黙的記憶は正しい姿勢が与えられても不正確なカメラ運動を生成することが多い。我々はMosaic Memory(MosaicMem)を提案する。これは、信頼性の高い位置推定と対象を絞った検索のためにパッチを3D空間にリフトアップしつつ、モデル本来の条件付けを活用してプロンプト追従型生成を維持するハイブリッド空間記憶である。MosaicMemは、パッチ合成インターフェースを介してクエリ視点で空間的に整列したパッチを構成し、持続すべき要素を保持しながら、進化すべき要素のインペイントをモデルに委ねる。PRoPEカメラ条件付けと2つの新しいメモリ位置合わせ手法により、実験では暗黙的記憶と比較して姿勢遵守性が向上し、明示的ベースラインよりも強力な動的モデリングが実現された。MosaicMemはさらに、分単位のナビゲーション、メモリベースのシーン編集、および自己回帰的ロールアウトを可能にする。
学習後アライメントは、言語モデルを人間の選好信号に適合させるように最適化するが、この目的は観測された人間の行動のモデル化と同等ではない。我々は120組のベースモデルとアライメント済みモデルを、多ラウンド戦略ゲーム(交渉、説得、協商、反復行列ゲーム)における1万件以上の実人間の意思決定と比較した。これらの設定では、ベースモデルはアライメント済みモデルに対し、人間の選択予測において約10:1の優位性を示し、この傾向はモデルファミリー・プロンプト設計・ゲーム設定を問わず頑健に確認された。しかし、人間の行動が規範的予測に従いやすい設定ではこのパターンは逆転する:アライメント済みモデルは、検証した12種類全てのワンショット教科書ゲームと非戦略的宝くじ選択で優位に立ち、さらに多ラウンドゲーム内においても、相互作用の履歴が蓄積される前の第1ラウンドでは優位性を示した。この境界条件パターンは、アライメントが規範的バイアスを誘発することを示唆する:つまり、人間の行動が規範的解によって比較的よく説明される場合には予測精度を向上させるが、互恵性・報復・履歴依存的な適応といった記述的力学が行動を形成する多ラウンド戦略設定では予測精度を損なうのである。これらの結果は、モデルを人間の利用向けに最適化することと、人間の行動の代理として利用することの間には根本的なトレードオフが存在することを明らかにしている。
強化学習(RL)はLLMベースのエージェントを訓練する強力なパラダイムとして登場したが、希薄な結果フィードバックに加え、エピソード間での過去の経験を活用できないことから、サンプル効率の低さに制限されている。歴史的経験でエージェントを拡張する手法は有望な解決策であるが、既存のアプローチには重大な弱点がある:歴史から抽出された経験は静的に保存されるか、改善するアクターと共進化に失敗するため、訓練の過程で経験とアクターの進化する能力の間に乖離が生じ、その有用性が低下する。神経科学における相補的学習システムに着想を得て、本論文ではRL最適化ループ内で経験抽出器と方策アクターのシームレスな共進化を実現する相補的RLを提案する。具体的には、アクターは希薄な結果に基づく報酬で最適化され、経験抽出器は抽出された経験がアクターの成功に明確に寄与するかどうかに基づいて最適化される。これにより、経験管理戦略がアクターの成長する能力と歩調を合わせて進化する。実験では、相補的RLは経験学習を行わない結果ベースのエージェントRLベースラインを上回り、単一タスクシナリオで10%の性能向上を達成し、マルチタスク設定でも堅牢なスケーラビリティを示した。これらの結果は、相補的RLが効率的な経験駆動型エージェント学習のパラダイムであることを立証している。
AIは、戦争の行方が歴史的に明らかになる以前に、その推移を推論できるだろうか。この能力を分析することは困難である。なぜなら、遡及的な地政学的予測は、訓練データの漏洩によって大きく混同されるためだ。我々はこの課題に、2026年中東紛争の初期段階という、現在の最先端モデルの学習打ち切り後に展開した、時間的根拠に基づく事例研究を通じて取り組む。具体的には、11の重要な時間的ノード、42のノード固有の検証可能な質問、および5つの一般的な探求的質問を構築し、各時点で公的に利用可能であった情報のみに基づいてモデルに推論を要求する。この設計は、訓練データの漏洩に関する懸念を大幅に軽減し、戦争の霧のもとで進行中の危機をモデルが如何に分析するかを研究するのに適した環境を創出するとともに、我々の知る限り、進行中の地政学的紛争におけるLLMの推論に関する初の時間的根拠に基づく分析を提供する。分析により、主に3つの知見が得られた。第一に、現在の最先端大規模言語モデルは、しばしば驚くべき程度の戦略的現実主義を示し、表面的なレトリックを超えて、より深い構造的インセンティブに向けた推論を行う。第二に、この能力は領域によって偏りがあり、モデルは政治的にあいまいな多数のアクターが関わる環境よりも、経済的・物流的に構造化された設定においてより信頼性が高い。最後に、モデルのナラティブは時間とともに進化し、早期の封じ込めという期待から、地域的な固定化と消耗型の緊張緩和というより体系的な説明へと移行する。本稿の執筆時点では紛争は依然として継続中であるため、この研究は、進行中の地政学的危機におけるモデル推論のアーカイブ的なスナップショットとして機能し、遡及的分析に伴う後知恵バイアスなしで将来の研究を可能にするものである。
事前学習済みのビデオ生成バックボーンから初期化されたWorld-Action Models(WAM)は、ロボット政策学習において顕著な可能性を示している。しかし、既存の手法は性能と実用化を妨げる二つの重大なボトルネックに直面している。第一に、将来の視覚的ダイナミクスと対応する行動を共同で推論することは、推論時の大幅なオーバーヘッドを招く。第二に、共同モデリングは視覚表現と動作表現をしばしば絡み合わせるため、動作予測の精度が将来ビデオ予測の品質に強く依存してしまう。これらの課題を解決するため、我々は行動中心のWAMであるGigaWorld-Policyを提案する。これは2Dピクセル-行動ダイナミクスを学習し、オプションとしてのビデオ生成を可能にしつつ、効率的な行動デコーディングを実現する。具体的には、政策学習を二つの結合されたコンポーネントとして定式化する。モデルは現在の観測に条件付けられた将来の行動系列を予測すると同時に、予測された行動と同一の観測に条件付けられた将来ビデオを生成する。政策は行動予測とビデオ生成の両方によって教師付けられ、より豊富な学習信号を提供し、視覚的ダイナミクスによる制約を通じて物理的に妥当な行動を促す。将来ビデオトークンが行動トークンに影響を与えない因果的設計により、推論時における明示的な将来ビデオ生成はオプションとなり、実運用時により高速な行動予測を可能にする。このパラダイムを支えるため、大規模で多様なロボットデータセットを精選し、行動中心のビデオ生成モデルを事前学習する。このモデルはその後、ロボット政策学習のバックボーンとして適応される。実世界のロボットプラットフォームでの実験結果は、GigaWorld-Policyが主要なWAMベースラインであるMotusよりも9倍高速に動作し、タスク成功率を7%向上させることを示している。さらに、pi-0.5と比較して、GigaWorld-PolicyはRoboTwin 2.0において性能を95%向上させる。
トークン化は、様々なモダリティの生成的モデリングにおける基本的な技術である。特に、最近3D生成において有力な選択肢として登場した自己回帰(AR)モデルにおいて、決定的に重要な役割を果たす。しかし、3D形状の最適なトークン化は未解決の問題である。現状の最先端(SOTA)手法は、主に元々レンダリングと圧縮のために設計された幾何学的詳細レベル(LoD)階層に依存している。これらの空間的階層は、トークン効率が悪く、ARモデリングのための意味的コヒーレンスを欠くことが多い。我々は、意味的顕著性に基づいてトークンを順序付けるLevel-of-Semantics Tokenization(LoST)を提案する。これにより、初期のプレフィックスは主要な意味を備えた完全で妥当な形状に復号化され、後続のトークンがインスタンス固有の幾何学的・意味的詳細を洗練させる。LoSTを訓練するために、3D形状潜在空間の関係的構造と意味的DINO特徴空間のそれを整合させる、新しい3D意味的アライメント損失であるRelational Inter-Distance Alignment(RIDA)を導入する。実験により、LoSTがSOTAの再構成を達成し、幾何学的および意味的再構成指標の両方において、従来のLoDベースの3D形状トークナイザーを大幅に上回ることを示す。さらに、LoSTは効率的で高品質なAR 3D生成を実現し、意味的検索などの下流タスクを可能にしながら、従来のARモデルに必要なトークンのわずか0.1%~10%のみを使用する。
Vision-Language-Action(VLA)モデルは近年、ロボットマニピュレーションにおける有望なパラダイムとして登場しており、信頼性の高い動作予測には言語指示に条件付けされた視覚観測の正確な解釈と統合が極めて重要である。最近の研究ではVLAモデルの視覚能力向上が図られているが、多くの手法はLLMバックボーンをブラックボックスとして扱い、視覚情報が動作生成にどのように接地されるかに関する知見は限られている。そこで我々は、複数の動作生成パラダイムにわたるVLAモデルの体系的分析を実施し、動作生成時に視覚トークンへの感度が深い層で段階的に低下する現象を観察した。この観察に基づき、我々はVision-Language Mixture-of-Transformers(VL-MoT)フレームワーク上に構築したDeepVision-VLAを提案する。本フレームームは視覚基盤モデルとVLAバックボーンの間で注意機構を共有し、視覚専門家から得た多段階の視覚特徴をVLAバックボーンの深い層に注入することで、精密かつ複雑なマニピュレーションのための視覚表現を強化する。さらに、浅い層の注意機構を活用して無関係な視覚トークンを剪定しつつ課題関連トークンを保持するAction-Guided Visual Pruning(AGVP)を導入し、最小限の計算コストでマニピュレーションに不可欠な視覚手がかりを強化する。DeepVision-VLAはシミュレーション課題と実世界課題において従来の最先端手法をそれぞれ9.0%、7.5%上回り、視覚強化型VLAモデルの設計に新たな知見を提供する。
大規模言語モデル(LLM)は、相互作用を超えたパーソナライゼーションを支援するため、ユーザーの選好を永続的メモリに保存することが増えている。しかし、社会的・制度的規範によって支配される第三者間のコミュニケーション環境では、一部のユーザー選好を適用することは不適切な場合がある。本稿ではBenchPreSを提案し、コミュニケーション文脈に応じてメモリベースのユーザー選好が適切に適用または抑制されるかを評価する。相補的な2つの指標、誤適用率(MR)と適切適用率(AAR)を用いた分析により、最先端のLLMでさえ文脈を考慮した選好の適用に課題があることが明らかになった。選好遵守度が高いモデルほど過剰適用率が高く、推論能力やプロンプトベースの防御策もこの問題を完全には解決しない。これらの結果は、現在のLLMがパーソナライズされた選好を文脈依存的な規範的シグナルではなく、グローバルに強制可能なルールとして扱っていることを示唆する。
マルチモーダル大規模言語モデル(MLLM)は通常、複数の段階を経て学習され、ビデオベースの教師ありファインチューニング(Video-SFT)は視覚的理解を向上させる重要なステップとして機能する。しかし、特に空間的・時間的理解のバランスにおける、視覚能力の微細な変化へのその影響は十分に解明されていない。本論文では、Video-SFTがMLLMの視覚能力をどのように再構築するかを体系的に研究する。様々なアーキテクチャ、パラメータ規模、フレームサンプリング設定において、一貫したパターンを観察した:Video-SFTはビデオ性能を確実に向上させるが、静止画像ベンチマークでは限定的な向上またはむしろ低下をもたらすことが多い。さらに、このトレードオフは時間的予算(サンプリングするフレーム数)と密接に関連していることを示す:サンプリングフレーム数を増やすと一般にビデオ性能は向上するが、静止画像性能の信頼できる向上にはつながらない。この発見に基づき、フレーム数を適応的に割り当て、画像とビデオのトレードオフを部分的に緩和する、命令を考慮したハイブリッドフレーム戦略を検討する。我々の結果は、Video-SFTがMLLMにとって無償の利得ではなく、空間的理解の維持が画像とビデオの統合学習における中心的な課題であることを示唆している。
近年の視覚言語モデル(VLM)では、エンボディド領域における空間認知能力の向上が注目されている。進展は見られるものの、既存の評価手法はパラダイムと対象範囲の両面で限界があり、迅速で反復的なモデル開発を妨げている。これらの課題に対処するため、我々はエンボディド空間推論の診断ベンチマークであるESPIREを提案する。ESPIREはVLMを物理的に接地するシミュレートされた世界を提供し、空間推論を中核とするロボットタスクで評価を行うことで、評価と実世界での展開の隔たりを縮める。VLMをロボットタスクに適応させるため、各タスクを位置特定と実行に分解し、両者を生成的問題として定式化する。これは、妨害要素に依存し実行を無視する主流の識別的評価(例:視覚質問応答)とは対照的である。この分解により、受動的な空間推論から、行動のための推論へと、きめ細かい分析が可能となる。ESPIREは指示レベルと環境レベルの両方で体系的に設計され、空間推論シナリオの広範なカバレッジを保証する。我々はESPIREを用いて、最先端のVLM群を診断し、その空間推論行動に関する詳細な分析を提供する。
本論文では、画像と動画の両方に対して高密度かつ高品質な視覚的表現を学習しつつ、強力な大域的なシーン理解を保持する自己教師ありモデル群であるV-JEPA 2.1を提案する。本手法は、4つの主要な構成要素を組み合わせている。第一に、高密度予測損失は、可視トークンとマスクトークンの両方が訓練信号に寄与するマスキングベースの目的関数を用いることで、明示的な空間的・時間的接地を促進する。第二に、深層自己教師は、自己教師ありの目的関数を複数の中間エンコーダ層で階層的に適用し、表現の質を向上させる。第三に、マルチモーダルトークナイザにより、画像と動画にわたる統一的な訓練を可能にする。最後に、モデルはモデル容量と訓練データの両方における効果的なスケーリングの恩恵を受けている。これらの設計選択が統合されることで、空間的に構造化され、意味的に一貫性があり、時間的に安定した表現が生成される。 実験結果では、V-JEPA 2.1は複数の難易度の高いベンチマークで最先端の性能を達成した。具体的には、Ego4Dにおける短期物体インタラクション予測で7.71 mAP、EPIC-KITCHENSにおける高レベル行動予測で40.8 Recall@5を記録し、V-JEPA-2 ACと比較して実ロボット把持成功率で20ポイントの改善を示した。さらに、本モデルはロボットナビゲーション(TartanDriveで5.687 ATE)、深度推定(NYUv2で線形プローブを用いて0.307 RMSE)、大域的认识(Something-Something-V2で77.7)においても強力な性能を実証した。これらの結果は、V-JEPA 2.1が高密度視覚理解と世界モデリングの技術を大幅に進歩させたことを示している。
本論文では、カメラ条件付きステレオワールドモデルであるStereoWorldを提案する。これは、ステレオビデオのエンドツーエンド生成のために、外観と両眼幾何学を共同で学習する。単眼RGBまたはRGBDアプローチとは異なり、StereoWorldはRGBモダリティ内でのみ動作し、幾何学を視差から直接接地する。一貫性のあるステレオ生成を効率的に達成するため、我々のアプローチは2つの重要な設計を導入する:(1)潜在トークンをカメラを考慮したロータリ位置符号化で拡張する統一カメラフレームRoPE。これにより、事前学習済みビデオ事前分布を安定した注意機構の初期化により維持しつつ、相対的で視点・時間整合性のある条件付けを実現する。(2)完全な4D注意を3Dの視点内注意と水平行注意に分解するステレオ対応注意分解。これにより、エピポーラ事前知識を活用して視差に整合した対応関係を捕捉し、計算量を大幅に削減する。各種ベンチマークにおいて、StereoWorldは、強力な「単眼生成→変換」パイプラインと比較して、ステレオ一貫性、視差精度、カメラ動作の忠実度を改善し、3倍以上の高速な生成を実現するとともに、視点一貫性でさらに5%の向上を達成する。ベンチマークを超えて、StereoWorldは深度推定やインペインティングなしでのエンドツーエンドの両眼VRレンダリングを可能にし、メートル尺度の深度接地による具身化ポリシー学習を強化し、長尺ビデオ蒸留との互換性により拡張された対話的ステレオ合成を実現する。
大規模言語モデル(LLM)エージェントは、長期的な対話、個人化された支援、多段階推論を実現するために外部メモリへの依存度を高めている。しかし、既存のメモリシステムは依然として3つの核心的課題に直面している:意味的類似性に過度に依存するため、ユーザー中心の理解に不可欠な証拠を見落としがちである;関連する経験を断片的に保存するため、時間的・因果的一貫性が弱まる;静的なメモリ粒度を使用するため、異なる質問の要求に適応できない。本論文では、長期的対話エージェントのための適応的ユーザー中心メモリフレームワークAdaMemを提案する。AdaMemは対話履歴を作業記憶、エピソード記憶、ペルソナ記憶、グラフ記憶に整理し、最近の文脈、構造化された長期的経験、安定したユーザー特性、関係認識的な接続を統一フレームワークで保持する。推論時には、AdaMemはまず対象参加者を特定し、質問条件付き検索ルートを構築して意味的検索と必要に応じた関係認識的グラフ展開を組み合わせ、最後に証拠統合と応答生成のための役割特化パイプラインを通じて回答を生成する。長期的推論とユーザーモデリングのベンチマークであるLoCoMoとPERSONAMEMで評価を行った結果、AdaMemは両ベンチマークで最高性能を達成した。コードは採択後公開予定である。
オフライン事後学習は、記録された行動に対する教師あり回帰によって、事前学習されたロボット方策を対象データセットに適応させる手法である。実際には、ロボットデータセットは不均一であり、様々な実装形態、カメラ設定、質の異なる実証データが混在している。そのため、多くの軌道は回復行動、一貫性のないオペレータ技能、あるいは情報量の少ない教師信号を反映している。均一な事後学習は全てのサンプルに等しい信頼性を与えるため、矛盾したデータや寄与度の低いデータに対して平均化が行われることになる。本研究では、Posterior-Transition Reweighting (PTR) を提案する。これは報酬を必要とせず、保守的な事後学習法であり、各訓練サンプルが教師あり更新にどの程度影響を与えるべきかを決定する。PTRは各サンプルについて、観測された行動後の結果を潜在ターゲットとして符号化し、不一致ターゲットの候補プールに挿入し、別途用意された状態遷移評価器を用いてターゲットインデックスに対するソフトマックス識別事後確率を推定する。一様分布に対する事後確率の比がPTRスコアを定義し、これはクリップおよび混合された重みに変換され、自己正規化重み付き回帰を通じて元の行動目的関数に適用される。この構造は扱いやすい方策の尤度を必要とせず、拡散モデルおよびフローマッチングの両方の行動ヘッドと互換性がある。PTRは、記録された全ての教師信号を均一に信頼するのではなく、各サンプルの行動後の結果が現在の表現においてどの程度帰属可能かに基づいて信頼性を再分配し、不均一なロボットデータへの保守的オフライン適応を改善する。
本論文では、人間のフィードバックによる強化学習(RLHF)のデータ効率を劇的に改善するオンライン学習アルゴリズムを開発する。本アルゴリズムは、選択データが得られる度に報酬モデルと言語モデルを逐次更新する。報酬モデルは選択データに適合するように調整され、言語モデルは報酬モデルが提供する強化学習信号を用いたREINFORCE法の変種により更新される。この効率向上を実現するいくつかの特徴として、各強化学習信号に追加される少量の肯定的なナッジ、報酬の不確実性をモデル化する認識的ニューラルネットワーク、情報駆動型探索が挙げられる。Gemma大規模言語モデル(LLM)を用いた場合、本アルゴリズムは20,000ラベル未満のデータで、20万ラベルで学習されたオフラインRLHFと同等の性能を達成し、データ効率で10倍以上の向上を示した。結果を外挿すると、100万ラベルで学習した本アルゴリズムが、10億ラベルで学習したオフラインRLHFに匹敵すると予想され、これは1,000倍の効率向上に相当する。我々の知る限り、これほど大幅な改善が可能であることを実証した初の成果である。
トークン剪定は、視覚言語モデル(VLM)の計算効率向上に不可欠であり、時間的な冗長性が顕著なビデオタスクにおいて特に重要である。従来のアプローチでは、トークンの剪定は通常、(1) 行動認識や物体セグメンテーションなどの単一モダリティ知覚タスクに特化して視覚Transformer(ViT)内でのみ行われるか、下流の視覚言語タスクに適応していない、あるいは(2) ViTの出力をそのままにLLM内でのみ行われ、複雑なテキスト条件付きトークン選択機構を必要とすることが多い。本論文では、時空間トークンスコアリング(STTS)を提案する。これは、テキスト条件付けやトークン統合を行わずにViTとLLMの両方にわたって視覚トークンを剪定する、シンプルで軽量なモジュールであり、エンドツーエンド学習に完全に対応している。補助損失による時間的なスコアリングと、LLMの下流勾配による空間的なスコアリングを学習し、効率的なパッキングアルゴリズムによって支援されるSTTSは、アーキテクチャ全体で視覚トークンの50%を剪定し、13の短編・長編ビデオQAタスクにおける平均性能の低下がわずか0.7%であるにもかかわらず、学習と推論の両方で効率を62%向上させる。効率向上の度合いは、ビデオあたりのサンプリングフレーム数が増えるほど大きくなる。長編ビデオQAに対して推論時スケーリングを適用すると、ベースラインと比較して0.5-1%の性能向上がさらに得られる。全体として、STTSは、アーキテクチャ全体にわたる統一的な視覚トークン剪定のための新規かつシンプルでありながら効果的な技術を代表するものである。
トークン選択型Mixture-of-Experts(TC-MoE)は、各トークンを固定数のエキスパートに振り分けるため、動的な計算リソース配分が制限され、負荷分散を維持するために補助損失関数が必要となります。本研究では、エキスパート閾値(ET)ルーティングを提案します。各エキスパートは、グローバルなトークン分布から推定された指数移動平均(EMA)閾値を保持します。訓練および推論時、各トークンはそのスコアがエキスパートの閾値を超えた場合に独立してエキスパートに振り分けられ、補助損失を必要とせずに負荷分散を達成しつつ、動的な計算リソース配分を可能にします。この完全因果的なメカニズムはバッチ内の他のトークンへの依存性を排除するため、自己回帰型言語モデリングに適しています。FineWeb-Eduデータセットでパラメータ数24億にスケールさせた事前学習実験において、ETはTC-MoEと比較して交差エントロピー損失を0.067低減し、これは同じ性能を1.6倍少ないトークン数で達成することに相当します。
ポストトレーニング量子化は、リソース制約のあるハードウェア上で大規模言語モデル(LLM)を展開するために不可欠である。しかし、従来の最先端手法では層全体に均一なビット幅を適用するため、精度と効率性のトレードオフが最適化されていない。本論文では、RAMP(強化学習適応混合精度)を提案する。これは、オフポリシー型のSoft Actor-Criticフレームワークを用いて、全体のビット予算の下でパープレキシティを最小化する層ごとのビット幅割り当てを学習する。政策ネットワークは、活性化統計量、重み特性、構造記述子からなる11次元の埋め込みを条件とし、モデルファミリーや規模を超えたゼロショット転移を可能にする。4ビット未満の安定した量子化を実現するため、チャネル単位のスケーリングと正規化層による補償を介して活性化の外れ値を重みに移行する前処理技術であるScale Foldingを導入する。非対称なペナルティと予算制約(バジェットクリフ)を備えた品質優先の報酬関数により、高速な収束を促進する。Llama 2 7Bにおいて、RAMPは3.68GB(実効3.65ビット)で5.54のパープレキシティを達成し、均一4ビットのAWQ(3.90GBで5.60)をサイズで6%、品質で1~3%上回った。重要なことに、Llama 2 7Bのみで学習した政策は、Llama 2 13BおよびMistral 7Bに対してもゼロショットで一般化し、特定ターゲット向けの学習を凌駕することも多く、量子化感度が主にアーキテクチャに依存するという仮説を支持する。HALOパイプラインは割り当てをGGUF形式で出力し、CPU、GPU、エッジデバイス上でカーネル不要の推論を実現し、FP16の常識推論性能の99.5%を維持する。
メディアデザインレイヤー生成は、自然言語プロンプトのみを用いて、ポスター、フライヤー、ロゴなどの完全に編集可能なレイヤー構造を持つデザインドキュメントの作成を可能にする。既存手法では、出力を固定数のレイヤーに制限するか、各レイヤーが空間的に連続した領域のみを含むことを要求するため、デザインの複雑さに応じてレイヤー数が線形的に増加するという課題があった。本論文では、意味的に有意義なレイヤーを柔軟な数で生成する潜在拡散フレームワーク、LaDe(Layered Media Design)を提案する。LaDeは3つのコンポーネントを組み合わせている:短いユーザー意図を構造化されたレイヤーごとの記述に変換し生成を誘導するLLMベースのプロンプト拡張器、4D RoPE位置符号化機構を備えた潜在拡散トランスフォーマーによりメディアデザイン全体とその構成RGBAレイヤーを共同生成する機構、完全なアルファチャンネルサポートで各レイヤーをデコードするRGBA VAEである。訓練中にレイヤーサンプルを条件付けることで、本統一フレームワークは、テキストから画像への生成、テキストからレイヤー構造を持つメディアデザインへの生成、メディアデザインの分解という3つのタスクをサポートする。Crelloテストセットを用いたテキストからレイヤーへの生成および画像からレイヤーへの生成タスクにおいて、LaDeをQwen-Image-Layeredと比較した。LaDeは、2つのVLM-as-a-judge評価器(GPT-4o miniおよびQwen3-VL)による検証により、テキストとレイヤーの整合性を改善することで、テキストからレイヤーへの生成タスクにおいてQwen-Image-Layeredを上回った。
大規模言語モデル(LLM)は、次トークン生成のみで学習されているにもかかわらず、潜在的なマルチトークン予測(MTP)能力を示す。本論文では、モデルの重みを変更したり補助的なドラフトモデルに依存したりすることなく、将来のトークンを並列予測可能にする、訓練不要の簡易なMTP手法を提案する。この手法では、埋め込み空間から動的にマスクトークンを抽出してLLMをプローブし、マスクトークンのロジットから上位K個の候補をサンプリングして投機的トークンツリーを構築する。さらに、軽量な枝刈り戦略を適用し、高確率の継続トークンを保持する。デコーディング時には候補予測を並列検証することで、モデル呼び出し回数を大幅に削減しつつロスレス生成を実現し、トークン処理量を向上させる。ベンチマーク評価では、提案するプローブベースMTPが既存の訓練不要ベースラインを一貫して上回り、LLaMA3では受入長を約12%、Qwen3では8~12%向上させ、最大15~19%のスループット向上を達成した。最後に、デコーダ層がマスクトークン表現を自然に次トークン状態に整合させることで、再学習や補助モデルなしで高精度な多段階予測が可能になることを、理論的考察と実証結果により示す。
自然画像におけるCLIP型視覚言語モデル(VLM)の成功は医療分野における類似モデルの開発を促進してきたが、既存のアプローチは大きく二極化している。単一ドメインデータで学習された専門特化型モデルはドメイン固有の詳細を捉えるが汎化性能が低く、多ドメインデータで学習された汎用医療VLMは広範な意味情報を保持するが微細な診断手がかりが希薄化される。この専門性と汎用性のトレードオフを橋渡しすることは依然として課題である。この問題を解決するため、我々は汎用医療VLMのためのパラメータ効率型適応フレームワークACE-LoRAを提案する。本手法は堅牢なゼロショット汎化性能を維持しつつ、凍結された画像・テキストエンコーダにLow-Rank Adaptation (LoRA) モジュールを統合する。さらに、Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN) モジュールを導入し、ペアワイド類似性を超えた高次元の文脈的相互作用を捕捉することで、局所的な診断手がかりを大域表現に付与する。これにより、微細な詳細を見落としがちな従来のParameter-Efficient Fine-Tuning (PEFT) 手法の限界を克服する。クロスモーダルアライメントをさらに強化するため、意味的に関連する画像-テキストペア間の偽陰性を効果的に抑制するラベル誘導型InfoNCE損失を定式化した。わずか0.95Mの学習可能パラメータを追加するのみで、ACE-LoRAは複数ドメインにわたるゼロショット分類、セグメンテーション、検証の各ベンチマークにおいて、最先端の医療VLMおよびPEFTベースライン手法を一貫して凌駕する。実装コードはhttps://github.com/icon-lab/ACE-LoRA で公開している。
我々は、Distribution Contractive Reinforcement Learning (DICE-RL) を提案する。これは、強化学習 (RL) を「分布縮小」演算子として利用し、事前学習された生成ロボットポリシーを改良するフレームワークである。DICE-RL は、事前学習された行動事前分布を、オンラインフィードバックから得られた高成功率の行動を増幅することで、高性能な「プロ」ポリシーへと変換する。我々は、拡散モデルまたはフローベースのポリシーを広範な行動カバレッジを得るために事前学習し、その後、選択的行動正則化と価値誘導型行動選択を組み合わせた、安定かつサンプル効率の良い残差オフポリシー RL フレームワークを用いて微調整する。大規模な実験と分析により、DICE-RL が強力な安定性とサンプル効率をもって性能を確実に向上させることが示されている。本手法は、シミュレーションおよび実ロボットにおいて、高次元のピクセル入力から直接、複雑な長期視野のマニピュレーション技能を習得することを可能にする。プロジェクトウェブサイト: https://zhanyisun.github.io/dice.rl.2026/。
言語モデルを動画に拡張する際には、2つの課題が生じる。1つは表現に関する課題で、既存手法は非可逆的な近似に依存している。もう1つは長文脈に関する課題で、キャプションやエージェントベースのパイプラインは動画をテキストに変換するため視覚的忠実度が失われる。これらの課題を克服するため、我々はVideoAtlasを提案する。これはタスクに依存しない環境であり、動画を非可逆的でナビゲート可能、スケーラブル、かつキャプションや前処理を必要としない階層的なグリッドとして表現する。動画の概要は一瞥で把握でき、任意の領域を再帰的に拡大でき、同じ視覚的表現が動画本体、中間的な調査、エージェントの記憶に対して一貫して使用されるため、非可逆的なテキスト変換をエンドツーエンドで排除する。この階層構造により、アクセス深度は動画の長さに対して対数的にのみ増加する。長文脈に関しては、Recursive Language Models (RLMs) が長文テキストに対する有力な解決策を最近提供したが、視覚領域に拡張するには再帰的に潜入可能な構造化環境が必要であり、VideoAtlasはこれを提供する。マルコフ決定過程としてのVideoAtlasは、Video-RLMを可能にする。これは並列的なMaster-Workerアーキテクチャであり、Masterが大域的な探索を調整し、Workerが割り当てられた領域に並行して潜入し、非可逆的な視覚的証拠を蓄積する。我々は3つの重要な知見を実証する。(1) 動画の長さに対する計算量の対数的増加。これはグリッドの構造再利用から生じる30-60%のマルチモーダルキャッシュヒット率によってさらに増幅される。(2) 最大探索深度を制限することで、計算量と精度を調整する原理的なハイパーパラメータとなる環境予算制御。(3) 質問の粒度に応じてスケールする創発的な適応的計算リソース割り当て。1時間から10時間のベンチマークにスケールする際、Video-RLMは精度劣化が最小限で、最も持続時間に対する頑健性が高い手法であり続け、構造化された環境ナビゲーションが動画理解のための実行可能かつスケーラブルなパラダイムであることを示す。
マルチモーダル大規模言語モデル(MLLM)は、特に細粒度のクエリにおいて幻覚(hallucination)に悩まされており、既存のベンチマークは粗い画像関連の質問に焦点を当てているため、この課題が十分に反映されていません。我々は、FIne-grained NEgative queRies(FINER)と、2つのベンチマークであるFINER-CompreCapおよびFINER-DOCCIを提案します。FINERを用いて、複数オブジェクト、複数属性、複数関係、および「何」という質問という4つの設定における幻覚を分析します。我々のベンチマークは、細粒度の不一致が画像内に実際に存在する要素と同時に発生する場合にMLLMが幻覚を生じることを明らかにします。この問題に対処するため、FINERに着想を得たデータに対してDirect Preference Optimization(DPO)を適用したFINER-Tuningを提案します。4つの先進的MLLMをFINER-Tuningでファインチューニングした結果、我々のベンチマークにおける幻覚が最大24.2%(InternVL3.5-14B)改善されると同時に、既存の8つの幻覚評価スイートでの性能向上、および6つのベンチマークにわたる一般的なマルチモーダル能力の向上が認められました。コード、ベンチマーク、モデルはhttps://explainableml.github.io/finer-project/ で公開されています。
大規模視覚言語モデル(VLM)であるCLIPなどを下流タスクに適応させる際には、視覚トークンとテキストトークンが広範で汎用的なアダプタによって一律に処理される、「万能型」のアーキテクチャ手法がしばしば見られます。我々は、この均一性が、画像の空間的局所性とテキストの意味的密度という、モダリティ間の本質的に異なる構造的特性を無視していると主張します。この問題に対処するため、我々はモダリティ特有の構造的帰納バイアスを導入する統一アーキテクチャフレームワーク、HeBA(Heterogeneous Bottleneck Adapter)を提案します。HeBAは、従来の設計から以下の3つの主要なアーキテクチャ革新により逸脱します:(1) 異種性:空間的相関を保持するため2D深度分離可能畳み込みにより視覚トークンを処理し、一方で意味的関係を捉えるため密な線形投影によりテキストトークンを区別して処理します。(2) ボトルネック正則化:標準的な拡大型アダプタとは異なり、HeBAは圧縮ボトルネック(D -> D/4)を採用し、明示的にコンパクトでロバストな特徴の学習を強制し、構造的正則化として機能します。(3) 活性化勾配初期化:制限的なゼロ初期化パラダイムに挑戦し、凍結されたバックボーンの事前学習済み知識を損なうことなく収束を加速する十分な初期勾配流を保証するKaiming初期化戦略を利用します。大規模な実験により、HeBAのアーキテクチャ的に特化した設計が優れた安定性と精度を達成し、11のFew-Shotベンチマークで新たなstate-of-the-artを確立することを実証しました。コードはhttps://github.com/Jahid12012021/VLM-HeBA で公開されています。
AIエージェントの登場により、自動化された科学的発見は達成可能な目標となった。近年、機械学習研究を実行可能なエージェントシステムを構築する研究が多く発表されているが、こうしたエージェントを訓練するための原理的な方法は提供されておらず、現在の大規模言語モデル(LLM)は、もっともらしいが実効性の低いアイデアを生成することが多い。実践を通じて学習可能なエージェントの訓練を前進させるため、我々は機械学習エージェントを対象とした新しい合成環境生成パイプラインを提案する。本パイプラインは、トピックサンプリング、データセット提案、コード生成を網羅し、SWE-agentフレームワークと互換性のある機械学習課題を自動的に合成する。結果として得られる合成タスクは、1) 提案されるデータセットがHuggingface APIに対して検証されるため、実際の機械学習データセットに基づいており、2) 自己デバッグループにより高品質であることが検証されている。合成タスクの有効性を検証するため、我々は機械学習タスクのベンチマークであるMLGymに取り組んだ。合成タスクから教師モデル(GPT-5)の軌跡をサンプリングし、その軌跡を用いて学生モデル(Qwen3-4BおよびQwen3-8B)を訓練した。我々の合成タスクで訓練された学生モデルは、MLGymにおいて性能向上を達成し、Qwen3-4BではAUPメトリクスが9%、Qwen3-8Bでは12%向上した。
Vision Transformerを用いた固定バックボーン転移学習には、これまで十分に検討されていない2つの課題がある。すなわち、アダプタを特徴抽出器に単純に挿入した際の最適化不安定性と、アダプタの容量設定に関する体系的な指針の欠如である。本研究ではAdapterTuneを提案する。これは各Transformerブロックに残差結合型の低ランクボトルネックを追加し、その上方向射影をゼロ初期化することで、適応済みネットワークが事前学習済み関数と完全に一致した状態から学習を開始し、学習初期の表現のずれを解消する。 解析的観点では、アダプタのランクを特徴空間における下流タスク変化の近似能力として定式化する。導出された超過リスク分解により、ランク増加に伴う精度向上が単調でありながら逓減する「エルボー現象」が理論的に予測され、制御実験により実証された。 9データセット・3バックボーンスケールにおいて複数シードでの評価を実施。中核となる5データセット転移タスクでは、AdapterTuneはヘッドのみの転移よりも平均でトップ1精度を+14.9ポイント向上させ、全パラメータ微調整のわずか0.92%のパラメータのみを学習する。さらに15のデータセット・バックボーン組み合わせのうち10組で全パラメータ微調整を上回った。全ベンチマークを通じて、AdapterTuneはすべてのデータセット・バックボーン組み合わせでヘッドのみの転移を改善した。ランク・配置・初期化に関する ablation 実験により各設計選択の効果を分離して検証している。 コードは以下で公開されている:https://github.com/salimkhazem/adaptertune
3D基盤モデルの最近の進歩により、人物とその周辺環境の再構築に対する関心が高まっています。しかし、既存手法の多くは単眼入力に焦点を当てており、マルチビュー設定に拡張するには追加のオーバーヘッドモジュールや前処理データが必要です。この課題に対し、本論文では外部モジュールや前処理に依存せず、複数人物・複数視点の動画からカメラ、シーンの点群、人物メッシュを共同で推定する統一フレームワーク「CHROMM」を提案します。Pi3XとMulti-HMRから得られる強力な幾何学事前情報と人物事前情報を単一の学習可能なニューラルネットワークアーキテクチャに統合し、人物とシーンの間のスケール不一致を解決するためのスケール調整モジュールを導入しました。さらに、テスト時にビュー毎の推定結果を単一の表現に集約するマルチビューフュージョン戦略を採用しています。最後に、外観ベースの手法よりも頑健な幾何学ベースの複数人物関連付け手法を提案します。EMDB、RICH、EgoHumans、EgoExo4Dを用いた実験により、CHROMMは大域的人物動作推定およびマルチビューポーズ推定において競合的な性能を達成し、従来の最適化ベースのマルチビュー手法よりも8倍以上高速に動作することを示します。プロジェクトページ: https://nstar1125.github.io/chromm。
本論文では、大規模言語モデルにおける学習途中の設計選択に関する包括的実証研究「PRISM」を提案する。Granite、LLaMA、Mistral、Nemotron-Hの4ファミリー、2つのアーキテクチャタイプ(密なTransformerとAttention-Mambaハイブリッド)、3Bから24Bパラメータ規模にわたる7つのベースモデルを用いた制御実験を通じて、約270億の高品質トークンによる学習途中の追加訓練(mid-training)が、数学で+15~+40ポイント、コードで+5~+12ポイント、科学分野のベンチマークで+6~+13ポイントの一貫した性能向上をもたらしつつ汎用性能を維持することを示す。PRISMから強化学習(RL)までの完全なパイプラインは、6つの推論ベンチマークのマクロ平均を12未満から29-42(3~4倍の改善)に向上させるのに対し、ほとんどのベースモデルに直接適用したRLは効果が限定的(AIMEスコアほぼゼロ)であった。データ構成が最も影響するのはRL段階ではなく学習途中の段階であり、科学データを学習途中に含めることでRL時のGPQA-Diamondスコアが+17~+28ポイント向上する一方、RL時のデータ混合比の変更は2ポイント未満の差しか生じなかった。機序的には、学習途中の訓練はモデル重みの90%以上を密に再構築するのに対し、RLは約5%のパラメータに対し疎で前倒し型の調整を加える。表現分析(CKA)により、RLが学習途中のモデル獲得した表現幾何をアーキテクチャ間で一貫して保持(CKA 0.998以上)することが確認された。決定的に、RLは開始点に関わらず同一の重み変化を適用するにもかかわらず、学習途中を経たモデルでのみ成功しており、これは学習途中の訓練がRLによる効果的な性能改善が可能なモデル配置を実現することを示唆する。我々の結果は、保持意識型学習途中訓練が信頼性の高い推論能力強化に極めて有効であることを実証し、堅牢な学習途中パイプライン設計のための実践的指針を提供する。
大規模言語モデル(LLM)は宗教知識に関する問い合わせに流暢に回答できるが、しばしば虚偽の内容を生成したり出典を誤って帰属させたりする。これは、ユーザーが正典(クルアーンとハディース)や法学(フィクフ)のニュアンスに基づいた回答を求めるイスラーム圏の文脈では特に重大な問題となる。検索拡張生成(RAG)は外部の証拠に基づいて生成を行うことでこれらの制限の一部を軽減する。しかし、単一の「検索-生成」パイプラインでは、多様なイスラーム関連の問い合わせに対応するには限界がある。ユーザーは逐語的な聖典の引用、引用付きのファトワ形式の指導、あるいは厳密な算術計算と法的な不変項を要するザカート(喜捨)や相続などの規則に基づく計算を求める場合がある。本研究では、Fanar AIプラットフォームの中核コンポーネントである、Fanar-Sadiqと名付けた二言語(アラビア語/英語)対応のマルチエージェント型イスラームアシスタントを提案する。Fanar-Sadiqは、エージェント型のツール利用アーキテクチャ内で、イスラーム関連の問い合わせを専門モジュールに振り分ける。本システムは、意図を認識したルーティング、確定的な引用正規化と検証トレースを備えた検索基盤型フィクフ回答、引用検証機能付きの正確な節検索、さらにマズハブに応じた分岐を可能にするスンニ派のザカートと相続の確定的計算機をサポートする。公開されているイスラームQAベンチマークを用いてエンドツーエンドのシステム全体を評価し、有効性と効率性を実証する。本システムは現在、APIおよびWebアプリケーションを通じて公開され無料で利用可能であり、1年未満で約190万回のアクセスを記録している。