翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルはインターネット規模のテキストデータを活用していますが、エンボディドAIは物理的な軌跡データ収集の莫大なコストに制約されています。デスクトップ環境、特にゲームは魅力的な代替手段を提供します。これらは、エンボディド学習に不可欠な構造化された観測-行動の結合を維持しながら、大規模な感覚運動相互作用を実現します。本論文では、デスクトップ環境での相互作用がロボティクスのエンボディドAIタスクの効果的な事前学習基盤として機能することを示すD2E(Desktop to Embodied AI)フレームワークを提案します。従来の研究が特定のドメインに限定されていた(例:Minecraft向けVPT)か、データを非公開にしていた(例:SIMA)のに対し、D2Eはスケーラブルなデスクトップデータ収集からエンボディドドメインでの検証済み転移までの完全なパイプラインを確立します。本フレームワークは3つのコンポーネントで構成されます:(1) 多様なデスクトップ相互作用を152倍の圧縮率で標準化フォーマットに統合するOWA Toolkit、(2) タイムスタンプベースのイベント予測を通じて未見のゲーム間での強力なゼロショット汎化を実現し、インターネット規模の疑似ラベリングを可能にするGeneralist-IDM、(3) デスクトップ事前学習済み表現を物理的な操作とナビゲーションに転移するVAPT。1,300時間以上のデータ(人間によるデモンストレーション259時間、疑似ラベル付きゲームプレイ1,000時間以上)を使用し、LIBERO操作タスクで96.6%、CANVASナビゲーションベンチマークで83.3%の成功率を達成しました。これは、デジタル相互作用における感覚運動プリミティブが物理的なエンボディドタスクに有意義に転移する十分な不変性を示しており、デスクトップ事前学習がロボティクスの実用的なパラダイムであることを確立しています。OWAツールキット、人間が収集したデータセットと疑似ラベル付きデータセット、VAPTで学習したモデルを含むすべての成果物を公開します。詳細はhttps://worv-ai.github.io/d2e/をご覧ください。
カメラ中心の理解と生成は空間知能の二つの基盤であるが、これらは通常個別に研究されている。本論文では、カメラ次元に沿って空間認識を拡張する統一的なカメラ中心マルチモーダルモデルであるPuffinを提案する。Puffinは言語回帰と拡散ベースの生成を統合し、任意の視点からシーンを解釈および生成する。カメラと視覚言語の間のモダリティギャップを埋めるため、カメラを言語として扱う新たなパラダイムを導入し、カメラを用いた思考を可能にする。これにより、モデルは幾何学的文脈を推論しながら、空間的に根ざした視覚的手がかりを写真用語と整合させる。Puffinは、400万の視覚-言語-カメラのトリプレットからなる大規模データセットPuffin-4Mで訓練される。グローバルなカメラパラメータとピクセル単位のカメラマップを組み込むことで、柔軟で信頼性の高い空間生成を実現する。実験により、Puffinがカメラ中心の生成と理解において専門モデルを上回る性能を示すことが確認された。指示チューニングにより、Puffinは空間的想像、世界探索、写真ガイダンスなどの多様なクロスビュータスクに汎化する。コード、モデル、データセットパイプライン、およびベンチマークを公開し、マルチモーダル空間知能研究の進展に貢献する。
本研究は、非英語言語、特に韓国語を対象とした完全オープンなバイリンガル大規模言語モデル(LLM)を構築する初の大規模な調査を提示する。主に合成データを用いて訓練されたKORMo-10Bという10.8Bパラメータのモデルを紹介する。このモデルは、韓国語-英語コーパスからスクラッチで訓練され、韓国語部分の68.74%が合成データである。体系的な実験を通じて、言語的カバレッジがバランス良く、多様な指示スタイルで慎重にキュレーションされた合成データは、大規模な事前学習中に不安定性や性能低下を引き起こさないことを実証する。さらに、このモデルは、推論、知識、指示追従のベンチマークにおいて、現代のオープンウェイト多言語ベースラインと同等の性能を達成する。我々の実験から得られた2つの重要な知見は次の通りである:(1) 合成データはモデルの崩壊を引き起こすことなく、長期間の事前学習を確実に維持できる、(2) バイリンガルな指示チューニングにより、韓国語でのネイティブに近い推論と談話の一貫性が可能になる。データ、コード、訓練レシピ、ログを含む全てのコンポーネントを完全に公開することで、本研究は低リソース環境における合成データ駆動型の完全オープンモデル(FOM)を開発するための透明性のあるフレームワークを確立し、将来の多言語LLM研究のための再現可能な先例を設定する。
査読付き研究論文の量が急増する中、研究者たちは発見のためにソーシャルプラットフォームにますます依存するようになり、著者たちは自らの研究の可視性と引用を確保するために多大な労力を費やしてプロモーションを行っています。このプロセスを効率化し、人的労力への依存を減らすため、私たちは研究論文を正確で魅力的かつタイムリーな公開コンテンツに変換する新たなタスクである自動プロモーション(AutoPR)を提案します。厳密な評価を可能にするため、512本の査読付き論文を高品質なプロモーションポストと結びつけたマルチモーダルベンチマーク「PRBench」を公開し、システムを3つの軸で評価します:忠実度(正確性とトーン)、エンゲージメント(対象読者層と魅力)、アラインメント(タイミングとチャネル最適化)。さらに、AutoPRを自動化するマルチエージェントフレームワーク「PRAgent」を導入します。PRAgentは3段階で動作します:マルチモーダル準備によるコンテンツ抽出、洗練された出力のための協調的合成、そして最大のリーチを実現するためのプラットフォーム固有の適応(規範、トーン、タグ付けの最適化)。PRBenchにおいて直接的なLLMパイプラインと比較した場合、PRAgentは総視聴時間604%増、いいね数438%増、全体的なエンゲージメント少なくとも2.9倍向上といった大幅な改善を示しています。アブレーションスタディでは、プラットフォームモデリングとターゲットプロモーションがこれらの成果に最も大きく寄与していることが明らかになりました。私たちの結果は、AutoPRを扱いやすく測定可能な研究課題として位置づけ、スケーラブルで影響力のある自動化学術コミュニケーションのためのロードマップを提供します。
ビジョン・ランゲージモデル(VLM)は、リアルタイムアシスタントや自律エージェントを駆動する可能性を秘めているが、重要な課題に直面している:遅延やメモリ使用量を増大させることなく、ほぼ無限のビデオストリームを理解することである。ビデオ全体に完全な注意を向けて処理すると、計算コストが二次的に増大し、長いビデオでは性能が低下する。一方、単純なスライディングウィンドウ手法も欠点があり、一貫性が損なわれるか、冗長な再計算により高遅延が発生する。本論文では、無限の視覚入力をリアルタイムで安定して理解するために設計されたモデル、StreamingVLMを紹介する。我々のアプローチは、トレーニングとストリーミング推論を整合させる統一フレームワークである。推論時には、注意シンクの状態、最近の視覚トークンの短いウィンドウ、および最近のテキストトークンの長いウィンドウを再利用することで、コンパクトなKVキャッシュを維持する。このストリーミング能力は、短い重複したビデオチャンクに完全な注意を適用する単純な教師ありファインチューニング(SFT)戦略を通じて注入され、過度に長いコンテキストでのトレーニングなしに、推論時の注意パターンを効果的に模倣する。評価のために、平均2時間以上のビデオを含む新しいベンチマーク、Inf-Streams-Evalを構築し、フレームとテキストの間の秒単位の密な整合を要求する。Inf-Streams-Evalにおいて、StreamingVLMはGPT-4O miniに対して66.18%の勝率を達成し、単一のNVIDIA H100で最大8 FPSの安定したリアルタイム性能を維持する。特に、我々のSFT戦略は、VQA固有のファインチューニングなしに一般的なVQA能力も向上させ、LongVideoBenchで+4.30、OVOBench Realtimeで+5.96の性能向上をもたらす。コードはhttps://github.com/mit-han-lab/streaming-vlmで公開されている。
近年の拡散モデルは画像生成において最先端の性能を達成しているが、しばしば意味的な不整合や幻覚を引き起こす問題がある。推論時の様々なガイダンス手法は生成を向上させることができるが、これらは外部信号やアーキテクチャの変更に依存する間接的な方法で動作することが多く、追加の計算コストを伴う。本論文では、基盤となる拡散モデルを変更せず、軌道信号のみに基づいて動作する、より効率的で直接的なガイダンス手法であるTangential Amplifying Guidance (TAG)を提案する。TAGは中間サンプルを投影基底として利用し、この基底に対する推定スコアの接線成分を増幅することでサンプリング軌道を補正する。このガイダンスプロセスを一次テイラー展開を用いて形式化し、接線成分を増幅することが状態を高確率領域に向かわせ、不整合を減少させサンプル品質を向上させることを示す。TAGはプラグアンドプレイでアーキテクチャに依存しないモジュールであり、最小限の計算追加で拡散サンプリングの忠実度を向上させ、拡散ガイダンスに対する新たな視点を提供する。
大規模言語モデル(LLMs)は顕著な成功を収めており、そのマルチモーダル拡張(MLLMs)は、テキストを超えて画像、動画、その他のモダリティにわたる能力をさらに解放している。しかし、この変化にもかかわらず、手動でのプロンプト作成の負担を軽減しつつ性能を最大化するために設計されたプロンプト最適化手法は、依然としてテキストに限定されており、結果としてMLLMsの真の潜在能力を制限している。このギャップに動機づけられ、我々はマルチモーダルプロンプト最適化という新たな問題を提示する。これは、テキストと非テキストのプロンプトのペアによって定義されるマルチモーダル空間に、従来のプロンプト最適化の定義を拡張するものである。この問題に対処するため、我々はマルチモーダルプロンプトオプティマイザ(MPO)を提案する。MPOは、アライメントを保持した更新を通じてマルチモーダルプロンプトの共同最適化を行うだけでなく、ベイズに基づく選択戦略において、以前の評価を事前情報として活用することで、候補プロンプトの選択プロセスを導く統一フレームワークである。テキストを超えた画像、動画、さらには分子といった多様なモダリティにわたる広範な実験を通じて、MPOがテキストのみの最適化手法を凌駕することを示し、MLLMsの潜在能力を実現するための重要なステップとしてマルチモーダルプロンプト最適化を確立する。
具現化能力とは、エージェントが物理世界を認識し、理解し、相互作用するための一連の基本的な能力を指す。マルチモーダル大規模言語モデル(MLLMs)は具現化エージェントとしての可能性を示しているが、その具現化能力に対する体系的かつ徹底的な評価は未だ十分に検討されていない。既存のベンチマークは主に計画立案や空間理解などの特定の領域に焦点を当てている。このギャップを埋めるため、我々はBEARを導入する。BEARは、MLLMsの原子的な具現化能力を評価する包括的かつ細粒度のベンチマークであり、6つのカテゴリーにわたる14の領域で4,469の画像-動画-テキストのエントリを含む。これには、低レベルのポインティング、軌道理解、空間推論から高レベルの計画立案に至るタスクが含まれる。20の代表的なMLLMsに対する広範な評価結果は、すべての具現化能力の領域において持続的な限界を明らかにしている。この不足を補うため、我々はBEAR-Agentを提案する。これは、事前学習済みの視覚モデルを統合し、MLLMの知覚、3D理解、計画立案能力を強化するマルチモーダル対話型エージェントである。BEARにおいて、多様な具現化能力にわたるMLLMの性能を大幅に向上させ、GPT-5に対して9.12%の絶対的な向上と17.5%の相対的な改善をもたらす。さらに、我々の実験は、MLLMの具現化能力を向上させることがシミュレーション環境における具現化タスクに有益であることを示している。プロジェクトウェブサイト: https://bear-official66.github.io/
大規模言語モデル(LLMs)は、膨大なテキストコーパスに対する模倣学習を通じて顕著な成功を収めてきましたが、このパラダイムは学習と生成の間にギャップを生み出し、堅牢な推論を制限しています。強化学習(RL)は、このギャップを埋めることができるよりデータ効率の良い解決策を提供しますが、その応用は重要なデータボトルネックによって制約されています:既存のRLデータセットは、ウェブスケールの事前学習コーパスに比べて桁違いに小さく、多様性に欠けています。この問題に対処するため、我々はWebscale-RLパイプラインを導入します。これは、大規模な事前学習文書を体系的に数百万の多様で検証可能な質問-回答ペアに変換するスケーラブルなデータエンジンです。このパイプラインを使用して、我々はWebscale-RLデータセットを構築し、9以上のドメインにわたる120万の例を含んでいます。我々の実験では、このデータセットで訓練されたモデルが、一連のベンチマークにおいて、継続的な事前学習や強力なデータ精選ベースラインを大幅に上回ることを示しています。特に、我々のデータセットを用いたRL訓練は、継続的な事前学習の性能を最大100倍少ないトークン数で達成するなど、大幅に効率的であることが証明されました。我々の研究は、RLを事前学習レベルにスケーリングするための実現可能な道筋を示し、より能力が高く効率的な言語モデルを可能にします。
Chatbot Arenaのようなクラウドソーシング型モデル評価プラットフォームは、人間の視点からリアルタイムでモデルの応答品質を評価することを可能にします。コーディング領域において、LLM(大規模言語モデル)が生成したコンテンツの品質を手動で検証することは非常に困難です。なぜなら、長い生のコードを理解し、意図的にコードの実行をシミュレートする必要があるためです。この課題に対処するため、我々はBigCodeArenaを紹介します。これは、包括的かつ即時の実行環境を備えた、コード生成のためのオープンな人間評価プラットフォームです。Chatbot Arenaを基盤として構築されたBigCodeArenaは、LLMが生成したコードの実行を可能にし、人間が実行プロセスとその結果と対話することを可能にします。我々は、10の広く使用されているLLMにわたる14,000以上のコード中心の会話セッションを収集し、10の言語と8種類の実行環境にまたがるデータを集めました。これらの会話の中から、4,700以上のマルチターンサンプルをペアワイズ人間選好として特定しました。さらに分析を進めることで、タスク、言語、フレームワークによって特徴づけられる細粒度の領域におけるLLMの未開拓の選好を明らかにしました。最先端のLLMのコード理解と生成能力を体系的に検証するため、収集したデータに基づいて2つのベンチマーク、BigCodeRewardとAutoCodeArenaを策定しました。BigCodeRewardでは、4,700の会話を後処理し、報酬モデルと人間の選好の一貫性を評価しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMがコーディング選好の判断において優れた性能を発揮することが示されました。これらの知見に基づき、我々はAutoCodeArenaを提案します。これは、人間の介入なしにLLMのコーディング品質を評価するための自動Eloレーティングベンチマークです。GPT-5、Claude-Sonnet-4、Claude-Opus-4のようなプロプライエタリなLLMは、最近登場したモデルの中でも依然としてコード生成性能でリードしていることがわかりました。
近年、推論モデル(例:OpenAI o1、DeepSeek-R1)におけるテストタイムスケーリングのトレンドは、長い連鎖思考(Chain-of-Thought, CoT)を通じて顕著な改善をもたらしてきた。しかし、既存のベンチマークは主に即時的で単一の視野に基づくタスクに焦点を当てており、複雑で長期的なシナリオを理解し対応するモデルの能力を適切に評価できていない。この大規模推論モデル(Large Reasoning Models, LRMs)の不完全な評価に対処するため、我々はクエリ合成を通じてLRMsの長期的推論行動を促進する手法「R-HORIZON」を提案する。R-HORIZONに基づき、我々は長期的推論ベンチマークを構築し、相互依存する問題を含む複雑な多段階推論タスクを網羅した。R-HORIZONベンチマークを用いたLRMsの包括的評価を通じて、最も先進的なLRMsでさえも性能が大幅に低下することが明らかとなった。分析の結果、LRMsは有効な推論長が限られており、複数の問題間で思考予算を適切に配分することが困難であることが判明した。これらの制限を認識し、我々はR-HORIZONを用いて、検証済み報酬による強化学習(Reinforcement Learning with Verified Rewards, RLVR)のための長期的推論データを構築した。単一視野データを用いた学習と比較して、R-HORIZONを用いたRLVRは、多視野推論タスクにおける性能を大幅に向上させるだけでなく、標準的な推論タスクにおける精度も向上させ、AIME2024において7.5の増加を示した。これらの結果は、R-HORIZONがLRMsの長期的推論能力を強化し評価するための、スケーラブルで制御可能かつ低コストなパラダイムとして位置づけられることを示している。
大規模言語モデルは、拡張された連鎖思考生成を通じて複雑な推論行動を示し、デコードフェーズにおいて前例のないKey-Value(KV)キャッシュのオーバーヘッドを生み出します。既存のKVキャッシュ圧縮手法は、推論モデルにおいて十分な性能を発揮しません。トークン削除手法は重要な情報を破棄することで推論の整合性を損ない、ヘッド再割り当て手法は検索タスク向けに設計されているため、推論に重要なヘッドを誤って圧縮し、圧縮率が上がるにつれて性能が大幅に低下します。我々は、推論モデルにおいてKVヘッドが機能的な異質性を示すと仮説を立てました。つまり、一部のヘッドは連鎖思考の一貫性に不可欠であり、他のヘッドは圧縮可能であると考えます。この洞察を検証し活用するために、我々はRLKVという新しい推論重要ヘッド識別フレームワークを提案します。RLKVは、各ヘッドのキャッシュ使用量と推論品質の関係を直接最適化するために強化学習を利用します。RLKVはトレーニング中に実際に生成されたサンプルから報酬を生成するため、推論行動に関連するヘッドを自然に特定します。その後、これらのヘッドには完全なKVキャッシュを割り当て、他のヘッドには圧縮された定数KVキャッシュを適用して効率的な推論を実現します。実験の結果、推論に不可欠なアテンションヘッドはごく一部であることが明らかになり、我々のKV圧縮手法はベースライン手法を上回りながら、20~50%のキャッシュ削減を達成し、非圧縮結果とほぼ同等の性能を維持することができました。
空間推論の探求が現在急速に進む中、研究者たちは屋内シーンの理解において大きな進展を遂げているものの、ロボティクスや自動運転などの多様な応用において依然として課題に直面している。本論文は、以下の2つの主要な課題に取り組むことで、多様なシナリオにおける全スケールの空間推論を推進することを目的としている:1) データセット構築における屋内3Dスキャンと労力を要する手動アノテーションへの過度の依存、2) 効果的な全スケールシーンモデリングの欠如、これにより個々のシーンへの過剰適合がしばしば生じる。本論文では、構造化された空間推論知識システム、スケールを意識したモデリング、および漸進的なトレーニングパラダイムを統合した包括的ソリューションを導入し、MLLM(多言語大規模言語モデル)の全スケール空間知能を拡張する初めての試みを提示する。タスク特化型の専門家主導の自動化パイプラインを用いて、5つの空間スケールにわたる38,000以上のビデオシーンをキュレーションし、19の多様なタスクタイプにまたがる約100万の空間QAペアを含むSpaceVista-1Mデータセットを構築した。専門家モデルは有用なドメイン知識を注入できるが、評価においては信頼性に欠ける。そこで、ビデオベースのデータを手動で記録、検索、組み立てることにより、正確なアノテーションを施した全スケールベンチマークを構築した。しかし、SpaceVista-1Mを用いた単純なトレーニングでは、潜在的な知識の衝突により最適な結果が得られないことが多い。これに対応して、セマンティクスを超えた高密度な入力を受け入れ、スケールをスケールを意識した専門家と漸進的な報酬のアンカーとして使用する空間推論モデルSpaceVista-7Bを導入した。最後に、SpaceVista-Benchを含む5つのベンチマークにわたる広範な評価を行い、全スケールおよびシナリオにわたる強力な汎化性能を示す競争力のある結果を提示した。我々のデータセット、モデル、およびベンチマークはhttps://peiwensun2000.github.io/mm2kmで公開される予定である。
現代の機械学習モデルの評価は、非常に高コストになっています。LMMs-EvalやHELMなどのベンチマークでは、モデルごとに数千GPU時間を必要とします。このような高コストな評価は、研究の包括性を低下させ、イノベーションのサイクルを遅らせ、環境への影響を悪化させます。従来のアプローチは通常、2つのステップで構成されます。まず、アンカーとなるデータのサブセットを選択します。次に、このサブセットでの精度から最終的なテスト結果へのマッピングを学習します。しかし、この方法の欠点は、アンカーの選択がクラスタリングに依存するため、設計選択に敏感で複雑になることです。我々は、サンプル間の多様性を促進することは必須ではなく、モデルの応答において最大の多様性を示すサンプルを選択することが重要であると主張します。我々の手法であるDiversifying Sample Condensation (DISCO)は、モデル間の不一致が最大となるトップkのサンプルを選択します。これは、グローバルなクラスタリングではなく、貪欲でサンプル単位の統計を使用します。このアプローチは概念的によりシンプルです。理論的には、モデル間の不一致は、このような貪欲な選択に対して情報理論的に最適なルールを提供します。DISCOは、MMLU、Hellaswag、Winogrande、ARCといったデータセットにおいて、従来の手法を上回る実証的な成果を示し、性能予測において最先端の結果を達成しています。コードは以下で公開されています: https://github.com/arubique/disco-public。
検証可能な報酬を伴う強化学習(RLVR)は、推論タスクにおける大規模言語モデル(LLM)の改善のための標準的な手法となり、グループ相対ポリシー最適化(GRPO)が広く実践されている。しかし、GRPOは負のグループにおいて大幅な計算リソースを浪費している。負のグループとは、サンプリングされた応答が正解でないグループであり、これらはゼロのアドバンテージをもたらし、勾配を生成しない。我々は、追加の監督なしに負のグループを活用できるかどうかを問う。報酬モデリングにおける最尤推定(MLE)目的関数から出発し、MLE勾配が修正された価値関数に対するポリシー勾配と等価であることを示す。この価値関数は、誤った応答に対して信頼度に基づくペナルティを追加し、より自信のある誤りに対してより大きなペナルティを課す。これを「負のサンプルを伴う尤度推定」(LENS)と呼ぶ。LENSはGRPOを修正し、誤った生成に対して非ゼロの信頼度依存の報酬を割り当て、負のグループを有益なものにし、以前は無駄にされていたサンプルを有用な勾配更新に変換する。Llama-3.1-8BとQwen-2.5-3Bを用いたMATHベンチマークにおいて、提案されたバリアントはGRPOベースラインを一貫して上回り、特に難しい項目において顕著な向上を示した。これらの結果は、負のグループを「救済」するための原理的かつ実践的な方法を示しており、RLVRにおける効率と性能の向上を実証している。
近年、マルチモーダル大規模推論モデル(MLRM)の進展により、複雑なテキストおよび視覚的タスクを解決する能力が大幅に向上している。しかし、これらのモデルは単純な問題に対して過剰に思考し、不必要に長い推論過程を生成する一方で、難しい問題に対しては探索が不十分であり、解決策を見逃す傾向がある。この不均衡を解消するため、我々はARESを提案する。これは、タスクの難易度に基づいて探索努力を動的に割り当てる適応的推論のための統一されたオープンソースフレームワークである。我々のアプローチは、以下の2つの重要な経験的発見に基づいている:(i) 単一トークンのエントロピーはノイズが多いが、高ウィンドウエントロピー(HWE)トークン(スライディングウィンドウ下で平均化されたトークンレベルのエントロピー)は推論の重要な瞬間を確実に捉えることができる;(ii) HWEの使用を減らすことは簡単な問題に有益であり、逆にHWEの使用を増やすことは難しい問題を解決するために不可欠である。これらの知見に基づき、ARESは2段階のトレーニングパイプラインを導入する。適応的コールドスタート段階では、問題の難易度に比例した長さの推論過程とペアになったマルチモーダルおよびテキストデータをキュレーションし、モデルに初期の難易度認識を備えさせる。第2段階では、HWEトークンを探索トリガーとして使用し、いつ探索するかを決定し、動的KL制御を伴う階層的エントロピー報酬を使用してどれだけ探索するかを決定する適応的エントロピーポリシー最適化(AEPO)を開発する。広範な実験により、ARESが多様な数学的、論理的、およびマルチモーダルベンチマークにおいて優れた性能と推論効率を達成し、大幅に低い推論コストで主要な商用システムとのギャップを埋めることが実証された。
道具を使用し、理解し、創造する能力は、人間の知性の特徴であり、物理世界との高度な相互作用を可能にします。真に汎用的な知能エージェントが真の多様性を達成するためには、これらの基本的なスキルを習得する必要があります。現代のマルチモーダル大規模言語モデル(MLLMs)は、その膨大な常識を活用して、エンボディドAIや下流の視覚-言語-行動(VLA)モデルにおける高レベルの計画を可能にしていますが、物理的な道具に対する真の理解の程度はまだ定量化されていません。このギャップを埋めるために、私たちはPhysToolBenchを提案します。これは、MLLMsの物理的な道具の理解を評価するための最初のベンチマークです。私たちのベンチマークは、1,000以上の画像-テキストペアからなる視覚的質問応答(VQA)データセットとして構成されています。これは、3つの異なる難易度レベルにわたる能力を評価します:(1)道具の認識:道具の主要な機能を認識することを要求します。(2)道具の理解:道具の動作原理を理解する能力をテストします。(3)道具の創造:従来の選択肢が利用できない場合に、周囲のオブジェクトから新しい道具を作り出すことをモデルに挑戦させます。私たちは、32のMLLMs(プロプライエタリ、オープンソース、特殊なエンボディド、およびVLAのバックボーンを含む)を包括的に評価し、道具の理解における重大な欠陥を明らかにしました。さらに、詳細な分析を提供し、予備的な解決策を提案します。コードとデータセットは公開されています。
近年の進展により、AIのフロンティアはパターン認識タスクから、段階的なSystem2スタイルの推論を必要とする問題へと移行しつつあり、特に大規模言語モデルにおいてその傾向が顕著です。しかし、学習においては汎化や分布外(OoD)評価の概念が十分に形式化されているのに対し、推論能力については明確で一貫した定義や指標が存在しません。本論文では、推論を定義し測定するための枠組みおよび問題設定として、複雑性分布外(Complexity OoD)汎化を提案します。モデルがComplexity OoD汎化を示すのは、テストインスタンスにおいて、その最小限必要な解決複雑性(表現的により豊かな解決構造、または計算的により多くの推論ステップ/プログラム長)がすべての訓練例を上回る場合に性能を維持するときです。我々は、解決記述のコルモゴロフ複雑性および操作的な代理指標(例:オブジェクト/関係の数、推論ステップ数)を通じて複雑性を形式化し、Complexity OoDが長さや合成的OoDとどのように異なるかを明確にします。この視点は学習と推論を統一的に捉えます:低い複雑性ではSystem1のような処理で解決可能な多くのケースが、複雑性の圧力下ではSystem2のようなものになり、一方でSystem2は解決構造に対する汎化と見なすことができます。我々はこの視点を実践に移すため、スタック全体にわたってComplexity OoDを操作化するための提言を行います:ベンチマークおよび評価指標の設計に複雑性を取り入れること、解決トレースをターゲットとした監視の再考、Complexity OoD汎化のための帰納的バイアスの探索と設計、誤ったショートカット、意味的ロバスト性、破滅的忘却、ステップごとのキャリブレーションなどの推論学習の波及効果への対応。Complexity OoDはデータのスケーリングだけでは解決できないため、堅牢な推論への進展には、複雑性を明示的にモデル化し計算を割り当てるアーキテクチャと訓練体制が必要となります。
3D占有予測タスクは近年著しい進歩を遂げており、視覚ベースの自動運転システムにおいて重要な役割を果たしています。従来の手法は固定されたセマンティックカテゴリに限定されていましたが、最近のアプローチでは、現実世界のシーンにおけるオープンな語彙のテキストクエリを可能にするために、テキストに整合した特徴を予測する方向に進んでいます。しかし、テキストに整合したシーンモデリングにはトレードオフが存在します。疎なガウス表現はシーン内の小さなオブジェクトを捉えるのに苦労し、密な表現は計算コストが大幅に増加します。これらの制限に対処するため、我々はPG-Occを提案します。これは、オープンな語彙の3D占有予測を可能にする革新的なProgressive Gaussian Transformer Frameworkです。我々のフレームワークは、プログレッシブなオンライン密度化を採用し、3Dガウス表現を段階的に強化して細かいシーン詳細を捉えるフィードフォワード戦略を取ります。表現を反復的に強化することで、フレームワークはますます正確で詳細なシーン理解を実現します。もう一つの重要な貢献は、異方性を考慮したサンプリング戦略と時空間融合の導入です。これにより、異なるスケールと段階のガウスに適応的に受容野を割り当て、より効果的な特徴集約と豊富なシーン情報の捕捉を可能にします。広範な評価を通じて、PG-Occが従来の最高性能手法に対して14.3%の相対的なmIoU向上を達成し、最先端の性能を実現することを示します。コードと事前学習済みモデルは、プロジェクトページ(https://yanchi-3dv.github.io/PG-Occ)で公開時にリリースされます。
大規模言語モデル(LLM)は、教師ありファインチューニング(SFT)を通じて、推論能力において顕著な進歩を示してきました。しかし、SFTはリソース集約的であり、大規模なキュレーションデータセット、リジェクトサンプリングされたデモンストレーション、そして全てのトークンにわたる均一な最適化に依存していますが、そのうち意味のある学習価値を持つのはごく一部に過ぎません。本研究では、直感に反するアイデアを探ります:より小規模な言語モデル(SLM)が、大規模言語モデル(LLM)の独自の強みを反映する高価値な推論の瞬間を明らかにすることで、LLMを教えることができるのか?我々は、LightReasonerという新しいフレームワークを提案します。このフレームワークは、より強力なエキスパートモデル(LLM)とより弱いアマチュアモデル(SLM)の間の行動の差異を活用します。LightReasonerは2つの段階で動作します:(1)エキスパートとアマチュアの対比を通じてエキスパートの優位性を捉えた監視例を構築し、重要な推論の瞬間を特定するサンプリング段階、(2)これらの蒸留された例にエキスパートモデルを合わせ、その推論の強みを増幅するファインチューニング段階です。7つの数学的ベンチマークにおいて、LightReasonerは精度を最大28.1%向上させ、時間消費を90%、サンプル問題を80%、チューニングトークンの使用量を99%削減し、すべてグラウンドトゥルースラベルに依存することなく達成しました。より弱いSLMを効果的な教育信号に変えることで、LightReasonerはLLMの推論を進歩させるためのスケーラブルでリソース効率の良いアプローチを提供します。コードは以下で利用可能です:https://github.com/HKUDS/LightReasoner
現在の制御可能な拡散モデルは、通常、中間活性化を修正して新しいモダリティに基づくガイダンスを注入する固定アーキテクチャに依存しています。このアプローチは、動的で多段階のノイズ除去プロセスに対して静的な条件付け戦略を使用しており、生成が粗い構造から細かい詳細へと進化するにつれてモデルの応答を適応させる能力を制限しています。本論文では、TC-LoRA(時間的に変調された条件付きLoRA)という新しいパラダイムを紹介します。これは、モデルの重みを直接条件付けることで、動的で文脈を意識した制御を可能にします。我々のフレームワークは、ハイパーネットワークを使用してLoRAアダプターをその場で生成し、各拡散ステップにおいて凍結されたバックボーンに対する重み修正を時間とユーザーの条件に基づいて調整します。このメカニズムにより、モデルは生成プロセス全体を通じて条件付きガイダンスを適用するための明示的で適応的な戦略を学習し、実行することが可能になります。さまざまなデータドメインでの実験を通じて、この動的でパラメトリックな制御が、静的で活性化ベースの方法と比較して、生成の忠実度と空間的条件への適合性を大幅に向上させることを実証します。TC-LoRAは、モデルの条件付け戦略を重みのより深い機能的な適応を通じて修正する代替アプローチを確立し、タスクと生成段階の動的な要求に合わせた制御を可能にします。
我々は、集中的な推論を必要とする初の専門家レベルの学際的マルチモーダル検索ベンチマークであるMRMRを紹介する。MRMRは23のドメインにわたる1,502のクエリを含み、肯定的な文書は人間の専門家によって慎重に検証されている。従来のベンチマークと比較して、MRMRは3つの重要な進歩をもたらす。第一に、多様な専門分野にわたって検索システムに挑戦し、ドメイン間での細かいモデル比較を可能にする。第二に、クエリは推論集約的であり、顕微鏡スライドの診断など、画像の深い解釈を必要とする。さらに、矛盾する概念を識別することをモデルに求める新しいタスクであるContradiction Retrievalを導入する。最後に、クエリと文書は画像とテキストが交互に配置されたシーケンスとして構築される。単一の画像や単一モダリティの文書に制限されていた従来のベンチマークとは異なり、MRMRは複数画像のクエリと混合モダリティのコーパス文書を提供し、より現実的な設定を提供する。我々はMRMRにおいて、4つのカテゴリーのマルチモーダル検索システムと14の最先端モデルを広範に評価した。LLM生成の画像キャプションを備えたテキスト埋め込みモデルQwen3-Embeddingが最高のパフォーマンスを達成し、マルチモーダル検索モデルの改善の余地が大きいことを示している。Ops-MM-Embeddingのような最新のマルチモーダルモデルは専門家ドメインのクエリでは競争力があるものの、推論集約的なタスクでは不十分である。我々は、MRMRがより現実的で挑戦的なシナリオにおけるマルチモーダル検索の進歩の道を開くと信じている。
推論モデルは最近、数学やコーディングなどの分野で顕著な進歩を遂げている。しかし、数学やコーディングにおける専門家レベルの能力は、ウェブナビゲーションやコンピュータ/スマートフォンの使用といった長期的でインタラクティブなタスクにおけるパフォーマンスと対照的である。人間の認知に関する文献に触発され、我々は現在のAIエージェントが複雑なインタラクティブ環境での理解とパフォーマンスを向上させるために、「代理的試行錯誤」—行動する前に代替の未来を精神的にシミュレートする能力—を必要としていると主張する。我々は、Dyna-Mindという二段階のトレーニングフレームワークを導入し、(V)LMエージェントにそのようなシミュレーションを推論に統合することを明示的に教える。第1段階では、シミュレーションを用いた推論(ReSim)を導入し、エージェントが環境との相互作用を通じて収集した実際の経験から構築された拡張探索木から構造化された推論トレースを生成するように訓練する。これにより、ReSimはエージェントの推論を忠実な世界のダイナミクスに基づかせ、その推論において将来の状態を予測する能力を備えさせる。第2段階では、Dyna-GRPOを提案し、実際のロールアウトからのフィードバックとして結果報酬と中間状態の両方を使用して、エージェントのシミュレーションと意思決定能力をさらに強化するオンライン強化学習手法を提供する。二つの合成ベンチマーク(SokobanとALFWorld)と一つの現実的なベンチマーク(AndroidWorld)での実験により、(1) ReSimがAIエージェントにシミュレーション能力を効果的に注入すること、(2) Dyna-GRPOが結果とインタラクションレベルのシグナルを活用して、長期的で計画集約的なタスクのためのより良いポリシーを学習することが示された。これらの結果は、シミュレーションがAIエージェントがますます挑戦的な環境でより効果的に推論、計画、行動するための中心的な役割を果たすことを強調している。
動的ビュー合成は大きな進展を遂げてきたが、未校正のカジュアルなビデオからシーンを再構築することは、最適化の遅さや複雑なパラメータ推定のため依然として課題となっている。本研究では、校正されたカメラや深度センサーを必要とせず、数分以内にカジュアルなビデオシーケンスを効率的に処理するために、ネイティブな4D表現を活用したモノクローム再構築システム「Instant4D」を提案する。本手法は、深層視覚SLAMによる幾何学的復元から始まり、シーン表現を最適化するためのグリッドプルーニングを経る。この設計により、幾何学的整合性を維持しつつ冗長性を大幅に削減し、モデルサイズを元の10%以下に縮小する。時間的ダイナミクスを効率的に扱うため、簡素化された4Dガウス表現を導入し、30倍の高速化を実現し、トレーニング時間を2分以内に短縮しながら、複数のベンチマークで競争力のある性能を維持する。本手法は、Dycheckデータセット上の単一ビデオまたは典型的な200フレームのビデオを10分以内に再構築する。さらに、実世界のビデオに本モデルを適用し、その汎用性を示す。プロジェクトのウェブサイトはhttps://instant4d.github.io/で公開されている。
大規模言語モデル(LLM)は数学的・論理的推論において顕著な進歩を示してきたが、統計学という独自かつ統合的な学問分野は、ベンチマークの取り組みにおいて未だ十分に探索されていない。このギャップを埋めるため、我々はStatEvalを導入する。これは統計学に特化した初の包括的ベンチマークであり、難易度レベルにわたる広範かつ深い範囲をカバーしている。StatEvalは、学部および大学院のカリキュラムを網羅する13,817の基礎問題と、主要な学術誌から抽出した2,374の研究レベルの証明課題で構成されている。このベンチマークを構築するために、我々は人間をループに組み込んだ検証を伴うスケーラブルなマルチエージェントパイプラインを設計し、大規模な問題の抽出、書き換え、品質管理を自動化しながら、学術的厳密性を確保した。さらに、計算ベースおよび証明ベースの課題に特化した堅牢な評価フレームワークを提案し、推論能力の詳細な評価を可能にした。実験結果によると、GPT5-miniのようなクローズドソースモデルは研究レベルの問題で57%未満の成績を収め、オープンソースモデルはさらに低い性能を示した。これらの結果は、統計的推論の独自の課題と、現在のLLMの限界を浮き彫りにしている。我々は、StatEvalが大規模言語モデルにおける統計的知能を進展させるための厳格なベンチマークとして機能することを期待している。すべてのデータとコードはウェブプラットフォームで公開されている: https://stateval.github.io/。
ドメインシフト下でのロバストな自動音声認識(ASR)は、実世界のシステムが未知のアクセントやドメインに遭遇し、ラベル付きデータが限られている状況において極めて重要である。擬似ラベリングは実用的な回避策を提供するが、しばしば系統的でアクセント固有の誤りを導入し、フィルタリングでは修正できない。我々は問う:ターゲットの正解データなしに、これらの繰り返し発生するバイアスをどのように修正できるか?我々は、単純なパラメータ空間補正を提案する。具体的には、実データと擬似ラベルデータの両方を含むソースドメインにおいて、同じ初期化から2つのASRモデルを微調整し、一方を正解ラベルで、もう一方を擬似ラベルで学習させる。そして、それらの重みの差を取ることで、擬似ラベルのバイアスを捉えた補正ベクトルを形成する。このベクトルを擬似ラベル付きターゲットモデルに適用すると、認識性能が向上し、Whisper tinyモデルを用いたAfriSpeech-200の10のアフリカアクセントにおいて、最大35%の相対的な単語誤り率(WER)の低減を達成した。
従来のマルチモーダル学習者は、視覚的質問応答などのタスクに対して統一的な表現を見つけますが、ペアになったデータセットに大きく依存しています。しかし、見過ごされながらも潜在的に強力な疑問があります:補助的なペアになっていないマルチモーダルデータを活用して、ターゲットモダリティにおける表現学習を直接強化することは可能か?私たちはUML: Unpaired Multimodal Learnerを紹介します。これは、単一のモデルが異なるモダリティからの入力を交互に処理しながら、それらにわたってパラメータを共有するモダリティに依存しないトレーニングパラダイムです。この設計は、異なるモダリティが共有された現実の投影であるという仮定を利用し、明示的なペアを必要とせずにクロスモーダル構造から利益を得ることを可能にします。理論的には、線形データ生成仮定の下で、ペアになっていない補助データが、単一モーダルトレーニングよりもデータ生成プロセスについて厳密に情報量の多い表現を生み出すことを示します。経験的には、テキスト、オーディオ、画像などの補助モダリティからのペアになっていないデータを使用することで、画像やオーディオなどの多様な単一モーダルターゲットにおける下流のパフォーマンスが一貫して向上することを示します。私たちのプロジェクトページはこちらです:https://unpaired-multimodal.github.io/
DeepResearchエージェントは、高度な推論とマルチツール統合を通じて専門家レベルの研究を行う、革新的なAIパラダイムを体現しています。しかし、これらのシステムの評価は、オープンエンドな研究シナリオや、個別の能力に焦点を当てた既存のベンチマークのため、依然として重大な課題となっています。従来のLLMタスクとは異なり、DeepResearchシステムは多様な情報源を統合し、洞察を生成し、首尾一貫した研究成果を提示する必要があり、これらの能力は単純な検証に抵抗します。このギャップを埋めるため、私たちはDeepResearch-ReportEvalを導入しました。これは、DeepResearchシステムをその最も代表的なアウトプットである研究レポートを通じて評価する包括的なフレームワークです。私たちのアプローチは、品質、冗長性、事実性の3つの次元を体系的に測定し、革新的なLLM-as-a-Judge手法を用いて専門家の一致度を高めています。12の実世界のカテゴリーにまたがる100の精選されたクエリからなる標準化されたベンチマークを提供し、体系的な能力比較を可能にします。4つの主要な商用システムの評価を通じて、異なる設計哲学とパフォーマンスのトレードオフを明らかにし、DeepResearchが情報アシスタントからインテリジェントな研究パートナーへと進化する中で、基礎的な洞察を確立しました。ソースコードとデータは以下で公開されています:https://github.com/HKUDS/DeepResearch-Eval。
AI制御プロトコルは、自律環境において信頼されていないLLMエージェントが害を及ぼすのを防ぐための防御メカニズムとして機能します。これまでの研究では、これをセキュリティ問題として扱い、展開コンテキストを利用してバックドアの挿入などの有害な副タスクを巧妙に完了させるエクスプロイトを用いたストレステストを行ってきました。実際には、ほとんどのAI制御プロトコルは基本的にLLMモニターに依存しており、これが単一障害点となる可能性があります。私たちは、プロトコルとモニターモデルを知っている信頼されていないモデルによる適応型攻撃を研究します。これは、信頼されていないモデルがより新しい知識カットオフで訓練された場合や、この情報を自律的に検索できる場合に起こり得ます。私たちは、攻撃者がモデルの出力に公開されている情報やゼロショットプロンプトインジェクションを埋め込むという単純な適応型攻撃ベクトルを具体化します。この戦術を用いることで、最先端のモデルは多様なモニターを一貫して回避し、主要な2つのAI制御ベンチマークで悪意のあるタスクを完了します。この攻撃は、モニターに依存する現在のプロトコルに対して普遍的に有効です。さらに、最近のDefer-to-Resampleプロトコルは逆効果で、そのリサンプリングがプロンプトインジェクションを増幅し、事実上それをベストオブn攻撃として再構成します。一般的に、モニターモデルに対する適応型攻撃は、現在の制御プロトコルの主要な盲点であり、将来のAI制御メカニズムの評価における標準的な要素となるべきです。
並列テストタイムスケーリング(TTS)は、大規模言語モデル(LLM)を強化するための重要なアプローチであり、通常、複数のトークンベースの連鎖思考(Chain-of-Thought)を並列にサンプリングし、投票や検索を通じて結果を集約します。最近の潜在推論(latent reasoning)の進展、つまり中間推論が連続ベクトル空間で展開される手法は、明示的な連鎖思考に比べてより効率的な代替手段を提供します。しかし、このような潜在モデルが並列TTSから同様に恩恵を受けられるかどうかは、主に連続空間でのサンプリングメカニズムの欠如と、高度な軌跡集約のための確率的信号の不足により、未解決のままでした。\ 本研究は、上記の問題に対処することで、潜在推論モデルにおける並列TTSを可能にします。サンプリングに関しては、モンテカルロドロップアウトと加法ガウスノイズという2つの不確実性に基づく確率的戦略を導入します。集約に関しては、ステップワイズなコントラスティブ目的で訓練された潜在報酬モデル(LatentRM)を設計し、潜在推論をスコア付けしてガイドします。広範な実験と可視化分析により、両方のサンプリング戦略が計算リソースとともに効果的にスケールし、異なる探索ダイナミクスを示すことが明らかになりました。一方、LatentRMは効果的な軌跡選択を可能にします。全体として、我々の探求は、連続空間におけるスケーラブルな推論の新たな方向性を開拓します。コードはhttps://github.com/YRYangang/LatentTTSで公開されています。
ゼロショットキャプションモデルは最近提案されたもので、ペア画像-テキストデータに依存せずに、共通空間の視覚-言語表現を利用して画像のキャプションを生成します。画像にキャプションを付ける際、これらのモデルはテキストに整列した画像特徴をテキスト的にデコードしますが、その範囲はグローバル表現と画像全体のキャプションに限定されています。本論文では、画像中心からパッチ中心のパラダイムにシフトし、領域レベルの教師データを必要とせずに任意の領域のキャプションを可能にする、ゼロショットキャプションの統一フレームワークを提案します。グローバルな画像表現に依存する代わりに、個々のパッチを原子キャプションユニットとして扱い、それらを集約して、単一のパッチから非連続領域、さらには画像全体まで、任意の領域を記述します。我々は、現在の潜在キャプションモデルがこの新しいフレームワークで機能するための重要な要素を分析します。実験により、DINOのような意味のある密な視覚特徴を生成するバックボーンが、複数の領域ベースのキャプションタスクで最先端の性能を達成する鍵であることが示されています。他のベースラインや最先端の競合モデルと比較して、我々のモデルはゼロショットの密なキャプション、領域セットキャプション、および新たに導入されたトレースキャプションタスクにおいてより優れた性能を達成し、スケーラブルなキャプション生成におけるパッチ単位の意味表現の有効性を強調しています。プロジェクトページはhttps://paciosoft.com/Patch-ioner/にあります。
査読は科学出版の基盤であるが、一貫性の欠如、査読者の主観性、スケーラビリティの課題に悩まされている。本論文では、人間の判断を体系的かつ一貫した評価で補完するためのAI支援査読を研究・展開するモジュール型フレームワーク「ReviewerToo」を紹介する。ReviewerTooは、専門的な査読者ペルソナと構造化された評価基準を用いた体系的な実験をサポートし、実際の学会ワークフローに部分的または完全に統合することが可能である。我々は、ICLR 2025から慎重に選ばれた1,963件の論文投稿データセットを用いてReviewerTooを検証し、gpt-oss-120bモデルによる論文の採択/拒否分類タスクにおいて81.8%の精度を達成した。これは、平均的な人間の査読者の83.9%に匹敵する結果である。さらに、ReviewerTooが生成した査読は、LLM判定者によって人間の平均よりも高品質と評価されたが、最も優れた専門家の貢献には及ばなかった。分析の結果、AI査読者が優れている領域(例:事実確認、文献カバレッジ)と苦手とする領域(例:方法論的新規性や理論的貢献の評価)が明らかになり、人間の専門知識の継続的な必要性が強調された。これらの知見に基づき、AIを査読プロセスに統合するためのガイドラインを提案し、AIが一貫性、カバレッジ、公平性を向上させつつ、複雑な評価判断を分野の専門家に委ねる方法を示す。本研究は、科学出版の成長に伴ってスケールする体系的でハイブリッドな査読システムの基盤を提供する。
検証者報酬による強化学習(RLVR)で強化された大規模推論モデル(LRM)は、問題解決において大きな力を発揮する一方で、過剰な思考(overthinking)を引き起こすことが多い。過剰思考とは、計算コストを膨らませるような、冗長で回りくどい推論プロセスを指す。これまでのRLVRにおけるペナルティ設計は、トークン消費量を削減することには成功しているものの、モデルの性能を損なうことが多く、これはトークンレベルの監督の単純さに起因している。本論文では、監督の粒度が効率と精度のバランスにおいて重要な役割を果たすと主張し、推論を正則化するためのステップレベルの手法である「グループ相対セグメントペナルティ(GRSP)」を提案する。予備分析により、推論セグメントがトークン消費量とモデル性能と強く相関していることが示されたため、セグメントクラスター間で長さを考慮した重み付けメカニズムを設計した。大規模な実験により、GRSPが精度を大きく損なうことなく優れたトークン効率を達成し、特に難しい問題においてその利点が顕著であることが実証された。さらに、GRSPはRLトレーニングを安定化させ、モデルサイズにわたって効果的にスケールする。
リアルタイム音声言語モデル(SLM)は、思考プロセス全体を逐次的に生成する際の遅延が大きいため、Chain-of-Thought(CoT)推論を活用することが困難である。人間のように話しながら考える能力をSLMに持たせることは、近年注目を集めている。本研究では初めて、脳にインスパイアされた高精度なリアルタイム推論を可能にする「Mind-Paced Speaking(MPS)」フレームワークを提案する。人間が思考と応答のために異なる脳領域を利用するのと同様に、我々は高レベルの推論を行い、流暢な音声生成を導く「Formulation Brain」と、それとは別に音声生成を担当する「Articulation Brain」を組み合わせた新たなデュアルブレインアプローチを提案する。この分業により、モード切り替えが不要となり、推論プロセスの整合性が保たれる。実験結果から、MPSは既存の「話しながら考える」手法を大幅に上回り、発話前にCoTを事前計算するモデルと同等の推論性能を達成しつつ、遅延を大幅に低減することが示された。ゼロ遅延設定では、数学的推論タスクであるSpoken-MQAで92.8%の精度を達成し、音声会話タスクであるURO-Benchでは82.5のスコアを記録した。本研究は、高品質な推論とリアルタイムインタラクションの間のギャップを効果的に埋めるものである。
大規模言語モデル(LLM)に基づくエージェントは、長期的なタスクにおけるグローバルな計画の欠如により、無謀な試行錯誤や幻覚的な行動の生成に苦戦しています。本論文では、計画と実行のフレームワークを導入し、人間の労力を必要とせずに実行エージェントの計画能力を向上させるための効率的かつ効果的なプランナー訓練手法であるEAGLETを提案します。具体的には、プラグアンドプレイ型のグローバルプランナーを2段階のプロセスで訓練します。まず、提案する相同コンセンサスフィルタリング戦略を用いて高度なLLMから高品質な計画を合成し、コールドスタートとしてファインチューニングを適用します。さらに、新しい実行能力向上報酬を用いたルールベースの強化学習段階を追加し、難易度の異なるタスク指示に対応できるようにプランナーを改善します。3つの長期的エージェントタスクにおける実験では、我々のプランナーを搭載した実行エージェントが既存の手法を上回り、新たな最先端の性能を達成しました。同時に、EAGLETは強化学習ベースのベースラインと比較して訓練コストを8分の1に削減し、手作業や追加の訓練データを必要としない効率的かつ効果的なソリューションを提供します。
視覚コンテンツ生成の新たなパラダイムとして、自己回帰型テキスト-to-イメージモデルは、トークンごとの逐次的なデコードプロセスにより推論速度が遅く、単一の画像を生成するために数千回のモデルフォワードパスを必要とするという課題を抱えています。この非効率性を解決するため、我々はSpeculative Jacobi-Denoising Decoding (SJD2)を提案します。このフレームワークは、デノイジングプロセスをJacobi反復に組み込むことで、自己回帰モデルにおける並列トークン生成を可能にします。我々の手法は、事前学習済みの自己回帰モデルがノイズ摂動を受けたトークン埋め込みを受け入れ、低コストのファインチューニングを通じて次のクリーントークンを予測する「次クリーントークン予測」パラダイムを導入します。このデノイジングパラダイムは、モデルをより安定したJacobi軌道に導きます。推論時には、我々の手法はトークンシーケンスをガウシアンノイズで初期化し、埋め込み空間で反復的な次クリーントークン予測を実行します。確率的基準を用いて複数のトークンを並列に検証・受け入れ、未受け入れのトークンをデノイジング軌道で次の反復のために洗練します。実験結果は、我々の手法がモデルフォワードパスを削減しながら生成画像の視覚的品質を維持し、生成を加速できることを示しています。
参照動画オブジェクトセグメンテーション(RVOS)は、クエリ文によって参照されるオブジェクトを動画内でセグメント化することを目的としている。既存の手法の多くは、密なマスクアノテーションを用いたエンドツーエンドの学習を必要とし、計算コストが高く、スケーラビリティに欠ける場合がある。本研究では、RVOSの問題を再考し、このタスクの鍵を探ることを目指す。既存の基盤セグメンテーションモデルに基づき、RVOSタスクを参照、動画、セグメンテーションの要素に分解し、参照と動画の要素に対処するためにTemporal Prompt Generation and Selection(Tenet)フレームワークを提案し、セグメンテーション問題は基盤モデルに委ねる。画像ベースの基盤セグメンテーションモデルを参照動画オブジェクトセグメンテーションに効率的に適応させるため、既存のオブジェクト検出器とトラッカーを活用して、参照文に関連する時間的プロンプトを生成する。高品質な時間的プロンプトが生成可能である一方で、それらは信頼度スコアから容易に識別できない。この問題に対処するため、生成された時間的プロンプトの品質を評価するPrompt Preference Learningを提案する。このようなプロンプトを用いて画像ベースの基盤セグメンテーションモデルを指示することで、参照されたオブジェクトの高品質なマスクを生成し、参照動画オブジェクトセグメンテーションへの効率的なモデル適応を可能にする。RVOSベンチマークでの実験により、Tenetフレームワークの有効性が示された。
大規模言語モデル(LLMs)と新興のエージェント型フレームワークは、自然言語推論、生成的アノテーション、マルチモーダルデータ統合を可能にすることで、単一細胞生物学の変革を始めつつある。しかし、進展はデータモダリティ、アーキテクチャ、評価基準にわたって断片的なままである。LLM4Cellは、RNA、ATAC、マルチオミクス、空間モダリティにまたがる単一細胞研究のために開発された58の基盤モデルとエージェントモデルを初めて統一的に調査した。これらの手法を5つのカテゴリー(基盤、テキストブリッジ、空間、マルチモーダル、エピゲノミクス、エージェント型)に分類し、アノテーション、軌跡モデリング、摂動モデリング、薬剤応答予測を含む8つの主要な分析タスクにマッピングする。40以上の公開データセットを活用し、ベンチマークの適切性、データ多様性、倫理的またはスケーラビリティの制約を分析し、生物学的基盤、マルチオミクス整合性、公平性、プライバシー、説明可能性を含む10のドメイン次元にわたってモデルを評価する。データセット、モデル、評価ドメインを結びつけることで、LLM4Cellは言語駆動型単一細胞知能の初の統合ビューを提供し、解釈可能性、標準化、信頼できるモデル開発における未解決の課題を概説する。
大規模言語モデル(LLMs)は、その膨大な計算量とメモリ要件により、実用化において大きな課題を抱えている。半構造化プルーニング、特に2:4スパース性は、実用的なハードウェア加速への道を提供するが、既存の手法ではしばしば大幅な性能低下が生じる。このギャップを埋めるため、我々はARMOR(Adaptive Representation with Matrix-factORization)を提案する。これは、新規のワンショット学習後プルーニングアルゴリズムである。ARMORは、重みを直接プルーニングする代わりに、各重み行列を2:4スパースコアと、それを包む2つの低オーバーヘッドなブロック対角行列に分解する。これらのラッパーは、効率的な前処理および後処理誤差補正器として機能し、従来の2:4プルーニング技術と比較して、モデルの品質を維持するための柔軟性を提供する。スパースコアとブロック対角ラッパーは、層ごとの代理損失を最小化するブロック座標降下アルゴリズムを通じて選択される。我々は、この最適化が代理損失が最先端のプルーニングアルゴリズム以下に収束する解を保証することを理論的に証明する。Llama(Touvron et al., 2023; Dubey et al., 2024)およびQwen(Yang et al., 2025)モデルファミリーを用いた実験により、ARMORが幅広い下流タスクおよびパープレキシティ評価において、最先端の2:4プルーニング手法を一貫して大幅に上回ることを示す。ARMORは、2:4プルーニングの推論速度向上と大幅なメモリ使用量削減を維持しつつ、モデル圧縮とタスク精度の間により効果的なトレードオフを確立する。
現実世界のロボティックエージェントは、部分観測性と長い時間軸の下で行動する必要があり、重要な手がかりが意思決定に影響を与えるずっと前に現れることがあります。しかし、ほとんどの現代的なアプローチは瞬間的な情報にのみ依存し、過去の洞察を取り入れていません。標準的なリカレントモデルやトランスフォーマーモデルは、長期的な依存関係を保持し活用することに苦労しています。コンテキストウィンドウは履歴を切り捨て、単純なメモリ拡張はスケールとスパース性の下で失敗します。我々はELMUR(External Layer Memory with Update/Rewrite)を提案します。これは構造化された外部メモリを持つトランスフォーマーアーキテクチャです。各層はメモリ埋め込みを保持し、双方向クロスアテンションを通じてそれらと相互作用し、Least Recently Used(LRU)メモリモジュールを使用して置換または凸ブレンディングによってそれらを更新します。ELMURは、アテンションウィンドウを最大100,000倍まで拡張し、100万ステップまでの廊下を持つ合成T-Mazeタスクで100%の成功率を達成します。POPGymでは、半分以上のタスクでベースラインを上回ります。視覚観測を伴うMIKASA-Roboのスパース報酬操作タスクでは、強力なベースラインの性能をほぼ2倍にします。これらの結果は、構造化された層ローカルな外部メモリが、部分観測性下での意思決定に対するシンプルでスケーラブルなアプローチを提供することを示しています。
大規模マルチモーダルモデル(LMM)に新しいスキルを教えつつ、既存の能力を失わないようにするにはどうすればよいか?我々は、3つのモデルファミリーにおいて、5つのターゲットスキルに対する逐次ファインチューニングを研究し、8つの保留ベンチマークでの一般能力を監視した。狭い範囲でのファインチューニング後に保留タスクで見られる「忘却」が、後の段階で部分的に回復することを観察した。この挙動は、出力トークン分布の測定可能なシフトに起因し、忘却と共変する単純なカウントバイアスプローブを通じて現れる。この知見を基に、ドリフトを抑えつつ強力に学習する2つのシンプルで堅牢なチューニングレシピを特定した:(i) 自己注意投影層のみを更新する、(ii) MLPのGate&Upのみを更新し、Down投影を凍結する。モデルとタスク全体で、これらの選択肢はターゲットの大幅な向上をもたらしつつ、保留性能をほぼ維持する。コードはhttps://github.com/jessemelpolio/LMM_CLで公開されている。
大規模言語モデル(LLMs)は推論において顕著な進歩を遂げてきたが、文章作成、情報検索、実践的なガイダンス提供などのタスクにおいて、ユーザーにとって最適とは言えない応答を生成することがある。従来のアライメント手法では、モデルの報酬を最大化することがユーザーの福利も最大化すると仮定されることが一般的だが、この仮定は実際にはしばしば成立しない。例えば、ユーザーが簡潔な回答を求める場合に、モデルが過剰に説明を加えたり冗長な推論を生成したりすることがある。このような振る舞いは、個々の合理的な選択が社会的に最適でない結果を招く「囚人のジレンマ」に似ている。根本的な課題は、LLMとユーザーの双方に利益をもたらす原則的な意思決定メカニズムが欠如していることである。本研究では、ゲーム理論的アライメント(GTAlign)を提案する。これは、推論とトレーニングの両方にゲーム理論的決定を統合するアライメントフレームワークである。推論中、モデルはユーザーとLLMの相互作用を戦略的ゲームとして明示的に扱い、推論チェーン内で報酬行列を構築して自身とユーザーの双方の福利を推定し、相互に利益をもたらす行動を選択する。トレーニング中には、協力的な応答を強化する相互福利報酬を導入し、モデルの振る舞いを社会的に効率的な結果にアライメントする。さらに、LLMサービスの価格設定ポリシーが変更された際に、ゲーム理論的推論を活用してLLMの応答を動的に適応させる推論技術を導入する。大規模な実験により、GTAlignが多様なタスクにおいてベースラインと比較して推論効率、回答品質、相互福利を大幅に向上させることが実証された。コードはhttps://github.com/ulab-uiuc/GTAlignで公開されている。
個人的な物語とは、著者が自身の経験に意味を見出すために構築するストーリーである。スタイル、すなわち著者が自己表現のために言語を使用する独特の方法は、これらの物語が主観的経験を伝える上で基本的な要素である。しかし、これらのスタイル的選択を体系的に分析するための形式的な枠組みは不足している。本研究では、主観的経験を伝える際に著者が行う言語的選択のパターンとして、個人的な物語におけるスタイルを形式化する新しいアプローチを提示する。我々の枠組みは、3つの領域を統合している。機能言語学は言語を意味のある選択のシステムとして確立し、コンピュータサイエンスは自動的に連続的なパターンを抽出・分析する方法を提供し、これらのパターンは心理学的観察と結びつけられる。言語モデルを使用して、プロセス、参加者、状況などの言語的特徴を自動的に抽出する。我々はこの枠組みを数百の夢の物語に適用し、心的外傷後ストレス障害を抱える戦争退役軍人のケーススタディを含む。彼の物語の分析からは、特に言語的プロセスが精神的プロセスを支配するという独特のパターンが明らかになり、言語的選択と心理的状態の関係が示されている。
現在の自己教師あり単眼深度推定(MDE)手法は、意味的・空間的知識の抽出が不十分であるため、性能に制限があります。この課題に対処するため、我々はHybrid-depthを提案します。これは、基礎モデル(例:CLIPやDINO)を体系的に統合し、視覚的な事前知識を抽出し、MDEに十分な文脈情報を取得する新しいフレームワークです。我々のアプローチは、粗から細への段階的学習フレームワークを導入します:1)まず、CLIP(グローバルな意味)とDINO(ローカルな空間的詳細)からマルチグレインの特徴を対照的な言語ガイダンスの下で集約します。近接・遠隔の画像パッチを比較するプロキシタスクを設計し、テキストプロンプトを使用して深度認識特徴の整合を強化します。2)次に、粗い特徴を基に、カメラポーズ情報とピクセル単位の言語整合を統合し、深度予測を洗練します。このモジュールは、既存の自己教師ありMDEパイプライン(例:Monodepth2、ManyDepth)にシームレスに統合され、プラグアンドプレイの深度エンコーダーとして連続的な深度推定を強化します。CLIPの意味的文脈とDINOの空間的詳細を言語ガイダンスを通じて集約することで、我々の手法は特徴粒度の不一致を効果的に解決します。KITTIベンチマークでの広範な実験により、我々の手法が全てのメトリクスにおいてSOTA手法を大幅に上回ることが示され、BEV知覚などの下流タスクにも確かに利益をもたらすことが実証されました。コードはhttps://github.com/Zhangwenyao1/Hybrid-depthで公開されています。
大規模言語モデル(LLM)は事実情報を更新するために効率的な知識編集(KE)を必要としますが、既存の手法は多段階の事実想起において著しい性能低下を示します。この失敗は、推論チェーン内の中間的な暗黙的主語が編集に関与する場合に特に顕著です。因果分析を通じて、この制限は連鎖的な知識がニューロンレベルでどのように動的に表現され利用されるかを見落としていることに起因することを明らかにしました。多段階推論において、暗黙的主語はクエリニューロンとして機能し、対応するバリューニューロンをトランスフォーマー層間で順次活性化させ、最終的な答えに向けて情報を蓄積する動的なプロセスが、従来のKE研究では見過ごされていたことがわかりました。この洞察に基づき、我々はACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recallを提案します。これは、ニューロンレベルのアトリビューションを活用して、これらの重要なクエリ-バリュー(Q-V)経路を特定し編集するフレームワークです。ACEは、多段階KEに対する機構的に根拠のある解決策を提供し、GPT-Jでは9.44%、Qwen3-8Bでは37.46%の性能向上を実現し、最先端の手法を上回りました。さらに、Qwen3におけるより細かい活性化パターンを明らかにし、バリューニューロンの意味的解釈可能性がクエリ駆動型の蓄積によって調整されていることを示しました。これらの発見は、内部推論メカニズムの原理的理解に基づいてKE能力を進化させる新たな道筋を確立します。
拡散モデルのパーソナライズにより、ユーザーは特定の被写体を取り込んだ新しい画像を生成できるようになり、テキストプロンプトよりも高い制御性を実現します。しかし、これらのモデルは、被写体画像を再現するだけでテキストプロンプトを無視してしまう場合に、やや性能が低下する傾向があります。我々は、パーソナライズのための一般的な手法であるIP-Adapterが、推論中に被写体を背景から明確にセグメント化するマスクを自動生成することに着目しました。そこで、この自動生成されたマスクを第二パスで使用し、画像トークンを被写体に限定して背景を除外することで、テキストプロンプトが画像の残りの部分に注意を向けられるようにすることを提案します。場所や情景を記述するテキストプロンプトに対して、この手法は被写体を正確に描写しつつ、プロンプトに完全に一致する画像を生成します。我々の手法を他のテスト時パーソナライズ手法と比較した結果、プロンプトと元画像の高い整合性が確認されました。