翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)エージェントは、多岐にわたるベンチマークで高い性能を示しているが、その評価のほとんどは静的な環境を前提としている。しかし現実世界への展開は本質的に動的であり、エージェントは変化する環境や更新されたタスク条件に合わせ、自身の知識、スキル、行動を継続的に適応させる必要がある。このギャップを埋めるため、我々はEvoArenaを提案する。これは、端末、ソフトウェア、ソーシャル領域にわたる段階的更新の連続として環境変化をモデル化したベンチマークスイートである。さらに、更新履歴を構造化された形で記録するパッチベースのメモリパラダイムであるEvoMemを提案する。これにより、エージェントは自身のメモリの変化を通じて環境の進化を推論できるようになる。実験の結果、現行のエージェントはEvoArenaにおいて苦戦し、進化的な端末、ソフトウェア、ソーシャル嗜好領域全体での平均正解率は39.6%にとどまった。EvoMemは一貫して性能を向上させ、EvoArena上で平均1.5%の改善をもたらし、さらにGAIAやLoCoMoといった標準ベンチマークでもそれぞれ6.1%、4.8%の向上を示した。個々のタスクを超えて、EvoMemはEvoArenaにおける連鎖レベルの正解率を3.7%改善する。ここでの成功には、関連する進化的サブタスクの連続シーケンスを完了することが求められる。機構分析により、EvoMemはメモリ内の証拠捕捉を改善し、進化する環境状態のより完全な保持を示している。我々の結果は、信頼性の高いエージェント展開には、評価とメモリの両方において進化のモデル化が重要であることを強調している。
空間推論、すなわち物体がどこにあり、どのように関連し、3次元空間内でどのように動くかを判断する能力は、視覚言語モデル(VLM)にとって依然として根本的な課題である。ツール拡張エージェントは、VLMに専門的な知覚モジュールを追加することでこの問題に取り組もうとするが、その効果は、それらのツールが呼び出されるアクションインターフェースによって制限される。本研究では、このインターフェースの設計が、エージェントのオープンエンドな空間推論能力をどのように形作るかを調査する。既存の空間エージェントは、中間結果を観察する前に完全な分析戦略を確定するシングルパスコード実行を用いるか、あるいは構造化されたツール呼び出しインターフェースに依存しており、操作を自由に組み合わせたり、タスクごとに分析を調整したりする柔軟性に欠けることが多い。どちらの設計も、オープンエンドで複雑な3D/4D空間推論には限定的な柔軟性しか提供しない。そこで我々は、アクションインターフェースとしてコードを採用する、学習不要の空間推論フレームワーク「SpatialClaw」を提案する。SpatialClawは、入力フレームと一連の知覚・幾何プリミティブを事前に読み込んだステートフルなPythonカーネルを維持し、VLMを基盤とするエージェントが、これまでのすべての出力に基づいて、ステップごとに1つの実行可能なセルを記述できるようにする。これにより、エージェントは知覚結果を柔軟に構成・操作し、中間のテキストや視覚観測、および各問題の要求に応じて分析を適応させることが可能になる。静的および動的な3D/4D空間推論タスクを幅広くカバーする20の空間推論ベンチマークで評価した結果、SpatialClawは平均精度59.9%を達成し、最近の空間エージェントを+11.2ポイント上回り、2つのモデルファミリーにわたる6つのVLMバックエンドで、ベンチマークやモデル固有の適応を一切行わずに一貫した改善を示した。
超長コンテキスト対応能力は、最先端のLLMにとって不可欠になりつつある。エージェント的ワークフロー、リポジトリ規模のコード推論、持続的メモリなどは、いずれも数十万から数百万トークンにわたる共同注意をモデルに要求するが、ソフトマックスアテンションの二次コストにより、これを実運用規模で持続可能にすることは困難である。本稿では、グループ化クエリアテンション(GQA)を基盤としたブロック単位のスパースアテンションである「MiniMaxスパースアテンション(MSA)」を提案する。軽量なインデックスブランチがキー・バリューブロックをスコアリングし、GQAグループごとに独立してTop-kサブセットを選択することで、グループ固有のスパース検索を実現しつつ、効率的なブロックレベルの実行を維持する。メインブランチは、選択されたブロックのみに対して正確なブロックスパースアテンションを実行する。単純性とスケーラビリティの原則に基づいて設計されたMSAは、意図的に合理化されており、幅広いGPU上で効率的に展開することが容易である。スパース性を実用的な高速化に結びつけるため、指数関数を使用しないTop-k選択とKV-outerスパースアテンションを用いて、ブロック粒度のアクセス下でテンソルコアの利用効率を向上させるGPU実行パスとMSAを共同設計した。ネイティブマルチモーダル学習を施した109Bパラメータモデルにおいて、MSAはGQAと同等の性能を示しながら、1Mコンテキストにおいてトークンあたりのアテンション計算量を28.4倍削減する。共同設計したカーネルと組み合わせることで、MSAはH800上で14.2倍のプリフィル、および7.6倍のデコードウォールクロック高速化を達成する。推論カーネルはhttps://github.com/MiniMax-AI/MSAで公開している。また、MSAを搭載したプロダクショングレードのネイティブマルチモーダルモデルは、https://huggingface.co/MiniMaxAI/MiniMax-M3で公開されている。
近年の画像生成モデルは、単一画像の生成や編集において優れた写実性と指示追従能力を示しています。しかし、そのアーキテクチャ上の制約により、視覚的なナラティブ、ガイダンス、具現化操作において重要な応用を持つインタリーブ生成(テキスト-画像シーケンス)を実現できません。最新のオープンソースの統一マルチモーダルモデル(UMM)でさえ、この点では限られた性能しか示していません。本論文では、既存の任意の画像生成モデルにインタリーブ生成能力を付与するために設計された初のマルチエージェントパイプラインであるInterleaveThinkerを提案します。具体的には、プランナーエージェントを用いて画像-テキスト入力シーケンスを整理し、各ステップで必要な実行を画像生成モデルに指示します。続いて、クリティックエージェントを導入し、生成モデルの出力を評価して計画された指示から逸脱したサンプルを特定し、再生成のために指示を改善します。このパイプラインを実装するため、フォーマットのコールドスタートを実行するInterleave-Planner-SFT-80kとInterleave-Critic-SFT-112kを構築します。次に、GRPOを用いて生成軌跡内でのステップ単位の指示修正能力を強化するため、Interleave-Critic-RL-13kを開発します。単一のインタリーブ生成軌跡には25回以上の生成モデル呼び出しが含まれる可能性があるため、軌跡全体の最適化は計算的に非現実的です。そこで、精度報酬とステップ単位報酬を提案し、単一ステップのRLが生成軌跡全体を効果的に導くことを可能にします。結果は、InterleaveThinkerが様々な画像生成モデルにおいて性能を向上させることを示しています。インタリーブ生成ベンチマークでは、Nano BananaやGPT-5に匹敵する性能を達成します。驚くべきことに、推論ベースのベンチマークにおいてもベースモデルを大幅に向上させ、例えば4ステップのFLUX.2-kleinにおいてWISEとRISEで顕著な向上が観察されます。
深層探索エージェントの訓練には、探索によって十分な証拠が得られるまで解答が不明である検証可能な質問が必要である。既存の合成手法は、グラフ構造を豊かにすることで見かけ上の難易度を高めることが多いが、構造的な複雑さだけでは実際の探索難易度を保証できない。意図した探索プロセスは、より簡単な特定経路を通じて崩壊する可能性がある。我々はこのギャップを、ショートカットを考慮した難易度フレームワークで形式化し、4つの対処可能なショートカットリスク、すなわち証拠の共被覆、単一手がかり選択性、露出定数、事前知識バインドを特定する。それらの実現された影響を診断するために、解決コスト、解答ヒット時間、事前ショートカット率を含む軌跡シグネチャを用いる。このフレームワークに導かれ、我々はショートカット耐性訓練データ合成フレームワークであるFORTを導入する。FORTは、エンティティ選択、証拠グラフ構築、質問作成、敵対的洗練にわたってショートカットリスクを制御することで、ショートカット耐性のある訓練データを構築する。実験により、FORTは既存のオープンソース深層探索データセットよりも、解答前の探索時間が長く、ショートカットパターンが少ないことを示す。得られた軌跡を用いて、我々は教師ありファインチューニング(SFT)のみでFORT-Searcherを訓練し、挑戦的な深層探索ベンチマークにおいて、同等規模のオープンソース探索エージェントの中で最高の総合性能を達成する。関連リソースは https://github.com/RUCAIBox/FORT-Searcher で公開される予定である。
多模态大语言模型(MLLMs)在视觉理解方面展现出显著成功,但在真实世界的视觉受损条件下,其性能会大幅下降。尽管现有鲁棒性增强方法存在,但具有局限性:黑盒特征对齐缺乏可解释性,而白盒基于文本的推理无法恢复丢失的像素级细节。本研究探讨一个基础性问题:多模态大语言模型能否自主恢复受损的视觉内容?为此,我们提出Robust-U1,一个新颖的框架,赋予多模态大语言模型明确的视觉自我恢复能力,以实现鲁棒理解。该方法包含三个核心阶段:监督微调用于初始重建,基于双重奖励(像素级SSIM和语义级CLIP相似度)的强化学习用于对齐高视觉质量,以及同时考虑受损输入与恢复图像的多模态推理。大量实验表明,Robust-U1在真实世界受损基准测试中达到最先进的鲁棒性,并且在通用VQA基准测试中,面对对抗性受损仍保持优越性能。分析证实,高质量的视觉恢复直接提升了推理性能,将自我恢复确立为鲁棒视觉理解的关键机制。源代码已公开于https://github.com/jqtangust/Robust-U1。
本稿では、MiniMax-M3シリーズにおける競技レベルの数学的証明のための、集団レベルのテスト時スケーリングフレームワークであるMaxProofを提案する。M3はまず、低偽陽性率を実現するよう設計された多層防御型生成検証器を用いて、証明生成、証明検証、批評条件付き証明修正という三つの証明指向の能力を訓練する。これらの能力は、単一のM3モデルとしてリリースされる形に統合される。テスト時には、MaxProofはモデルを生成器、検証器、精緻化器、ランク付け器として扱い、候補となる証明の集団を探索し、トーナメント選択を通じて最終的な一つの証明を返す。MaxProofのテスト時スケーリングにより、M3モデルはIMO 2025で35/42、USAMO 2026で36/42を達成し、両方で人間の金メダル基準を上回った。
コンピュータ利用エージェント(CUA)は、ビジュアルデスクトップ操作、コマンドライン実行、コード編集、ブラウザ、外部ツールを組み合わせた実行環境でますます動作するようになっている。しかし、既存のベンチマークは、これらのインターフェースを分離可能な能力として評価することが多く、長期的なクロスインターフェースの連携が十分にテストされていない。そこで我々は、WeaveBench(ウィーブベンチ)を導入する。これは、8つの実世界の作業領域にわたる114のタスクからなる、長期的なハイブリッドインターフェースベンチマークであり、実際のユーザーリクエストと公開可能な検証成果物に基づいている。各タスクは、エージェントが単一の軌跡内でGUIの観察・操作とCLI/コード操作を組み合わせることを要求する。我々は、これらのタスクを、最小限のデスクトップ制御プラグインで拡張された、デプロイ済みCLIエージェント実行環境内の実際のUbuntuデスクトップ上で評価する。また、成果物、ファイル、スクリーンショット、ログ、アクショントレースを検査し、捏造されたビジュアルエビデンスやハードコードされたメトリクスといった近道行動を検出する、軌跡認識型の評価器を提案する。最先端のモデルとランタイムの組み合わせ全体で、最高のPassRateはわずか41.2%に達するに過ぎず、このベンチマークが飽和状態からは程遠いことを示している。軌跡認識型評価器はさらに、結果のみの評価ではエージェントの性能を大幅に過大評価することを明らかにしている。全体として、WeaveBenchはCUA評価における重大なギャップを露呈し、エージェントが長期的な実世界タスクでGUI、CLI、コード操作を連携できるかどうかを測定するための効果的なテストベッドを提供する。
科学的実験室では、実験の推論にAIシステムを活用することが増えているが、科学を実際に行う物理的な作業は依然としてその範囲外にある。AIは文献の読み取り、仮説の生成、プロトコルの計画を支援できるが、実験台でのプロトコルの実行には人間の操作者が依然として必要である。視覚言語行動モデルは、文書化されたプロトコルとロボット実行との間のインターフェースの一つとして有望だが、既存の方策は主に家庭や卓上のデモンストレーションで訓練されており、科学実験室で見られるような器具、透明な液体、固定されたプロトコルワークフローに遭遇することはほとんどない。このギャップを埋めるには、実験室固有の教師データと、実験プロトコルを実行するために用いられる多様なロボットの具現化に対応できる統一的な学習フレームワークの両方が必要である。そこで我々は、モデル設計に加えて、データと具現化が中心的なボトルネックであると特定する。データ面に対処するため、我々はRoboGenesisを構築した。これはシミュレーションベースのワークフローおよびデータエンジンであり、設定済みの実験室ワークフローを原子的スキルから構成し、ロールアウトを検証・フィルタリングし、サポートされているロボットプロファイル全体にわたる構造化デモンストレーションを出力する。方策面では、LabVLAを提案する。これは2段階のレシピで訓練される。まずFAST行動トークン事前学習により、連続制御を学習する前にQwen3-VL-4B-Instructバックボーンを行動認識可能にし、続くフローマッチング後訓練では、知識絶縁下でDiT行動エキスパートを付加する。LabUtopiaベンチマークにおいて、LabVLAは、分布内および分布外の両方の設定で、評価されたすべてのベースラインの中で最高の平均成功率を達成した。
包括的な視覚トークナイザは、多様な視覚入力を統一された表現空間にマッピングするため、統一型マルチモーダルモデル(UMM)の基盤となる。本論文では、画像と動画のトークン化を単一のVision Transformer(ViT)内で統一する初のUMMであるHYDRA-Xを提案する。我々の設計は、2つの核心的な課題に基づいている:ネイティブViTに時空間再構成能力を効率的に注入すること、そして潜在空間に画像レベルおよび動画レベルの意味理解を埋め込むこと。最初の課題に対処するため、包括的なアブレーション実験により2つの重要な知見が明らかになった:(1)フレームレベルの因果的時間注意機構が視覚再構成に十分であり、完全な時空間注意機構はそれを劣化させること、(2)階層的時間圧縮が単一段階の代替手法を大幅に上回ること。2つ目の課題に取り組むため、我々は、画像と動画の統合教師信号の下で時間的に圧縮された特徴をアップサンプリングする軽量なデコンプレッサを提案し、これによりコンパクトな潜在空間内で補完的な意味構造を強制する。この包括的トークナイザに基づき、我々はさらに編集パイプラインの原理的な改善を提案する:ソースとターゲットの相互作用は、LLM内部の意味レベルではなく、トークナイザ内部の潜在レベルで行うべきであり、これにより編集の一貫性が大幅に向上し、収束が加速される。7Bの高密度モデルで具体化されたHYDRA-Xは、画像および動画の理解と生成タスクにおいて強力な性能を達成し、将来の統一トークナイザUMMへの道を開く。
大規模言語モデルにおける数学的推論の成功は、ロールアウト段階での多様で妥当な解経路の生成に大きく依存しています。しかし、現在のロールアウト手法には根本的なトレードオフが存在します。トークンレベルのサンプリングでは、言い換えのみが異なる冗長な軌道を生成しがちである一方、ランダムノイズを利用する埋め込みレベルの手法では、意味的一貫性が損なわれることが頻繁に発生します。この問題を解決するために、我々はN-GRPOを提案します。これは、グループ相対方策最適化(GRPO)フレームワークに統合された新規な探索戦略です。本手法は、トークンレベルのサンプリングや埋め込みレベルの単純なノイズに依存するのではなく、セマンティック近傍混合(Semantic Neighbor Mixing)を活用します。このメカニズムは、アンカートークンの埋め込みとその最も近い意味的近傍の埋め込みを混合することにより、入力表現を動的に構築し、局所的な意味的多様体に厳密に従いながら多様性を注入します。DeepSeek-R1-Distill-Qwenモデルを用いた異なるサイズでの実験評価によれば、N-GRPOは数学的推論ベンチマークにおいて強力なベースラインを一貫して上回るだけでなく、分布外タスクでも頑健な汎化能力を示すことが明らかになりました。
LLMベースのエージェントは、科学的発見の自動化においてますますその可能性を示している。最適化可能な指標と実行環境が与えられれば、科学的解決策を提案、検証、反復することができ、人間が設計した手法を上回る結果を生み出している。モデルの能力が向上し続けるにつれて、自律的な科学的発見におけるボトルネックは、エージェントワークフローを規定することから、エージェント環境(エージェントの動作を形作るリソース、制約、インターフェース)を設計することへと移行していると我々は主張する。我々はこれを環境エンジニアリングと位置付ける。すなわち、開放的な探索、体系的なアーティファクト管理、エージェント間の協力といった生産的な行動を増幅し、報酬ハッキングや高摩擦な人間による監視といった有害な行動を抑制する環境を構築することである。我々は、指標駆動型の自律的な科学的発見のための環境エンジニアリングされたエージェントシステムであるEurekAgentを提案する。EurekAgentは、環境を4つの次元でエンジニアリングする。すなわち、制限付きエージェント実行と隔離された評価のための権限エンジニアリング、ファイルシステムとGitベースの協力のためのアーティファクトエンジニアリング、予算を考慮した探索のための予算エンジニアリング、そして容易な人間による監視と介入のためのヒューマンインザループエンジニアリングである。EurekAgentは、複数の数学、カーネルエンジニアリング、機械学習タスクにおいて新たな最先端結果を達成しており、その中には総APIコスト11ドル未満で発見された新たな最先端の26個の円の充填結果も含まれる。我々はコードと結果をオープンソース化し、信頼性の高い自律的研究エージェントを開発するための中核的な研究方向として環境エンジニアリングを提唱する。
潜在的な連鎖思考は、可視的な推論過程を連続的な隠れ状態の再帰に置き換えることで推論を圧縮するが、既存の定式化は標準的なオンポリシー強化学習(RL)で最適化することが難しく、因果的に解釈するのも困難である。我々の重要な洞察は、単一の明示的な境界トークンのペアが両方の問題を同時に解決できるという点である。離散的な入口と出口のアンカーにより、潜在ブロックが標準的なオンポリシーRLと互換性を持ち、同じアンカーがメカニズム分析の自然な足がかりを提供する。この動機に基づき、我々は切り替え可能な潜在推論フレームワークであるSWITCHを提案する。モデルは<swi>を出力して潜在モードに入り、</swi>を出力して終了する。境界が通常の離散トークンであるため、GRPOポリシー比はすべての決定点で適切に定義される。同じアンカーは、潜在ステップを直接的なプロービングや因果的介入にさらす。我々は、可視から潜在へのカリキュラムと、再帰的な潜在計算を通じて勾配を伝播するSwitch-GRPO目的関数を用いてモデルを訓練する。SWITCHは、同程度の規模で従来の隠れ状態再帰型潜在推論手法を一貫して上回る。境界トークンによるメカニズム分析により、さらに3つの発見が明らかになる。(i) <swi>はスタイル上のアーティファクトではなく、鋭く局在化された学習済み切り替えポリシーである。(ii) それが開く潜在ステップは、不活性なプレースホルダーとして機能するのではなく、問題固有で因果的に重要な計算を実行する。(iii) その計算は入口での単一の隠れ状態遷移に集中している。これらの結果は、隠れ状態再帰型の潜在推論がRLで訓練可能であり、かつ直接的なメカニズム分析が可能であることを示している。それには、オンポリシーRL自体がどのようにモデルを内部から改善するかという分析も含まれる。
本稿ではVideoMDMを紹介する。これは拡散ベースのフレームワークであり、単眼ビデオから抽出された正確な2Dポーズのみを用いて、3Dの正解データを一切必要とせずに、3D人間動作の事前分布を直接訓練する。事前学習済みの2D-to-3Dリフターが近似的な3Dポーズ系列を提供し、それがノイズの多い教師として機能する。これらの系列は拡散され、モデルによって3D空間でノイズ除去された後、予測を再投影して正確なキーポイントと比較することで、2D空間で監視される。軽度の仮定の下で、深さ重み付き2D再投影損失が期待値として直接的な3D監視と等価であることを示し、標準的な3D動作正則化(速度一貫性および過パラメータ表現アラインメント)をこの2D設定に適応する。推論時のみ2Dから3Dへリフトする手法とは異なり、VideoMDMは訓練中に一貫性のある3D動作多様体を学習する。HumanML3Dにおいては、完全3D監視のMDMとの差をほぼ埋める(FID 0.88対0.54)。実動画データセットFit3DおよびNBAでは、本手法は人間が一貫して好む動作を生成することを学習し、強力な定量的結果を示す。
ますます写実的な画像を生成するようになったテキスト・トゥ・イメージ(T2I)モデルは、依然として局所的で微妙かつ構造的に複雑な欠陥を示す。これらの欠陥を診断するには、欠陥が発生した場所、その種類、欠陥の理由、および全体的な画像品質に対する重要度を回答するインスタンスレベルのフィードバックが必要である。近年の高密度フィードバック手法はスカラー監視を超えるものの、ヒートマップ中心の表現は依然として診断をピクセル場回帰として定式化しており、可変基数の欠陥を特定し、セマンティックな理由を個々の欠陥に結びつけることが困難である。この表現のボトルネックに対処するため、我々はStructured Defect Grounding(SDG)を提案する。これは各欠陥を(位置、種類、理由、重要度)のタプルとしてモデル化することで、T2I診断を構造化集合予測として扱うものである。この定式化を訓練可能かつ測定可能にするため、我々は30,000枚の画像からなるデータセットSDG-30Kを導入する。これは4つの現代的なT2I生成器にわたるボックス接地アノテーションと、専用の評価プロトコルSDG-Evalを備えている。この構造化表現に基づき、我々はさらに診断からアラインメントへのフレームワークを提示する。そこでは視覚言語モデル(VLM)がSDG検出器として機能し、BoxFlow-GRPOが予測された欠陥集合を、ボックス由来で重要度重み付けされた空間的報酬に変換し、拡散モデルのアラインメントに用いる。広範な実験により、我々のSDG検出器が構造化欠陥接地において主要なプロプライエタリVLMを上回り、SDG誘導報酬が一貫してT2Iアラインメントを改善し、局所的な画像改善を支援することが示された。これらの結果は、SDGを現代の生成モデルを診断、評価、強化するための統一的でインスタンスレベルのインターフェースとして確立するものである。
投機的デコーディング(SD)は、軽量なドラフターが候補を生成し、大規模な検証器がそれを並列に検証することで、LLMの高い推論コストに対処する。既存のドラフト検証手法では、受理するか完全に再計算するかの二値的な判断を用いる。しかし、我々は、棄却された多くのトークンが、完全な検証器の代わりに、モデル内ルーティングを介して完全な検証器から派生したスリムなサブモデルによって正しく検証できることを発見した。このことから、我々のスリム検証器は、中程度の検証リソースを必要とするトークンを処理し、高コストな大規模モデルの呼び出しを減らすように動機づけられた。 我々は、投機的デコーディングのためのモデル内ルーティングによる検証(VIA-SD)を提案する。これは、ルーティングされたスリム検証器を用いる多段階フレームワークである。ドラフトトークンは階層的に処理される。高信頼度のケースでは直接受理、中程度の信頼度のケースではスリム検証器による再生成、不確実なケースでは完全なモデルによる検証が行われる。 4つの代表的なタスクと複数のモデルファミリーにおいて、VIA-SDは棄却率を0.10〜0.22削減し、強力なSDベースラインと比較して10〜20%の高速化を達成し、同時にドラフティングなしのデコーディングと比較して2.5〜3倍の高速化を実現する。さらに、VIA-SDは既存のSDフレームワークと互換性があり、その学習手順を変更する必要がない。我々の結果は、スケーラブルで効率的なLLM推論のための一般的なパラダイムとして、多段階SDを示唆している。 プロジェクトページ:https://zju-xyc.github.io/VIA-SD-Project-Page/
我々はMoVerseを提案する。これは単一の狭視野画像から対話的にナビゲート可能なシーンを生成するリアルタイムビデオワールドモデルである。この設定は、入力が環境のごく一部しか観測しない一方で、インタラクティブなローミングには完全な周囲の世界、永続的な幾何構造、制御可能なカメラ動作、そして時間的に一貫した高忠実な観測が必要となるため、困難である。MoVerseは、ワールド構築と観測レンダリングを分離することでこの問題に取り組む。まず、入力画像をトポロジーを考慮した拡散により重力方向に整列された360°パノラマに拡張し、3D推論の前に欠損した視野を補完する。次に、パノラマ幾何学を考慮した残差予測を用いてパノラマを永続的な3Dガウシアンスキャフォールドに変換し、密で直接レンダリング可能な空間メモリを生成する。最後に、ガウシアン条件付きビデオレンダラーが、ユーザ指定のカメラ軌跡に沿ったスキャフォールドのレンダリング結果をフォトリアリスティックなビデオに変換する。このレンダラーをインタラクションに実用的にするために、高品質な条件付きレンダリングのための双方向拡散ティーチャーを訓練し、これを因果的自己回帰型スチューデントに蒸留して、レイテンシ制限付きストリーミングを実現する。この設計は、明示的な3D表現の制御可能性と長距離一貫性を、生成ビデオモデルの知覚品質と組み合わせる。MoVerseは、単一のNVIDIA RTX 4090 GPU上で8 FPSのリアルタイムシーンローミングをサポートし、インタラクティブなビデオ出力による単一画像からのワールド生成への実用的な道筋を示す。
マルチモーダル画像融合は、異なるモダリティからの補完的情報を融合画像に統合し、豊かな局所的詳細を保持しつつ、グローバルに一貫した外観を維持することを目的としています。既存の手法は2D特徴グリッド上に共有表現を構築しますが、これらは局所構造のモデリングに優れる一方、画像レベルのグローバルな外観因子に対する制御は限定的です。これらの目的をバランスさせるために、我々は非局所的な外観・基底因子をモデリングするための、凍結された事前学習済み画像トークナイザに基づくコンパクトな1次元トークンインターフェースを導入します。トークナイザを再構成のバックボーンとして使用するのではなく、我々の設計では1Dトークン空間をグローバルなキャリアとして利用し、局所構造の復元のために2D空間パスを保持します。具体的には、選択的トークン編集(STE)を導入します。これは、少数の重要なトークンをスパースに更新・置換し、融合バックボーンを変更せずに追加損失を回避しながら、グローバルな外観の一貫性を導く軽量なメカニズムを提供します。4つの一般的なベンチマークでの実験により、本手法が最良の総合性能を達成し、グローバルな一貫性と局所的な忠実度の両方で一貫した複数指標にわたる改善を示しています。プロジェクトページ:https://zju-xyc.github.io/1D-Fusion-Project-Page/
深層検索では、エージェントが複雑な質問に答えるために、多段階のウェブ検索、ブラウジング、証拠の比較、統合を行う必要がある。中心的な課題は、複数の方向性がもっともらしく見えるが、そのうち一部だけが後に信頼できる証拠につながる場合に、どのように検索を進めるかを決定することである。エージェントが現在最も良さそうに見える方向性に貪欲に従うと、弱い継続を延々と続けてしまう可能性がある。一方、規律なく探索すると、断片的な試行に予算を浪費する可能性がある。我々は、深層検索における制御された試行錯誤のための推論時フレームワークであるTreeSeekerを提案する。TreeSeekerは、検索を木構造の状態に対する分岐と復帰の探索として整理し、各分岐はサブゴールの暫定的な方向性を表す。各ラウンドで、TreeSearchはすべてのサブゴール木を読み取り、アクティブなゴールを特定し、価値、不確実性、リスクのテキストUCBシグナルを用いて、有望な分岐の活用、不確実な代替案の探索、または非生産的な継続の枝刈りと以前の分岐点への復帰の中から選択する。TreeMemは、証拠、不確実性、矛盾、進捗、失敗の手がかりをそれらを生み出した分岐に付随させて保持することで、この制御ループをサポートし、試行の結果が後の意思決定を導くことを可能にする。XBench-DeepSearch、BrowseComp、BrowseComp-ZHでの実験により、TreeSeekerが強力なオープンソースベースラインを一貫して上回ることが示され、明示的な分岐と復帰の制御がより強力な推論とツール実行を補完することが示唆される。
大規模言語モデル(LLM)の敵対的ロバスト性評価では、通常、固定クエリ予算下での攻撃成功率(ASR)を報告し、暗黙的にすべての攻撃を同等のコストとみなしている。実際には、異なる攻撃戦略の計算コストは桁違いに変動する可能性がある。その結果、固定予算でのASRは、モデルを脱獄(jailbreak)するために必要な真の労力を不明瞭にし、攻撃のコストが攻撃者にとっての見返りに見合うかどうかを判断することを困難にする。本研究では、敵対的労力のプロキシとして累積浮動小数点演算数(FLOPs)で測定される計算圧力に基づく、計算認識評価フレームワークを提案する。計算予算を攻撃リスクにマッピングするリスク計算曲線を導入し、与えられた攻撃が成功するために必要な平均圧力を要約する二つのメトリクスを導出する。 3つのファミリーにまたがる10モデル、言語モデルの訓練とアライメントにおける4つの異なる段階において、2つの脱獄ロバスト性ベンチマークで3つの攻撃戦略(勾配ベース、反復洗練、テンプレートベース)を用いて評価した結果、以下のことが判明した:(1) アライメント訓練は計算空間ロバスト性に対して非単調な効果を持つ、(2) モデルサイズのスケーリングは勾配ベース攻撃の有効性を低下させるが、より安価なテンプレートベース攻撃への影響は限定的である、(3) サロゲートモデルで最適化された勾配ベース攻撃は別のターゲットモデルに転移可能であり、攻撃者のコスト削減の手段を提供する、(4) 単一モデル内でも有害カテゴリ間で計算コストは最大約5倍変動する、(5) 安全性アライメントされたRLは総コストを増加させる一方、一部のカテゴリは不均衡にアクセスしやすいままである。我々は、計算認識リスク評価と評価を可能にするフレームワークを公開する。
数ステップの拡散蒸留は4〜8ステップ生成において成熟しつつあるが、2ステップへのさらなる短縮は依然として困難である。本研究では、8ステップのZ-Image Turbo教師モデルから蒸留した高品質な2ステップ画像生成モデルZ-Image Turbo++を紹介する。本手法は、2ステップ生成における中心的な課題であるタスク難易度の上昇とモデル容量の制約に対し、この設定に特化した3つのシンプルかつ効果的な設計選択によって対処する。第一に、分布整合型敵対的学習を提案する。これは、GAN学習の実サンプルとして外部の実画像ではなく教師モデル生成画像を用いることで、より達成可能で情報量の多い敵対的目標を提供する。第二に、ステップ分離型パラメータ化を採用し、2つのノイズ除去ステップに独立したモデルパラメータを割り当てることで、それぞれの異なる容量要求に適合させる。第三に、反復的正則化を伴うエンドツーエンド学習を実行し、明示的なステップ1損失を通じて意味のある中間生成を保持しつつ、第1ステップが最終画質から勾配を受け取れるようにする。これらの設計により、定性・定量評価の両方において2ステップ生成と8ステップ生成の品質ギャップを大幅に縮小し、数ステップ生成における品質と効率のトレードオフ改善に向けた、注意深く調整された蒸留戦略の可能性を明らかにする。
大規模言語モデルは、長期的なタスクを遂行するエージェントとしてますます展開されている。しかし、その性能はモデルの能力や環境設計だけでなく、エージェントと環境の相互作用を仲介するハーネスによっても形作られる。既存のハーネスは主に手動で設計されているため、軌跡が長くなり相互作用が複雑になるにつれて、スケールが困難になる。本研究では、エンドツーエンドで学習可能なプラグインモジュールによってハーネスを生成できるかどうかを問う。我々は、HarnessBridgeを提案する。これは、エージェントと環境のインタフェースを双方向射影としてパラメータ化する、軽量な学習可能ハーネスコントローラである。HarnessBridgeは、二つの双方向射影を学習する。観測射影は、生の軌跡をコンパクトで意思決定に関連する状態に蒸留し、行動射影は、提案された行動を実行可能な遷移または軌跡に基づく拒否に変換する。我々は、HarnessBridgeを統一命令チューニングにより、ハーネス監視データセットで訓練する。Terminal-Bench~2.0およびSWE-bench Verifiedにおいて、HarnessBridgeは強力な専用ハーネスと同等またはそれ以上の性能を達成しつつ、トークン使用量と軌跡の長さを大幅に削減し、小規模な生成モデルから大規模な商用モデルに一般化する。
オンポリシー蒸留(OPD)は、より強力な教師からの密なトークンレベルの教師信号を用いて、生徒自身の軌跡上で生徒を訓練し、多くの場合、オフポリシー蒸留や標準的な強化学習よりも優れた性能を発揮する。しかし、我々はその有効性が、実際には頻繁に破られる二つの仮定に暗黙的に依存していることを発見した。すなわち、生徒と教師の間の軌跡レベルの整合性と、教師の選好の均一なトークンレベルの信頼性である。そこで我々は、Sign-Gated On-Policy Distillation(SG-OPD)を提案する。これは、二値検証器を教師に対する信頼信号として、相補的な二つの粒度で利用する。すなわち、段階的教師サンプリングにより、コールドスタート時に検証器が承認した教師のロールアウトを混入させ、符号一貫性ゲートにより、教師が検証器の正しい方向と一致するトークンでは蒸留更新を外挿し、一致しない場合には内挿する。競技レベルの数学的推論ベンチマークによる実験では、SG-OPDが標準的なOPDを一貫して上回り、サンプルあたり平均1.98、質問あたり平均7.50の改善を示した。
视觉推理需要整合分布在区域、属性和关系中的证据,这使得单链推理容易陷入早期感知承诺和幻觉。我们提出Visual Para-Thinker++,一个单一策略的多智能体框架,其中共享的MLLM策略被实例化为角色条件化的主智能体、工作智能体和总结智能体。主智能体以固定的分配模式分解任务;工作智能体在上下文隔离下并行推理;总结智能体协调工作智能体的完整推理轨迹,而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦的多智能体优化进行训练,为相应的token片段分配角色特定的奖励和优势,以减少协作角色之间的梯度冲突。原生推理引擎通过共享视觉前缀和KV缓存重用实现高效的多智能体推理。在V*、CountBench、RefCOCO系列和HallusionBench上,Visual Para-Thinker++持续优于单轨迹和推理时并行基线,在幻觉敏感的视觉推理上尤其取得了显著提升。
検索エージェント(検索ツールで拡張された大規模言語モデル)は、将来性を保証できる評価ベンチマークの必要性を高めている。BrowseCompのような既存のベンチマークは静的知識に依存しており、テストセット汚染やパラメトリック記憶に対して脆弱である。その結果、モデルは真の情報検索ではなく事実想起によって高スコアを達成でき、推論の近道を通じて真のブラウジング能力を曖昧にしてしまう。 本論文では、ライブウェブ探索を通じて合成された、汚染のない400の英語と400の中国語の複雑な質問からなる進化型ベンチマーク、EvoBrowseCompを紹介する。これらの質問を収集するために、3つのエージェントからなる協調フレームワークを設計した。(1) ライブウェブから新鮮な知識を取得し、QAペアを合成するQA合成エージェント、(2) 取得した知識を信頼性と人気度の観点からフィルタリングし、パラメトリックな近道を遮断する情報フィルタリングエージェント、(3) 質問を推論グラフに形式化し、合成されたQAペアにおける論理的冗長性や近道を削減する高レベルガイダンスエージェントである。このフレームワークは完全自動合成をサポートするため、EvoBrowseCompは定期的に更新され、データ汚染を防ぎ、時間的な新鮮さを維持できる。広範な実験により、その非常に高い難易度と、広範な水平検索の必要性が確認された。本手法は、進化する世界知識と高度化するエージェント能力の両方に歩調を合わせる、自動更新可能で高難度なベンチマーキングのためのスケーラブルなパラダイムを確立する。
事前学習済み視覚モデルとの表現アライメントは、拡散トランスフォーマーの訓練を加速する上で近年強い可能性を示している。既存手法は、拡散モデルの中間特徴量を自己教師あり視覚エンコーダからのクリーン画像表現と整列させることで、収束性と生成品質を向上させる。しかしながら、このようなアライメントは自明ではない制約も導入する。拡散モデルはタイムステップごとに利用可能な情報が変化するノイズ入力を扱う一方、参照特徴量はクリーン画像から抽出される。本論文では、このミスマッチをトークンレベルの観点から再検討する。我々は、全トークン表現アライメント下では、アライメント勾配ノルムが大きいトークンが安定した空間的選好を示すことを発見した。これは、アライメント目的関数が全てのトークンに一様に影響を与えるわけではなく、モデルがクリーン画像トークンの完全な集合に依存するよう促す可能性があることを示唆する。この問題に対処するため、我々はMaskAlignを提案する。これは訓練中にランダムにサンプリングされたトークン部分集合に対してアライメントを適用するトークン部分集合表現アライメント手法である。反復ごとに異なるトークン部分集合にモデルをさらすことで、MaskAlignは表現アライメントの完全なトークン集合への依存性を低減し、トークン部分集合の摂動に対してもより安定したアライメント動作を促す。トークンの直接的な削除による情報損失を軽減するため、我々はさらに、マスク前にトークン間で情報を共有する軽量なプレマスク・トークンミキシングブロックを導入する。
マルチモーダル大規模言語モデル(MLLMs)は一般領域において有望な推論能力を示しているが、医療などの専門的な設定、特に多言語かつ低リソースのシナリオではその性能は依然として限定的である。このギャップは、インドの農村地域などの現場で深刻な問題となっている。そこでは患者が母語であるインド諸語で複雑な医療相談をし、しばしば医用画像などのマルチモーダル入力を必要とする。既存の英語中心のMLLMsは、このようなユースケースを十分にサポートできず、AIによる医療支援への公平なアクセスを制限している。この課題に取り組むため、我々はArogyaBodhaを導入する。これは8つの異種ソースから構築された大規模な多言語マルチモーダル医療質問応答データセットであり、31の身体系統、6つの画像モダリティ、21の臨床領域をカバーし、英語と7つの主要なインド言語に対応している。さらに、我々はArogyaSutraを提案する。これはアクタークリティックに基づくマルチエージェントフレームワークであり、ツール接地と二重記憶機構を統合し、段階的かつ推論を考慮した意思決定を行い、蓄積されたアクタークリティックシミュレーショントラジェクトリを蒸留に利用する。実験により、我々のデータセットとフレームワークは、すべてのインド諸語において多言語医療推論の精度を向上させ、アブレーション研究により各構成要素の寄与が検証された。ソースコードとデータセットは以下のURLで公開されている:https://iitp-cse.github.io/ArogyaSutra/
幾何形状は視点に対して不変であり、そのため任意の画像集合は単一の3D状態の冗長な符号化となる。既存のフィードフォワード再構成モデルはこれを活用できていない。ビューごとの手法は、入力数に比例して増加する重複した非整列のポイントマップを出力する一方、グローバル潜在変数を用いる手法は固定の低解像度出力に制約される。我々はSurfloを提案する。これは、可変数のポーズ未指定RGBビューをK個の潜在トークン(1つのグローバル状態)に圧縮し、フローマッチングによりノイズから独立して表面へと輸送することで、方向付き3D表面点をデコードする。これにより、出力は固定グリッドやトークン数の制約から解放される。同じ潜在変数から、1回のフォワードパスで数千から百万点の点群が得られる。独立した点ごとのデコードに内在する局所的不整合を抑制するため、推論時のガイダンス項が、ODE積分中にフォトメトリック勾配を注入することで近傍点間の相関を導入する。Surfloは表面評価指標においてフィードフォワードベースラインに匹敵またはそれを上回り、数百のビューを必要とする最適化ベースの手法よりも一桁高速であり、グローバル潜在変数と任意解像度のデコードを組み合わせた唯一のフィードフォワード手法である。
低コストの心理測定プローブからLLMの行動傾向を予測することは、安全な展開のために極めて重要である。ただし、それは自己報告(SR)が行動を確実に予測できる場合に限られる。近年の研究では、LLMにおけるSRと行動の間に顕著な乖離が報告されているが、これらの研究は広範な性格特性(ビッグファイブ)に依存しており、ビッグファイブは人間においてさえ特定の行動を弱くしか予測しない。さらに、会話セッションが独立して行われ、文脈の一致が不十分であったため、LLMが本当に一貫性を欠いているのか、あるいはそのような一貫性を検出するために必要な条件が満たされていなかったのかは明らかではなかった。本研究では、ビッグファイブと計画的行動理論(TPB)を比較する。TPBは特定の行動を対象とした意図を測定し、広範な特性よりも人間の行動を大幅に良く予測する。我々は4つの行動タスクと11の最先端LLMにわたって実験を実施し、同時にセッションの文脈やアイデンティティ誘導も変化させた。その結果、SRと行動の間に一貫性は存在するが、それは選択的であることが明らかになった。1) 同一会話内では、計画的行動理論は人間レベルの一貫性に達するが、ビッグファイブではそうならない。2) 別々の会話間では、一貫性は即時のプロンプトの外部に固定された行動(訓練によって形成された暗黙のバイアスなど)に対してのみ維持され、文脈によって強くプライミングされた行動(追従など)では崩壊する。3) ペルソナプロンプティングは会話間で自己報告の一貫性を高めるが、行動を整合させるわけではない。これらの知見は、ビッグファイブのような粗い性格フレームワークが、展開時の行動をテストするための最良のツールではない可能性を示唆している。よりタスク特異的かつ行動特異的な手段が必要であり、それらでさえもタスクや文脈を横断して評価される必要がある。
ロボットシミュレータは、空中ロボティクスにおける現代研究の要であり、新たな制御アルゴリズムの開発手段として、また強化学習ポリシーを訓練するためのデータソースとして機能している。しかし、既存のクワッドコプター学習環境では、物理的忠実度、マルチエージェント対応、そして現代の深層強化学習パイプラインに求められるスループットの間で、しばしばトレードオフが生じている。本論文では、MuJoCo物理エンジンをベースに構築された、オープンソースのGymnasium互換マルチドローン環境「MuJoCo-Drones-Gym」を紹介する。MuJoCo-Drones-Gymは、任意の台数のBitcraze Crazyflie 2.xナノクワッドコプターをサポートし、以下の選択を可能とするモジュラーAPIを提供する:(i) 物理モデル(剛体MuJoCo、明示的なPython動特性、または地面効果、ブレード抗力、ドローン間ダウンウォッシュの任意のサブセット)、(ii) アクションインターフェース(モーター毎のRPM、正規化された集合推力を用いるアクション空間)※、速度設定値、またはPIDウェイポイント指令)、(iii) 観測空間(運動学的状態ベクトル、RGB/深度/セグメンテーションカメラ、または近傍隣接情報)。PettingZoo ParallelEnvラッパーにより、ドロップインでのマルチエージェント強化学習が可能となる。さらに、ホバリング、速度追跡、マルチドローン制御空中ロボティクス研究における現代の要であり、新しい制御アルゴリズムの開発手段と強化学習ポリシー訓練のデータソースとして機能している。しかし、既存のクワッドコプター学習環境は、物理的忠実度、マルチエージェント対応、そして現代の深層強化学習パイプラインに必要なスループットの間で、しばしばトレードオフを抱えている。本論文では、MuJoCo物理エンジンを基盤としたオープンソースのGymnasium互換マルチドローン環境「MuJoCo-Drones-Gym」を提案する。本環境は任意の台数のBitcraze Crazyflie 2.xナノクワッドコプターをサポートし、以下の項目を選択可能なモジュラーAPIを備える:(i) 物理モデル(剛体MuJoCo、明示的Python動特性、または地面効果・ブレード抗力・ドローン間ダウンウォッシュの任意の組み合わせ)、(ii) アクションインターフェース(モーター毎のRPM、正規化された集合推力、速度設定値、PIDウェイポイント指令)、(iii) 観測空間(運動学的状態ベクトル、RGB/深度/セグメンテーションカメラ、近傍隣接情報)。PettingZoo ParallelEnvラッパーにより容易なマルチエージェント強化学習が可能であり、7つのタスク環境(ホバリング、速度追跡、マルチドローン制御~ ホバリング、速度追跡、マルチドローンホバリング、ウェイポイントナビゲーション、フォーメーション飛行、ゲートレース、汎用マルチエージェントテンプレート)によって、インターフェースの広範な適用可能性を示す。本稿では、環境設計、基礎となる物理およびクワッドコプター動特性を説明し、関連性の高いgym-pybullet-dronesプロジェクトと類似した制御および学習の例を通じてその利用法を示すとともに、MuJoCoの改良された接触処理、レンダリング、並列化性能を活用している。
コンパクトな言語モデル(LM)は、ツールエージェントのコスト、レイテンシ、デプロイリスクを低減する。しかし、MCPスタイルのツール使用には、単なる関数呼び出し以上の能力が求められる。すなわち、エージェントはライブカタログからツールを発見し、スキーマを充足し、中間出力間の依存関係を保持し、最終的な応答を実行結果に基づいて根拠づける必要がある。小型プランナーは、もっともらしいワークフローグラフを生成するものの、ツール解決、パラメータ検証、依存関係追跡、あるいは実行の段階で失敗することが多い。本稿では、この失敗モードが小規模コーパスからの蒸留ではうまく対処できないことを論じる。数百の教師トレースによってワークフローの形式を学習させることは可能だが、変化するツールカタログのもとで失敗した計画を修復するために必要な回復行動をカバーすることは稀である。本稿では、コンパクトモデルによるツール使用を実行可能なツールワークフローの修復として捉える、推論時進化的探索手法であるEvofluxを提案する。Evofluxは、構造化された編集、実行フィードバック、適応型強度、メタガイドによる再設計、多様性枝刈りを通じて、型付きワークフローグラフを進化させる。実際のMCPサーバと250のツールからなる、評価用に保持されたMCP-Benchタスクにおいて、Evofluxは小型プランナー群の実行実現可能性を約3%から17〜24%に向上させる。対照的に、同一の探索収集データに基づくSFTおよびSFT+DPOは、ゼロショット性能と同等かそれを下回るか、あるいはそれを下回って崩壊する。ReActはより高いピークに達するものの、分散とトークンコストも高い。これらの結果は、教師トレースの予算が限られている状況では、実行に基づく探索の方がより信頼性が高いことを示している。
事前学習済み視覚基盤モデル(VFM)を基盤とした表現オートエンコーダ(RAE)は、画像生成のための意味的にリッチな潜在空間を構築する有望なアプローチとして近年注目を集めている。しかし、その再構成品質はしばしば不十分であり、その主な原因は、深層VFM表現が十分に細かな視覚的詳細を保持していないことにある。この制約は、離散化後により深刻になり、欠落した低レベル情報の回復が困難となる。実際、浅いVFM特徴量には局所的な外観や構造の詳細が豊富に保持されており、既存のRAEで用いられる深い特徴量が担う高次意味情報を補完することを我々は見出した。この相補的な特性に着想を得て、離散表現オートエンコーディングのための深層アライメントフレームワーク「Ideal」を提案する。量子化されたトークンを浅いVFM特徴量と深いVFM特徴量の両方に同時にアライメントすることで、Idealは結果として得られる離散視覚トークンが視覚的忠実度と豊かな意味情報の両方を保持することを可能にする。大規模な実験により、Idealは優れた再構成性能を示し、ImageNetにおいてrFID 0.61を達成し、従来の最良手法を0.28上回った。また、自己回帰型画像生成に用いた場合には、gFID 1.89を達成し、自己回帰型画像生成の新たな最先端を確立した。
マルチエージェントシステムは主にテキストを介して通信を行い、損失が大きく高コストなデコードと再エンコードを伴う。KVキャッシュ通信は有望な代替手段であるが、既存研究のほとんどは同一モデルの複製を用いた均質な設定に限られており、異種モデル間の潜在表現のアライメントという中心的な課題を回避している。また、既存の異種モデル手法にも制約があり、通常は入力を共有し、転送されたキャッシュを主に誘導に利用するものに限定されている。本研究では、より根本的な問いを追究する。すなわち、異種エージェント間で真の「マインドリーディング」が可能なほど十分にアライメントされ、あるエージェントが「何を見ているか」だけでなく「どのように考えているか」をも転送できるのか、という問いである。我々の情報構造分析は、二重性を明らかにする。すなわち、コンテキストを認識した転送は疎な推論シグナルによって駆動される一方、受信側が入力を一切見ないコンテキスト非認識の転送では、密な文脈知識の保存が必要となる。この知見に基づき、我々は軽量なクロスモデルキャッシュ変換と、再構成と生成の2段階学習からなる、異種KVキャッシュ通信のための密なアライメント手法を提案する。{Qwen3-4B, 8B, 14B}の全6方向と、ドメイン内・ドメイン外の6つのベンチマークにおいて、本手法は従来の異種ベースラインを上回り、コンテキストを認識した設定ではテキスト通信と同等かそれ以上に優れた性能を、およそ2~3倍の計算コスト削減で達成し、従来手法が機能しなかったコンテキスト非認識の転送においても有効性を示す。
対話型LLMエージェントは日常業務の一部になりつつあるが、時間の経過とともにより扱いやすくなるとは限らない。あるセッションで記憶された修正が、次のセッションでは守られないこともある。本研究では、選好へのアクセスと選好の順守との間にあるこのギャップを調査する。匿名化された実際のユーザーの摩擦事例から派生したタスクでは、Mem0の記憶を用いても、該当する選好チェックの57.5%が違反されたままである。我々は、Test-time Rule Acquisition and Compiled Enforcement (TRACE) を導入する。これは、コード作成エージェントの実行環境向けの差し込み可能なスキル層パイプラインであり、ユーザーの修正を抽出し、原子ルールとして書き換え、将来のタスク完了前に合格しなければならない実行時チェックにコンパイルする。開発者が事前に作成した実行時チェックとは異なり、TRACEのスキルはユーザー自身のチャットでの修正に由来する。我々は、ClawArenaのコード作成エージェントタスクとMemoryArena由来のメモリ集約型タスクを用いて、シミュレートされたユーザーインザループ実験でTRACEを評価する。ClawArenaでは、TRACEにより保持外選好違反が分布内タスクで100.0%から37.6%に、分布外タスクで100.0%から2.0%に減少した。MemoryArena由来のタスクでは、TRACEは分布内の違反を100.0%から60.5%に減少させると同時に、タスク合格率では最強のメモリベースラインと同等かそれを上回った。これらの結果は、修正を実行時の強制にコンパイルすることで、記憶だけでは確実に解決できない繰り返し発生する摩擦の障害モードに対処でき、将来のセッションでユーザーが同じ修正を言い直す必要性を減らせることを示唆している。実験コードはhttps://github.com/YujunZhou/TRACE_exp、デプロイ可能なスキルはhttps://github.com/YujunZhou/tellonceで入手可能である。
世界モデル(WM、すなわち学習されたシミュレータ)がロボティクスに与える潜在的な影響は計り知れません。政策評価、政策改善、テスト時計画など、限られた実世界との相互作用で実現できる可能性があります。これらの下流能力を引き出すためには、WMが次の3つの要件を同時に満たす必要があります。(i) 忠実性(現実と相関するシミュレーション軌道を生成すること)、(ii) 一貫性(長期的に首尾一貫したシミュレーション軌道を生成すること)、(iii) 効率性(シミュレーション軌道を迅速に生成すること)。本稿では、これら3つの要件をすべて同時に達成し、ロボット操作タスクにおいて最先端の成果を提供するWMアーキテクチャであるWEAVER(World Estimation Across Views for Embodied Reasoning)を提案します。WEAVERは、フローマッチング損失を用いて将来の潜在変数と報酬値を予測するように訓練されたマルチビューWMです。これまでの世界モデリング手法では困難であった長期的な動的操作タスクを実現するために必要な、モデルアーキテクチャ、メモリ、予測目的に関する主要な設計上の決定を抽出します。我々はWEAVERをロボットハードウェアに適用し、政策評価(実世界成功率との相関ρ=0.870)、政策改善(π_{0.5}ロボット基盤モデル上で実世界成功率が38%向上)、テスト時計画(従来のWMと比較して5~10倍の高速化で実世界成功率が14%向上)における有効性を実証しました。また、WEAVERは分布外シナリオで評価した場合にも、従来のWMよりも優れた性能を示します。コード、モデル、動画は https://arnavkj1995.github.io/WEAVER/ で入手できます。
表現力豊かな演奏レンダリング(EPR)は、音符の系列に制約されたリアルな演奏を生成することを目的とする。しかし、フローマッチング音声編集モデルは同一長さに同期された音楽サンプルのみを操作するため、表現的なタイミングの理解が制限されている。我々はPianoKontextを紹介する。これは、事前学習済みMusic2Latentモデルの潜在空間において可変長の演奏を生成する、クラシックピアノ音楽向けのフローマッチングレンダリングモデルである。MIDIスコアを無表情なオーディオに合成し、潜在空間で動的時間伸縮法(DTW)を用いて学習用のペアデータを構築する。整列された埋め込みはDiTブロック内で連結され、スコアと演奏の間の依存関係をシンプルかつ効果的に学習できる。音声サンプルはデモページ(https://realfolkcode.github.io/pianokontext_demo/)で公開している。
ツール呼び出しLLMエージェントは、会話全体を通じて常に同じ安全性を保っているのでしょうか?実際はそうではありません。エージェントはセッションの開始直後に最も脆弱であり、通常のエージェントタスクを数回実行した後には大幅に安全性が向上します。この現象を「コールドスタート安全ギャップ(cold-start safety gap)」と呼びます。この現象を体系的に研究するために、我々は「エージェントの安全性の深さ(SODA)」ベンチマークを導入します。これは、エージェントが安全上の脅威に遭遇するまでに実行する通常のエージェントタスクの数を制御し、最大20件の先行タスクをサポートします。4つのファミリーから7つのモデルを評価した結果、先行する通常エージェントタスクの数がゼロから20に増えるにつれて、安全性は9~52%向上しました。表現分析により、モデルの隠れ状態が先行タスクの増加に伴い、安全性に配慮した領域へと徐々にシフトすることが確認されました。先行する会話のどの部分が最も重要かを体系的に調査した結果、通常のエージェントタスク自体が安全性の主な要因である一方、エージェント自身の過去の応答は安全性への影響は小さいものの、後のユーティリティを維持するために不可欠であることがわかりました。この結論は、オープンソースの安全性ベンチマーク(AgentHarm、Agent Safety Bench)およびユーティリティベンチマーク(BFCL、API-Bank)での評価によってさらに裏付けられ、展開前に通常のエージェントタスクでエージェントをウォームアップすることで安全性が向上し、全機能が維持されることが確認されました。これらの知見に基づき、我々は簡単な展開戦略を提案します。すなわち、エージェントを安全性が重要な要求にさらす前に、いくつかの通常のエージェントタスクを実行させることで、コールドスタート安全ギャップを緩和できます。コードはhttps://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap で入手可能です。
大規模ツールカタログを備えたエージェントとして展開される大規模言語モデルは、重大なツール検索ボトルネックに直面する。埋め込みベースの検索手法は、特殊なツールのセマンティクスを十分に捉えられない可能性があるコンパクトなエンコーダに依存するため、パラメトリックツール検索は、各ツールをLLMの語彙に追加される仮想トークンとしてエンコードし、2段階(記憶化、次いで検索SFT)でファインチューニングすることで、LLMを検索器として利用し、標準的なToolBench検索ベンチマークで強力な性能を達成する。しかし、これらのベンチマークは冗長で完全に指定されたクエリを使用し、その評価は出力を有効なトークンパスに制限する制約付きデコーディングを適用しており、モデルが実際にツールを理解しているかどうかを明らかにしない。 我々は、任意のツールカタログを入力として受け取り、3つのベンチマーク(3つの曖昧さレベルを持つクエリを含む現実的検索ベンチマーク(RRB)、MCQプロービングベンチマーク、QAプロービングベンチマーク)を自動生成する、オープンソースのLLM駆動型診断フレームワークであるToolSenseを導入する。ToolSenseをToolBench(約4万7千のツール)に適用し、5つのパラメトリックモデル学習構成を評価した結果、知識と検索の乖離が明らかになった。RRBクエリでは、いくつかの構成が完全指定のToolBenchベンチマークと比較して約50~64パーセントポイント低下し、埋め込みモデルのベースラインを下回った。さらに、強力な検索性能にもかかわらず、一部のモデルは事実に関するプローブでランダムに近いスコアを示し、知識と検索の乖離を示唆している。我々はToolSenseフレームワークとToolBench診断ベンチマークをhttps://github.com/SAP/toolsenseでオープンソースとして公開する。
自律的なWebナビゲーションは依然としてLLMエージェントにとって困難な課題であり、最も強力な汎用システムはプロプライエタリな推論モデルに依存しているため、そうしたエージェントが最も有用となる反復的なタスクでは推論コストが法外なものとなる。我々は、このギャップはモデルの能力不足ではなく、人間の3つの認知的利点、すなわち関連するページ領域への選択的注意、ウェブサイト構造の持続的記憶、および一般的な操作パターンへの手続き的習熟を再現できないエージェントアーキテクチャに起因すると主張する。本論文では、各ギャップをモデル規模ではなくアーキテクチャ設計によって解決するWebエージェントフレームワークであるWebChallengerを紹介する。その中核として、DOMから決定論的に構築される構造化ページ表現であるPageMemを提案する。これは各ページを短い要約を持つセマンティックセクションの階層として公開する。この共有基盤の上に、上記3つの認知的利点を反映した3つのメカニズムを構築する。すなわち、エージェントがセクション要約をスキミングし、タスクに関連する領域からのみ詳細を抽出できる分割統治観測パイプライン、各ウェブサイトを一度だけ巡回してページと要素動作の再利用可能なマップを構築する軽量な探索・記憶システム、および一般的な複数ステップの操作を単一のエージェントアクションに集約し、部分的な状態変化を自動的に処理する複合アクションワークフローである。これら3つはすべてPageMem上で動作するため、本フレームワークはサイト固有のアダプターなしに様々なウェブサイトに一般化できる。微調整なしの既製のオープンウェイトモデルを用いて、WebChallengerはWebArenaで56.3%、VisualWebArenaで48.7%、Online-Mind2Webで51.0%、WorkArenaで70.9%の精度を達成し、ごく一部のコストで最先端のプロプライエタリシステムに迫る性能を示す。コードはhttps://github.com/jayoohwang1/webchallengerで公開されている。
互換性のある表現の学習は、モデルが更新されるたびに、時間経過とともに交換可能に使用できる特徴表現を学習することを目的とする。本論文では、d-シンプレックス固定分類器によって学習された定常的な表現が、形式的な定義における互換性を満たすことを示す。この結果は将来の研究の基盤となり、実際の学習シナリオで直接活用できる。我々は、モデルが逐次的にファインチューニングされる場合に、d-シンプレックス固定分類器を用いて互換性を学習するという課題に取り組む。d-シンプレックス固定分類器をクロスエントロピー損失とともに用いた学習は、特徴分布を一次統計量で一致させる。その結果、モデル更新間の表現における高次の依存関係を完全に捉えることができない可能性がある。この問題に対処するため、クロスエントロピー損失と対照損失の凸結合を通じてd-シンプレックス固定分類器を用いてモデルを訓練することが、高次の依存関係を捉えるだけでなく、互換性制約下でのクロスエントロピー学習と等価であることを示す。我々は、事前学習済みモデルが逐次的にファインチューニングされ、時折改良モデルに置き換えられるという新しいシナリオも考慮した広範な実験により、我々の発見を確認する。定常的な表現により、モデルの更新や置き換え時に性能を向上させつつ、中断のない検索サービス(ギャラリー画像の再処理不要)が可能となり、最先端の成果を達成することを示す。コードは https://github.com/miccunifi/iamcl2r で公開している。
本稿では、Flash-GMMを提案する。これは、融合型Tritonカーネルであり、大規模データに対する混合ガウスモデル(GMM)の計算を、単一のGPUパスで効率的に行う。Flash-GMMは、完全な負担率行列をGPUメモリ上に具体化する必要をなくすことで、既存実装と比較して20倍の高速化を実現し、これまでは1台のデバイスでは不可能だった100倍以上のデータセットでの学習を可能にする。その効果を示すため、Flash-GMMを近似最近傍(ANN)探索用のIVF粗量子化器に統合した。この結果、ソフトGMMクラスタリングがk平均法のドロップイン置換として実用的であること、またGMMの負担率を活用して境界ベクトルを複数のクラスタに割り当てられることを示す。本アプローチでは、固定された再現率目標に対して最大1.7倍少ない距離計算で到達するか、あるいは同等の計算コストでrecall@10が2~12ポイント向上する。本カーネルをオープンソースプロジェクトとして公開する。
手書き文字認識の進歩により、歴史文書の大規模な転写が可能になったが、歴史的筆跡学(パレオグラフィ)における解釈可能な視覚的測定へのアクセスは依然として限られている。本論文の主な知見は、形態学的筆跡分析、特に行レベルでの転写から文字のプロトタイプを学習する能力が、拡張可能で有意義かつ安定した古筆学的測定の定義を可能にするという点である。より正確には、トランスフォーマーベースの検出アーキテクチャとプロトタイプベースの行再構成モジュールを活用して、プロトタイプ文字とその出現、変形、位置決めを学習する。 私たちの貢献は2つある。第一に、行レベルの転写教師信号のみで効率的な文字モデリングを可能にする深層アーキテクチャと学習手法を導入し、Learnable Typewriterベースラインを大幅に改善し、正確な文字バウンディングボックス予測を実現し、古筆学的測定への可能性を開く。第二に、本アーキテクチャによって可能になった文字、バイグラム、およびグラフィカル単位間のスペースの自動測定の古筆学的関連性を紹介し、実証する。この実証のために、14世紀後半にシャルル5世が委託し、4人の写字生によって筆写された写本 Paris, BnF, fr. 2813 の注釈を160ページに拡張する。 これらのページにわたって測定結果を可視化し、グラフィカルプロファイルの識別だけでなく、微妙な変異の発見と分析を可能にすることを示す。このケーススタディは、本アプローチの拡張性と、必要なトレーニングデータの少なさを示している。なぜなら、160ページのそれぞれについて測定を計算するには、1列のテキストで十分だからである。 データとコードは以下のURLで公開されている: https://malamatenia.github.io/morphology4metrology-analysis
私たちは、箱、取っ手、ドアなど、可動で関節的な部品を持つ様々な物体に囲まれている。関節部品の正確かつ一般化可能な認識は、ロボットの操作能力を向上させるために不可欠である。このニーズに基づき、関節部品認識の最近の研究は二つの主要な方向性をたどってきた。一つはポーズベースの表現を用いる手法であり、これは高い人的コストを要する。一方、アフォーダンスベースの手法は、追加の人的労力を必要とせずに点追跡から将来の物体の動きを抽出するが、低品質のデータに悩まされている。本論文では、関節部品の新しい表現として、Geometric Primary Structure (GPS) を提案する。これは部品の幾何学的構造の抽象化であり、スケーラビリティと品質のバランスを図る。効率的かつスケーラブルなデータ収集のために、GPSはポータブルな仮想現実(VR)デバイスと統合されており、1つのオブジェクトシーケンスのアノテーションにわずか1分しかかからない。この直接的な人間によるアノテーションは、推定されたアフォーダンスよりも高品質である。この効率的なVR-GPSシステムを用いて、6つの部品クラスにわたる234個のオブジェクトに対して41Kフレームを収集し、単一のRGB-Dオブジェクト画像を入力として一般化可能なGPSモデルを訓練する。物体操作のために、GPS予測に基づくヒューリスティックポリシーを展開する。ドメイン内の微調整を一切行わずに、本手法は9つのオブジェクトに対する270の初期状態をカバーし、73%の成功率を達成する。コード、データ、再利用可能なツールは https://enlighten0707.github.io/gps で公開している。
大規模言語モデル(LLM)は、ゼロショットアノテーションやLLM-as-a-judgeタスクにますます利用されているが、その信頼性はモデル内部に内在する事前知識とユーザが提供する指示との相互作用に依存する。本稿では、この相互作用を以下の3つの側面から調査する:(1)LLMのデータやタスク定義に対する熟知度が性能に与える影響、(2)プロンプトに追加情報を付与することでゼロショットの誤りをどの程度修正できるか(「決定の固執性」)、(3)タスク定義の不整合に対するモデルの感受性。多様なデータセット(ソーシャルメディア、ゲーム、ニュース、フォーラム)を用いた有害性検出実験を、高密度モデルと混合エキスパートモデルの両方で実施した結果、ゼロショットの誤りの約3分の2は修正が困難であり、プロンプトによる初期誤りの修正率は全体で34.8%にとどまった。特に信頼度の高い誤りは修正に対する抵抗性が強い。不整合な定義を与えられた場合、LLMはその定義に従う一方で、整合条件と変わらない信頼度を維持する。さらに、本稿では定義特化型親和性(DSF)を新たに導入する。これはモデル内部の概念とタスク定義との整合性を測定する指標である。データセットレベルの交絡要因を制御した後、DSFはモデル性能と正の関連を示した(偏相関係数 r = +0.41)のに対し、3つの異なる記憶化指標(ROUGE-L、BERTScore、埋め込みコサイン類似度)はいずれも正の関連を示さなかった。これらの結果は、アノテーションタスクにおけるプロンプトベースの修正の限界を示し、テキストレベルの記憶化よりも定義の整合性の重要性を浮き彫りにする。