HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

55 papers found

PlanBench-XL: 大規模ツールエコシステムにおけるLLMツール使用エージェントの長期的計画の評価
PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems

Jun 21

ByJiayu Liu, Qihan Lin, Cheng Qian, Rui Wang, Emre Can Acikgoz, Xiaocheng Yang, Jiateng Liu, Zhenhailong Wang, Xiusi Chen, Heng Ji, Dilek Hakkani-Tür

LLMエージェントは、大規模なツールエコシステム内で動作する機会が増えており、現実世界のタスクでは関連ツールの発見、暗黙的なサブゴールの推論、長期間にわたる動的環境への適応が求められる。しかし、既存のベンチマークでは、取得制限のあるツール可視性下での計画立案はほとんど評価されていない。このギャップを埋めるため、我々はPlanBench-XLを導入する。これは、1,665個のツールにわたる327の小売タスクからなる対話型ベンチマークであり、エージェントが利用可能なツールを反復的に取得し、最終目標に向けた後続の呼び出しのための中間証拠を明らかにするためにそれらを呼び出す能力をテストする。PlanBench-XLはさらに、オプションのブロック機構を備えており、ツール機能の欠落、失敗、妨害を通じて現実世界の予測不可能性をシミュレートし、エージェントに中断された経路を検出させ、実行時に適応させる。10の主要なLLMを用いた実験では、大規模ツールを用いた計画立案が依然として困難であることが示された。GPT-5.4はブロックなしの設定で51.90%の精度を達成する一方、最も厳しいブロック条件下では11.36%にまで低下する。さらに分析により、障害に明示的なエラー信号が欠けている場合や、回復により長い代替ツール使用経路が必要な場合に、エージェントは特に脆弱であることが明らかになった。これらの結果は、PlanBench-XLをエージェントの計画立案の失敗を診断するためのテストベッドとして確立し、大規模で不完全なツール環境における長期的なタスクにおいて、堅牢な適応的計画立案の必要性を強調する。

OpenRath: エージェントシステムのためのセッション中心のランタイム状態
OpenRath: Session-Centered Runtime State for Agent Systems

Jun 17

ByFukang Wen, Zhijie Wang, Ruilin Xu

現代のエージェントシステムは、多くの場合、断片化されたランタイム状態に悩まされている。すなわち、トランスクリプト、ツール効果、メモリイベント、ワークスペース配置、分岐の来歴、リプレイ証拠などが個別に記録され、検査や再現が困難になる。OpenRathは、マルチエージェント・マルチセッションシステム向けのPyTorchライクなプログラミングモデルを用いてこの問題に取り組む。この類推は、テンソル計算ではなく、中央の第一級ランタイム抽象化の役割に関するものである。その中核となる抽象化はSession（セッション）であり、エージェントとワークフロー間で渡されるランタイム値である。Sessionは分岐可能、検査可能、リプレイ可能、バックエンド対応、そして合成可能である。Sessionは会話チャンク、サンドボックス配置、系統メタデータ、トークン使用量、未処理作業、ツール証拠を記録するとともに、メモリ相互作用がランタイム記録に入力される場所を定義する。この状態はプログラム実行で使用される同じ値によって運ばれるため、フォーク、マージ、リプレイは外部トレースから再構築された状態ではなく、明示的なランタイム操作となる。 OpenRathはさらに、Sandbox（サンドボックス）、Tool（ツール）、Agent（エージェント）、Memory（メモリ）、Workflow（ワークフロー）、Selector（セレクタ）を定義し、Selectorは制御フローをランタイムでルーティングされる決定に変換する。本レポートでは、プログラミングモデル、アーキテクチャ、監査済みマイルストーン、証拠プロトコルを示す。その主張は制御されたランタイム特性に限定されており、広範な定量的比較、ライブプロバイダの品質、オプショナルバックエンドの可用性、メモリ品質については後続の評価に委ねる。中心的な主張は、Sessionがエージェントシステムに監査可能な合成のための第一級ランタイム値を提供するというものである。

DataClaw0: 生ストリームからのマルチモーダルデータのエージェンティックな調整
DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams

Jun 19

ByCong Wan, Zeyu Guo, Zijian Cai, Jiangyang Li, SongLin Dong, Lin Peng, Xiangyang Luo, Zhiheng Ma, Yihong Gong

大量の非構造化マルチモーダルストリームは高い「データエントロピー」に悩まされ、効率的な人間の知識獲得と高品質なAIのポストトレーニングの両方を妨げています。既存の受動的アノテーションパラダイムは、ヒューリスティックルールや汎用VLMに大きく依存しており、コストが高く、単調であり、生データに埋め込まれた深い手続き的論理を引き出すことができません。我々はデータ処理を学習可能な能力に昇華させ、能動的にデータを精緻化・構造化して多様なユーザーや下流の意図に適合させる「エージェンティックデータテーラリング」へのパラダイムシフトを提案します。このような高次能力の訓練におけるデータ不足のボトルネックを克服するため、我々は生成意味合成を決定論的事実的アンカーに基づかせる二段階パイプラインを設計し、五つの主要な物理領域とデジタル領域にわたる大規模データセットを生成しました。これに基づき、DataClaw_0.9Bモデルは教師ありファインチューニング（SFT）とグループ相対方策最適化（GRPO）を相乗的に組み合わせ、複雑な精緻化やテーラリングの意図とのロバストな整合を実現します。この能力を体系的に定量化するため、我々はデータ精緻化に特化した初のベンチマークであるDataClaw_0-valを構築しました。重要なことに、我々は最終的な検証の試金石として下流のポストトレーニングを採用しています。動画生成、実世界VQA、GUIナビゲーションに関する評価により、DataClaw_0が高情報密度のテーラリングデータを提供し、限られた訓練データ条件下での新しいタスクへの効率的なモデル適応を促進することが確認されました。プロジェクトページ: https://czjdsg.github.io/MakeAnyData

EnterpriseClawBench: 実際の職場セッションに基づくエージェントのベンチマーク
EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

Jun 22

ByJincheng Zhong, Weizhi Wang, Che Jiang, Kai Tian, Zhenzhao Yuan, Junlin Yang, Dianqiao Lei, Kaiyan Zhang

企业智能体日益在工作空间内运行：它们读取异构文件、调用工具并生成业务文档。为此，我们推出EnterpriseClawBench——一个基于真实企业智能体会话构建的企业级基准测试。从大规模工作场景会话库出发，EnterpriseClawBench生成了852个可复现任务，每个任务都配有恢复的固定配置、重写的提示词、角色类别、技能子类、硬性规则以及语义评估准则。由于这些会话包含企业内部内容，我们未公开基准数据；相反，我们提供的可复用贡献在于其构建与评估协议。在EnterpriseClawBench上，最佳配置（Codex搭配GPT-5.5）仅达到0.663分。这些结果表明，企业智能体评估必须报告框架-模型组合、文档交付质量、视觉质量、成本、运行时间及技能迁移行为，而非将性能简化为单一分数。代码：https://github.com/FrontisAI/EnterpriseClawBench

グループ化クエリエキスパート：GQA自己注意機構における混合エキスパート
Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention

Jun 18

ByVishesh Tripathi, Abhay Kumar

自己注意はTransformerの性能の中心であり、長いコンテキスト長においては、トークン間のペアワイズ相互作用がシーケンス長の二乗でスケールするため、Transformerの中で最も計算コストの高い部分となることが多い。標準的な密な注意は、トークンの難易度や情報量に関わらず、すべてのトークンに同一の注意ヘッドセットを適用する。この一様な活性化は、特にシーケンスが長くなり注意コストが急速に増大するにつれて、計算を無駄にする可能性がある。我々は、グループ化クエリ注意（GQA）の上に混合エキスパート層を重ねたGrouped Query Experts（GQE）を提案する。各GQAグループ内で、ルーターはトークンごとにk個のクエリヘッドエキスパートを選択し、すべてのキー・バリュー（KV）ヘッドは密なまま変更されない。これにより、GQEはGQAのKVキャッシュの利点を維持しつつ、アクティブなクエリヘッドの計算のみを削減する。250Mパラメータ規模で30Bトークンの固定予算において、GQEはトークンあたりのクエリヘッドを半分だけ活性化しながら、すべてのヘッドを活性化するGQAベースラインと同等の下流タスク精度を達成する。

KaLM-Reranker-V1: 高速でありながら遅延ではない相互作用による圧縮文書リランキング
KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

Jun 22

ByXinping Zhao, Jiaxin Xu, Ziqi Dai, Xin Zhang, Shouzheng Huang, Danyu Tang, Xinshuo Hu, Meishan Zhang, Baotian Hu, Min Zhang

検索システムの規模が拡大するにつれて、高品質な再ランキング（reranking）の重要性がますます高まっています。しかし、既存のほとんどの再ランキングモデルは、エンコーダベースであれデコーダベースであれ、クエリとパッセージをまとめてエンコードするため、計算が密結合となり、デプロイ効率や柔軟性が制限されます。本稿では、クエリとパッセージの計算を分離しつつ、表現力豊かな関連性モデリングを維持する、高速だが遅延相互作用ではない（FBNL）再ランキングモデルであるKaLM-Reranker-V1を提案します。KaLM-Reranker-V1はエンコーダ-デコーダアーキテクチャに基づいており、エンコーダがマトリョーシカ埋め込みプーリングを用いてパッセージを事前エンコードし、デコーダがシステム指示、ユーザ指示、クエリ意図をモデリングします。その後、クロスアテンションによってクエリコンテキストとパッセージ表現間の関連性を捉えます。この設計により、KaLM-Reranker-V1は分離されたパッセージエンコードによって効率的でありながら、クロスアテンションによる豊かな関連性モデリングを維持することで、遅延相互作用ではありません。KaLM-Reranker-V1をNano、Small、Largeの3サイズで実装し、それぞれ0.27B、1B、4Bの活性化パラメータを持ちます。BEIR、MIRACL、LMEBにおける広範な実験により、KaLM-Reranker-V1が優れた効率性と強力な再ランキング性能を達成することを実証しました。BEIRでは、KaLM-Reranker-V1は最先端の性能を達成し、Qwen3-Rerankerシリーズなどの強力な産業用モデルと同等です。MIRACLでは、多言語データで広範に学習されていないにもかかわらず、KaLM-Reranker-V1は優れた再ランキング性能を示します。さらに、LMEBでは、再ランキングモデルが明確な優位性を示し、0.27BのNanoモデルでさえ7～12Bの埋め込みモデルと競合します。

ワールドアクションモデル：サーベイ
World Action Models: A Survey

Jun 18

ByQiuhong Shen, Shihua Zhang, Yue Liao, Qi Li, Zhenxiong Tan, Shizun Wang, Shuicheng Yan, Xinchao Wang

ワールドアクションモデル（WAM）は、未来予測を行動に利用可能にする身体化された予測行動モデルである。近年のWAMは大規模な動画生成モデルを転用しており、一方で、動画生成コアを持たずに言語または視覚言語バックボーンに依存する並行した研究系統も存在する。この急速な拡大により、広義のワールドモデル、動画生成モデル、行動に基づく動画ワールドモデル、視覚言語行動（VLA）ポリシー、そしてWAMの間の境界が曖昧になっている。本サーベイは、この分野に共通の理解を提供するものである。まずこれらの境界を明確にし、次に既存の研究を2つの相補的な観点から整理する。第一の観点は、各手法が何を生成する必要があるかを問うもので、レンダリングされた未来、潜在的な未来、動画生成を伴わない行動推論にわたる。第二の観点は、各手法を予測基盤、バックボーン、行動結合、展開体制に分解する。この分析により、インタラクタビリティ、因果性、持続性、物理的妥当性、一般化について統一的な議論が可能となり、その後、データ、評価、未解決の課題について議論する。これらの軸を通じて、一貫した設計パターンが浮かび上がる。すなわち、WAMは単に行動ヘッドを備えた動画生成器ではなく、その設計選択が表現の豊かさと計算量、メモリ、レイテンシ、行動ラベルコストとのトレードオフとなる予測行動手法である。この分野は、制御に必要なものを保持しつつ、未来の生成量を減らす方向へと向かっている。サーベイのホームページは https://world-action-models.github.io/ で公開されている。

CLI-Universe: ターミナルエージェントのための検証可能なタスク合成エンジンを目指して
CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents

Jun 22

ByZhanbo Hua, Yifan Yao, Weihao Xie, Yongchi Zhao, Minghao Liu, Ruizhi Qiu, Zhewei Huang, Zun Wang, Yiyan Ji, Yunhai Ye, Letian Zhu, Xinping Lei, Han Li, Zhiyuan Ma, Zili Wang, Zhaoxiang Zhang, Jiaheng Liu

近年、LLMベースのターミナルエージェントは有望な能力を示しているが、高品質で実行可能なトレーニングデータの不足が依然として重要なボトルネックとなっている。既存の合成パイプラインは通常、表面的なアーティファクトをタスクに無理やり適合させることでスケールしており、その結果、あいまいな指示、浅い実行パス、脆弱なテストを頻繁に生み出し、弱い学習信号しか提供できない。この問題を克服するために、我々はCLI-Universeを提案する。これは、ターミナルエージェントのタスクを構築する原理的な合成エンジンである。CLI-Universeは、多次元の能力分類（ドメイン、スキルタイプ、能力、エンジニアリングピラー）にわたる組み合わせをサンプリングすることで候補タスクを生成し、その後、実際の技術資料に対するエビデンスに基づく深い調査を通じて各候補を具体化する。厳密な監督を確保するために、検証された設計図はDocker化された環境にインスタンス化され、ルーブリックゲート方式のテスト構築、ヒント条件付きフィルタリング、厳格なFail-to-Passチェックを特徴とする多段階の実行可能検証パイプラインにかけられる。パイプライン全体（候補生成から検証まで）では、約3分の2の候補が破棄され、真正で検証可能かつ自明ではない難易度を持つもののみが保持される。我々のフレームワークを検証するために、CLI-Universe-6Kと呼ばれる高度に精選された6,000の軌跡のデータセットをインスタンス化する。特筆すべきことに、CLI-Universe-6KでQwen3-32Bをファインチューニングしたところ、Terminal-Bench 2.0で33.4%を達成した。これは、32Bパラメータ以下のオープンソースデータで訓練されたモデルとして新たな最先端を記録し、一桁大きな規模のいくつかのモデルを凌駕しており、構造化された高忠実度の合成が持つ顕著なデータ効率を示している。

EvoEmbedding: 長文脈検索とエージェント的記憶のための進化可能な表現
EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory

Jun 19

ByChang Nie, Chaoyou Fu, Junlan Feng, Caifeng Shan

既存の埋め込みモデルは本質的に静的であり、テキスト断片を周囲のコンテキストや時間的順序を無視して単独で符号化する。本論文では、取得のための進化的表現を生成する新しい埋め込みモデルであるEvoEmbeddingを提案する。これは、情報が動的かつ順序的であり、継続的な状態追跡を必要とする長期コンテキストシナリオに特化して設計されている。我々の設計はシンプルである。EvoEmbeddingは入力を順次処理する際に継続的に更新される潜在記憶を維持し、それを生のコンテンツと併用して進化的埋め込みを共同生成する。その結果、同じクエリに対しても、本モデルは進化するコンテキストに基づいて表現を適応させ、異なるターゲットを取得できるようになり、静的な意味的検索を超える性能を発揮する。この能力をモデルに付与するため、潜在記憶と取得の共同最適化を目的とした多様なデータセットEvoTrain-180Kを構築した。さらに、反復符号化中の表現崩壊を防ぐメモリキューと、大きな長さのばらつきに対処し訓練を3.8倍高速化するセグメントバッチ処理技術を導入する。広範な実験により、本モデルは様々な長期コンテキスト取得ベンチマークにおいて、より大規模な専門モデル（Qwen3-Embedding-8BやKaLM-Embedding-Gemma3-12Bなど）を凌駕するだけでなく、訓練時のウィンドウの10倍のコンテキスト長を持つ下流タスク（パーソナライゼーションなど）にも良好に汎化する。特筆すべきは、EvoEmbeddingがエージェント型ワークフローにシームレスに統合され、性能を向上させる点である。例えば、本モデルを備えた単純なRAGパイプラインは、専用のエージェント型記憶システムを凌駕する。プロジェクトページ: https://clare-nie.github.io/EvoEmbedding

BioMatrix: 配列・構造・言語のモダリティ行列を網羅する包括的生物学基盤モデルに向けて
BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language

Jun 20

ByQizhi Pei, Zhimeng Zhou, Yi Duan, Yiyang Zhao, Wei Li, Han Guo, Liang He, Chengping Li, Chang-Yu Hsieh, Conghui He, Rui Yan, Lijun Wu

本稿では、分子とタンパク質の配列、構造、自然言語を単一のデコーダのみのアーキテクチャにネイティブに統合した、初のマルチモーダル基盤モデル「BioMatrix」を提案する。既存の生物学的基盤モデルは、ネイティブなマルチモーダル性と広範なエンティティカバレッジを別々に追求している。すなわち、共通の目的の下で複数のモダリティを融合するものは単一のエンティティタイプに限定され、複数のエンティティタイプにまたがるものは、明示的な構造モデリングを省略するか、モデルが読み取り可能なモダリティをネイティブに生成できないアダプタベースの設計に依存している。BioMatrixは、分子配列（SMILESおよびSELFIES表記法に対応）、分子構造、タンパク質配列、タンパク質構造、および自然言語を、統一されたトークン化スキームを通じて共有の離散トークン空間にマッピングすることで、このギャップを解消する。これにより、外部エンコーダー、投影アダプター、モダリティ固有の出力ヘッドを必要とせず、すべてのモダリティが単一の次トークン予測目的の下で統一的に消費・生成される。BioMatrixは、Qwen3言語モデル（1.7Bおよび4B）を基盤とし、一般的・領域特化テキスト、分子およびタンパク質の配列と構造のビュー、さらに生体分子エンティティと科学テキストをインターリーブし、分子-タンパク質およびタンパク質-タンパク質相互作用データを通じて異種エンティティをリンクするクロスモーダルコーパスにわたる、3044億トークンで継続事前学習が行われる。6カテゴリ80タスクに及ぶ包括的な下流アプリケーションスイートでのチューニング後、BioMatrixは80タスク中77タスクで最先端または競争力のある性能を達成し、単一のネイティブマルチモーダル汎用モデルが幅広い生物学タスクにおいて専門的なアプローチに効果的に匹敵するか、それを上回ることを示している。

HydraHead：ヘッドレベルの機能的異質性から特化注意のハイブリダイゼーションへ
HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization

Jun 18

ByZhentao Tan, Wei Chen, Jingyi Shen, Yao Liu, Xu Shen, Yue Wu, Jieping Ye

アテンションの二次の計算量は、長文脈処理における重大なボトルネックであり、ハイブリッドアテンション設計への関心を高めている。ほとんどのオープンソースのハイブリッドモデルは層単位の戦略を採用している。しかし、先行研究では線形アテンション（LA）と完全アテンション（FA）の統合に内在する困難さが指摘されており、アテンションのハイブリッド化の設計空間は未だ十分に探求されていないことを示唆している。この空間を調査するため、我々は解釈可能性分析を実施し、層がブロック単位の機能類似性を示す一方、同一層内の個々のヘッドは入力特徴を共有しているにもかかわらず、明確な機能特化を示すことを観測した。このヘッドレベルの異質性は、ヘッド次元が異種アテンション信号を融合するための自然かつ原理的な粒度を提供することを示唆する。この知見に基づき、我々はFAとLAをヘッド軸に沿ってハイブリッド化する新規アーキテクチャであるHydraHeadを導入する。HydraHeadは二つの主要な革新を特徴とする：（1）検索に重要なヘッドを特定し、それらに対してのみFAを保持する解釈可能性駆動の選択戦略、（2）FAとLAのヘッド出力間の分布ギャップを調整するスケール正規化融合モジュールである。パラメータ再利用と蒸留を備えた三段階転送パイプラインを活用することで、最小限のトレーニングオーバーヘッドで高性能なハイブリッドモデルを実現する。統一されたトレーニング設定のもと、HydraHeadは強力な汎用推論を維持しつつ、長文脈タスクにおいて他のハイブリッド設計を凌駕する。解釈可能性駆動によるヘッド選択により、7:1のLA対FA比で、3:1の層単位ハイブリッドの長文脈性能に匹敵する。重要なことに、わずか15BトークンでトレーニングされたHydraHeadは、512Kのコンテキスト長でベースライン比69%以上の改善を達成し、ネイティブコンテキスト長256Kの同等規模の代表的モデルであるQwen3.5に迫る。これは、ヘッドレベルのハイブリッド化が持つ顕著なスケーリング可能性を浮き彫りにしている。

SkillHarness：コンピュータ利用エージェントのための安全なスキルの活用
SkillHarness: Harnessing Safe Skills for Computer-Use Agents

Jun 2

ByYurun Chen, Biao Yi, Keting Yin, Shengyu Zhang

コンピュータ操作エージェント（CUA）は、動的な対話環境でますます展開されるようになっており、対話中の継続的なスキル学習の必要性が高まっている。最近のアプローチでは、成功した軌跡から再利用可能なスキルを学習することでこの課題に対処している。しかし、これらのスキル学習手法は主に静的で安全な環境を前提としており、敵対的な相互作用（例：プロンプトインジェクション）や環境の動的変化（例：ポップアップ）によるリスクを見過ごしている。動的環境では、このような前提はリスクの高いスキル学習や脆弱な実行につながり、CUAの信頼性を損なう可能性がある。これにより、次の疑問が生じる：CUAは動的環境においてどのように安全にスキルを学習し、活用できるのか？この問題に取り組むために、我々はSkillHarnessを提案する。これは動的環境における安全なスキル活用のためのフレームワークである。SkillHarnessは、静的なスキル抽象化を超え、スキル学習と利用を安全制約付きの相互作用プロセスとしてモデル化する。具体的には、スキル境界を導入し、マルチソースの教師信号を活用して相互作用軌跡から安全なスキルを識別し、スキルライフサイクル全体を通じて自己改善型の安全制約を構築する。さらに、SkillHarnessは選択的スキル再利用を導入し、タスクをコンテキストに応じて分解し、スキルサブセットの選択的活性化を通じて完了するように導く。我々の実験は、SkillHarnessが学習されたスキルの不安全率を57.1%大幅に削減し、動的環境変化下での実行安定性を一貫して向上させ、既存のベースラインを上回ることを示している。

深ければ良いというわけではない：確信層デコーディングによるアライメント税の軽減
Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding

Jun 20

ByXuanming Zhang, Sining Zhoubian, Yuxuan Chen, Tianyi Tang, An Yang, Sean Du, Chujie Zheng, Fei Huang, Dayiheng Liu, Gao Huang, Jingren Zhou

大規模言語モデル（LLM）における自己回帰生成では、従来、より深い表現ほど信頼性の高い次トークン予測が得られるという仮定に基づき、最終層からデコードが行われてきた。本研究では、この仮定を再検討し、繰り返し現れる「推測-精緻化-摂動（Guess-Refine-Perturb）」のダイナミクスを明らかにする。すなわち、初期層は粗い推測を形成し、中間層は推論に関連する意味表現を精緻化する。一方、最終層はこれらの精緻化された予測を、一般的なトークンやアライメント選好的なトークンへと摂動させることがある。我々は、訓練を必要としないデコード戦略であるConfident Decodingを導入する。これは、エントロピー誘導による保守的後方探索を通じて、最も信頼性の高い最終層に近い層を動的に選択するものである。さらに、層選択を最適停止問題として理論的に定式化し、有界な射影ノイズと支配的な後期アライメント摂動の下で、本探索ルールが摂動を除去しつつ、理想的な精緻化層に対する損失を有界に保つことを示す。高密度およびMixture-of-Experts LLMを用いた実験では、GPQA-Diamond、Omni-MATH、HLEといった難易度の高い推論ベンチマークにおいて、メモリオーバーヘッドがゼロでレイテンシ増加が2%未満としながら、一貫した性能向上が確認された。これらの結果は、最終層の摂動を動的に回避することで、アライメントされたLLMからより強力な推論動作を引き出せる可能性を示唆している。

自分の間違いから学ぶ：自己蒸留のための学習可能なマイクロリフレクティブ軌道の構築
Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

Jun 17

ByZhilin Huang, Hang Gao, Ziqiang Dong, Yuan Chen, Yifeng Luo, Chujun Qin, Jingyi Wang, Yang Yang, Guanjun Jiang

自己蒸留は、大規模言語モデルの推論能力を向上させる手法であり、モデル自身のロールアウトを学習信号として利用する。典型的には、暗黙的なロジットレベルのアライメントを通じて、特権的な目標分布に対するKLダイバージェンスを最小化する。しかし、この教師信号は制御されないサンプリングによって生成されるため、モデルの特定の誤りに関する診断的な洞察や、個々の失敗パターンに対する修正ガイダンスを提供しない。その結果、モデルは推論の失敗箇所とその原因を正確に特定する細粒度の修正を受けるのではなく、特権的な分布を模倣することを学習する。本論文では、Trajectory-Augmented Policy Optimization (TAPO) を提案する。TAPOは、自己蒸留を暗黙的な分布アライメントから明示的な軌道構築へと発展させる。強化学習訓練において、モデルは同一クエリに対して正解と不正解の両方のロールアウトを生成する。TAPOはこの対比的構造を活用して、微小反映的修正（micro-reflective corrections）、すなわち、モデルの誤った推論を失敗箇所まで保持し、そこに自然言語による診断と、同一サンプリンググループ内の正解参照に基づいた修正推論を挿入した新たな訓練軌道を構築する。各軌道は学習者自身のプレフィックスと解答に基づいているため、修正信号は、KLベースの手法が課す位置単位のアライメントよりも、モデルのオン方策分布をより大きく保持する。これらの軌道を統合するために、TAPOはモデルの能力境界における難易度を考慮した候補選択と、勾配汚染を防ぐための分離型アドバンテージ推定を導入する。AIME 2024、AIME 2025、HMMT 2025を用いた実験では、TAPOが同一の訓練ステップ数においてGRPOを一貫して上回る改善を示す。さらに、分析によりTAPOが初期推論と誤り訂正の両方の効果を強化することが示される。

OCR無制限
Unlimited OCR Works

Jun 22

ByYouyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia

近年、DeepSeek OCRに代表されるエンドツーエンドのOCRモデルが、再びOCRを注目の的にしている。広く信じられている見解として、デコーダに大規模言語モデル（LLM）を採用することで、言語の事前分布を活用でき、OCR性能が向上するというものがある。しかし、その欠点も同様に明らかである。出力シーケンスが長くなるにつれて、蓄積されたKVキャッシュがメモリ消費を増加させ、生成速度を徐々に低下させる。これは、長期的なコピー作業において効率の低下を示さない人間とは対照的である。本テクニカルレポートでは、人間の解析作業記憶を模倣するように設計されたモデル、Unlimited OCRを提案する。DeepSeek OCRをベースラインとして、デコーダ内のすべてのアテンション層を、提案するReference Sliding Window Attention（R-SWA）に置き換える。これにより、アテンション計算コストを削減しつつ、復号プロセス全体を通じて一定のKVキャッシュを維持する。DeepSeek OCRのエンコーダの高い圧縮率と、当社の一定のKVキャッシュ設計を組み合わせることで、Unlimited OCRは標準の最大長32Kの下で、一度のフォワードパスで数十ページの文書を書き起こすことができる。さらに重要なことに、R-SWAは汎用的な解析アテンションメカニズムであり、OCR以外にもASRや翻訳などのタスクにも同様に適用できる。コードとモデルの重みは http://github.com/baidu/Unlimited-OCR で公開されている。

物理科学におけるディープリサーチ：マルチエージェントフレームワークと包括的ベンチマーク
Deep Research in Physical Sciences: A Multi-Agent Framework and Comprehensive Benchmark

Jun 17

ByYigeng Jiang, Tengchao Yang, Taoyong Cui, Jiaxing Wan, Yuan Wang, Weida Wang, Zhiyu Liu, Chuyi Peng, Binzhao Luo, Maoli Gao, Huaihai Huang, Yuqianer Zeng, Ziyang Zheng, Dongchen Huang, Chao Chen, Zichao Liu, Weiping Shen, Shuchen Pu, Siyu Zhou, Runmin Ma, Yusong Hu, Fei Chao, Bo Zhang, Xiawu Zheng, Zifu Wang, Lei Bai, Yunqi Cai, Shufei Zhang

深層研究エージェントは、自律的かつ多段階の科学的推論のために設計された大規模言語モデル（LLM）ベースのシステムであり、物理科学における研究の加速に大きな可能性を秘めている。しかし、この領域におけるそれらの能力の包括的かつ詳細な評価は依然として不足している。このギャップを埋めるために、我々は物理科学研究に非常に関連性の高いベンチマークであるPhySciBenchを導入する。これは、物理学と化学からバランスよく選ばれた専門家厳選の200問から構成され、現実の科学的ワークフローを反映した6つのタスクカテゴリにわたる。PhySciBench上での最先端モデルおよびエージェントシステムの評価では、限定的な性能が明らかになった。最も強力なベースラインであるGemini Deep Researchでさえ、精度は33.5%に過ぎない。失敗事例の分析から、三つの反復的な欠陥が特定された。すなわち、拡張された推論連鎖における脆弱性、ステップ間の知識伝達の限界、そして物理学に基づく自己検証の欠如である。これらの知見に動機づけられ、我々は適応的計画ループ、二重粒度メモリ、および階層的な物理学に基づく反映機構を備えたモジュール型マルチエージェントフレームワークであるDelveAgentを開発した。四つの科学ベンチマークにわたって、DelveAgentは精度を最大7.5パーセントポイント向上させると同時に、推論コストを最も強力なベースラインの約3分の1に削減した。これらの結果は、物理科学におけるAIシステムを評価するための重要なベンチマークとしてのPhySciBenchの重要性を確立し、アーキテクチャの特化が自律的な科学研究の信頼性を効果的に向上させ得ることを示している。

Foresight: 行動条件付き世界モデル潜在表現を用いた長期視野ロボット操作における失敗検出
Foresight: Failure Detection for Long-Horizon Robotic Manipulation with Action-Conditioned World Model Latents

Jun 22

ByHaoran Zhang, Yifu Lu, Boyang Wang, Xuhui Kang, Yen-Ling Kuo, Zezhou Cheng, Mengdi Wang, Odest Chadwicke Jenkins

長期的タスクは実世界のロボット展開において一般的であるが、そのようなタスクに対する失敗検出は未だ十分に研究されていない。長期的なロボットタスクにおける失敗の検出は、失敗の兆候が曖昧であることが多く、時間的に密なアノテーションが通常利用できないため、特に困難である。本稿では、行動条件付きワールドモデルからの潜在表現を用いて操作軌跡を監視する失敗検出フレームワークForesightを提案する。Foresightは、タスクレベルの最終的な成功または失敗ラベルのみを使用して訓練される。予測的なワールドモデル埋め込みを活用することで、本手法は異なるポリシー間で統一された失敗検出フレームワークを提供する。さらに、関数型コンフォーマル予測（FCP）を用いて検出閾値を適応的に較正する。Foresightを、シミュレーション環境LIBERO-Long、ManiSkill-Long、BEHAVIOR-1Kにおいて最先端の視覚言語行動ポリシーとともに評価し、最先端の失敗検出手法と比較するとともに、実ロボットにおいてReactorX-200アームを用いた3つの長期的タスクとFrankaアームを用いた1つのタスクで検証した。実験結果は、行動条件付きワールドモデル埋め込みが、長期的な操作における信頼性の高い失敗監視のためのスケーラブルな表現を提供することを示唆している。

自己圧縮型言語モデルエージェント
Self-Compacting Language Model Agents

Jun 22

ByTianjian Li, Jingyu Zhang, William Jurayj, Xi Wang, Chuanyang Jin, Mehrdad Farajtabar, Eric Nalisnick, Daniel Khashabi

思考連鎖とツール呼び出しから構成される長いエージェントのトレースは、古くなったコンテンツを蓄積し、それが後続の生成を固定化し、最終的にはコンテキストウィンドウを超えてしまう。既存のスキャフォールドは、トークン閾値でトリガーされる固定間隔の圧縮によってこれを緩和する。そのようなトリガーは軌跡構造を考慮せず、導出途中や探索途中で部分的な結果を破棄するリスクがある。我々はSelfCompactを提案する。これは、モデル自身がいつどのように圧縮するかを決定できるスキャフォールドである。具体的には、推論時に二つの要素を組み合わせる。(i)モデルが蓄積されたコンテキストを要約するために呼び出す圧縮ツール、および(ii)いつ発火すべきか（サブタスクが解決した、または軌跡が収束しつつある）といつ抑制すべきか（導出途中、または行き詰まった時）を指定する軽量なルーブリックである。両方が必要である。ツール単独では、オープンウェイトモデル間で使用が不均一であり、役に立たないタイミングで呼び出されたり、全く呼び出されなかったりする。ルーブリック単独では動作できない。これらが一緒になることで、微調整や外部からの監督なしに、効果的な適応的圧縮を引き出す。我々は、6つのベンチマーク（競技数学とエージェント探索）と7つのモデルに関する実証結果を示す。我々の結果は、SelfCompactが固定間隔の要約と同等かそれ以上の性能を、はるかに少ないトークンコストで達成し、要約なしのベースラインと比較して、数学で最大18.1ポイント、エージェント探索で5～9ポイントの改善を示し、質問あたりのコストを30～70%削減することを示している。我々の結果は、メタ認知のギャップを明らかにしている。プロンプトなしのモデルは、自身のコンテキストがいつ腐敗しているかを確実に判断できないが、軽量なルーブリックがこのギャップを埋め、いつ圧縮するかを、スキャフォールドが訓練なしで提供できる能力として再定義する。

エージェント的電話操作のためのオープンモデルの訓練
Training Open Models for Agentic Phone Use

Jun 22

ByZhengyang Tang, Xin Lai, Pengyuan Lyu, Xinyuan Wang, Tianyi Bai, Chenxin Li, Yiduo Guo, Huawen Shen, Yuxuan Liu, Junyi Li, Zhengyao Fang, Yang Ding, Yi Zhang, Weinong Wang, Xingran Zhou, Liang Wu, Fei Tang, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Ji-Rong Wen, Rui Yan, Chengquan Zhang, Han Hu

スマートフォンは汎用エージェントにとって重要な実行基盤となりつつあるが、信頼性の高い電話操作を実現するオープンモデルの訓練は依然として困難である。なぜなら、デプロイ時に重要な環境である、実際のアプリを実行する実デバイスは、低速で、状態を持ち、副作用が多く、リセットや検証が難しい一方で、スケーラブルな模擬環境は現実の動作を近似するにすぎないからである。本稿では、実アプリ環境と、実際のGUI使用構造から実行可能な模擬アプリを再構築する模擬アプリ環境PhoneWorldを組み合わせた、エージェントによる電話操作のためのトレーニング手法およびオープンモデル群PhoneBuddyを提案する。PhoneBuddyはまず、両環境で収集した軌跡から共有の教師ありファインチューニング段階を構築し、次に実アプリRLと両環境にわたる混合RLを比較する。実機上での150タスク（アプリ、ミニアプリ、クロスアプリワークフローを含む）の人間による評価では、タスク成功率は教師ありファインチューニング後の36.67％から、実アプリRL後には40.67％、混合RL後には45.33％へと向上した。AndroidWorld上では、同じ推移が60.3％から77.2％、さらに83.2％へと上昇した。これらの結果は、模擬アプリ訓練が実アプリRLの代替ではなく、スケーラブルでリセット可能、かつ自動チェック可能な相互作用の補完的なソースであることを示している。改善効果はアプリおよびミニアプリタスクで最も顕著であり、一方で長時間にわたるクロスアプリワークフローは依然として重要な未解決課題である。

Notes2Skills: 実験ノートから確信度を考慮した科学エージェントスキルへ
Notes2Skills: From Lab Notebooks to Certainty-Aware Scientific Agent Skills

Jun 10

ByShi Liu, Jiayao Chen, Chengwei Qin, Yanqing Hu, Jufan Zhang, Linyi Yang

科学的発見のワークフローは通常、実験ノートを多用し、それに大きく依存している。実験ノートには研究者が観察結果を記録し、不確かな結果を解釈し、追跡実験を計画する内容が含まれる。このような有益な実験ノートは、論文で示される洗練された最終結果ではなく、進化する科学的推論と著者の不確実性を保持しており、AIがより包括的かつ深いレベルで科学的探求に関与する貴重な機会を提供する。しかしながら、科学テキストに関するこれまでの研究の多くは、論文、プロトコル、構造化データベースに焦点を当てており、非形式的な実験ノートは科学用AIエージェントへの入力として十分に研究されていない。このギャップが重要なのは、実験ノートでは同一の段落内に検証済みの観察、暫定的な判断、そして可能な次の実験ステップが混在していることが多いからである。これらのシグナルが混同されると、AIエージェントは不確かな科学的判断を確定した結論や実行可能なアクションと誤認する可能性がある。この目的のために、我々はNotes2Skillsを提案する。これは、著者の確実性を保持しながら実験ノートを科学用AIエージェントの検証可能なスキルに変換する二段階フレームワークである。7つの条件と3つのウェットラボセッションを通じて、Notes2Skillsは不確かなノートを確実な指示と誤認せず、また確実な指示を破棄しない唯一の構成である。我々は、確実性の保持が実験ノートと信頼性のあるエージェントスキルの間に欠けていた要素であり、より安全なAI共同科学者システムへの道を開くことを示す。

DailyReport: 日常検索タスクにおける検索エージェント評価のためのオープンエンドベンチマーク
DailyReport: An Open-ended Benchmark for Evaluating Search Agents on Daily Search Tasks

Jun 11

ByJingxuan Han, Wei Liu, Mingyang Zhu, Youpeng Wang, Ziwen Wang, Lin Qiu, Xuezhi Cao, Xunliang Cai, Zheren Fu, Licheng Zhang, Zhendong Mao

検索エージェント（SAs）は通常、大規模言語モデル（LLMs）を活用し、Webソースを自律的に探索して情報を包括的な応答に統合することにより、複雑な情報探索タスクを支援します。SAの評価において、従来のベンチマークは主に実世界のユーザーシナリオでは発生しにくい専門的なタスクに焦点を当てています。さらに、粗いタスクレベルのルーブリックに依存していることが、評価の解釈可能性を制限することがよくあります。このギャップを埋めるために、私たちはDailyReportを導入します。これは、日常的な検索タスクにおけるSAの能力を評価するオープンエンドのベンチマークです。150のオープンエンドタスクと3,546の関連ルーブリックを含み、実世界のユーザーの広く議論されタイムリーな情報需要を捉えています。各タスクはサブタスクに分解され、分離された次元にわたってカスケードルーブリックで評価されます。カスケード性能帰属とユーザー中心の集約を通じて、ユーザー嗜好スコアとともに、各次元の高度に解釈可能なスコアを導き出します。17のエージェントシステムに対する結果は、現在のシステムが依然としてユーザーの期待に及ばないことを示しています。将来の研究を促進するため、データセットとコードをhttps://github.com/AGI-Eval-Official/DailyReportで公開しています。

Tmax: ターミナルエージェントのためのシンプルなレシピ
Tmax: A simple recipe for terminal agents

Jun 22

ByHamish Ivison, Junjie Oscar Yin, Rulin Shao, Teng Xiao, Nathan Lambert, Hannaneh Hajishirzi

ターミナルエージェントは、急速に言語モデル（LM）の最も人気のある下流アプリケーションとなっている。その普及にもかかわらず、これらのモデルのRLベースの訓練を調査した学術研究は比較的少ない。その理由は、困難なベンチマーク、データの不足、そしてシンプルなベースラインレシピの欠如にあると考えられる。我々はTmaxを提案する。これは現時点で最も強力なターミナルエージェント向けオープンRLレシピであり、オープンデータレシピをフロンティアに近づけるものである。シンプルながら、我々のレシピはわずか9BパラメータでTerminal-Bench 2.0において27%を達成し、先行研究のより大規模なモデルを上回る。具体的には、我々は新しい分類法を用いてデータを生成する。これは難易度制御、ペルソナ、検証器の多様化を組み合わせたものであり、RLおよびSFT訓練用のターミナル環境を大量に低コストで生成することを可能にする。我々はターミナルデータセットをオープンソース化する。これは以前に公開されたターミナルエージェントデータセットの2.5倍以上の規模である。次に、我々のデータを用いてRLでオープンウェイトモデルを訓練する。その際、シンプルで結果のみに基づくレシピを使用する。我々はデータ、モデル、コードを、将来のターミナルエージェントに関するオープンな学術研究のための強力なベースラインとして、https://github.com/hamishivi/tmax で公開する。

フローマッチングのための報酬逆伝播の設計空間の探索
Exploring the Design Space of Reward Backpropagation for Flow Matching

Jun 9

ByRuoyu Wang, Boye Niu, Xiangxin Zhou, Yushi Huang, Tongliang Liu, Chi Zhang

直接的な報酬逆伝播によるテキストから画像へのフローマッチングモデルの人間の選好への適合はサンプル効率が良いが、二つのよく知られた病理によって妨げられる。すなわち、現代のモデル規模ではアクティベーションを全サンプリング軌跡にわたって保存できず、またステップ間の連鎖的なヤコビ行列積が報酬勾配を初期インデックスに逆伝播する際に膨張させる。LeapAlignなどのコネクタベースの手法は、完全な逆方向軌跡を短い固定経路で置き換えることでこれらの問題に対処し、サンプリングと最適化の間の有用な分離を強調する。しかし、得られる勾配の質は、この短い経路が特に長い区間において完全なロールアウトをどれだけ正確に近似するかに依存する。我々はFlowBPを提案する。これは逆方向軌跡自体を設計対象として扱う統一的なサロゲート軌跡フレームワークである。FlowBPはサンプリングのために勾配なしでキャッシュされたロールアウトを保持し、次にキャッシュされた速度と選択的に再順方向計算された速度から軽量な逆方向サロゲートを構築する。この見方は4つの選択肢、すなわち報酬モデル入力、アクティブセット、統合重み、ブリッジ結合を分離し、従来の直接勾配法を特定の設定として再現する。このフレームワーク内で、我々は3つの変種を具体化する。FlowBP-Sparseはスパースなオイラー再構成を使用し、FlowBP-Bridgeは制御されたブリッジ結合を追加し、FlowBP-Lagrangeは跳躍求積の次数を上げる。これら3つすべてはアクティブセットサイズによってメモリを制限し、勾配連鎖を最大1つのヤコビ因子に制限する。SD3.5-M、FLUX.1-dev、FLUX.2-Klein-baseにおいて、選好、品質、構成的指標にわたって、3つの変種はほとんどの指標で直接勾配ベースラインを改善する。

速度編集による安全な少数ステップ生成
Safe Few-Step Generation via Velocity Editing

Jun 22

ByYujin Choi, Jaehong Yoon

フローマッチングは、近年、最先端のテキストから画像への生成（T2I）における強力なパラダイムとして登場し、少数のサンプリングステップで高品質な生成を実現しています。これらのモデルが実世界のアプリケーションにますます統合されるにつれて、安全で不適切でないコンテンツ生成を確保することが重要な要件となっています。しかしながら、この新しい生成フレームワークに安全性や概念除去の手法を適応させることは、依然として未解決の課題です。具体的には、従来の手法は主に、多数のノイズ除去ステップにわたる反復的な軌道制御や、CLIP中心のプロンプト埋め込み操作に依存しています。これらの設計上の前提は、限られたサンプリングステップが反復的な修正を制約し、現代の文脈認識型テキストエンコーダが埋め込みレベルでの介入の効果を低下させる、フローマッチングベースのT2I生成における安全性にとって根本的なボトルネックとなります。本稿では、VESFlowを提案します。これは、フローマッチングに特化し、極めて少ないサンプリングステップで動作する訓練不要の安全性手法です。フローマッチングモデルが限界速度（marginal velocity）を学習するという特性を活用し、安全条件付き事後分布を用いて速度場を直接編集します。VESFlowは、条件付けプロンプトを変更せずに、軌道を安全な出力へと導きます。VESFlowが良性プロンプト下では出力を変更しないという観察に基づき、さらにリスクスコアベースのフィルタリングを導入し、速度編集を迂回することで計算コストを削減しつつ、良性プロンプトの生成を維持します。このフィルタリングに基づき、VESFlowのより強力な変種であるVESFlow+を提案します。これは、速度を安全方向に編集するだけでなく、不安全方向から遠ざけるようにも作用します。実験結果から、VESFlow+は対象概念を除去し、4ステップのMeanFlowモデルにおいて、Ring-A-BellではNudeNetによる攻撃成功率を6.3％に、MMA-Diffusionでは6.8％に低減するとともに、良性プロンプトに対する忠実性を維持することが示されました。

リスクのないオープン重みモデルに向けて：LLMにおける公開能力と非公開能力の分離
Toward Open Weight Models Without Risks: Separating Public and Private Capabilities in LLMs

Jun 19

ByCharbel El Feghali, Arkil Patel, Nicholas Meade, Spandana Gella, Verna Dankers, Siva Reddy

オープンウェイトの大規模言語モデル（LLM）は、科学的進歩と幅広い展開を可能にする。しかしその一方で、機密性の高い能力へのアクセスを制御することが困難になる。現行の手法では、リリース前に危険な能力を抑制するか、特殊なモデルバリアント、入出力モニター、API権限を利用したクローズドサービスを通じてアクセスを仲介するかのいずれかである。前者はジェイルブレイクの影響を受けやすく、少数のユーザーがもたらすリスクを軽減するために、全ユーザーの能力を犠牲にする。後者はオープンウェイトリリースと根本的に相容れない。本論文では、単一のリリースされた重みセットで複数の能力レベルをサポートするTiered Language Models（TLM）を提案する。デフォルトの公開構成では、TLMは従来のLLMとして動作する。コンパクトな秘密鍵が小さなパラメータサブセット上の置換を指定し、同じ重み上に代替計算グラフを誘導して追加の能力を露出させる。我々は、両方の構成をスクラッチから共同で事前学習し、その後、公開モデルの振る舞いを維持するための正則化を施したプライベートデータで鍵付き構成を微調整する訓練プロトコルを開発する。180Mパラメータおよび650MパラメータのTLMを事前学習し、鍵付き構成が新しい言語を習得し、指示追従能力を獲得し、プライベートな事実知識を記憶できる一方、公開構成はこれらの能力を一切示さないことを実証する。さらに、本アプローチが複数の階層的ティアに自然に拡張可能であることを示す。認証は入力空間ではなくモデルの重み構造上で動作するため、本メカニズムは微調整ベースの抽出や部分的な鍵の漏洩に耐性がある。TLMは一般に、オープンウェイトリリースと選択的な能力制御の調和に向けた一歩となる。

PoLAR: 潜在行動における範囲とモードの因子分解によるロボットポリシー学習
PoLAR: Factorizing Extent and Mode in Latent Actions for Robot Policy Learning

Jun 19

ByYoungjoon Jeong, Jihwan Yu, Minsoo Jo, Junha Chun, Taesup Kim

潜在動作事前学習は観測ペアから視覚的変化の表現を学習するが、既存手法は各遷移を単一の非構造化表現として符号化し、遷移の範囲と遷移モードが混在してしまう。本稿では放射構造を持つ極座標潜在動作（PoLAR）を導入し、潜在動作に動径方向の構造を課すことで、半径に遷移範囲を、方向に遷移モードを保持させる。PoLARは二つの観測間の時間差を遷移範囲の弱い代理指標として用い、時間的ギャップが大きい観測ペアから得られる潜在動作ほど大きな半径を占めるよう促す。この構造を双曲空間で具体化する。双曲空間は半径の増加に伴い体積が拡大するため、より多様な遷移モードを大きな範囲で自然に表現できる。タスク内設定と大規模事前学習設定の両方において、PoLARはシミュレーションおよび実世界のロボット実験で下流ポリシーのパフォーマンスを向上させ、潜在動作のベースラインや強力な事前学習済みVLAを上回った。これらの結果は、潜在動作空間の幾何構造が、視覚的事前学習を下流のロボットポリシー学習に転移する上で重要な設計選択であることを示唆している。

点と点を繋ぐ：強化学習によるクロスドメイン汎化を用いた長期運用エージェント向けLLM訓練
Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

Jun 18

ByYanxi Chen, Weijie Shi, Yuexiang Xie, Boyi Hu, Yaliang Li, Bolin Ding, Jingren Zhou

本稿では、大規模言語モデル（LLM）に「点と点を結ぶ」（CoD）能力を訓練するための一般的なフレームワークを提案する。CoDとは、長寿命エージェントに必要とされるメタ能力である。LLMベースのAIエージェントが環境に展開されると、長期間にわたる一連のタスクを解決しながら、継続的に環境を探索し、自身の経験から学習し、環境に関するコンテキストを反復的に自己更新する。これにより、更新されたコンテキストに基づいて将来のタスクでの性能が段階的に向上する。 CoDフレームワークの主要な構成要素は以下の通りである。（1）タスク解決エピソードとコンテキスト更新エピソードを交互に含む長いロールアウト系列を伴うエンドツーエンドの強化学習（RL）のためのアルゴリズム設計とインフラ、（2）訓練中にLLM内で対象のメタ能力を促進・引き出すためのタスクと環境、および評価時にその進捗を正確に測定するためのタスクと環境。本稿では、CoDフレームワークの概念実証実装を示す。具体的には、細粒度のクレジット配分を備えたGRPOスタイルのRLアルゴリズムと、ドメイン固有のLLM能力や標準的なタスク単位のRLではなく、対象のメタ能力に合わせて調整されたタスクと環境を提供する。実験結果は、CoD設定におけるエンドツーエンドRL訓練の有効性を確認し、引き出されたメタ能力が訓練ドメイン内、異なるドメイン間、そしてCoDからRalph-loop設定への分布外汎化の可能性を示している。本稿のCoDに関する研究は、先行研究の複数の流れを結びつけ、LLMとAIエージェントの発展に向けた新たな機会を開くものである。さらなる研究と応用を促進するため、実装をhttps://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_codで公開する。

エージェント時代の因果発見
Causal Discovery in the Era of Agents

Jun 22

ByYujia Zheng, Vishal Verma, Mantej Gill, Haoyue Dai, Peter Spirtes, Kun Zhang

近年、大規模言語モデル（LLM）と因果発見を組み合わせようとする試みでは、モデルにペアごとの方向性を推論させたり、グラフ構造を提案させたり、言語モデルの出力を事前分布や制約として注入したりしている。これらのアプローチはより高速な分析を約束する一方で、因果的証拠がデータと仮定に基づくものなのか、それともテキスト上の関連性、プロンプトアーティファクト、幻覚的なメカニズムに支えられているのかを曖昧にしてしまう。我々は、因果発見におけるエージェントの役割として異なるものを主張する。エージェントはデータを検査し、文脈を取得し、手法の仮定を説明し、グラフ出力を明確化すべきであるが、エッジや方向、事前分布、制約、因果的結論を提供すべきではない。我々は、エージェントがワークフローを支援する一方で、因果的主張はデータ、明示的な仮定、形式的アルゴリズム、診断、そしてユーザーやドメイン専門家の判断に基づき続けるべきであるという原則を提案する。この原則を、causal-learn+というオンラインプラットフォームで具体化する。このプラットフォームは、causal-learnのアルゴリズムエコシステムを中心に、データ分析、前処理、手法推薦、専門知識の組み込み、形式的発見、解釈を統合する。ビッグファイブ性格データを用いたケーススタディは、言語モデルの信頼性の低さを因果的証拠に転換することなく、エージェント支援による因果発見のパイプラインを実証する。本プラットフォームはcausallearn.comで利用可能である。

テーパー言語モデル
Tapered Language Models

Jun 22

ByReza Bayat, Ali Behrouz, Aaron Courville

近年の言語モデル（Transformer、再帰型、記憶ベースの派生型を含む）は、深さ方向に均一にパラメータが割り当てられた同一構成の層を積み重ねるという共通の基本構造を採用している。これはオリジナルのTransformerから継承され、その後ほとんど変更されていないデフォルトの設計である。しかし、層ごとに最終出力への寄与が不均一であり、後段の層は残差ストリームを変換するのではなく洗練（リファイン）する傾向があることを示す証拠が蓄積されつつある。本研究では、この非対称性をパラメータ容量の配分に反映すべきかを問う。制御実験の結果、一定の予算制約下で、前段の層により多くの容量を、後段の層により少ない容量を割り当てると、均一幅のベースラインと比較してパープレキシティが改善される一方、逆の割り当ては性能を損なうことが示された。この結果を基に、一定の総予算のもとでパラメータを担う構成要素を深さ方向に単調にテーパリング（先細り）するアーキテクチャ原理である「テーパード言語モデル（TLM）」を提案する。MLP層はこの適用に最も適している。なぜなら、MLPは現代のあらゆる言語モデルファミリーにおいてパラメータ数の大半を占め、その幅という単一かつ明確な軸で変化を加えられるからである。3つのモデル規模と4つのアーキテクチャ（Transformer、Gated Attention、Hope-attention、Titans）において、滑らかなコサインスケジュールでMLP幅をテーパリングすることで、パラメータ数や計算コストを増やすことなく、均一幅のベースラインと比較してパープレキシティと下流ベンチマーク性能が一貫して向上した。これらの知見は、深さを考慮した容量配分が、アーキテクチャに依存しないシンプルな言語モデル設計の軸であり、目に見えているのに見過ごされていた自由なレバーであることを示している。

Counsel：エージェント型タスクのためのメタ評価データセット
Counsel: A Meta-Evaluation Dataset for Agentic Tasks

Jun 19

BySashank Pisupati, Henry Broomfield, Eujeong Choi, Antonia Calvi, Charlie Wang, Roman Engeler, Max Bartolo, Patrick Lewis

エージェントシステムがますます複雑な多段階タスクに取り組むにつれて、その軌跡を評価することは大きなボトルネックとなっています。一般的なエージェントベンチマークにおける単一の軌跡に対する人間によるアノテーションには数時間を要する場合があり、パフォーマンス測定や訓練データの収集のための評価を大規模に行うことが困難になっています。このため、LLM判定器（LLMJ）のような自動化アプローチに広く依存し、エージェントをプロセスレベルおよび結果レベルで大規模に批評することが一般的になりました。しかし、LLMJの批評の信頼性が測定されることはほとんどありません。本稿では、エージェントタスクのメタ評価を対象とした初の公開データセットであるCounselを紹介します。Counselは、2つのエージェントベンチマーク（カスタマーサポートエージェント向けtau-benchおよびコーディングエージェント向けDA-Code）におけるオープンウェイトLLMJからのプロセスレベルの批評と、それらの批評に対する人間によるメタ評価から構成されています。人間のアノテーターは、各指摘エラーに対して「的確」、「位置は正しいが推論が不十分」、「指摘すべきでない」のラベルを付与し、信頼性の高いアノテーター間一致（クリッペンドルフのα係数0.78）を達成しました。得られたデータセットは、軌跡内のエラー位置と推論品質の両方において人間との一致度に基づいてLLMJの批評を層別化し、エージェント向けLLMJの調整、改善、または訓練のための貴重なデータとして機能します。オープンウェイト判定器を比較した結果、より高性能な判定器モデルとより多くの推論努力の両方が人間との一致度向上に寄与し、最も強力な判定器では位置の一致度が約88%、推論の一致度が約65%に達しました。Counselはオープンウェイトモデルを用いて生成され、寛容なライセンスの下でコミュニティに広く提供されており、これによりエージェントシステム向けLLMベース評価器の厳密な研究と一致度の向上が促進されることを期待しています。

グローバルマップとローカルビューを用いた多視点3D推論のための密な報酬
Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views

Jun 22

ByJiho Choi, Seonho Lee, Seojeong Park, Hyunjung Shim

マルチビュー3D視覚質問応答（MV3D-VQA）では、部分的な観測を統合して一貫した3Dシーン表現を構築し、多段階の空間推論のために情報量の多い視点を選択する必要がある。しかし、現在のマルチモーダルLLMは通常、疎な回答レベルの教師信号で訓練されており、その結果、ビュー間の推論に一貫性がなく、視点選択が脆弱になることが多い。我々は、DR-MV3D（MV3D-VQAのための高密度報酬）を提案する。これは、推論プロセスを監督するための高密度で検証可能な報酬を提供するマップに基づく学習フレームワークである。我々のアプローチは、MV3D-VQAを(i) アロセントリックなグローバルマップ構築、(ii) 質問条件付き視点軌道計画、(iii) 回答予測のためのエゴセントリックなグラウンディングに分解する。中間ステップを手動アノテーションなしで学習可能にするために、2つの報酬を導入する。グローバル一貫性報酬は、予測されたマップを、凍結された3D視覚基盤モデル（例：VGGT + SAM3）からの幾何学的に一貫した擬似ターゲットと整列させ、局所軌道報酬は、順序付き視点選択を監督する。我々は、軌道レベルの政策最適化（GRPO）を用いてパイプライン全体を最適化する。MindCube、VSI-Bench、BLINK (MV) での実験により、DR-MV3Dが強力なマルチ画像ベースラインを一貫して上回り、マルチビュー3D推論におけるプロセスレベルの高密度監督の有効性が示された。

PolicyTrim: 視覚言語行動モデルの内在的な方策効率の向上
PolicyTrim: Boosting Intrinsic Policy Efficiency of Vision-Language-Action Models

Jun 21

ByXianghui Wang, Feng Chen, Wenbo Zhang, Hua Yan, Zixuan Wang, Changsheng Li, Yinjie Lei

ビジョン・ランゲージ・アクション（VLA）モデルはロボット操作の統一的パラダイムを提供する一方、実環境への展開は実行効率によってしばしばボトルネックに直面する。既存の研究は主に計算中心の効率性、すなわち1ステップあたりの推論レイテンシ削減に注力しているが、これらのモデルが本質的に持つポリシー効率はほとんど未探求のままである。ポリシー効率は、予測されたアクションチュークの実効実行可能長と、タスク完了に必要な物理ステップの総数という2つの要因に根本的に影響される。これら2つの要因は実行中の前方推論呼び出しの総数を共同で決定する。我々は、現在のVLAポリシーが計画の信頼性低下と行動の冗長性に悩まされ、アクションチュークの末尾で深刻な予測劣化が生じ、不必要に冗長な物理ステップを生成する傾向があることを観測した。この問題に対処するため、我々はPolicyTrimを提案する。これは強化学習に基づくポストトレーニングフレームワークであり、信頼性のあるアクションチューク長を拡張し、冗長な物理ステップを削減する。信頼性のあるチャンク拡張のために、動的探索戦略を採用する。これはより長い実行可能長の成功完了に対して明示的に報酬を与え、信頼できる予測ホライズンを経験的な限界まで徐々に押し上げる。ステップ効率のために、冗長性認識報酬を設計する。これは少ないステップでタスクを成功裏に完了することを直接的に好み、再現不可能なショートカットを罰することで冗長な物理行動を効果的に排除する。3つのベンチマークと3つのVLAモデルにわたる広範な実験により、PolicyTrimはアクションチューク利用率を3倍に向上させ、物理実行ステップを51.4%削減することを示した。最終的に、我々のフレームワークはタスク成功率を損なうことなく、最大5.83倍のエンドツーエンド展開高速化を実現する。

検証可能な探索は学習可能な思考連鎖ではない
A Verifiable Search Is Not a Learnable Chain-of-Thought

Jun 20

ByHarsh Patel

短いプログラムで解決可能なタスクであれば、その手順をチェーン・オブ・ソートとしてモデルに教え込める——つまり、手順を書き出してファインチューニングすればモデルが従うようになる——と考えるのは魅力的である。本論文では、この想定が特定可能なクラスの手順に対しては成立しないことを示す。評価環境として9つの推論タスクを用いた。各タスクは決定論的生成器から作成される。公開データと非公開データは生成器を共有しており、保持データがテスト精度の代理となる。これらの生成器をリバースエンジニアリングしてPythonによる解法プログラムに変換し、それをチェーン・オブ・ソートとしてレンダリングし、ランク32以下のLoRAを用いて300億パラメータ（うち35億がアクティブ）のNemotronモデルに蒸留した。前方計算可能なタスクは容易にインストールできた。ルックアップや算術、8ビットのブール演算タスクは転送に成功した（それぞれ0.99以上、0.68）。しかし暗号算（cryptarithm）はそうではなかった。バックトラッキング探索を蒸留しても、11種類のチェーン・オブ・ソート設計、検証可能報酬による強化学習、自己学習のいずれでも精度は0.01～0.07にとどまった。それにもかかわらず、探索解法はインスタンスの71%を正解できる。これは能力のギャップではない。モデルは行の97～100%で算術演算を実行し、71%で正しい暗号を上位8位以内にランク付けできる。しかし、探索を左から右への導出として進めることはできない。ファインチューニングは検証可能な除去ステップの形状を学習するが、その判定は無条件のテンプレートとなり、正しさは16～57%の時間にしかならない（「トークンとしての判定」）。この上限は、30億から6710億パラメータまでのバックボーン、ファインチューニングとプロンプティングの両方で変わらない。制御された介入によって原因が特定された。すなわち、暗号鍵を明らかにすると（これにより導出が前方化される）、同じインスタンスの精度が0.03から0.57に上昇する。手順の唯一の解法が情報を持たない構造の探索である場合、模倣可能な忠実な前方チェーン・オブ・ソートは存在しない。タスクを学習可能にするためには、探索を除去し、その組み合わせ論的核心をカタログに事前計算し、トレースを想起と検証に縮約するしかない。この方法で、一位の解法はPrivate LBで0.92に達した。蒸留されるのは記憶と検証であり、探索ではない。

Vera：コンテンツ保存型ビデオ編集のための階層的拡散モデル
Vera: A Layered Diffusion Model for Content-Preserving Video Editing

Jun 22

ByHongkai Zheng, Ta-Ying Cheng, Benjamin Klein, Yisong Yue, Zhuoning Yuan

ビデオ拡散モデルは、動画生成や編集において顕著な進歩をもたらしました。しかし、コンテンツの保存は依然として中心的な課題であり、既存手法はすべてのピクセルを再生成するため、変化すべきでない要素（キャラクターや背景シーンなど）まで変更してしまうことがあります。本稿では、コンテンツを保存しながら動画編集を行う階層型拡散フレームワーク「Vera」を提案します。Veraは動画全体を再生成するのではなく、編集レイヤーとアルファマットを生成し、それをソース動画と合成することで、クリエイティブな編集とコンテンツ保存を設計上分離します。ソース動画との一貫した合成を促進するため、テキストから動画へのDiTを拡張し、各レイヤーごとに独立したDiTを配置し、それらを結合自己注意機構（joint self-attention）で相互作用させる混合トランスフォーマー（Mixture-of-Transformers, MoT）アーキテクチャを導入します。さらに、Veraの学習を支援するために、高精度なアルファマット、多様なシーンとダイナミクス、視覚効果を備えた高品質な階層型データセットを構築しました。Veraは、486Kフレームの階層型学習データを用いて、定量的ベンチマークおよび人間による嗜好調査において、編集品質で競争力を保ちつつ、コンテンツ保存の面で主要なオープンソース動画編集モデルを上回る性能を示しました。

多様体バンディット：大規模言語モデルの潜在幾何学に基づくベイズ的カリキュラム学習
Manifold Bandits: Bayesian Curriculum Learning over the Latent Geometry of Large Language Models

Jun 18

ByDarrien McKenzie, Nicklas Hansen, Xiaolong Wang

強化学習（RL）は、大規模言語モデル（LLM）の推論能力を向上させるための中心的アプローチであり、その訓練効率は最適化中の問題サンプリング方法に大きく依存する。既存の適応的カリキュラム学習手法は、通常、中程度の難易度のプロンプトを優先し、問題選択を独立した腕を持つ標準的なバンディット問題として扱うため、タスク空間の構造化された不均一な性質を見落としている。本研究では、問題サンプリングを内生的非定常性を伴う多様体構造バンディット問題として位置づける。すなわち、問題はモデルの潜在表現空間を通じて相互に関連しており、サンプリングの選択はその空間全体にわたる学習信号の進化を方向づける。この視点を実現するために、我々はベイズ多様体カリキュラム（BMC）を導入する。これは、問題を階層的タスクツリーに整理し、ベイズ学習を適用してサンプリングを導く構造認識型フレームワークである。実験的に、異なるサンプリング戦略は、生産性（学習信号）、多様性（タスク多様体のカバレッジ）、有用性（評価上の関連性）の間で無視できないトレードオフを引き起こすことが明らかになった。これらの結果は、難易度の優先だけでは下流の性能を強く向上させるには不十分であり、問題サンプリングに構造とタイプ認識を組み込むことの重要性を浮き彫りにしている。

線形プローブとマハラノビス余弦類似度の比較
Comparing Linear Probes with Mahalanobis Cosine Similarity

Jun 17

ByZhuofan Josh Ying, Peter Hase, Nikolaus Kriegeskorte

線形プローブは解釈可能性研究で広く用いられ、しばしばコサイン類似度によって比較される。二つの方向間のマハラノビス・コサイン類似度（MCS）は、テストデータの共分散で内積を再重み付けするものであり、自然なタスク認識の改良である。Yingら（2026）は、プローブのOOD AUROCが、分布外（OOD）データで学習された参照プローブとのMCSによってほぼ完全に線形予測される（R² = 0.98）と報告している。ここでは、この経験的発見をモデル、層、概念領域にわたって拡張し、この一般的な現象を閉形式で証明する：射影がガウス分布に従うバランスの取れたクラスに対して、OOD AUROCと参照プローブへのMCSは線形関係にある。なぜなら、両者はテストデータ上のプローブの信号対雑音比（SNR）のシグモイド型関数だからである。理論はまた、この線形性が失敗する場合も予測し、それを実験的に検証する。MCSは、線形プローブを比較するためのユークリッド・コサイン類似度に代わる、理論的に根拠があり経験的に有効な選択肢を提供する。

FastMix: 勾配降下法による高速データ混合最適化
FastMix: Fast Data Mixture Optimization via Gradient Descent

Jun 12

ByHaoru Tan, Sitong Wu, Yanfeng Chen, Jun Xia, Ruobing Xie, Bin Xia, Xingwu Sun, Xiaojuan Qi

大規模で多様なデータセットが大規模モデルの最近の進展を牽引してきた一方で、事前学習および事後学習における最適なデータ混合比率を特定することは、依然として重要な未解決課題です。本研究では、この課題に対処するため、単一のプロキシモデルを学習するだけでデータ混合の発見を自動化する新たなフレームワークFASTMIXを提案します。FASTMIXは、事前に定義されたヒューリスティックスやリソース負荷の高いシミュレーションに依存する代わりに、混合係数とモデルパラメータを同時に最適化することで、従来手法と比較して効率性とスケーラビリティを大幅に向上させます。FASTMIXの中核は、混合選択を二段階最適化問題として再定式化することです。この再定式化の下で、混合比率の最適化は、一様なソースサンプリングにおけるソース別損失重みの割り当てと数学的に等価であることを示します。これにより、混合係数を微分可能な反復最適化目的関数に直接埋め込み、混合とモデルの両方に対して効率的な勾配ベースの最適化を可能にします。この最適化問題を解くために、FASTMIXは近似的な反復最適化手順を実装し、(i)現在の混合比率に従ってサンプリングされたデータを用いたモデルパラメータの更新（内部ループ）と、(ii)検証フィードバックに基づく混合比率の更新（外部ループ）を交互に行います。事前学習と事後学習の両方において、FASTMIXはベースラインを上回る性能を示すと同時に、探索コストを大幅に削減します。コードはhttps://github.com/hrtan/fastmixで公開されています。

UniverSat: 解像度およびモダリティに依存しない地球観測用トランスフォーマー
UniverSat: Resolution- and Modality-Agnostic Transformers for Earth Observation

Jun 22

ByYohann Perron, Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu

Vision Transformers (ViT) はコンピュータビジョンを席巻している。しかしながら、それらが剛直なパッチプロジェクタに依存していることにより、入力モダリティ、スケール、解像度が大きく異なる地球観測（EO）への転移が妨げられている。本稿では、任意の空間・スペクトル・時間解像度、および光学・非光学両方のセンサからのパッチを、共有の重みセットを用いて共有埋め込み空間にマッピングする Universal Patch Encoder を中心に据えた、ViT スタイルのバックボーンである UniverSat を提案する。これにより、自己教師あり学習を介して不均一なマルチモーダルコーパス上で単一モデルを訓練することが可能となり、頑健でセンサ非依存の空間特徴が得られる。本手法を、GeoBench、PANGEABench、SpectralEarth の標準 EO ベンチマークにおける分類・セグメンテーションタスクで検証し、優れた結果を得た。コードとモデルは https://github.com/gastruc/UniverSat で公開している。

データ制約下の言語モデル事前学習における訓練時拡張の解明
Demystifying Training-Time Augmentation for Data-Constrained Language Model Pretraining

Jun 19

ByMichael K. Chen, Xikun Zhang, Fan Bai, Zhengding Hu, Zhen Wang

AI研究所が、計算能力が高品質な新規テキスト生成の速度を上回るデータの天井に近づくにつれ、言語モデルの事前学習はデータ制約下かつ計算豊富な状況へと移行し、固定コーパスでの効率的なマルチエポック学習が求められている。この設定では、標準的な自己回帰（AR）事前学習は深刻な過学習を起こし、最適値に早期に到達した後、継続的に性能が低下する。本研究では、学習時のデータ拡張を正則化手法として導入し、この過学習を抑制し、同一データでの数百エポックにわたる効率的な学習を可能にする。AR事前学習のための三つの直交する拡張カテゴリ、すなわちトークンレベルのノイズ（マスキング、ランダム置換）、系列の順列操作（右から左への予測、Fill-in-the-Middle）、およびターゲットオフセット予測（i>1に対するx_{t+i}）を提案する。系統的なアブレーション実験の結果、個別の拡張手法はいずれも過学習を遅らせ、ベースラインと比較して検証損失を低減し、なかでもランダムトークン置換が個別手法の中で最小損失を達成した。さらに拡張カテゴリを組み合わせることで、最小検証損失はさらに低下する。本実験は、データ拡張がAR事前学習のデータ非効率性を緩和し、データ制約下の状況に対する有望な解決策を提供することを示す\footnote{全コードとデータは https://github.com/ michaelchen-lab/ data-augmentations-for-pretraining で入手可能。}

CalVerT: 校正された検証器テレメトリを用いたエージェントの強化が、知識集約型タスクにおける行動と学習を改善する
CalVerT: Augmenting Agents with Calibrated Verifier Telemetry Improves Action and Learning in Knowledge-Intensive Tasks

Jun 19

ByAshwin Vinod, Ying Ding, Elias Stengel-Eskin

知識集約型の質問応答におけるLLMエージェントは、現在の回答が不確かであるか、根拠がないか、あるいはすでに完全であるかについて不完全な知識しか持たない状態で、検索と推論の行動を取ります。これにより、二つの失敗モードが生じます。すなわち、自信はあるが根拠のない回答を採用して精度を損なうことと、手元の証拠で十分であるにもかかわらず過剰に検索を行い、計算資源を無駄にすることです。エージェントが動作する状態空間をより完全に把握できるようにするため、我々は較正済み検証器テレメトリ（CalVerT）を導入する。これはエージェントの状態に追加のテレメトリ、すなわち較正済み自己信頼度スコアと根拠付け検証器スコアを付加するものである。CalVerTが訓練不要の設定と訓練ベースの設定の両方でエージェントを改善できることを示す。四つのQAベンチマークにおいて、CalVerTが、エージェントがパラメトリック知識に過度に依存する場合に検索をトリガーすることでF1を向上させ、一方でエージェントが回答に十分な文脈を持つ場合には冗長な検索を削減することを確認した。CalVerTは訓練なしで既存のQAフレームワークを拡張できることを示す。さらに、CalVerTは訓練済みシステムも改善する。エージェントの状態にテレメトリを単純に付加するだけで、同一の訓練を受けているがCalVerTテレメトリを持たないエージェントと比較して、強化学習後に改善が見られる。

TROPT: 離散テキスト最適化を統合・進展させるためのオープンフレームワーク
TROPT: An Open Framework for Unifying and Advancing Discrete Text Optimization

Jun 22

ByMatan Ben-Tov, Mahmood Sharif

離散的なテキストトリガー最適化（モデルに入力されると指定された目的に誘導するテキストシーケンスを探索する手法）は、モデルのレッドチーミング（例：LLM脱獄）や監査、解釈可能性を支える基盤技術である。しかし、現状の離散最適化ツールはその普及と進展を阻んでいる。第一に、既存の最適化ツールは（たとえオープンソース化されていても）特定のモデル、目的、問題領域に紐づいた研究用コードベースに散在している。第二に、最適化ツールの亜種が増殖しており、それぞれに使用や拡張に工数がかかり、直接比較することも困難である。これらの要因が相まって、既存・新規領域への最適化ツールの導入や、新たな戦略による発展のハードルを高めている。我々はこれらの課題に対し、TROPTを提案する。TROPTは、離散最適化ツールの実行を統合し、単一のインターフェースの下で標準化された開発を実現する、初のオープンソースフレームワークである。TROPTでは、モデル・目的・最適化ツールといった任意の構成要素を差し替えることで、エンドツーエンドの最適化レシピを容易にカスタマイズでき、その適用範囲を多様な領域や新たな応用に拡張できる。現在TROPTには、15以上の最適化ツール（ホワイトボックスからブラックボックスアクセスまでを網羅）と15以上の損失関数（基礎的手法から最先端手法まで）から構成される、30以上の最適化レシピが同梱されており、脱獄やモデル内部の探索といった応用をカバーしている。その有用性を示すため、我々はTROPTを用いて以下の研究を実施した。(i) LLM脱獄のための最適化戦略を比較・改善する、制御された大規模実験。これにより、強力でありながらあまり採用されていない手法を明らかにした。(ii) ある領域（例：LLM脱獄）の最適化ツールを新たな領域（例：コーパス汚染による埋め込みモデルへの攻撃）へ移植。総じてTROPTは、離散テキスト最適化の導入と発展のハードルを大幅に引き下げるものである。

エージェントが早すぎるコミットをするとき：LLMエージェントにおける時期尚早なコミットメントの診断
When Agents Commit Too Soon: Diagnosing Premature Commitment in LLM Agents

Jun 22

ByAman Mehta

長期的なタスクを実行するLLMエージェントは、静かに失敗することがある。すなわち、証拠の一読解に早期に固執し、その後はその解釈を擁護することに残りの実行時間を費やす。これを早期コミットメント（premature commitment）と呼ぶ。最終回答スコアリングではこの失敗モードを捉えられない。なぜなら、回答だけを評価し、プロセスが既に安定した経路に収束しているかどうかは考慮しないからである。そこで、特定の推論ステップにおける実行間の隠れ状態の収束を「表現的コミットメント（representational commitment）」と定義し、軌跡の一貫性の早期診断指標として用いる。Llama-3.1-70B上でHotpotQAに対してReActを実行した場合、ステップ4における隠れ状態の類似度は下流の行動一貫性を予測し（r = -0.35、部分相関係数 r = -0.45）、時間方向および層方向に局所化されたシグネチャを示す。この信号はQwen-2.5-72BやPhi-3-14B、さらにStrategyQA（r = -0.83）でも再現される。ただし、この信号は正解率を追跡しない。すなわち、コミットしたが誤っている質問とコミットして正しい質問は、活性化類似度では区別できない。この境界が本主張の核心である。コミットメントはエージェントが「固着したか」を示すのであって、「正しいか」を示すものではない。実行時モニタにより、隠れ状態から一貫性のない軌跡を検出でき、AUROCは最大0.97（より厳格な分割では0.85～0.88）に達する。また、プロンプト介入によって、トークン数を一致させた対照群と比較して行動分散を28%削減しつつ、精度には統計的に有意な変化は見られない。さらに、この信号を自己無撞着計算のルーティングに利用できるかも検証したが、より困難なベンチマークでは効果は限定的であり、より単純な出力ベースのベースラインと同等であった。結果として、これは隠れたプロセス障害に対する診断手法であり、一般的な精度向上の手段ではなく、明確な限界を伴うものである。

有能だが不注意：コンピュータ利用エージェントは文脈的整合性に従うのか？
Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?

Jun 22

ByAnmol Goel, Iryna Gurevych

コンピュータ利用エージェント（CUA）は現在、電子メール、カレンダー、ToDoリストといった個人向けアプリケーションにおいて、ユーザーに代わって動作している。このようなアプリケーション横断的なアクセスは有用である一方、これまでほとんど見過ごされてきたプライバシーリスクを生み出している。それは、エージェントがあるコンテキストで作業を行う際、そのコンテキストでは不適切な情報を別のコンテキストから引き込んでしまう可能性があるという点である。そこで我々は、このリスクを実行可能かつ決定論的にスコア付け可能なシナリオに変換する評価フレームワーク、AgentCIBenchを提案する。我々はCUAに共通する3つの障害モードに着目する。すなわち、（1）視覚的共配置：エージェントがUI上のタスク対象の隣に位置する禁止項目を取り込んでしまうケース、（2）タスク曖昧性による過剰共有：エージェントが不十分に指定されたプロンプトに対して過剰な個人情報を出力してしまうケース、（3）受信者不一致：エージェントが不適切な受信者にコンテンツを送信してしまうケースである。我々は最先端のエージェント15種類を評価した結果、驚くべき高い障害率を確認した。15件中11件のエージェントが50%以上のシナリオで情報漏洩を起こし、平均漏洩率は67.9%に達した。さらに、エージェントが環境内でエンドツーエンドに動作してタスクを完了する場合でも、同様の障害が持続して発生することが確認された。我々はAgentCIBenchを公開し、より安全なコンピュータ利用エージェントの開発を促進するとともに、文脈開示テストを導入段階の安全性チェックとして位置づける。

Arbor: 明示的な幾何学的条件付けによる制御可能な3Dアセット生成
Arbor: Explicit Geometric Conditioning for Controllable 3D Asset Generation

Jun 22

ByJan-Niklas Dihlmann, Andreas Engelhardt, Simon Donne, Hendrik P. A. Lensch, Mark Boss

テキストと画像に条件付けられた3Dモデルは、現在では説得力のあるアセットを生成できるようになったが、オブジェクトが占有すべき空間や避けるべき空間に対する直接的な制御は依然としてほとんど提供されていない。オーサリングにおいて、このような空間的な意図は生成が始まる前に既に把握されていることが多い。椅子は着座用の包絡領域に収まるべきであり、小道具は動作のためのクリアランスを確保すべきであり、部品は接触面を露出すべきである。プロンプトや画像ビューはこのような制約を伝えるには不十分であり、明示的な制御インターフェースが必要となる。本稿では、テキスト条件付き潜在3D生成のための学習可能なアタッチメントであるArborを提案する。Arborは、制約メッシュをネイティブな3D制御インターフェースとして導入する。このインターフェースは、幾何形状が存在すべきハル領域、空のままであるべき回避領域、オブジェクトが接触すべき接触領域を用いる。補完やオブジェクト全体のスキャフォールド制御とは異なり、これらのメッシュは目標となる証拠ではない。これらは局所的な型付き要求であり、表面が現れてはならない領域を含むことができる。Arborは、制約メッシュをトークンに変換し、凍結されたデノイザー内部でルーティング付きアタッチメントを学習することで、この信号を幾何形状として保持する。これにより、各潜在領域はその空間位置に関係する制約の部分を受け取ることができる。 Arborを、ハル・回避・接触の各制約を用いた自動およびアーティスト選定の制御ベンチマークで評価し、メトリクスの傾向をユーザー嗜好調査と比較した。専用のコンプライアンス損失がなくても、Arborは固定された制約下でオブジェクトの品質と多様性を維持しつつ、制約遵守を改善する。

MeshFlow: 等変フローマッチングによるメッシュ生成
MeshFlow: Mesh Generation with Equivariant Flow Matching

Jun 22

ByQi Sun, Kiyohiro Nakayama, Jing Nathan Yan, Qixing Huang, Alexander Rush, Leonidas Guibas, Gordon Wetzstein, Jing Liao, Guandao Yang

メッシュ表現は3Dシーン表現の中でも最も一般的なものの一つであるが、その直接生成は容易ではない。なぜなら、メッシュ表現には面と頂点の置換不変性といった重要な対称性が内在するからである。MeshFlowは三角形メッシュを三角形スープとして直接生成することを学習し、メッシュを長い自己回帰シーケンスに直列化する必要を排除する。我々は、三角形スープの主要な対称性（面の任意の置換、および各面内の頂点の置換）を尊重する、同変な最適輸送フローマッチングモデルを採用する。この目的に向けて、Diffusion Transformerアーキテクチャに対してシンプルかつ効果的な修正を提案し、所望の同変性を維持しながら速度場をモデル化可能なスケーラブルなネットワークを実現する。さらに、これらの対称性に反する教師信号を排除することで収束を改善する、最適輸送に基づく訓練目的を導入する。MeshFlowは、最先端の自己回帰型メッシュ生成器と同等のメッシュ品質を達成しつつ、推論時に約18倍の高速化を実現する。プロジェクトページは https://qiisun.github.io/MeshFlow/ にある。

HAKARI-Bench: 統一条件下で検索アーキテクチャと効率設定を比較するための軽量ベンチマーク
HAKARI-Bench: A Lightweight Benchmark for Comparing Retrieval Architectures and Efficiency Settings under Unified Conditions

Jun 22

ByYuichi Tateno

検索拡張生成とセマンティック検索の急速な普及に伴い、適切な埋め込みと検索構成を選択することがますます困難になっています。大規模な検索ベンチマークは包括的ですが、開発中に再実行するには負荷が大きすぎ、また同一条件下で多くのモデル間における次元削減、量子化、再ランキングといったプロダクション設定を比較するためのインフラはほとんどありません。本稿では、既存の検索スイートを小規模データセット（Nanoセット）に再構築した軽量ベンチマークであるHAKARI-Benchを提案します。これは35のベンチマークと43言語にわたる551のタスクを統一フォーマットで提供し、同一条件かつモデルに依存しない形で、5つの検索ファミリー（BM25、高密度検索、疎検索、後期相互作用モデル、再ランカー）とその効率バリアントの比較を可能にします。55モデル全体でのランキングは、公式のMTEB Retrieval v2、MMTEB v2 Retrieval、および英語BEIR（全文）をスピアマン相関係数>0.97で再現します。HAKARI-Benchは完全な評価を置き換えるものではなく、迅速なモデル選択、回帰検出、および品質と効率のパレートフロンティアの読み取りを可能にします。コード、データ、リーダーボードはMITライセンスのもとで公開されています。

Lift4D: 実世界での4D再構成のための単一視点3D推定の調和
Lift4D: Harmonizing Single-View 3D Estimation for 4D Reconstruction In-the-Wild

Jun 22

ByYehonathan Litman, Xiaoxuan Ma, Manan Shah, Nicolas Ugrinovic, Kris Kitani, Fernando De la Torre, Shubham Tulsiani

从单目视频重建动态非刚性物体，需要将直接观测的视觉线索与基于数据和外观先验的知识相融合。现有方法要么直接从视觉输入中预测4D表示，要么初始化一个3D表示，随后根据视频证据进行变形和优化。然而，前者受限于4D训练数据的稀缺性，后者仅在初始重建阶段利用先验知识，后续完全依赖视频监督；这两种方法均难以应对包含大形变和遮挡的复杂真实场景。我们提出Lift4D，一种测试时优化框架，旨在解决上述双重局限。首先，我们通过因果潜在条件化，使现有单视角3D重建模型能够生成时间一致的逐帧预测，为可变形3D高斯泼溅表示提供连贯的初始化。随后，我们通过一种遮挡感知优化对该表示进行“雕琢”，使其与输入视频匹配，在忠实恢复可见表面细节的同时，利用视角条件扩散先验完成未观测区域的重建。实验表明，Lift4D显著优于先前的4D重建方法，尤其在存在严重遮挡和非刚性运动的挑战性真实场景序列中表现突出。

リブレット：LLMエージェントに音楽構造の感覚を与える
Libretto: Giving LLM Agents a Sense of Musical Structure

Jun 21

ByYichen Xu

生成音楽システムは現在、テキストプロンプトから印象的な音声を生成できるようになったが、音声出力は音楽構造としての検査、編集、診断が難しい。本稿では、記号的音楽の生成と修正のためのエージェント向けフレームワークであるLibrettoを紹介する。Librettoは、明示的なオンセットスロット、ボイス、小節単位の組織化を備えたLLMネイティブな文法を採用し、各作品をリズム、和声、旋律、テクスチャ、形式、変奏にわたるコーパス校正された統計空間で評価する。同じ構造軸が検索、診断、コピーリスク管理、そして反復的自己修正を支える。ギャップ補完、参照誘導型全曲生成、段階的モーフィング、および教育向け音楽生成にわたって、Librettoは記号的音楽を生のトークン列から、言語モデルエージェントにとって測定可能かつ編集可能なオブジェクトへと変換する。

Go-with-the-Track: ポイントトラッキングを用いたビデオ合成とモーション制御
Go-with-the-Track: Video Compositing and Motion Control with Point Tracking

Jun 18

ByKoichi Namekata, Yash Kant, Zhizheng Liu, Ryan D Burgert, Yuancheng Xu, Kuan Heng Lin, Emmett Steven, Julien Philip, Li Ma, Andrea Vedaldi, Paul Debevec, Ning Yu

映画制作には、正確な動き制御と参照画像の合成が求められますが、既存手法ではこれらの機能を別々に扱っています。ポイントトラック条件付き画像-to-ビデオモデルは最初のフレームのみにコンテンツ挿入を制限し、一方で参照-to-ビデオモデルはフレーム間での参照コンテンツの統合に対する粒度の細かい空間的時間的制御を欠いています。本稿では、複数の参照画像と参照アンカー型ポイントトラックを同時に条件付けることで両機能を統合したGo-with-the-Trackを提案します。従来のポイントトラックを拡張し、生成フレームと参照画像間の対応関係を明示的に確立することで、ビデオ全体にわたる精密な合成と動き制御を実現します。これを達成するために、座標単位のMLPと時間的プーリングを用いてポイントトラック座標の全系列を符号化する、空間認識型ポイントトラック埋め込みを導入します。この表現は各ポイントトラックの空間的特性（一意の識別子として機能）を捉えるとともに、埋め込みの類似性が空間的近接性と直接相関するため、モデルがポイントトラックを区別・関連付ける能力を高めます。これらのポイントトラック埋め込みを軽量アダプターを介してビデオ拡散トランスフォーマーに注入することで、ピクセルとパッチ間の解像度不一致を解消し、単純なポイントトラックのダウンサンプリングに内在する大幅な動き詳細情報の損失を回避します。動的・静的・合成シーンのビデオデータセットを共同で学習するハイブリッド学習戦略を用い、動き制御性を向上させています。実験により、Go-with-the-Trackは単一モデルで優れた動き制御と参照制御を達成し、さらに新しい機能として、ポイントトラック駆動合成によるマルチ参照条件付きビデオ生成、ならびに静的・動的シーンの両方に対するカメラ制御を実現します。プロジェクトページ: https://eyeline-labs.github.io/Go-with-the-Track/

AC-ODM: アクター・クリティックを用いたオンラインデータ混合によるサンプル効率的なLLM事前学習
AC-ODM: Actor--Critic Online Data Mixing for Sample-Efficient LLM Pretraining

Jun 14

ByJing Ma, Chenhao Dang, Mingjie Liao

事前学習データの構成最適化はLLMの汎化にとって極めて重要である。動的ミキシングは進化する学習ダイナミクスを捉えることで静的戦略よりも優れているが、現在の手法では計算効率とサンプル効率、多様なパイプラインに対する構造的柔軟性の両立ができていない。我々はActor-Critic Online Data Mixing（AC-ODM）を提案する。これは強化学習の視点からデータミキシングにアプローチし、理論的に勾配の建設的干渉を最大化する動的線形代理として機能することを証明したパラメータ化ポリシーを用いる。実用的な柔軟性を高めるため、AC-ODMは2つの動作モードをサポートする。（i）固定済みの事前準備されたコーパスに対するプロキシモードでは、小さなモデルで学習したポリシーをより大きなターゲットに転送する。（ii）事前知識なしでスクラッチから直接エンドツーエンド学習する非プロキシモードである。実験的に、AC-ODMは様々なアーキテクチャにおいて収束速度と下流タスク精度で従来手法を大きく上回る。Pythia-1Bでは、競合ベースラインと比較して最大66%少ない訓練ステップで最適な検証困惑度に到達し、MMLU精度で27.5%の相対改善、HumanEvalで2.23倍のpass@1を達成する。しかも、1ステップあたりのウォールクロック増加は事実上無視できる0.4%、メモリオーバーヘッドはわずか2%である。コードは https://github.com/DANG-ai/AC-ODM で入手できる。

Robusto-2: リマとニューヨーク市における自動運転のための人間とVLMのベンチマーキング
Robusto-2: Benchmarking Humans & VLMs for Autonomous Driving in Lima & New York City

Jun 18

ByAdrian Cespedes, Marcelo Chincha, Dunant Cusipuma, Victor Flores-Benites, David Ortega, Arturo Deza

自動運転車が国際的に普及し、VLMなどのマルチモーダルシステムを行動モデルの認知バックボーンとして使用するようになるにつれ、これらのシステムは新しい環境、特に新しい地理における分布外（OOD）のエッジケースシナリオでどの程度一般化するだろうか。本稿では、リマの人間ドライバー、ニューヨーク市出身の人間ドライバー、そしてVLMを用いた完全要因分析を提供し、リマとニューヨーク市で収集されたドライブレコーダーの映像を提示し、視覚的質問応答（VQA）パラダイムのもとで多様な質問を促してこの未解決の問いを研究する。具体的には、現在自動運転車会社が運行していない非常に運転が難しい二都市を選び、事実確認、評価、反事実、推論の4カテゴリにわたる質問をした。その結果、人間とVLMの回答は乖離することがわかった。ただし、これは質問の種類によって調整され、人間は出身地（リマ/NYC）に関わらず同様に回答した。驚くべきことに、地理によって調整される回答（人間またはVLM）に大きな差は見られなかった。これはおそらく、その高い分布外性によるものと考えられる。データセットは以下で公開している：https://huggingface.co/datasets/Artificio/robusto-2

ShotcreteDepth: 吹付コンクリート施工環境における頑健なロボット深度知覚のためのバイモーダルデータセット
ShotcreteDepth: A Bi-modal Dataset for Robust Robotic Depth Perception in Shotcrete Construction Environments

Jun 22

ByJakub Gregorek, Lars Arnold Dethlefsen, Patrick Schmidt, Mads Essenbæk, Jonas Flink Bentzen, Lazaros Nalpantidis

ShotcreteDepthは、建設現場におけるアクティブな吹付コンクリート施工プロセスと一般的な建設環境の両方を捉えた、バイモーダル（二種類のモダリティからなる）データセットです。本データセットは、高濁度や低照度などの過酷な実環境条件下で取得されたステレオRGB画像とLiDAR点群で構成されています。こうした条件はセンサ計測に悪影響を及ぼし、不完全でノイズの多い観測結果をもたらし、自律アプリケーションにおける認識システムにとって大きな課題となります。データセットと併せて、LiDAR点群の効率的なラベリングを目的とした軽量なアノテーションツールも公開しています。ShotcreteDepthは11,252件の時間的に同期されたデータサンプルからなり、そのうち220件が評価用にアノテーションされています。本データセットは、産業現場に見られる実際の運用上の複雑さを反映した条件下での、ステレオマッチング、深度補完、深度推定の研究を支援します。プロジェクトリポジトリ: https://github.com/dtu-pas/shotcrete-depth

人間の嗜好報酬を用いたテキストからの音楽生成の改善
Improving Text-to-Music Generation with Human Preference Rewards

Jun 19

ByYonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Chris Donahue

我々は、ICME 2026で開催されるAcademic Text-to-Music (ATTM) Grand Challengeの効率性トラックへの参加内容について述べる。チャレンジプロトコルで規定されたFAD-CLAPスコアおよびCLAPスコアに加え、我々はTuneJury（オープンな音楽嗜好データセットで学習されたツインペアワイズランカー）から得られた学習済みの人間の嗜好報酬を導入する。この報酬は、訓練時の条件付け信号とサンプル選択基準の両方として機能する。本パイプラインは、120MパラメータのFluxAudio-Sバックボーンに対する5つの工学的判断（訓練時に4つ、推論時に1つ）を組み合わせている：(i) 推論時のCFG軸としても機能する訓練時報酬条件付け、(ii) 5種類のスコア条件付けアーキテクチャの網羅的探索（訓練と推論で異なるバリアントを使用）、(iii) 上位十分位に対するエキスパート反復、(iv) 音声-テキストアライメントのための短い嗜好調整パス（CRPO）、(v) 結合CFG、音源分離、ラウドネス正規化による推論後処理。100件のSong Describerプロンプトに対する段階別分解の結果、訓練時報酬条件付けは機能的な条件付け軸として有効であり、エキスパート反復が最大の貢献要因であること、嗜好調整パスはノイズレベルの改善に留まること、そして推論時のスコアスカラーはパイプラインの最終段階までに既に飽和していることが示された。

エンドレスランナーゲームにおけるLLM支援によるリファクタリングとゲームプレイ機能生成の探索的ケーススタディ
An Exploratory Case Study of LLM-Assisted Refactoring and Gameplay Feature Generation in an Endless Runner Game

Jun 19

ByJan Wunderlich, Markus Kleffmann, Sebastian Lempert

大規模言語モデル（LLM）はソフトウェア開発を支援するためにますます利用されているが、特に生成されたコードを既存のゲームソフトウェアシステムに統合しなければならないという、応用ゲーム開発の現場における実用的有用性については、まだ十分に探求されていない。本稿では、カスタムのPython/Pygameによるエンドレスランナーを題材に、GPT-4oを用いた探索的な実証ケーススタディを報告する。本研究では、選択した6つの開発タスク（局所的なリファクタリングタスク3件と、ゲームプレイ機能生成を伴うタスク3件）を検証した。得られた実装は、ソフトウェアメトリクス、単体テスト、手動によるゲームプレイ評価を用いて評価された。本ケーススタディでは、選択した3件のリファクタリングタスクはすべて機能的に完了したのに対し、ゲームプレイ機能生成タスク3件のうち、正しく統合された機能が得られたのは1件のみであった。この結果は、本設定においては、GPT-4oが複数の既存システムにまたがる新たなゲームプレイ相互作用を必要とするタスクよりも、局所的な変換をより確実に処理できることを示唆している。探索的な単一ケースの設計であることから、これらの結果は、カテゴリーレベルのモデル性能に関する一般化可能な証拠ではなく、示唆的な観察として解釈するのが適切である。全体として、本稿は、既存のゲームソフトウェアシステムにおけるLLM支援リファクタリングおよびゲームプレイ機能生成の機会と限界について、透明性の高いケースベースの記述を提供するものである。

駐車スペース占有認識に向けて：自己教師ありアプローチ
Toward Parking Spot Occupancy Recognition: A Self-Supervised Approach

Jun 18

ByLuan Marko Kujavski, Rayson Laroca, Paulo Lisboa de Almeida

都市部の拡大に伴い、駐車場の自動監視は効率的で持続可能な都市にとって不可欠となっている。本研究では、対象駐車場からのラベル付きサンプルを一切必要としない、自己教師ありアプローチによる駐車スペース占有認識を提案する。自己教師あり転移学習の微調整プロトコルに基づき、提案する学習戦略は2つの自己教師あり段階（最初にラベルなしの汎用データ、次にラベルなしの対象特化データに対する学習）と、その後に続く汎用駐車場ラベルのみを用いた教師あり微調整から構成される。本手法ではResNet-50エンコーダを備えたSimCLRを採用し、PKLot、CNRPark-EXT、PLdsの3つの公開データセットに対して一個抜き交差環境プロトコルの下で評価を行う。さらに、2段階の展開戦略を導入する。まず強力な汎用モデル（Strong General Model）を展開し、続いて展開から最初のN日間に収集されたラベルなし画像を自己教師ありの方法で組み込んだ専門モデル（Specialized Model）を展開する。実験結果は、Strong General Model単体で教師ありおよび自己教師ありのベースラインを上回り、平均精度97.2%を達成することを示している。この精度は、提案する2段階戦略によりさらに97.8%に向上する。これらの結果は、自己教師あり学習が実世界の駐車占有監視において、スケーラブルでラベル効率の良いソリューションを実現することを実証している。学習済みモデルとソースコードはhttps://github.com/LoanMaikon/Parking-Spot-Occupancy-Recognitionで公開している。