HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

72 papers found

Crafter：多様な入力から編集可能な科学図を生成するためのマルチエージェントハーネス
Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

May 28

ByHaozhe Zhao, Shuzheng Si, Zhenhailong Wang, Zheng Wang, Liang Chen, Xiaotong Li, Zhixiang Liang, Maosong Sun, Minjia Zhang

107

科学図は複雑な研究アイデアを伝える最も効果的な手段の一つであるが、出版に耐える品質の図を作成することは、論文作成の中で最も労力を要する工程の一つであり続けている。既存の自動化システムはそれぞれがテキストのみの入力下で単一の図タイプを対象としており、研究者が実際に使用する多様なタイプや条件には対応していない。さらに、それらのラスター出力は局所的な修正が不可能である。科学図は離散的な意味的構成要素からなる構造化された合成物であるため、そのようなレイアウト上で生成器が生み出す局所的な誤りには、より強力なバックボーンではなく、ハーネス（制御機構）が必要となる。我々はこのハーネスを2つの相補的なシステムとして実装する。すなわち、アーキテクチャの変更なしに図タイプや入力条件を横断して汎化する図生成用マルチエージェントハーネス「Crafter」と、同じパターンを適用してラスター出力を編集可能なSVGに変換する「CraftEditor」である。さらに我々は、3つの図タイプと4つの入力条件をカバーし、人手による品質アノテーションを備えたベンチマーク「CraftBench」を導入する。実験により、CrafterはPaperBanana-BenchおよびCraftBenchにおいて、単体の生成器やエージェントベースのベースラインを大幅に上回り、アブレーション研究により各コンポーネントの独立した貢献が確認された。またCraftEditorは出力を忠実に編集可能なSVGに変換し、すべてのベースラインを凌駕する。我々のコードとベンチマークはhttps://github.com/HaozheZhao/Crafter で公開している。

PEFTのスケーリングについて：1兆パラメータの100万のパーソナルモデルに向けて
On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

Jun 1

ByMind Lab, Song Cao, Vic Cao, Kaijie Chen, Bunny Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Autumn Jin, Fancy Kong, Kyrie Lei, Alexy Li, Dawn Li, Ray Li, Theo Li, Wenhao Li, Jiayi Lin, Domini Liu, Heshan Liu, Kairus Liu, Logan Liu, Maeve Luo, Runism Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Maxwell Yao, Regis Ye, Wenlin Ye, Yanying Ye, Josh Ying, Danney Zeng, Salmon Zhan, Anya Zhang, Ruijia Zhang, Shiyang Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Sizer Zhou, Xinyue Zhu, Murphy Zhuang

パラメータ効率的ファインチューニング（PEFT）は通常、フルファインチューニングのより安価な代替手段として扱われています。本稿では、より広範な役割として、強力な共有基盤モデルの上に持続的なローカル状態として機能する小さな学習可能なアダプタについて研究します。この枠組みでは、ベースモデルが共有能力を提供し、アダプタは好み、スキル、ツールの習慣、メモリのような更新などのインスタンス固有の動作を担います。この問題を3つのスケーリング軸に沿って整理します。スケールアップ：より強力な共有事前分布により、小さなローカル更新がより有用になる。スケールダウン：アダプタが信頼性を保ちながらどれだけ小さくできるかを研究する。スケールアウト：多数の持続的な適応インスタンスが共存する。MinTは、アダプタのアイデンティティ、リビジョン、来歴、評価、サービングの所在を管理するためのインフラストラクチャの一例を提供します。これらの結果は、PEFTがフルファインチューニングの単なる予算代替ではなく、持続的なパーソナルモデルのためのコンパクトな基盤となり得ることを示唆しています。

TASTEの問題：エージェントベンチマークのカバレッジと難易度の改善
A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

May 27

ByTomer Keren, Nitay Calderon, Asaf Yehudai, Yotam Perlitz, Michal Shmueli-Scheuer, Roi Reichert

エージェントの能力が向上するにつれて、τ^2-Benchのような既存のベンチマークは飽和状態になりつつある。しかし、新しいベンチマークタスクの構築は複雑で、コストと労力を要する。さらに、シナリオをまず自然言語で記述し、その後ツールシーケンスにマッピングする標準的なアプローチでは、エージェントが実行するツール使用パターンのごく一部しか捉えられない。本稿では、タスク構築プロセスを逆転させることでこれらの問題に取り組む。我々はTASTE: Task Synthesis from Tool Sequence Evolution（ツールシーケンス進化からのタスク合成）を提案する。これは、より広範なツール使用をカバーする困難なタスクを自動生成する手法である。TASTEは、LLMが判断した有効性シグナルに基づいて学習された適応型対照nグラムモデルを利用する。これにより、膨大なツール組み合わせをカバーする有効なツールシーケンスをサンプリングできる。次にTASTEは、クラスタリングによりプールから代表的なシーケンスを選択し、それらを完全なベンチマークタスクに具体化し、反復的な難易度進化を通じて洗練する。TASTEを用いて、τ^2-Benchの3ドメインの困難な拡張版であるτ^c-Benchを構築した。11のエージェント/ユーザーLLMペアを評価した結果、τ^2-Benchをほぼ飽和させているモデルでも、我々のタスクでは大幅な性能低下が見られた（例：Gemini-3-Flashは0.82-0.94から0.28-0.61に低下）。難易度の向上に加え、生成されたタスクはエージェントが実行すべき固有のツール組み合わせの数を2倍以上に増加させる。この結果は、既存のベンチマークでの高スコアは、堅牢なタスク解決能力ではなく、飽和を反映していることが多いことを示唆している。困難でカバレッジの高いベンチマークの生成を自動化することにより、TASTEは将来のエージェントの継続的かつスケーラブルな評価を可能にする。

K-BrowseComp: 韓国コンテキストに根ざしたWebブラウジングエージェントベンチマーク
K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

Jun 1

ByNahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim

フロンティアモデルの評価は、指示追従や推論といった基礎的能力から、合成的でエージェント的な能力へとシフトしつつあるが、韓国語に特化したエージェントベンチマークは依然として不足している。本研究では、韓国語の文脈に基づくWebブラウジングエージェント用ベンチマーク「K-BrowseComp」を導入する。これは400問から構成される。そのうちの300問からなる「K-BrowseComp-Verified」サブセットは、韓国語母語話者により手作業で構築・検証された。このサブセットにおいて、GPT-5.5、DeepSeek-V4-Pro、GLM-5.1といったフロンティアLLMの正解率は30.00～45.67%にとどまり、BrowseCompから大幅に低下している。一方、韓国の独自AI基盤モデルプログラムを通じて公開された韓国語LLMは0.00～10.33%しか達成していない。さらに、Webブラウジング問題の解決と作成の非対称性を活用するため、難易度の高い少数例示と失敗モードに焦点を当てた生成を用いて、100問の合成分割を構築した。敵対的フィルタリングを施した合成診断分割では、最も強力なモデルでも26.00%の正解率に留まり、この分割は対象を絞ったストレステストとして別途報告する。データとコードは公開する。

Harness-1: 状態外部化ハーネスを用いた検索エージェントの強化学習
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Jun 1

ByPengcheng Jiang, Zhiyi Shi, Kelly Hong, Xueqiang Xu, Jiashuo Sun, Jimeng Sun, Hammad Bashir, Jiawei Han

検索エージェントは、しばしば成長するトランスクリプト上の方策として訓練される。モデルは、検索方法を決定すると同時に、これまでに見た情報、有用な証拠、未解決の制約、実際に検証済みの主張を記憶しなければならない。本稿では、この定式化はルーチン的な状態管理を過度に方策内に押し込んでいると論じる。すなわち、強化学習は意味的な検索判断と、環境がより確実に維持できる復元可能な簿記処理の両方を最適化することを強いられる。我々は、状態を持つ検索ハーネス内で強化学習を用いて訓練された200億パラメータの検索エージェント（検索サブエージェント）Harness-1を導入する。このハーネスは、候補プール、重要度タグ付きキュレーションセット、コンパクトな証拠リンク、検証記録、圧縮・重複除去された観測、および予算を考慮したコンテキストレンダリングを含む、環境側のワーキングメモリを維持する。方策は意味的な判断、すなわち何を検索するか、どの文書を保持または破棄するか、何を検証するか、いつ停止するかを保持する。ウェブ、金融、特許、多段階QAにわたる8つの検索ベンチマークにおいて、Harness-1は平均キュレーション再現率0.730を達成し、次に強力なオープン検索サブエージェントを+11.4ポイント上回り、より大規模なフロンティアモデルによる検索手法とも競合する。その利得は、特にホールドアウト転移ベンチマークにおいて顕著であり、明示的な検索状態に対する強化学習が、訓練領域を超えて一般化する検索行動を生み出せることを示唆している。コードはhttps://github.com/pat-jj/harness-1で公開している。

Draft-OPD：投機的ドラフトモデルのためのオン方策蒸留
Draft-OPD: On-Policy Distillation for Speculative Draft Models

May 28

ByHaodi Lei, Yafy Li, Haoran Zhang, Shunkai Zhang, Qianjia Cheng, Xiaoye Qu, Ganqu Cui, Bowen Zhou, Ning Ding, Yun Luo, Yu Cheng

投機的デコードは、ターゲットモデルと軽量なドラフトモデルを組み合わせ、ドラフトモデルが提案したトークンを並列に検証することで、大規模言語モデルの推論を高速化する。ドラフトモデルの構築方法として一般的なのは、EAGLE3やDFlashのように、ターゲットが生成した軌跡を用いた教師ありファインチューニング（SFT）である。しかし、我々はSFTが急速に頭打ちになる現象を観測した。すなわち、テストデータにおけるドラフトモデルの受理長（acceptance length）の改善が停止するのである。その原因は、オフラインと推論時のミスマッチにある。SFTではドラフトモデルが固定されたターゲット生成軌跡から学習するのに対し、投機的デコード時には自身のポリシーで提案されたブロック上で評価される。このことが、ドラフトモデルがドラフト誘発状態（draft-induced states）においてターゲットモデルから教師信号を受けるオン・ポリシー蒸留（OPD）の動機付けとなる。しかし、ドラフトモデルにとってOPDは依然として困難である。なぜなら、ドラフトモデルは独立して完全な系列を確実に生成することができず、一方でターゲット補助生成（target-assisted generation）を用いると収集される系列がターゲット分布に従ってしまい、オン・ポリシーの信号が失われるからである。そこで我々はDraft-OPDを提案する。これは、安定した継続生成のためのターゲット補助ロールアウトと、検証時に露呈した誤り位置からのドラフト再生（replay）を組み合わせる。これにより、ドラフトモデルは受理された提案と拒否された提案の両方に対してターゲットからのフィードバックを学習し、投機的受理を制限するドラフト誘発誤差に焦点を当てた訓練が可能となる。実験により、Draft-OPDは多様なタスクにおいて思考モデルに対して5倍以上のロスレス高速化を達成し、EAGLE-3およびDFlashに対してそれぞれ23%および13%の改善を示した。

Domino: 投機的デコードにおける自己回帰的ドラフティングからの因果モデリングの分離
Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

May 28

ByJianuo Huang, Yaojie Zhang, Qituan Zhang, Hao Lin, Hanlin Xu, Linfeng Zhang

投機的デコーディングは、複数のトークンをドラフトし、それらをターゲットモデルと並行して検証することでLLM推論を高速化する。しかし、その実用的な高速化効果は、ドラフト品質とドラフトコストのトレードオフによって制約される。すなわち、自己回帰型ドラフターはドラフトトークン間の因果依存関係をモデル化するが逐次オーバーヘッドを伴い、並列型ドラフターはドラフトコストを削減するもののブロック内依存関係のモデリングを弱める。本論文では、因果依存関係のモデル化と高コストな自己回帰型ドラフト実行を分離する投機的デコーディングフレームワーク「Domino」を提案する。Dominoはまず並列ドラフトバックボーンを用いてブロック全体の暫定的なドラフト分布を生成し、次に軽量なDominoヘッドを適用してプレフィックスに依存する因果情報でそれらを洗練する。教師強制的な因果符号化を安定させるために、さらにベースアンカー付きトレーニングカリキュラムを導入し、まず並列バックボーンを強化し、その後徐々に最適化を因果補正された最終分布へと移行させる。Qwen3モデルを用いた実験では、DominoはTransformersバックエンドで最大5.49倍のエンドツーエンドの高速化、SGLangサーバング環境で最大5.8倍のスループットの高速化を達成する。

線形アンサンブルがウォーターマークを洗い流す：LLMにおける分布摂動の脆弱性について
Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

May 28

ByZhihao Wu, Gracia Gong, Qinglin Zhu, Yudong Chen, Runcong Zhao

透かし技術は、AI生成テキストに統計的特徴を埋め込み、検出や帰属を可能にする。本研究では、ユーザーが複数のモデルにアクセスする現在の状況において、透かしが容易に無効化されるという根本的な脆弱性を明らかにする。透かしは出力分布を本来の分布から摂動させるが、競争市場においてこれらの摂動は通常、プロバイダ間で独立している。我々は、出力確率分布を平均化することで、2次誤差項までの精度で非透かし分布が復元されることを理論的に証明する。実験では、3～5個のモデルを単純に平均するだけで、これらの摂動が打ち消される。さらに、異種モデル間での語彙不一致やトークン化の違いといったアンサンブル生成における実用的課題を解決する手法、WASH（Watermark Attenuation via Statistical Hybridisation）を導入する。6種類の透かし方式と3つのLLMを用いた実験により、3モデルの平均化によって検出zスコアが5～300から2未満（検出閾値4以下）に抑制され、偽陽性率5%における真陽性率が50%未満に低下する一方、品質は27.5%向上し、長文生成において最良のベースラインよりも6倍高速に動作することを示す。これらの結果は、透かしによる頑健なAIテキスト検出には、この根本的な脆弱性を受け入れるか、あるいはモデル提供者間での前例のない協調が必要であることを示唆する。

NITP: 次暗黙トークン予測によるLLM事前学習
NITP: Next Implicit Token Prediction for LLM Pre-training

May 24

ByXiangdong Zhang, Debing Zhang, Shaofeng Zhang, Xiaohan Qin, Yu Cheng, Junchi Yan

標準的な次トークン予測（NTP）は、出力ロジット空間における離散ラベルのみを用いて言語モデルを教師あり学習する。本稿では、この疎なワンホット教師信号により潜在表現空間が十分に拘束されず、隠れ状態が退化した異方性配置へと漂流し、汎化性能を制限し得ると主張する。この問題に対処するため、我々は次暗黙トークン予測（NITP）を提案する。NITPは、離散予測に加えて、表現空間内で直接的に密な連続教師信号を導入する。NITPは、同一モデルの浅い層の表現を安定した自己教師付きターゲットとして使用し、次トークンの暗黙的な意味内容を予測するようモデルを訓練する。理論的な解析により、NITPが拘束されていない自由度を緩和し、コンパクトで構造化された表現幾何を促進することで、最適化のランドスケープを正則化することを示す。実験的には、0.5Bから9Bパラメータの高密度モデルおよびMoEモデルにおいて、NITPは無視できる計算オーバーヘッドで下流性能を一貫して向上させる。9BのMoEモデルでは、NITPはMMLU-Proで5.7%の絶対改善、C3で6.4%、CommonsenseQAで4.3%の改善を達成し、訓練FLOPsは約2%の追加、推論コストは追加なしである。実装はhttps://github.com/aHapBean/NITPで公開している。

VLMは適応的テスト時間最適化による映像推論の優れた教師である
VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

Jun 1

ByJunhao Cheng, Liang Hou, Tianxiong Zhong, Xin Tao, Pengfei Wan, Kun Gai, Jing Liao

近年の「ビデオによる推論（Reasoning with Video）」パラダイムでは、ビデオ生成モデル（VGM）を活用し、時間的に一貫性のある視覚的な軌跡を生成することで推論タスクを完了させる。最先端のVGMは視覚品質に優れているものの、タスク固有のルールを理解し従うことが難しく、多様な推論シナリオにおいて論理的な失敗を引き起こすことが多い。既存の研究では、視覚言語モデル（VLM）を問題の事前解決器として利用し、VGM向けのテキストによるガイダンスを生成または洗練しようと試みている。しかし、テキストによる記述では複雑な時空間の詳細を捉えきれず、またVGMは有効な計画が与えられても、細粒度やロングテールの指示を忠実に実行するのに苦労する。一方、VLMは解決器としては課題があるものの、プロセス制約の充足や最終目標の達成を評価する強力な知覚能力を有している。この強みを活用し、本稿ではVLMの役割を「教師」へと移行させるパラダイムシフトを導入する。具体的には、VLM教師がタスク固有のルールを抽出して微分可能な報酬を定式化し、軽量なLoRAモジュールのテスト時オンライン最適化を通じてVGM推論器を誘導する。この戦略により、適応的なテスト時最適化が可能となり、VGM本来の限界を超えた推論能力が拡張される。シンボリック（VBVR-Bench）および汎用（RULER-Bench）のビデオ推論ベンチマークにおける評価では、提案手法が平均16.7ポイントの性能向上を示し、VLM-as-Solverパラダイム（+0.4ポイント）やBest-of-Nスケーリング（+2.2ポイント）を同程度のテスト時コストで大きく上回った。これらの知見は、VLMをテスト時教師として統合することが、汎用的なビデオ推論を実現する有望なパラダイムであることを明らかにしている。プロジェクトページ：https://VLM-as-Teacher.github.io/

X-Stream: マルチストリーム理解のためのマルチプレクサとしてのMLLMの探求
X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

Jun 1

ByPeiwen Sun, Xudong Lu, Huadai Liu, Yang Bo, Dongming Wu, Huankang Guan, Minghong Cai, Jinpeng Chen, Xintong Guo, Shuhan Li, Rui Liu, Xiangyu Yue

ビデオストリーミング理解は大きく進歩してきたが、ライブスポーツ放送、自動運転、マルチスクリーン連携などの実世界アプリケーションは、本質的に継続的なマルチストリーム対話を必要とする。しかし、既存のベンチマークは単一ストリームパラダイムに限定されており、オンラインのクロスストリーム推論を評価する上で重要なギャップが残されている。このギャップを埋めるため、我々はマルチストリーム・ストリーミング理解に特化した初のベンチマークであるX-Streamを導入する。X-Streamは、932本の動画にわたる4,220の厳選されたQAペアから構成され、マルチウィンドウ、マルチビュー、マルチデバイスのシナリオにわたる11のサブタスクを評価する。重要な点として、本データセットは、単一ストリームへの過度な依存を防止する新規の二重検証パイプラインを用いて構築されている。さらに、マルチモーダル大規模言語モデル（MLLM）を単純な多重化器として捉える概念を先駆けて導入し、信号多重化理論の観点からその性能を体系的に評価する。広範なオンライン推論実験により、最先端のMLLMは同時ストリームに対して著しく困難を示し、スコア約50%にとどまり、積極的な能力も乏しいという厳しい現実が明らかになった。最終的にX-Streamは、現在の多重化方式におけるトレードオフを露呈し、次世代マルチストリームエージェントのための実用的な評価プロトコルと実証的ガイダンスを提供する。

VideoMLA: 分単位の自己回帰型ビデオ拡散のための低ランク潜在KVキャッシュ
VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

May 28

ByHidir Yesiltepe, Jiazhen Hu, Tuna Han Salih Meral, Adil Kaan Akan, Kaan Oktay, Hoda Eldardiry, Pinar Yanardag

長期展開型の因果ビデオ拡散モデルは、固定サイズのスライディングウィンドウKVキャッシュに収束しており、最近の進歩は、ウィンドウを占有するトークンやその位置のエンコード方法を変更することで、このレイアウト内での革新を進めてきた。しかし、ストリーミング時のメモリとレイテンシの主要な要因であるヘッドごとのKVレイアウト自体は、ほとんど変更されていない。本論文では、ビデオ拡散におけるマルチヘッド潜在アテンション（MLA）の初めての研究を提示する。VideoMLAは、ヘッドごとのキーと値を、共有の低ランクなコンテンツ潜在変数と、共有の非結合型3D-RoPE位置キーに置き換えることで、キャッシュされた各層におけるトークンあたりのKVメモリを92.7%削減する。さらに、言語モデルでMLAを動機づけるためにしばしば用いられるスペクトル仮定が成立しない状況でも、なぜVideoMLAがビデオ拡散で成功するのかを調査する。事前学習されたビデオアテンションは低ランクではなく、99%エネルギーの有効ランクは、実用的な潜在次元をはるかに上回っている。VideoMLAは、直接的なスペクトル近似では大きな再構成誤差が予測される圧縮率においても品質を維持する。MLAのボトルネックが、事前学習されたスペクトルではなく、有効ランクを決定することを示す。スペクトル初期化とランダム初期化の両方が、初期化時点でほぼ全ランク予算を占有し、学習はこの予算を維持しつつ、その範囲内で適応を行う。VBenchにおいて、VideoMLAは短期的なストリーミングビデオ拡散ベースラインと同等の性能を示し、長期的な評価対象手法の中で最高の総合スコアを達成し、単一のB200上でスループットを1.23倍向上させる。

SkillAdaptor: 軌跡からのLLMエージェントのための自己適応スキル
SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories

May 31

ByZhuoyun Yu, Xin Xie, Wuguannan Yao, Chenxi Wang, Lei Liang, Xiang Qi, Shumin Deng

大規模言語モデル（LLM）エージェントは、長期にわたる対話型タスクを解決するために、再利用可能な外部スキルへの依存度を高めている。既存の学習不要のスキル適応パイプラインは、通常、完全な軌跡やセッションレベルのフィードバックからスキルを更新するため、故障原因の特定が粗くなり、不安定または過度に広範な修正が生じることが多い。我々は、明示的な故障原因特定を備えた学習不要のステップレベルスキル適応フレームワークであるSkillAdaptorを提案する。これはOpenClawクラスのエージェントハーネスにプラグイン可能である。失敗した軌跡が与えられると、SkillAdaptorは最初の実行可能な障害ステップを特定し、責任を候補スキルに関連付け、バックボーンを凍結したまま明示的な受入チェックの下で対象を絞った更新を適用する。我々は、WebShop、PinchBench、およびClaw-Evalにおいて、Kimi-K2.5、GLM-5、およびGPT-5.2を用いて評価を行った。SkillAdaptorは、3つの評価スイートすべてにおいて、スキルなしおよびスキル適応ベースラインを上回り、最大の単一指標改善はPinchBenchのAvg Score%で+1.5ポイント、Claw-EvalのAvg Scoreで+1.8、WebShopの成功率で+1.7であった。これらの結果は、ステップレベルでの原因特定が、より安定した監査可能な学習不要のスキル維持を支援することを示している。コードはhttps://github.com/zjunlp/SkillAdaptorで公開予定である。

どこを見るべきか：基盤モデルは能動的探索を通じて目標視点に到達できるか？
Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

May 31

ByLiyang Li, Muzhi Zhu, Zhiyue Zhao, Hengyu Zhao, Ke Liu, Linhao Zhong, Hao Chen, Chunhua Shen

人間は、能動的な頭部および体の動きによって、目標画像で指定された視点を再現することができる。しかしながら、基盤モデルにおける空間知能は、主に事前収集された観測データを受動的に理解するものとして研究されてきた。本稿では、エージェントが3次元環境において自身の観測が与えられた目標画像と一致するまで視点を調整する能動的タスクである目標視点再現（Target Viewpoint Reproduction: TVR）と、TVRBench（シーンスケールと目標視点の視覚的多様性を網羅する屋内シミュレーションベンチマーク）を紹介する。TVRは未解決の課題である。評価分割において、最も強力なオープンソースモデルとクローズドソースモデルはそれぞれ7.8%と12.0%の成功率しか達成していない。詳細な分析により、一貫した二つのボトルネックが明らかになった。既存モデルは複数回の視覚履歴の扱いに難があり、また、視点再現がその場での回転ではなく身体の並進移動を必要とする場合に性能が急激に低下し、空間的差異を身体動作にマッピングする際のギャップが露呈した。このギャップを縮小するための研究として、専門家軌道による教師ありファインチューニング（SFT）、理由付け監督による思考連鎖SFT（CoT-SFT）、オフライン単一ターンGRPO（Group Relative Policy Optimization）、および実シミュレータロールアウトからのオン方策複数ターンGRPOをカバーする統一的なTVR後続学習フレームワークを構築した。視覚行動SFTが主な改善をもたらし、9Bのオープンソースモデルの成功率を50.8%に引き上げた。複数ターンGRPOはマルチルームの洗練を目的とした改善をもたらし、全体で51.4%の成功率を達成した。一方で、CoT監督と単一ターンGRPOはクローズドループ性能を低下させた。これらの結果により、TVRBenchは3次元環境において能動的に知覚し行動する基盤モデルを評価・訓練するためのテストベッドとして確立された。我々のコード、データ、モデルは https://github.com/aim-uofa/TVRBench で公開されている。

どの事前学習パラダイムが空間知能により適しているか？：視覚言語モデルと動画生成モデルの実証比較
Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

May 27

ByHaozhan Shen, Tiancheng Zhao, Kangjia Zhao, Jianwei Yin

空間知能には、物理的世界における意味的対象と幾何学的構造の両方を捉える視覚的表現が必要である。これを支援するため、現在2つの主要な事前学習手法が基盤バックボーンとして広く用いられている。すなわち、言語による教師信号を用いて視覚的観測と意味的概念を整合させる視覚言語モデル（VLM）と、時間的に発展する視覚的世界から学習する映像生成モデル（VGM）である。しかしながら、空間知能に対してどちらの事前学習手法がより優れた表現基盤を提供するかは依然として明らかでない。本論文では、空間知能の3つの代表的な軸（意味的タグ付け、インスタンスグルーピング、3次元幾何予測）にわたるVLMとVGMの初の系統的frozen特徴量プロービング研究を提示する。軽量プローブを用いることで、我々のフレームワークは2つのモデルファミリーのfrozen表現に既に符号化されている情報の制御された比較を可能にする。実験結果は明確な相補性を明らかにする。すなわち、VLMは意味的タグ付けとインスタンスグルーピングにおいて優れ、一方VGMは高密度幾何とカメラ運動に対してよりアクセスしやすい信号を提供する。さらに、両者の単純な融合により、幾何と意味の両方に優れる表現がすでに得られ、これは両モデルファミリーからの特徴を効果的に統合することで、より強力な空間知能バックボーンを構築する有望な方向性を示唆する。我々のコードはhttps://github.com/om-ai-lab/Probing-VLM-VGMで公開されている。

古い観測のマスキングは検索エージェントを助ける——それが効を奏さなくなるまでは：レジームマップとそのメカニズム
Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism

May 29

ByHaoxiang Zhang, Qixin Xu, Zhuofeng Li, Lei Zhang, Pengcheng Jiang, Yu Zhang, Julian McAuley

長期的な探索エージェントは多数のツール呼び出しを通じて大量の検索コンテンツを蓄積するため、コンテキスト予算の効率性がますます重要になる。最小限の介入として、軌跡が進行するにつれてコンテキストから古い観察をマスクすることが考えられるが、この形式のコンテキスト管理がいつ、なぜ役立つのかは不明である。我々は、オフラインおよびライブWebのエージェント検索ベンチマークにおいて、様々なエージェントバックボーン（4Bから284Bパラメータ）と3つの検索器にわたる系統的なスイープを通じて観察マスキングを研究する。その結果、マスキングによる精度向上は、コンテキスト管理なしのモデル精度に対してプロットすると非対称な逆U字型を示すことがわかった：弱い検索器の下ではプラトー、強い検索器と中容量モデルの組み合わせではピーク、モデルが飽和すると急激な崩壊である。このパターンは、検索器の再現率とモデルの暗黙的なフィルタリング容量の相互作用を反映しており、どちらか一方の要因単独ではない。メカニズム的には、マスキングはトークンとターンのトレードオフを実現する：モデルがほぼ注意を向けなくなった観察と、エージェントがほとんど再開しないページを削除する。追加されたターンは、失敗を成功に変換する場合に役立つが、マスキングがモデルが本来使用していたであろう証拠を削除する場合には失敗する。したがって、我々はコンテキスト管理をレジーム依存の介入として再構成し、エージェント深層検索におけるコンテキスト使用を分析するための全体的な視点を提供する。今後の研究を支援するために、我々のスキャフォールドと軌跡をここで公開する（https://github.com/i-DeepSearch/observation-masking）。

ESPO: 早期打ち切り近接方策最適化
ESPO: Early-Stopping Proximal Policy Optimization

May 28

ByZihang Li, Rui Zhou, Yingcheng Shi, Wenhan Yu, Zhewen Tan, Zixiang Liu, Zeming Li, Binhua Li, Yongbin Li, Tong Yang, Jieping Ye

強化学習下の大規模言語モデルが軌道の初期段階で誤った推論ステップを踏んだ場合、標準的なアルゴリズムでは最大ホライゾンまで生成を強制し、正の報酬を得られないトークンに計算資源を費やし、失敗後のノイズでアドバンテージ推定を汚染する。本論文では、軌道の失敗をオンザフライで検出しロールアウトを早期終了するESPO（早期停止近位政策最適化）を提案する。ESPOは各生成ステップにおいて、サンプリング時に既に計算されたロジットのみを用いて代理後悔を計算し、平滑化累積後悔が推定値を有意に上回った時点で生成を停止する。打ち切られた軌道は終端報酬を伴う吸収失敗状態として扱われ、追加の報酬モデルや人間によるアノテーションを必要とせずに、検出された失敗ステップ付近に負の時間的誤差を集中させる。数学的推論用に学習されたDeepSeek-R1-Distill-Qwen-7Bにおいて、ESPOはAIME 2024（46.28%対45.25%）、AMC 2023（85.83%対82.94%）、MATH-500（87.42%対85.43%）でPPOを上回り、累積ロールアウトトークンを20%以上削減する。

マルチエージェントRLはいつLLMワークフローを改善するのか？：ワークフロー、規模、ポリシー共有のトレードオフ
When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

May 22

ByYifan Zeng, Yiran Wu, Yaolun Zhang, Wentian Zhao, Kun Wan, Qingyun Wu, Huazheng Wang

マルチエージェントLLMワークフローは、推論を専門的な役割にルーティングすることで最終タスクの精度を向上させるが、強化学習を用いてそれらの役割を共同で訓練することは、理解が不十分な形で不安定である。本研究では、マルチエージェントLLMワークフローのエンドツーエンドRL訓練がベースモデルよりも改善される条件を調査し、すべての役割が1つのポリシーを更新する共有ポリシー訓練と、各役割が独自のパラメータを持つ分離ポリシー訓練を比較する。実験マトリックスは、Eval-Opt、Voting、Orch-Workersの各ワークフロー、数学およびコードタスク、3つのモデルスケール（0.6B、1.7B、4B）を網羅する。その結果、マルチエージェントRLは通常ベースモデルよりも改善されるが、その改善はポリシー共有のみに依存するのではなく、ワークフロー、タスク、スケールに共同で依存することが判明した。分離ポリシーは、より高いピーク精度に達する傾向がある一方で、末端精度の崖から落ちる頻度が高く、一方、共有ポリシー訓練は失敗を排除せず、失敗を質的に異なるパターンに再分配する。次に、これらのパターンのうち最も顕著なものを、ワークフロートポロジーとポリシールーティングによって誘発される役割レベルの勾配ダイナミクスを通じて説明する。分離ポリシーの下では、共有プロンプト上の並列な同一役割エージェントが役割ごとの勾配を増幅させ、VotingおよびOrch-Workersワークフローにおいて末端の劣化を引き起こす。共有ポリシーの下では、非対称なステップごとの勾配質量が、共有ポリシーを支配的な役割に捕捉させ、タスクとワークフローによって異なる失敗の兆候を生み出す。総合すると、経験的なマップとその根底にあるメカニズムは、ポリシー共有が一律の安定性を提供するのではなく、訓練圧力を異なるチャネルにルーティングすることを示しており、これはワークフローおよびタスクに条件付きのトレードオフを伴う設計上の選択となる。

MCP-Persona: 環境シミュレーションによる実世界の個人用アプリケーションにおけるLLMエージェントのベンチマーク評価
MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

Jun 1

ByWenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen

モデルコンテキストプロトコル（MCP）は、大規模言語モデル（LLM）を外部データソースやツールと接続するための変革的な標準として登場し、パーソナルアプリケーションや開発プラットフォームで急速に採用されています。しかし、既存のベンチマークは主に汎用的な情報検索ツールに焦点を当てており、ツールが個人アカウントやローカルデータベースとやり取りするパーソナルソーシャルアプリケーションがもたらす実際的な課題を捉えきれていません。この重要なギャップを埋めるため、我々は実世界のパーソナライズされたMCPツールにおけるエージェントの性能を評価するために特別に設計された最初のベンチマークであるMCP-Personaを紹介します。MCP-Personaは、RedditやXiaohongshu（Rednote）などのソーシャルメディアプラットフォームから、Lark（Feishu）やSlackなどのエンタープライズコラボレーションスイートに至るまで、多様で広く使用されているアプリケーションを網羅しています。様々な最先端（SOTA）エージェントに対する広範な実験により、パーソナライズされたツールの使用においてそれらが著しく困難を抱えていることが示され、これにより、これらの限界を特定し対処する上でのベンチマークの重要な役割が浮き彫りになりました。MCP-Personaはhttps://github.com/wwh0411/MCP-Personaで公開されています。

LVSA: トレーニング不要のスパースアテンションによる長編動画拡散
LVSA: Training-Free Sparse Attention for Long Video Diffusion

May 29

ByGael Glorian, Ioannis Lamprou, Zhen Zhang, Yujie Yuan, Hongsheng Liu

密な自己注意は、長動画拡散推論における計算と品質のボトルネックであり、コストはシーケンス長の二乗で増加し、訓練範囲を超えるとモデルはほぼ静的な出力、すなわち「凍結された」反復動画に収束する。最先端の手法は、再訓練が必要となるなどコストが高すぎるか、あるいは性能と品質の両方の目標をスケーラブルに満たすことができない。この目的のために、我々はLong Video Sparse Attention (LVSA)を導入する。これは、ビデオ拡散トランスフォーマーのための訓練不要でモデル非依存のブロックスパース注意であり、構造化ウィンドウパターンと回転大域アンカーを組み合わせることで、長距離時間的アーティファクトを引き起こす固定グリッドバイアスを除去する。LVSAはFlashInferカーネルと組み合わせることで、密な注意と比較して、Wan 2.1 1.3Bでは6倍のホライゾンで最大3.17倍、Wan 2.1 14Bでは6倍のホライゾンで2.98倍、HunyuanVideo 1.5では1.5倍のホライゾンで3.33倍の計算量削減を実現する。計算量削減に加えて、LVSAはHunyuanVideo 1.5の2倍のホライゾンでの生成を可能にする。これは通常、単一GPUではメモリ不足となる。さらに、LVSAはWan 2.1 1.3Bにおいて、RIFLExと比較して最大2.41倍、UltraViCoと比較して最大3.27倍の高速化を提供する。多様なプラットフォームへの適用可能性を示すため、NPU上でLVSAを適用し、密な注意と比較してWan 2.2 A14Bで最大2.71倍、Wan 2.1 1.3Bで最大3.24倍の高速化を達成した。品質を公平に評価するために、我々はVQevalを導入する。これはループ動画の欠陥を適切にスコアリングするツールであり、一方でVBench-Longのような最先端の評価器ではこれらの欠陥が報酬を与えられてしまう。LVSAは、訓練ホライゾン長での生成に対しては品質に影響せず、拡張された長さでは品質を向上させる。

新規性信号によるエージェントメモリと探索学習の統合
Joint Agent Memory and Exploration Learning via Novelty Signals

Jun 1

ByShizuo Tian, Xiaohong Weng, Rui Kong, Yuxuan Chen, Guohong Liu, Yuebing Song, Jiacheng Liu, Yuchen Li, Dawei Yin, Ting Cao, Yunxin Liu, Yuanchun Li

開放的な環境において、探索は自律エージェントにとって基本的な要素であるが、現在の言語モデルエージェントはこれに苦慮している。効果的な探索には記憶が必要であるが、生の相互作用履歴を保持することは長い軌跡にわたって計算コストが高くなる。潜在記憶は相互作用履歴を圧縮する解決策を提供するものの、その訓練には信頼性の高い教師信号が欠如している。本稿では、新奇性駆動型相互作用を通じてエージェントの記憶と探索方策を共に訓練するフレームワークであるJAMEL（Joint Agent Memory and Exploration Learning）を提案する。我々は、記憶と探索が相互依存ループを形成することを観察する。すなわち、持続的な探索には、使い果たした行動と未観測の行動を区別するために記憶が必要であり、一方で新奇性を追求する相互作用は、将来の探索に記憶を有用にするための教師信号を提供する。GUI領域におけるコードカバレッジのような決定論的で永続的な新奇性信号を活用することにより、記憶モジュールに対して自然でアノテーション不要の教師を提供する。実証評価により、JAMELが未見環境への汎化に成功することを示す。その探索能力はオープンウェイトベースラインを上回り、クローズドソースモデルの探索深さに匹敵しつつ、トークン消費量を削減する。コードとモデルはhttps://github.com/MobileLLM/JAMELでオープンソース化している。

LongLive-RAG: 長尺動画生成のための汎用検索拡張フレームワーク
LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

Jun 1

ByQixin Hu, Shuai Yang, Wei Huang, Song Han, Yukang Chen

自己回帰（AR）動画拡散は可変長合成を可能にするが、長時間にわたる生成では誤差の蓄積と同一性のずれ（identity drift）が頻繁に生じる。既存手法では効率化のため、生成時にスライディングウィンドウ注意（sliding-window attention）を採用するのが一般的である。これにより不可逆的な生成軌跡が生じる。すなわち、一度アクティブウィンドウに外観の誤差が蓄積されると、それ以降の生成はこの劣化した軌跡にのみ条件付けられ、さらにずれが拡大する。本研究では、長時間動画生成を検索拡張生成（RAG）問題として定式化することで、この制約に対処する。直近のウィンドウのみに依存するのではなく、過去に生成された潜在変数を動的かつ検索可能な履歴として扱う。我々はAR動画生成のための汎用検索フレームワーク「LongLive-RAG」を提案する。各新しいブロックにおいて、LongLive-RAGはクエリ埋め込みを用いて関連する過去の潜在変数を検索する。この軽量な検索ステップは生成に比べてわずかなオーバーヘッドしか追加せず、生成器が直近のウィンドウだけでなく非局所的な文脈に条件付けられるようにする。検索をより識別的にするため、冗長な局所的類似性を抑制し、埋め込みが意味のある時間変化を捉えるよう促す「Window Temporal Delta Loss」を導入する。これらの要素は、スライディングウィンドウ注意による誤差蓄積の低減に寄与する。複数のARバックボーンと生成長に対する実験により、長期動画品質が改善され、平均VBench-Longランクで最良の結果が得られた。我々の知る限り、開放型AR長時間動画生成手法の中で、LongLive-RAGは自己生成された潜在履歴を内容アドレス可能な検索メモリとして定式化した最初の手法である。コードはhttps://github.com/qixinhu11/LongLive-RAGで公開されている。

Brain-IT-VQA：脳信号から回答へ
Brain-IT-VQA: From Brain Signals to Answers

May 28

ByRoman Beliy, Matias Cosarinsky, Oliver Heinimann, Navve Wasserman, Michal Irani

人が画像を見ている際に記録されたfMRI信号から視覚内容を復号し、特に見た画像に関する質問に答えることは長年の課題である。近年、fMRIを用いた視覚質問応答（VQA）において顕著な進歩が見られるものの、その性能は依然として限られている。さらに、最近のモデルはますます正確な予測が可能になっているが、脳内の視覚表現の構造を理解するためのツールとして活用されることはほとんどなかった。本稿では、fMRIからの視覚質問応答のためのフレームワークであるBrain-IT-VQAを提案する。本手法はBrain Interaction Transformer（Brain-IT）を基盤とし、脳活動から言語トークンを復号し、それを言語モデルと統合することで視覚質問に回答する。我々のモデルは、従来のfMRIに基づくキャプション生成やVQA手法を大幅に上回る性能を示す。さらに、fMRIからの視覚質問応答のための新たなデータセットおよびベンチマークであるNSD-VQAを導入する。既存の画像-fMRI VQAデータセットは、通常、画像あたり少数で広範かつ制御の弱い質問のみを提供するのに対し、NSD-VQAは20の制御された質問カテゴリーにわたって画像あたり平均20の質問応答ペアを提供し、複数レベルの視覚理解を分離する。これにより、限られたfMRIテストデータにもかかわらず、より信頼性が高く解釈可能な評価が可能となる。Brain-IT-VQAとNSD-VQAは、強力な予測フレームワークと脳表現研究のためのツールの両方を提供する。このベンチマークを用いて、自然画像に対するfMRI応答からどのような形態的・意味的情報が確実に復号可能かを定量化する。さらに、質問タイプごとに異なる脳領域の寄与を分析する。

StreamChar: 分離型オーケストレーションによる長期的連続キャラクター音声映像生成
StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration

May 25

ByLinrui Tian, Qi Wang, Bang Zhang

キャラクターアニメーションのためのリアルタイムストリーミングによる音声と映像の同時生成には、生成器が要求された台詞を話し、チャンク間で視覚的一貫性を維持し、厳格な再生予算内で動作することが求められる。これらの要件を同時に満たすことは困難である：チャンク単位の自己回帰生成では、台詞と音声のミスアライメントや視覚的ドリフトが蓄積される可能性があり、一方で低遅延に必要な少数ステップの蒸留は空間的多様性と時間的品質を低下させることが多い。我々はStreamCharを提案する。これは、長期的なオーケストレーションを短いウィンドウの音声-映像ノイズ除去から分離するストリーミングフレームワークである。LLMベースのオーケストレータは、台詞と過去のコンテキストを用いてフレームに整合した音声条件を生成し、音声-映像統合DiTが参照フレームおよびモーションフレーム条件付けを用いて局所的な双方向ノイズ除去を実行する。効率的なデプロイメントのために、まずサンプラを圧縮し、その後オンラインチャンクロールアウト下で生徒モデルを微調整する2段階蒸留パイプラインを使用する。進行認識ポインタはロールアウトトレーニング中に部分的な台詞を生成音声と整合させ、シンクチャンクメモリは長期的なドリフトを低減するための持続的な視覚的アンカーを提供する。短いクリップと長期プロトコルでの実験により、StreamCharは単一のH100 GPU上でリアルタイムに動作し、最近の統合的および音声駆動ベースラインと比較して、台詞の忠実度、音声-映像同期、画質、ストリーミング安定性の間で好ましいシステムレベルのトレードオフを提供することが示された。

スキルは万能ではない：LLMエージェントのためのモデルを考慮したスキルアライメント
Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

May 29

ByJianxiang Yu, Jiapeng Zhu, Bochen Lin, Qier Cui, Zichen Ding, Xiang Li

LLMエージェントは、長期的な対話型タスクのパフォーマンス向上のため、決定時に外部からキュレーションされたスキル（手順指示）を取得することが増えている。既存のスキルライブラリは通常、モデルに依存しないものとして扱われ、能力や動作が大きく異なるバックボーン間で同じスキル表現を再利用している。しかし、複数のモデル規模にわたる制御実験により、スキルの有効性はモデルに強く依存することが示された。あるバックボーンに有効なスキルが別のバックボーンには害を及ぼす可能性がある。この観察に動機づけられ、我々はMASA（Model-Aware Skill Alignment）を提案する。これはエージェントの重みを変更せずに各ターゲットバックボーンにスキルを適応させるフレームワークである。MASAは2段階で動作する。(1) 階層的なスキル進化パイプライン。これは、環境フィードバックとモデルの能力プロファイルに導かれ、山登り法およびUCB駆動の木探索を用いて一般的スキルとタスク固有スキルを反復的に書き換える。(2) 軽量なモデル条件付きスキル書き換え器。進化軌跡で訓練され、単一のフォワードパスで適応を再現する。3つの対話型環境と4つのバックボーンにわたる実験により、MASAが一貫して最良の全体的性能を達成し、最強のベースラインに比べて最大25.8ポイントの向上を示した。学習された書き換え器は、追加の探索なしに未見のタスクや環境にさらに一般化し、はるかに大規模な教師LLMを一貫して上回り、推論コストはその一部で済む。

OpenWebRL: 視覚的Webエージェントのためのオンライン多ターン強化学習の解明
OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

Jun 1

ByRui Yang, Qianhui Wu, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao

能力のある視覚的Webエージェントを構築するには、長期的推論、精密なグラウンディング、そして動的な実在のWebサイトとの堅牢な対話が必要です。急速な進歩にもかかわらず、最も強力なシステムは大部分がプロプライエタリなままである一方、オープンエージェントは依然として厳選された大規模なWeb軌跡コレクションに対する教師ありポストトレーニングに大きく依存しています。この依存関係は、大きなスケーラビリティのボトルネックを生み出します。高品質なデモンストレーションは収集にコストがかかり、静的なデータセットは多様で絶えず変化するオープンWebのカバレッジが限られているからです。オンライン強化学習はテキストベースのエージェントに対して有望性を示していますが、実在のWebサイト上で直接視覚的Webエージェントを訓練する可能性はほとんど未探索のままです。本論文では、実在のWebサイト上でオンラインマルチターン強化学習を用いて視覚的Webエージェントを訓練するためのオープンフレームワークであるOpenWebRLを紹介します。OpenWebRLは、スケーラブルなライブブラウザインフラストラクチャ、教師あり初期化、マルチモーダルコンテキスト管理、軌跡レベルの成功判定、効率的なマルチターンポリシー最適化を含む、トレーニングパイプライン全体をカバーします。このフレームワークを用いて、OpenWebRL-4Bを訓練し、挑戦的なライブWebベンチマークにおいて新しいオープンソースの最先端を確立しました。わずか0.4Kの初期化軌跡と2.2Kのオープンエンドな強化学習訓練タスクで、OpenWebRL-4BはOnline-Mind2Webで67.0％、DeepShopで64.0％の成功率を達成し、同程度またはより大規模な従来のオープンエージェントを上回り、OpenAI CUAやGemini CUAを含むプロプライエタリシステムとも競争力があります。強力なベンチマーク性能に加えて、オンライン強化学習を視覚的Webエージェントに効果的にする主要な設計選択を体系的に研究し、強化学習がエージェント的推論をどのように改善するかを分析します。全体として、我々の研究は、より能力が高く、再現可能で、コスト効率的なオープンWebエージェントを構築するための実践的な道を提供します。将来の研究を支援するために、訓練データ、モデル、コードを公開する予定です。

投機的パイプラインデコード：パイプライン並列性による高精度かつゼロバブルの投機
Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism

May 29

ByYijiong Yu, Huazheng Wang, Shuai Yuan, Ruilong Ren, Ji Pei

投機的復号（Speculative Decoding, SD）は、ドラフト・検証パラダイムを採用することで、低並列性のLLM推論を高速化する。しかし、主流の手法は通常、マルチトークン予測に依存しており、予測難易度の増大と逐次的なドラフト生成のレイテンシをもたらす。これらの課題に対処するため、我々は投機的パイプライン復号（Speculative Pipeline Decoding, SPD）を提案する。これはパイプライン並列処理の真の可能性を引き出す画期的なフレームワークである。ターゲットLLMをn個のパイプライン段に分割することで、SPDはLLMがn個のトークンを並列に処理し、復号を高速化することを可能にする。単一シーケンス復号においてパイプラインを継続的に満たすため、投機モジュールが異なるパイプライン深さにわたる中間特徴量を集約して次のトークンを予測し、ターゲットモデルのパイプラインステップと厳密に並列に実行することで、バウンドされた難易度、高い受理率、およびゼロレイテンシーバブルを実現する。実験により、SPDは主流のベースラインと比較して著しく高い理論的高速化を達成し、LLM復号高速化のための高いスケーラビリティを備えたソリューションを提供することを示す。我々のコードはhttps://github.com/yuyijiong/speculative_pipeline_decodingで公開されている。

言語エージェントのための方策と世界モデリングの共訓練
Policy and World Modeling Co-Training for Language Agents

Jun 1

ByNing Lu, Baijiong Lin, Shengcai Liu, Jiahao Wu, Haoze Lv, Yanbin Wei, Lingting Zhu, Shengju Qian, Xin Wang, Ying-Cong Chen, Qi Wang, Ke Tang

強化学習（RL）は、大規模言語モデル（LLM）エージェントに対し、高い報酬を得る行動を学習させることで性能を向上させるが、それらの行動が環境にどのような影響を与えるかについての監督情報はほとんど提供しない。世界モデリング（WM）はこのギャップを埋める可能性があるが、既存手法では多くの場合、別個のシミュレータや追加の学習段階、あるいは推論時の計算が別途必要となる。我々は、方策オン型のRLロールアウトがすでに必要な信号を含んでいることに着目する。すなわち、各遷移は行動とそれに続く次の観測をペアとして保持する。この観察に基づき、我々はPaW（Policy and World modeling co-training）を提案する。これは、推論パラダイムを変更することなく、RL中の同一方策に対して補助的なWM監視を追加する共学習フレームワークである。補助的なWM監視を情報豊かで安定したものにするため、PaWは三つの構成要素を導入する。すなわち、行動エントロピーに基づくWMデータ選択、ノイズ耐性を持つWM損失、および報酬適応型の損失バランス調整である。三つのエージェント型タスクベンチマークにおける実験では、モデルやRLアルゴリズムを問わず、強力なRLベースラインに対して一貫した改善が確認された。これらの結果は、標準的なRLロールアウトが言語エージェント学習におけるWM監視の実用的な源泉であることを示唆している。

AFUN: 機能理解のためのアフォーダンス基盤モデルを目指して
AFUN: Towards an Affordance Foundation Model for Functionality Understanding

Jun 1

ByZhaoning Wang, Yi Zhong, Jiawei Fu, Henrik I. Christensen, Jun Gao

アフォーダンス理解は視覚認識と物理的行動を橋渡しし、開放的な非構造化現実環境におけるロボット操作の説明可能なインタフェースとして機能する。しかし、相互作用が行われるべき場所と方法を理解するだけでなく、多様な環境、物体、タスクに一般化できるアフォーダンス基盤モデルの構築は、長年にわたる研究課題である。既存の手法は通常、この課題の一部のみを扱っており、実行可能な動作を指定せずにタスク関連領域を特定するか、動作を予測するがスケーラビリティに制限がある。本論文では、機能理解のためのアフォーダンス基盤モデルへの一歩として、ourmodelを提示する。単一のRGB-D観測と言語タスク記述から、ourmodelはタスク条件付き機能マスク（どこで相互作用するか）と3D接触後動作曲線（どのように相互作用するか）を予測する。オープンワールド一般化を支援するために、異種のロボット、人間、シミュレーション、実世界スキャンデータを言語、マスク、物体中心の3D動作ラベルとともに共有アフォーダンススキーマに変換する大規模標準化データパイプラインを構築する。我々はourmodelを3つの側面から評価する：アフォーダンスセグメンテーションにおいて、ourmodelは4つのベンチマークからの8テストセット全体で全ベースラインを大幅に上回り、平均gIoU/cIoUを+23.9/+26.3改善する；接触点予測において、最良ベースラインに対して12.7%から61.3%のヒット率向上で、大幅に正確な点を予測する；3D動作において、3つのテストセットすべてで最良の性能を達成する。ourmodelは、ロボットの身体性への微調整やタスク固有のヒューリスティックスを使用せずに実世界のロボット操作に展開でき、オープンワールドアフォーダンスタスクに適応する能力を示す。プロジェクトページ: https://www.zhaoningwang.com/AFUN

エージェントスキルはテキストを超えるべきである：視覚スキルの必要性
Agent Skills Should Go Beyond Text: The Case for Visual Skills

May 31

ByBinxiao Xu, Ruichuan An, Bocheng Zou, Hang Hua

再利用可能なスキルはエージェントの能力を拡張するための重要なメカニズムであり、エージェントが経験を蓄積し、ますます複雑なタスクを解決することを可能にする。しかし、既存のスキル学習手法の大半は、再利用可能な経験を指示、推論過程、要約された軌跡といったテキストのみの資産として記憶している。我々は、このテキスト単体のパラダイムが、視覚中心のタスクにおいて根本的なボトルネックを生み出すと主張する。なぜなら、再利用可能な知識はしばしば空間レイアウト、視覚的グラウンディング、細粒度の外観、および局所的な状態変化に依存するからである。この制限に対処するために、我々は宣言的テキストロジックと明示的な視覚的サポートを組み合わせたマルチモーダルスキルパラダイムである\NAMEを提案する。我々は三つの再利用可能な形態を区別する。すなわち、安定した空間的慣習のための静的プリオリ、その場での視覚的ワーキングメモリのための動的プリオリ、そして順序付けられたテキストステップを、それを正当化するソースフレーム、スクリーンショット、またはページ領域に結合するインターリーブ型視覚スキルである。視覚スキルは、何をすべきかを説明するだけでなく、どこを見るか、どのように検査するか、どのように視覚的な結果を検証するかもエンコードする。視覚スキルの構築を大規模化するために、我々は\SYSTEMを導入する。これは、タスク軌跡からテキスト推論、空間的参照、視覚的境界、インタラクションパターンを保持することにより、エージェントの経験を再利用可能なマルチモーダルスキルに変換する自動システムである。GUIおよびその他の視覚中心タスクにおける実験は、特に成功に空間的対応、視覚的証拠、状態認識インタラクションが必要な場合に、視覚スキルが一貫してテキストのみのスキルを上回ることを示している。これらの結果は、我々の中心的な立場を裏付けている。すなわち、再利用可能なエージェントスキルはテキストを超え、将来のマルチモーダルエージェントのためのマルチモーダル資産となるべきである。

RoboStressBench: 身体化されたシーンにおける物理的視覚ストレスに対するVLMのロバスト性のベンチマーキング
RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

May 30

ByLeyi Wu, Yifan Zhao, Jinjie Zhang, Suzeyu Chen, Wosong Chen, Zhifei Chen, Tianshuo Xu, Qingchun He, Hongxin Hu, Haojian Huang, Yangkai Wei, Wenqian Li, Yinchuan Li, Ying-Cong Chen

視覚言語モデル（VLM）は強力な視覚理解能力を示しており、現実条件下での信頼性の高い認識が不可欠な具現化AIシステムへの応用が進んでいる。しかし、既存のベンチマークでは、クリーンな画像や孤立した摂動を用いてVLMを評価するのみであり、物理的なシーン形成に起因するストレスを考慮していない。この設計には二つの限界がある。すなわち、日常的な視覚ストレスの狭い部分集合しか対象とせず、また一部の摂動は現実的な具現化シーンではほとんど出現しない。この乖離は、物理環境で遭遇する多様な要因を捉える原理的な視覚ストレスの定義方法という根本的な問いを提起する。この問いに答えるため、我々は逆グラフィックスの観点から視覚知覚を定式化し、具現化シーンにおける物理的視覚ストレスに対するVLMの頑健性を評価するベンチマークRoboStressBenchを導入する。物理的レンダリング方程式に着想を得たRoboStressBenchは、視覚ストレスを素材（M）、視点（V）、照明（L）、幾何形状（G）の四つの物理的に基づく次元に分解する。この設計により、RoboStressBenchは実環境における広範な視覚ストレスをカバーすると同時に、視覚認識、推論、計画といったVLMの能力に対するそれらの影響を制御可能な形で分析できる。最新のVLMに対する包括的評価を通じて、ストレス固有の故障モードを特定し、異なる物理的要因が異なる具現化能力を劣化させること、そしてこれらの影響が総合精度によってしばしば隠蔽されることを明らかにする。さらに、ストレスを認識するエージェント型解法を導入し、推論前に視覚ストレッサーを検出して視覚編集スキルを呼び出すことで、高ストレスシナリオにおける頑健性を向上させる。総じて、RoboStressBenchは現実世界の物理的ストレス下におけるVLMの知覚を診断・改善するための原理的な評価枠組みを提供し、より信頼性の高い具現化AIシステムの開発を支援する。

PARCEL: プールアンカー型リサンプリングと条件付き弾性クエリによる効率的な視覚言語理解
PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding

May 28

BySelim Kuzucu, Alessio Tonioni, Vasile Lup, Bernt Schiele, Federico Tombari, Muhammad Ferjad Naeem

大規模視覚言語モデル（LVLMs）は、視覚入力を高密度のトークン系列にマッピングし、推論時に二次計算量のボトルネックを引き起こす。弾力的な視覚トークン圧縮は、複数の視覚トークン予算で動作可能な単一モデルを訓練することで、この問題に対処する。しかし、既存手法は積極的な圧縮下で課題を抱える。ネステッドプーリングのような空間のみの圧縮は、不完全なローパスフィルタとして機能し、微細な詳細を不明瞭にするスペクトルエイリアシングを誘発する。ネステッドクエリリサンプリングのようなクエリのみの圧縮は、明示的なグリッド整列トークンを非局所的な要約に置き換え、空間的グラウンディングを著しく低下させる。この表現上の矛盾を解決するため、我々はPARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding) を導入する。これは、特徴抽出の役割を動的に分割する視覚トークン化アーキテクチャである。PARCELは、空間プールトークンを低周波レイアウトアンカーとして確立し、Pool-Conditioned Query Resamplingを通じてこれらのアンカーに条件付けられた弾力的なクエリトークンを生成する。これにより、クエリトークンは冗長な空間マッピングではなく、補完的な視覚特徴に集中するよう促される。27のベンチマークにわたる広範な評価により、PARCELが性能-効率のパレートフロンティアを改善し、「一度訓練すればどこでも展開可能」なパラダイムを維持しながら、視覚トークン予算全体で既存のマトリョーシカベースラインを一貫して上回ることが示された。

MineExplorer: MinecraftにおけるMLLMエージェントによるオープンワールド探索の評価
MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft

May 29

ByTianjie Ju, Yueqing Sun, Zheng Wu, Wei Zhang, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Gongshen Liu, Zhuosheng Zhang

マルチモーダル大規模言語モデル（MLLMs）は、知覚、推論、行動生成において強力な能力を示している。しかし、動的なオープンワールドにおける持続的な探索能力は依然として不明確である。既存の具現化型およびゲームベースのベンチマークは、相互作用を短期間のタスクに圧縮するか、ドメイン固有のゲームメカニクスと成功を絡め合わせることが多い。本論文では、MinecraftにおけるMLLMエージェントのオープンワールド探索能力を評価するためのMineExplorerベンチマークを紹介する。まず、解決策がMinecraft特有の知識に大きく依存する原子タスクをフィルタリングし、より汎用的なオープンワールド推論を反映させる。次に、ReActスタイルの能力定式化に基づいてベンチマークを構成し、原子タスクを暗黙のマルチホップタスクに合成する。さらに信頼性の高いインスタンスを構築するため、MineExplorerはマルチエージェント合成ワークフローを用いて、タスクグラフ、サンドボックスシーン、ルールベースのマイルストーン評価器を共同で設計する。人間による評価では、マルチエージェント合成ワークフローがシングルエージェントベースラインよりも有意に信頼性の高いインスタンスを生成することが示された。高度なMLLMエージェントを用いた実験では、強力なモデルが多くのシングルホップタスクを処理できる一方で、隠れた前提条件を長い軌跡にわたって調整する必要がある場合に性能が急激に低下するため、オープンワールド探索が依然として困難であることが明らかになった。さらなる分析では、タスクの難易度がエージェントの完了率と相関し、より大きなモデルや思考モードが必ずしも優れた性能に結びつかないことが判明した。コードとデータセットはhttps://github.com/Jometeorie/MineExplorerで公開されている。

RoboSemanticBench：VLAモデルの行動予測における意味的接地の診断
RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models

Jun 1

ByBin Yu, Yao Zhang, Haishan Liu, Shijie Lian, Yuliang Wei, Xiaopeng Lin, Zhaolong Shen, Changti Wu, Ruina Hu, Bailing Wang, Cong Huang, Kai Chen

視覚言語行動（VLA）モデルは、事前学習済みの言語または視覚言語バックボーンからの意味理解がロボットの行動予測を導くべきという前提に基づいて構築されている。しかし、ロボットのファインチューニングはタスク固有の行動分布に対する模倣として最適化されており、多くの評価は視覚的または指示-行動のショートカットによって解くことができる。本稿では、行動予測における意味的接地を診断するための具現化ベンチマークであるRoboSemanticBench（RSB）を導入する。すなわち、ポストトレーニングされたVLAモデルが複雑な指示の意味を活用して正しい物理的対象を選択し操作できるかを評価する。各エピソードにおいて、ロボットは多肢選択式の数学または一般知識問題を受け取り、候補となる回答ブロックを観察し、正解に対応するブロックを把持しなければならない。RSBは、制御された算術、小学校レベルの数学的理解、ならびに常識的または事実に基づく理解を、4択および10択のスイートでカバーする。代表的なVLAモデルにわたる評価の結果、多くのポリシーは候補ブロックを把持することを学習するものの、把持成功率を制御した後では、意味的に正しいブロックをほぼランダムまたはそれ以下の割合でしか選択せず、バックボーンレベルの意味能力と行動予測との間に持続的な乖離があることが明らかになった。

既製LLMをプロセススコアラーとして：数学的推論におけるPRMの学習不要な代替
Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

Jun 1

ByAtoosa Chegini, Soheil Feizi

複数の小規模モデルサンプルから、より強力なスコアラーを用いて最良の応答を選択するのは単純な推論時戦略であるが、小規模モデルがすでに誤った推論経路にコミットしている場合には失敗する。PRM誘導探索はこの問題を、生成中に候補の継続をスコアリングすることで回避するが、ステップレベルのラベルで学習された報酬モデルを必要とする。本稿では、学習不要の代替手法として、既製の大規模言語モデルをプロセススコアラーとして用いるチャンクレベル誘導生成を提案する。各ステップにおいて、小規模モデルがk個の固定長候補チャンクをサンプリングし、大規模モデルがテキストを生成することなく尤度を用いて候補をスコアリングする。選択されたチャンクは次のステップの前に確定され、誤りが伝播する前に生成を誘導する。この枠組みを二つの選択ルールで具体化する。1つは、長さ正規化された大規模モデルの対数確率が最大のチャンクを選択する尤度誘導選択（LGS）、もう1つは、小規模モデルの対数確率を差し引くことで、大規模モデルの選好が小規模モデルと乖離するチャンクを優先する対比誘導選択（CGS）である。大規模モデルの尤度を用いて可変長の推論ステップをスコアリングすることは、長さ正規化後も持続する体系的な長さバイアスにより信頼性が低く、固定長チャンクがこの交絡を回避することを示す。 GSM8K、MATH、Minerva Math、AMC23、AIME24において、Qwen2.5-1.5BをQwen2.5-32Bで誘導し、Llama-3.2-1BをLlama-3.1-70Bで誘導した場合、CGSは多数決投票を最大28ポイント上回り、同じ誘導予算の下では、報酬モデルの学習なしでほとんどのベンチマークにおいてQwen2.5-Math-PRM-72Bによる誘導探索と同等かそれ以上の性能を示す。Qwen2.5-7BをQwen2.5-72Bで誘導した場合、k=16でCGSはMATHにおいて81.8%、Minerva Mathにおいて63.6%に達し、多数決投票を4～6ポイント上回る。最後に、チャンクレベル誘導生成は、PRM誘導探索よりも大幅に短い推論トレースを生成する。

マルチエージェントによるコンピュータ利用
Multi-Agent Computer Use

Jun 1

ByJing Yu Koh, Ruslan Salakhutdinov, Daniel Fried

現在、コンピュータ利用エージェント（CUA）は主に単一のシリアルエージェントとして展開されている。この設定は、タスク分解、並列実行、新たな情報に基づく一貫した再計画が有益な複雑な長期タスクには最適ではない。本稿では、マルチエージェントコンピュータ利用（MACU）システムの評価と構築に移行すべきであると主張する。これらのシステムは計画と並列実行を重視し、単一エージェントCUAの多くの欠点を緩和する。我々は、マネージャモデルがコンピュータ利用タスクを有向非巡回グラフ（DAG）として分解し、サブエージェントの依存関係と目標をエンコードする汎用的なマルチエージェント構成を提案する。各イテレーションにおいて、マネージャは並列CUAサブエージェントを派遣し、DAGの準備完了フロンティア上のノードを実行させるとともに、サブエージェントから新たな知見が得られるたびにDAGを継続的に修正（ノードの追加、キャンセル、書き換え）する。この設計は、コンピュータ利用の部分観測環境を第一級の課題として扱い、下流エージェントが再観測できない可能性のある情報を、マネージャとDAG構造を通じて保持・伝達する。我々は、MACUがデスクトップ（OSWorld）およびWebナビゲーション（Online-Mind2Web、WebTailBench、Odysseys）のベンチマークにおいて、強力な単一エージェントベースラインを3.4～25.5%一貫して上回り、より有利なテスト時スケーリングを示し、単一エージェントCUAが行き詰まる複雑な長期タスクを解決することを実証する。長期WebナビゲーションベンチマークであるOdysseysでは、MACUによりタスク完了の平均壁時計時間が約1.5倍改善され、従来の低速なCUAパイプラインの高速化における有効性を示している。我々の知見は、マルチエージェント連携がコンピュータ利用エージェントをより長く効果的に動作させるための有望な拡張軸であることを強調する。すべてのコードとインタラクティブな可視化はhttps://jykoh.com/multi-agent-computer-useで公開している。

SOCO: 視覚基盤モデルにおける意味的物体対応のベンチマーキング
SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

May 29

ByOlaf Dünkel, Basavaraj Sunagad, Haoran Wang, David T. Hoffmann, Christian Theobalt, Adam Kortylewski

視覚基盤モデルにおける構造化された物体理解の計測は、一貫性のない評価プロトコルと限られた部品レベルの教師信号のために依然として困難である。意味的対応（SC）は、外観、視点、形状の大きな変動の下で、物体の部品がインスタンス間やカテゴリ間でマッチングできるかどうかをテストすることで、この能力を評価する。体系的なSC評価を可能にするために、我々はSemantic Object Correspondenceの新しいベンチマークであるSOCOを導入する。これは対応タイプの分類法を導入し、100カテゴリ、100万以上の対応ペアにわたって一貫性のある機能的に意味のあるキーポイントアノテーションを提供する。さらに、SOCOはキーポイントの言語記述を含み、大規模視覚言語モデル（LVLM）とその細粒度の部品レベル理解の評価を可能にする。包括的な実験により、以下のことが明らかになった。(i) 視覚基盤バックボーンは強力な意味構造をエンコードするが、関連カテゴリ間での対応転送は不十分であり、物体部品の位置を部分的にしか捉えていない。(ii) LVLMは、視覚参照を用いた画像間マッチングよりも、テキストプロンプトによる部品位置特定に優れており、言語に基づく位置特定と細粒度の視覚的対応の間にギャップがあることが明らかになった。(iii) 対応性能は、ImageNet分類よりも、セグメンテーション、トラッキング、3D姿勢推定、3D検出などの高密度下流タスクの性能をより強く予測する。これらの知見は、SOCOを視覚およびマルチモーダル基盤モデルにおける構造化された部品レベルの表現品質のベンチマークとして位置づける。

アクティベーションパッチングを用いたLLMアンラーニングの深さの計測
Measuring the Depth of LLM Unlearning via Activation Patching

May 23

ByJaeung Lee, Dohyun Kim, Jaemin Jo

大規模言語モデル（LLM）のアンラーニングは、プライバシー保護とAI安全性のための重要なポストホックメカニズムとして登場したが、対象知識が本当に消去されたかどうかを監査することは依然として困難である。既存の出力レベルの指標では、この知識が内部表現から回復可能なままである場合を検出できない。最近のホワイトボックス研究ではそのような残留知識が明らかにされているが、多くの場合、補助的な訓練やデータセット固有の適応に依存しており、一般化可能な指標は残されていない。これらの限界に対処するため、我々はアクティベーションパッチングを介してアンラーニングのメカニズム的深さを定量化する指標であるUnlearning Depth Score（UDS）を提案する。UDSはまず、保持モデルのベースラインを用いて対象知識をエンコードする層を特定し、次にアンラーニング済みモデルにおいてその知識がどの程度消去されたかを0-1スケールで測定する。8つの手法にわたる150のアンラーニング済みモデルに対する20の指標のメタ評価において、UDSは最高の忠実性とロバスト性を達成し、我々の因果的アプローチがアンラーニング評価に最も信頼できるものであることを確認した。ケーススタディではさらに、ホワイトボックス指標が層レベルで一致しない可能性があること、また消去の深さが例によって異なることが明らかになった。我々はUDSを既存のベンチマーキングフレームワークに統合し、評価パイプラインを効率化するためのガイドラインを提供する。コードとデータは https://github.com/gnueaj/unlearning-depth-score で入手可能である。

HakushoBench: 政府白書に基づく日本語の図表VQAベンチマーク
HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers

May 31

ByIssa Sugiura, Shuhei Kurita, Yusuke Oda, Naoaki Okazaki

グラフや表画像の理解は、視覚言語モデル（VLM）を実世界の文書理解に応用する上で不可欠である。英語のベンチマークは急速に進展している一方で、非英語のベンチマークは依然として乏しく、この進展が言語を超えて一般化するかは明らかではない。主な障害は、現実的で多様な非英語のグラフや表画像を大規模に収集することの難しさである。この課題に対処するため、我々は政府白書を、英語以外のベンチマーク構築のためのスケーラブルな情報源として活用する。政府白書には多様な形式や分野にわたる自然発生のグラフや表が含まれており、多くの国で自由にアクセス可能だからである。最初の具体例として、33の政府白書から構築した、挑戦的な日本語のグラフ・表VQAベンチマークであるHakushoBenchを紹介する。HakushoBenchは10以上の画像タイプにわたる2,053枚の画像を含み、手動でアノテーションされたQAペアを備えており、局所的な視覚的手がかりのみではなく、グラフや表の深く総合的な理解を評価するように設計されている。幅広いVLMを用いた実験により、HakushoBenchがオープンウェイトモデルにとって依然として困難であることが示された。最高性能のオープンウェイトモデルでも精度は58.6%にとどまり、オープンウェイトモデルとプロプライエタリモデルの間には34.9ポイントの差があり、複雑なグラフや表の理解には大きな改善の余地があることが浮き彫りになった。我々はデータセットとコードを公開する。

SVI-Bench：戦略的ビデオインテリジェンスのための動的マイクロワールド
SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence

May 29

ByYulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius

真のビデオインテリジェンスには、可視的なものを認識するだけでは不十分である。なぜ事象が展開するのかを推論し、異なる条件下で何が変化するかを予測し、次に何をすべきかを判断することが求められる。この、知覚から因果推論とシミュレーションを経て戦略的計画に至るプロセスを、我々は戦略的ビデオインテリジェンス（SVI）と呼ぶ。既存のベンチマークではこの能力スタックを評価できない。実世界の動画では因果的・戦略的質問に対する検証可能な正解が欠けており、一方で合成環境は実際のマルチエージェントシステムの複雑さを犠牲にしている。このギャップを埋めるために、我々はSVI-Benchを導入する。これは大規模ベンチマークであり、チームスポーツを動的なミクロ世界として活用し、実世界のマルチエージェント相互作用（敵対的プレッシャー下で調整された意思決定を行う10～22エージェント）の複雑さと、明示的なルールと決定的な結果による検証可能性を組み合わせたものである。SVI-Benchは、約35,000時間の放送ビデオ、1,500万件の注釈付きアクション、15,000時間の専門家解説、23,000件の試合レポート、およびバスケットボール、サッカー、ホッケーにわたる103,000件の構造化統計記録で構成され、これら全ては生の試合データを高密度で相互参照されたコーパスに変換するデータエンジンを介して構築されている。我々は評価を9つのタスクに整理し、それらは4つの柱からなる段階的階層にまたがる。すなわち、動的シーン理解、因果推論、戦略的シミュレーション、そしてエージェント的合成である。強力なマルチモーダルおよびエージェント的ベースラインを評価した結果、能力の崖が明らかになった。モデルは知覚タスクでは十分に機能し、詳細なアクションQAで約73%の精度を達成するが、認知レベルが上がるごとに急激に性能が低下する。エージェント的タスクは最も困難であり、最強のモデルでも180万クリップのコーパスから自律的に証拠を収集・統合する必要がある場合、精度はわずか5%にとどまる。

FineVerify: エージェント検索のための細粒度自己検証によるテスト時計算のスケーリング
FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search

May 30

ByJames Xu Zhao, Hui Chen, Bryan Hooi, See-Kiong Ng

エージェント検索では、言語モデルエージェントが多数の情報源を探索し、複雑な情報要求質問に回答する必要があります。テスト時計算の拡大はこれらのエージェントを改善する有望な方法ですが、現在のアプローチは失敗することがあります。なぜなら、正解がしばしば疎であり、スコアに基づく選択がモデルのキャリブレーションに依存するからです。我々はFineVerifyを提案します。これは細粒度の自己検証フレームワークであり、各質問をチェック可能なサブ質問に分解し、サンプリングされた候補を各サブ質問に対して検証し、最も高い集約スコアを持つ候補を選択します。このチェックごとの構造は、選択をより単純な局所的な判断に変え、同じ明示的な基準の下でスコアを生成します。4つのエージェント検索ベンチマークと2つのモデルにおいて、FineVerifyは一貫して標準的なスケーリングベースラインを上回ります。わずか4つのサンプリング軌道で、GPT-5-miniの精度を8.2ポイント向上させ、Gemini-3-flashでは平均5.6%の改善を達成します。12サンプルでは、FineVerifyによりGPT-5-miniがBrowseComp-PlusにおいてフロンティアモデルであるGPT-5を上回ることが可能になります。精度に加えて、FineVerifyは解釈可能な検証トレースを生成し、ベンチマークエラーの監査に役立ち、エージェント検索システムを検査するためのより広範な応用を示唆します。コードとデータはhttps://github.com/XuZhao0/fineverifyで入手可能です。

物理AIにおけるサイレント障害：自律システムの実行時行動承認に関する文献レビュー
Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems

May 23

ByBarak Or

Physical AIシステムは、マルチモーダル観測、言語命令、学習された世界表現を物理的に重大な行動へとマッピングすることが増えている。ロボティクス基盤モデル、視覚-言語-行動モデル、世界モデルベースの自律システムは、車両、ロボット、ドローン、産業機械を動かす判断を条件付けることができる。この移行は、従来のAIコンテンツモデレーションや古典的なロボット安全だけでは完全には捉えられない安全性の問題を露呈する。すなわち、ブラックボックスモデルが、自信に満ち、もっともらしく、意味的に整合しているように見えながら、物理的に重大な行動を出力する可能性がある。その結果生じる障害は、センサドリフト、オクルージョン、状態推定誤差、分布シフト、幻覚的アフォーダンス、あるいは下流のハードウェア制御装置が違反を検出する前の無効な物理的仮定に起因し、無音で発生しうる。具現化基盤モデル、世界モデル、ロボティクスシミュレーション、具現化安全性ベンチマーク、安全制御、実行時保証、不確かさ推定、検証、およびガードレール評価にわたって、モデルの能力と安全メカニズムは、ほぼ別個の技術的経路に沿って進展してきた。本レビューで総合される繰り返し発生するギャップは、調査対象のどの単一の流れも、ブラックボックスPhysical AIモデルと物理的実行との間の完全な実行時認可境界を提供していないことである。その結果としての分析は、境界付き問題定式化、無音物理行動障害の定義、実行時ガードレール機能の分類法、およびガードレールをPhysical AI保証メカニズムとして比較するための評価要件を導き出す。

場所だけでなく、時間：RLVRのための時間スケジューリング
Not only where, But when: Temporal Scheduling for RLVR

May 25

ByJinghao Zhang, Ruilin Li, Feng Zhao, Jiaqi Wang

検証可能な報酬を用いた強化学習（RLVR）は、大規模言語モデル（LLM）の事後訓練における中核的手法となっている。政策最適化は、大域的に放送されるスカラー報酬のもとでサンプリングされた全トークンによって駆動されるが、軌跡に沿って示される異質な政策行動は、区別されることなくほとんど見過ごされている。既存研究では、トークンレベルのアドバンテージ再重み付けや選択的トークン最適化を含む信用割り当てによってこの問題に対処しているが、割り当て基準は訓練全体を通じて基本的に固定的であり、弾力的な政策進化を制限している。本稿では、学習信号がいつスケジューリングされるかが、それらがトークン間でどこに割り当てられるかと同様に重要であると主張し、RLVR最適化の過程で信用割り当て基準をスケジューリングする時間的次元を導入する。特定の政策行動で強調された標的トークンを優先し、徐々に一般的最適化へと減衰させることで、より安定かつ効率的な学習ダイナミクスが得られることを見出す。さらに、単純な軌跡パーセンタイルが政策行動を区別する自然な視点を提供し、時間的スケジューリングと効果的に機能することを示す。分析により、標準的最適化では異質な行動を同時に扱う際に方策エントロピーを大幅に犠牲にするのに対し、時間的スケジューリングはより健全な政策進化ダイナミクスをもたらすことが明らかになった。数学的および一般的推論ベンチマークでの実験は一貫した改善を示しており、時間的スケジューリングが有望な最適化次元を構成することを示唆している。

言語横断的トークナイザ手術とオフライン蒸留による多言語埋め込みモデルのトルコ語への適応
Adapting Multilingual Embedding Models to Turkish via Cross-Lingual Tokenizer Surgery and Offline Distillation

May 28

ByM. Ali Bayram, Banu Diri, Savaş Yıldırım

文埋め込みは、意味検索、クラスタリング、分類、検索拡張生成の基盤構成要素である。本論文では、トルコ語に特化した文埋め込みモデルであるembeddingmagibu-200mを提案する。本モデルは768次元のL2正規化ベクトルを生成し、8,192トークンのコンテキストウィンドウをサポートする。これは従来のBERTベースのトルコ語エンコーダが持つ512トークンの制限を大幅に上回る。完全な事前学習の代わりに、効率的な3段階の適応パイプラインを導入する。(1)教師モデルの語彙から冗長なトークンを削除し、40言語コーパス上の頻度分析を通じて多言語トークンを組み込むことで、131,072語彙を持つトルコ語最適化多言語トークナイザを構築する。(2)トランスフォーマー主幹重みを保持しつつ教師埋め込みモデルを複製し、平均合成トークンマッピングにより新しい語彙に対する互換性のある埋め込みテーブルを初期化する。(3)バランスの取れた40言語Wikipediaコーパス上で、コサイン類似度目的関数を用いて事前計算された教師ベクトルからのオフライン埋め込み蒸留を実行する。結果として得られる生徒モデルは約2億パラメータを持ち、訓練中にオンラインの教師推論を回避することで、単一GPU上で約4時間で訓練が完了し、総コストは5～20ドルである。実験的には、STSbTR上でピアソン/スピアマン相関係数77.55%/77.45%を達成し、3億パラメータの教師モデル(73.84%/72.92%)を上回る。TR-MTEB（26タスク）では平均スコア63.9%（26モデル中7位）を獲得し、教師より33%少ないパラメータで競争力のあるコストと品質のトレードオフを提供する。再現性と下流での利用を促進するため、モデル重み、トークナイザファイル、事前計算された埋め込みデータセット、オープンソースの複製および蒸留ツールを含むすべての成果物を公開する。

3DCodeBench: コードによるエージェント型プロシージャル3Dモデリングのベンチマーク
3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

May 31

ByYipeng Gao, Lei Shu, Genzhi Ye, Xi Xiong, Ameesh Makadia, Meiqi Guo, Laurent Itti, Jindong Chen

コードによる手続き型3Dモデリングは、決定論的でエンジン対応、かつ精密に編集可能なアセットを提供する、ニューラル3Dジェネレーターが本質的に欠く特徴を持つ多用途なパラダイムとして台頭している。しかし、そのような手続き型コンテンツの作成には、3DソフトウェアAPI、パラメトリックデザイン、およびコードレベルの幾何学的推論に関する深い専門知識が必要である。本論文では、3Dモデリングソフトウェアにおける手続き型3D生成のための視覚言語モデル（VLM）エージェントを評価する体系的なベンチマークである3DCodeBenchを提案する。具体的には、3DCodeBenchは、テキストや画像の参照を3Dモデリングソフトウェアの手続き型コードに変換することで、12の先進的なVLMが手続き型3Dモデラーとしてどの程度効果的に機能するかを評価する。自動評価指標では3D形状の知覚品質を完全には捉えきれない可能性を認識し、生成された3D出力に対するペアごとの人間の嗜好に基づくランキングプラットフォームである3DCodeArenaを構築した。広範な評価と結果から、以下の観察結果が得られた。(1) 失敗の大部分はAPIの不一致に起因し、レンダリングが成功した場合でも、3Dの幾何学的構成要素が分断または浮遊している問題が依然として見られる。(2) テスト時におけるスケーリング、例えばより高い思考予算やマルチターンによる改良は、全体的な性能を向上させる。これらの発見は、商用VLMを高度化するために、高品質な手続き型コーディングデータが緊急に必要であることを示している。さらに、効果的な手続き型3Dモデリングには、反復的な改良のための高忠実度フィードバックを提供する堅牢な実行環境が必要である。我々は、厳選された大規模マルチモーダル（テキスト/画像）プロンプトデータセット、手続き型コード、3Dオブジェクトトリプレット、評価プロトコル、および公開プラットフォーム3DCodeArenaを含む3DCodeBenchを、VLMに基づく手続き型3Dモデラーを探求するための基礎ツールキットとして公開する。

LongAttnComp: クロスファミリーコンテキスト圧縮による長文脈推論
LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning

May 31

ByMengmeng Ji, Ravi Shanker Raju, Jonathan Lingjie Li, Chen Wu

実世界のアプリケーションにおいて10万トークン以上の入力を処理する必要性が増すにつれ、コンテキスト長と推論効率のギャップは重要なボトルネックとなっている。コンテキスト圧縮は、タスク精度を維持しつつプリフィルコストを削減する方法を提供する。しかし、既存の学習不要なアテンションベース手法では、コード推論などの要求の厳しい長文コンテキストタスクにおいて、大きな課題が残されている。本稿では、AttnCompの長文コンテキスト向け適応であるLongAttnCompを提案する。これは、軽量なクロスアテンションスコアリング層を微調整し、トークンレベルのチャンキング、トークンバジェットtop-pアルゴリズム、位置の再順序付け、形式に依存しないクエリパーサを導入する。さらに、圧縮器向けに2段階の微調整レシピを設計する。ステージ1ではNIAHスタイルのデータから汎用的な検索基盤を構築し、ステージ2ではマルチホップおよび推論データを追加して、より広範な長文コンテキストタスクをカバーする。InfiniteBench Code-Debugにおいて、LongAttnCompはフルコンテキスト精度と同等またはそれを上回り、学習不要ベースラインを大幅に上回り、3ファミリーの4つのターゲットモデル間で転移可能である。LongBench v2では、2段階レシピによりマルチ文書推論におけるステージ1のギャップを大幅に縮小しつつ、Code-Debugの性能を維持する。

EVA01: Transformer混合による統合ネイティブ3D理解と生成
EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

May 16

ByZongyuan Yang, Mingjing Yi, Wanli Ma, Chenzhuo Fan, Bocheng Li, Baolin Liu, Yuke Lou, Yingde Song, Yongping Xiong, Zhengdong Guo, Shimu Wang

本論文は、3Dメッシュをマルチモーダル大規模言語モデル（MLLM）のネイティブモダリティとして統合する課題に取り組む。拡散ベースの大規模再構築モデルは、意味理解と幾何学的推論を分離し、密な2Dピクセル事前分布に基づくステートレスな再構築器として動作する。近年のMLLMベースの手法は、3Dモダリティをマルチモーダル系列のネイティブコンポーネントではなく外部出力として扱い、幾何学的多様体がMLLMの特徴空間とどのように整合するかについての体系的な分析を行わずに、漸進的な適応を施している。我々は、MLLMのモダリティ境界を拡張し、3Dメッシュの理解、生成、およびコンテキスト認識型編集をネイティブに組み込む統一フレームワークであるEVA01を紹介する。Mixture-of-Transformers（MoT）アーキテクチャに基づくEVA01は、モデルを事前学習済みの理解エキスパート（E_{und}）と構造的にミラーリングされた生成エキスパート（E_{gen}）に分離し、ハードモダリティルーティングを伴う共有グローバル自己注意機構を通じて結合する。この設計により、MLLMバックボーンの意味的潜在空間が幾何学的多様体と整合し、中間的な2D表現を介さずにマルチモーダル事前分布の直接転送が可能となる。結果は、EVA01が最先端のネイティブテキストから3D生成の忠実度を達成し、同一性を保持した堅牢な長コンテキストマルチターン幾何学的編集を実現することを示す。これは、ステートレスな再構築パイプラインでは根本的にアクセス不可能な能力である。我々の知見はさらに、2D基盤モデルと3Dタスクの統合に関するアーキテクチャ上の洞察を提供し、3Dネイティブマルチモーダルシステムの設計に寄与する。プロジェクトページ：https://www.seeles.ai/research/pages/EVA01

ACL-Verbatim: 研究のための幻覚フリー質問応答
ACL-Verbatim: hallucination-free question answering for research

May 20

ByGábor Recski, Szilveszter Tóth, Nadia Verdha, István Boros, Ádám Kovács

学術研究者は、信頼できる情報源から高品質な情報を収集するための効率的かつ信頼性の高い手法を必要としている。しかし、現代のAI支援研究ツールは、大規模言語モデル（LLM）が事実と異なる、あるいは無意味な出力を生成する傾向（一般にハルシネーションと呼ばれる）に依然として悩まされている。本研究では、抽出型質問応答システムVerbatimRAGをACLアンソロジーの研究論文に適用し、ユーザーのクエリを取得された文書中の逐語的なテキスパンに直接マッピングする。また、ユーザーのクエリを研究論文の関連テキスパンにマッピングするタスクのための新たな正解データセットを提供し、それを用いて様々な抽出モデルを訓練・評価する。人間によるアノテーションは、NLP研究者によって実施され、ScIRGen手法に基づくカスタムパイプラインを用いて生成された合成ユーザークエリと、VerbatimRAGによって取得された研究論文のチャンクとの組み合わせに基づいている。このベンチマークにおいて、我々のパイプラインからの銀ラベルを用いた教師信号で訓練された150MパラメータのModernBERTトークン分類器は、単語レベルのF1で最高値（53.6）を達成し、最も強力な評価対象LLM抽出器（48.7）を上回った。

混合エキスパートのための信頼度適応型SwiGLU
Confidence-Adaptive SwiGLU for Mixture-of-Experts

May 30

ByShaohua Li, Xiuchao Sui, Xiaobing Sun, Yuhang Wu, Liangli Zhen, Yong Liu, Rick Siow Mong Goh

SwiGLUは現代のTransformer MLPにおける標準的なゲート付き活性化関数となっているが、そのゲートのシャープネス（ゲート関数の滑らかさと選択性）は通常、学習を通じて固定されている。本研究では、Mixture-of-Experts (MoE) モデル向けのSwiGLUの変種であるConfidence-Aware SwiGLU (κ-SwiGLU) を提案する。これはトークンレベルのルーティング信頼度に応じてエキスパートゲートのシャープネスを調整する。具体的には、κ-SwiGLUはSiLUゲートのシャープネス係数をルータロジットの学習可能な関数としてパラメータ化し、各エキスパートゲートユニットが滑らかで広範に活性化するゲーティングと、鋭く選択的なゲーティングの間で補間できるようにする。我々はκ-SwiGLUを、8層から28層のMoE Transformerモデルを用いてFineWeb-Eduデータセット上で評価した。これらの設定において、κ-SwiGLUは無視できる程度のパラメータ追加とわずかな計算オーバーヘッドのみで平均CORE性能を向上させ、信頼度を考慮したゲートのシャープネスがMoE MLPの改善に有望なメカニズムであることを示している。コードはhttps://github.com/askerlee/kappa-swigluで公開されている。

TVIR：テキストとビジュアルが混在したレポート生成のための深層研究エージェントの構築
TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation

Jun 1

ByXinkai Ma, Zhiqi Bai, Dingling Zhang, Pei Liu, Yishuo Yuan, He Zhu, Jiakai Wang, Qianqian Xie, Yifan Zhao, Xinlong Yang, Hao Cong, Zhiheng Yao, Fengxia Xie, Zihao Xu, Haoran Xu, Zhaohui Wang, Minghao Liu, Shirong Lin, Yingshui Tan, Yuchi Xu, Wenbo Su, Zhaoxiang Zhang, Bo Zheng, Jiaheng Liu

Deep Research Agentsは、多段階の情報検索、推論、長文レポート生成において高い能力を示しているが、既存のベンチマークやシステムは主にテキスト中心であり、視覚的要素が事実として信頼でき、周囲の分析と適切に整合しているかどうかの評価は限られている。このギャップを埋めるため、我々はTVIR（テキスト-ビジュアル交互配置レポート生成）を導入する。TVIRは、視覚的要素が特定の分析サブ目標を果たすことを要求する、専門家が厳選した100のマルチモーダル深層研究タスクからなるベンチマークであるTVIR-Benchと、アウトラインの構築、画像の検索、トレース可能なソースを持つグラフの生成、および文脈認識型の逐次的な文章作成によるレポートの構成を行うための強力なベースラインとして機能する階層的マルチエージェントフレームワークであるTVIR-Agentを含む。さらに、テキスト評価と視覚評価を組み合わせた二経路評価フレームワークを開発する。9つの深層研究システムにわたる実験により、TVIR-Agentは全体的に高い性能を達成し、エビデンス駆動型レポート生成における明示的なマルチモーダル設計と評価の重要性が強調された。

MindZero: アノテーションを一切用いないオンライン心的推論学習
MindZero: Learning Online Mental Reasoning With Zero Annotations

May 29

ByShunchi Zhang, Jin Lu, Chuanyang Jin, Yichao Zhou, Zhining Zhang, Tianmin Shu

現実世界における効果的な支援を実現するには、人間の行動から心的状態を推論する強固な心の理論（ToM）を備えたAIエージェントが必要である。近年の進展にもかかわらず、以下のようないくつかの重要な課題が残っている：（1）複数の仮説に対する頑健な不確実性更新を伴うオンライン推論、（2）リアルタイム支援に適した効率的な推論、（3）現実世界の領域における正解の心的状態アノテーションの欠如。これらの課題に対処するため、我々はMindZeroを導入する。これは、効率的かつ頑健なオンライン心的推論のためにマルチモーダル大規模言語モデル（MLLM）を訓練する自己教師あり強化学習フレームワークである。訓練中、モデルはプランナーによって推定された観測行動の尤度を最大化する心的状態仮説を生成することで報酬を得る。これはモデルベースのToM推論に類似している。この手法により、明示的な心的状態アノテーションの必要性が排除される。訓練後、MindZeroはモデルベース推論を高速な単一パス推論に内在化する。我々は、グリッドワールドと家庭内領域における困難な心的推論およびAI支援タスクにおいて、MindZeroをベースラインと比較評価した。その結果、LLM単独では不十分であり、モデルベース手法は精度を向上させるが、遅く、コストがかかり、バックボーンMLLMの容量に制限されることがわかった。対照的に、MindZeroはMLLMの内在的なToM能力を強化し、精度と効率の両方でモデルベース手法を大幅に上回り、心的推論が自己教師ありスキルとして効果的に学習可能であることを示している。

領域認識二モーダル直接選好最適化による構成的テキスト画像生成
Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

May 27

ByZhuohan Liu, Wujian Peng, Yitong Chen, Zuxuan Wu

テキストから画像への生成（T2I）モデルの急速な進歩にもかかわらず、属性の結合、オブジェクト間の関係、計数などを含む複雑な構成のプロンプトを正確に反映した画像を生成することは依然として困難である。この課題に対処するため、我々はT2Iモデルの構成テキスト画像生成能力を強化するフレームワークであるBiDPOを提案する。まず、厳格な品質管理のもとで大規模な選好データセットBiCompを構築するための注意深く設計されたパイプラインを導入する。次に、Diffusion DPOを拡張し、画像とテキストの選好を同時に最適化する手法を提案する。この手法は、複雑なテキストプロンプトに従った生成においてモデルを大幅に改善する上で極めて有効であることが示されている。さらに、細粒度のアライメントを強化するため、構成概念に関連する領域に焦点を当てた領域レベルのガイダンス手法を採用する。実験結果は、我々のBiDPOが構成的一貫性を大幅に向上させ、複数のベンチマークにおいて従来手法を一貫して上回ることを示している。本アプローチは、複雑なテキスト画像生成タスクにおける選好ベースのファインチューニングの可能性を強調し、既存技術に代わる柔軟でスケーラブルな選択肢を提供するものである。

StressDream: ロバストな方策評価と改善のためのビデオワールドモデルの誘導
StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement

May 29

ByJunwon Seo, Sushant Veer, Ran Tian, Wenhao Ding, Apoorva Sharma, Karen Leung, Edward Schmerling, Marco Pavone, Andrea Bajcsy

ビデオワールドモデル（WM）は、エゴロボットの動作に条件づけられた現実的な未来の観測を想像することにより、ポリシー評価と改善に有望であることが示されている。WMは未来の分布をモデル化できる一方で、ポリシー評価と改善は通常、名目的な想像に依存しており、これではロボット動作の影響の大きい結果を見逃す可能性がある（非常に多くのサンプルを取得しない限り）。WMの想像に基づくロバストなポリシー評価と改善を実現するために、我々はStressDreamを提案する。これは、拡散ベースのWMの初期ノイズを最適化することで、推論時に指定された影響が大きくかつもっともらしい結果へ想像を誘導する。しかし、高次元ノイズの最適化は困難である。最適化では、生成された動画内の微妙でシーンに依存したターゲットイベントを推論しつつ、非現実的な想像をもたらす分布外（OOD）ノイズを回避する必要がある。我々はこれを、生成動画を推論することで情報的な勾配を提供する視覚言語モデルを用いた意味的目的と、最適化されたノイズがOODに逸脱するのを防ぐもっともらしさ目的という、2つの相補的な目的で解決する。自動運転とロボット操作のための最先端のビデオワールドモデルを用いて、StressDreamが、タスク失敗などのテキストで指定された影響が大きくもっともらしい結果へ、推論時に想像を効果的に誘導し、もっともらしい未来に望ましくない結果を含む動作を特定することで、ロバストなポリシー評価と改善を可能にすることを示す。動画結果は https://junwon.me/StressDream/ で入手可能である。

統一ニューラルスケーリング則
Unified Neural Scaling Laws

May 25

ByEthan Caballero, Priyank Jaini, David Krueger, Irina Rish

本論文では、深層ニューラルネットワークのスケーリング挙動を、複数の次元（すなわち、モデルパラメータ数、訓練データセットサイズ、訓練ステップ数、推論ステップ数、計算量、および様々なハイパーパラメータ）がすべて同時に変化する状況において（つまり、興味のある評価指標がどのように変化するか）、様々なアーキテクチャと、多様な上流および下流タスクのそれぞれについて、正確にモデル化し外挿する関数形式（これを統一神経スケーリング則（UNSL）と呼ぶ）を提示する。このタスクセットには、大規模な視覚、言語、数学、および強化学習が含まれる。他の神経スケーリングの関数形式と比較すると、この関数形式は、このセットにおけるスケーリング挙動の外挿をかなり正確にもたらす。

予測された動力学は物理世界に存在し得るか？
Can Predicted Dynamics Exist in the Physical World?

May 23

ByBarak Or

予測物理的人工知能システムは、状態ロールアウト、アクションチャンク、および潜在計画を出力するが、低い二乗平均平方根誤差（RMSE）は特定の提案が物理的に実行可能であることを意味しない。我々は物理的許容性を予測制御インターフェースとして定式化する。実行前に、復号された提案は候補動的挙動として扱われ、運動学的、動的、および直接合成ホライズン条件を用いて評価される。合格はタスク成功の証明ではなく、拒否は指定された物理的包絡線の違反を特定し、コンポーネントレベルの理由を与える。Hugging Face LeRobot PushTにおいて、制御反証により、一段階予測RMSEと標準化動的残差が受信者動作特性曲線下面積（AUC）0.982および0.972に達し、運動学のみの条件はAUC 0.592に達し、完全ゲートは条件レベルの帰属を伴いAUC 0.957に達することが示される。リプレイベースの介入実験では、残差ベースフィルタおよび完全物理許容性ゲートが無効な提案の87～89%を防止し、平均進捗を0.998近くに維持する。

幾何学的潜在推論はLLMの生成を短縮する
Geometric Latent Reasoning Induces Shorter Generations in LLMs

Jun 1

ByShashi Kumar, Yacouba Kaloga, Petr Motlicek, Ina Kodrasi, Andrea Cavallaro

大規模言語モデルは、長い明示的な推論トークンの連鎖を生成することで複雑な問題を解決する。この手法は効果的である一方、推論を高コストにし、長さに敏感にし、そして（離散的な）自然言語に制約する。潜在推論は連続的な代替手段を提供するが、中間潜在状態に有用な構造を決定することは未解決の課題である。本稿では、モデルの事前学習済みトークン埋め込み空間内での幾何学的経路近似問題として潜在推論を定式化する。我々は幾何学的潜在推論（GLR）を導入する。これは軽量な遷移ヘッドを用いて埋め込み空間内の反復的な方向更新を予測するものである。テキスト形式の思考連鎖（chain-of-thought）の軌跡をアンカーとして用いることで、GLRは離散的な推論軌跡を近似しつつ、厳密なトークン埋め込みからの連続的な逸脱を許容する。Qwen3モデルを用いた数学的推論ベンチマークでの評価は、創発現象を明らかにする。すなわち、幾何学的潜在推論は明示的な長さの目的関数なしに、顕著に短い生成を誘発する。初期の明示的な推論を連続的な潜在ステップに置き換えることで、モデルは全体の生成ステップ数を大幅に削減しながら正しい答えに到達することが多い。これらの知見は、連続的な軌跡がコンパクトな中間推論状態として機能することを示唆し、潜在計算予算、出力長、精度の間に新たなトレードオフを露呈する。

ChartArena: 言語、シナリオ、フォーマットを横断したチャート解析のベンチマーキング
ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and Formats

May 31

ByShangpin Peng, Gengluo Li, Xingyu Wan, Chengquan Zhang, Hao Feng, Binghong Wu, Huawen Shen, Weinong Wang, Ziyi Cai, Zhuotao Tian, Han Hu, Can Ma, Yu Zhou

チャートは数量的・関係的情報を伝達する主要な媒体であるが、チャート解析モデルを体系的に評価することは依然として困難である。既存のベンチマークは限られたチャート種別に焦点を当てており、フローチャートやマインドマップなどの図式構造はほとんど扱われていない。また、モデルは互換性のない形式で出力を生成し、データセットは実際に遭遇する印刷物や手書き画像をほとんど含んでいない。これらの問題に対処するため、我々はChartArenaを導入する。これは、数値チャートと図式構造の両方にわたる8つのチャートファミリーをカバーし、各ファミリーをデジタルレンダリング、印刷写真、手書き写真の3つの視覚的シナリオで評価する、包括的なバイリンガルベンチマークである。データセットは、人間とエージェントの協調によるアノテーションパイプラインと、複数段階の人間による検証を経て構築され、アノテーションの信頼性を確保している。さらに、公平なモデル間比較を可能にするため、形式非依存の評価プロトコルを設計した。これは、異種の出力を正規化トリプルビューと有向グラフビューという2つの標準意味空間にマッピングし、構造を考慮したメトリクスでスコアリングするものである。26の主要なMLLMを広範に評価した結果、以下の3つの一貫した知見が得られた。(i) Gemini 3.1 Proなどの最先端プロプライエタリモデルが総合的にリードするが、最強のオープンソースシステムは急速にその差を縮めつつある。(ii) 文書解析モデルは数値チャートを適切に扱うが、図式構造では大きく劣る。(iii) 専門的なチャートパーサーは依然として限られたチャートファミリーに限定されている。全モデルにおいて、レーダーチャートと手書きシナリオは特に困難である。これらの知見は、ChartArenaが明確な能力ギャップを明らかにし、今後の進歩のための統一的基盤を提供することを示している。ChartArenaはhttps://github.com/pspdada/ChartArenaで公開されている。

Blenderで思考する: 視覚言語モデルを用いた段階的実行可能逆グラフィックス
Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models

Jun 1

ByGuangzhao He, Rundong Luo, Wei-Chiu Ma, Hadar Averbuch-Elor

逆グラフィックスは、画像を編集可能な3Dシーンとして再構成し、レンダリング、再照明、操作を可能にする長年の課題であり、非常に制約の少ない問題である。本研究では、事前学習された視覚言語モデル（VLM）が、特殊な2Dまたは3D基盤モデル、微分可能レンダリング、多視点監視に依存することなく、単一画像から直接、編集可能なBlenderプログラムとしてシーンを再構成することで、実行可能な逆グラフィックスを遂行できるかどうかを調査する。我々は、Staged Executable Inverse Graphics（SEIG）を導入する。これは、エージェントベースのフレームワークであり、単一画像から3Dシーンを再構成するために、形状、マテリアル、構成、照明といったシーンの要素を、実行可能なBlenderコード空間内で段階的に精緻化する。我々は、ピクセルレベル、知覚的、意味的忠実度にわたる様々な再構成指標を用いて、多様なシーンで本フレームワークを評価する。実験結果から、段階的再構成が再構成の忠実度を大幅に向上させることが示され、汎用VLMによる実行可能逆グラフィックスにおけるタスク分解の重要性が明らかになった。最後に、再構成された編集可能なBlenderシーンによって可能となる様々な下流アプリケーションを紹介する。

Lean 4による形式的に検証された数理ファイナンスのライブラリ
A Formally Verified Library of Mathematical Finance in Lean 4

May 31

ByRaphael Coelho

我々は、Lean 4 証明支援系において、Mathlib および BrownianMotion パッケージの上に構築された数理ファイナンスのライブラリを解説する。このライブラリは広範であり、連続時間確率解析の測度論的基礎からデリバティブ価格評価、さらには応用リスク理論、ポートフォリオ理論、債券理論に至る11の分野にわたる200以上の未完成箇所（sorry）のない定理を含み、我々の知る限り、これまでで最も包括的な数理ファイナンスの機械検証による開発である。広範さは前提であり、要点ではない。このライブラリが単なるカタログ以上のものとなっている点は二つある。まず、連続理論に十分深く踏み込み、L2伊藤積分を有界線形等長写像として構成し、リスク中立価格評価測度を仮定するのではなく導出している。第二に、自己の忠実性を監査している。すなわち、各結果は、Lean の文が主張する数学とどのように関連しているかによって分類され、ビルドによって強制されるゲートが各証明が実際に使用する公理を固定するため、読者は何が証明されたのか、何が追加の仮定の下でのみ証明されたのかを正確に確認できる。最後に、率直な知見を述べる。古典的な数理ファイナンスの上に形式化された基盤は、新たな金融理論ではなく、既知の結果の証明済みの統合をもたらす。したがって、本貢献は方法論的および基盤的なものであり、再利用可能な検証済みの数理ファイナンスの基礎と、忠実性監査を提供するものである。

FreeForm: 粒子ベースのスキニング固有モードによる低次元変形シミュレーション
FreeForm: Reduced-Order Deformable Simulation from Particle-Based Skinning Eigenmodes

May 28

ByDonglai Xiang, Vismay Modi, Rishit Dagli, Ty Trusty, Gilles Daviet, Anka He Chen, Nicholas Sharp, David I. W. Levin

本稿では、可変形超弾性物体のメッシュフリーかつ低次元化シミュレーションのための新しい定式化を提案する。既存の低次元化弾性動力学シミュレーションでは、入力形状をメッシュ（複雑な形状のスキャンや三角形分割の困難さから入手が難しい）または形状ごとの最適化を要するニューラル場で表現する。本研究では、再生核粒子法（RKPM）表現を採用し、弾性エネルギーのヘッセ行列に対する一般化固有値問題を解くことで低次元化スキニング重みを構築可能にする。この定式化により、ニューラル場の形状ごとの最適化と比較して訓練速度が40倍向上するだけでなく、有限要素法の収束結果と比較した際のシミュレーション誤差も低減することを実証する。メッシュやガウススプラット等多様な表現で表された様々な物体に対するシミュレーション結果、および下流タスクとしてのロボットシミュレーションへの本手法の応用を示す。

大規模多言語パラレルデータのためのモデルベース品質評価
Model-Based Quality Assessment for Massively Multilingual Parallel Data

May 29

ByAbdelaziz M. A. Ibrahim, Zihao Li, Jörg Tiedemann, Shaoxiong Ji

大規模な多言語バイテキストには、しばしば非パラレルな文ペアと低品質な翻訳という2つの明確な問題が含まれている。本稿では、こうしたデータに対するモデルベースの評価を、多言語埋め込みを用いたパラレリズム評価と参照なし品質推定（QE）という2つの独立した構成要素に分解する。パラレリズムについては、FLORES-200およびBOUQuET検索タスクにおいて4つの埋め込みモデルをベンチマークし、我々のターゲット言語ペア目録における6,654のソース–ターゲット方向をカバーした。QEについては、41,412の順序付きソース–ターゲット方向にわたるプロのFLORES-200翻訳に対して、9つの参照なし評価器を評価する。結果は、翻訳方向全体で普遍的に信頼できるモデルは存在しないことを示している。単純なQEアンサンブルは強いモデルの信号を希釈する一方、文書化されたターゲット言語カバレッジは高いQEスコアと強く関連している。全体として、これらの知見は、多言語パラレルデータの評価は、すべての言語において十分に機能する単一の普遍的な指標が期待できない、方向認識型のルーティングおよびキャリブレーション問題として取り組むのが最適であることを示唆している。

連鎖は保たれ、答えは崩れる：敵対的圧力下における推論モデルのトレースと答えの解離
The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure

May 27

ByYubo Li, Ramayya Krishnan, Rema Padman

推論モデルは単一ターンのベンチマークで評価されるものの、実際には複数ターンの対話環境で展開され、ユーザーが正しい回答に対して反論を加えることがある。持続的な敵対的圧力下において、これまで文書化されていなかった障害モードを発見した。すなわち、思考連鎖は最初のターンから最後まで事実上正しいままであるにもかかわらず、出力される回答が誤ったものに反転する現象である。これを「不誠実な降伏（UC）」と称し、反転率指標や単一ターンの忠実性プローブのいずれも捉えられない2×2の潜在対行動フレームワークを用いて分離する。3つのデータセット（MT-Consistency、MMLU-Pro、GSM8K）において、行動反転時の潜在的正解率は思考モードで約50%に集中し、無思考モードでは11～15%に低下する。これはペア化されたモデル内因果的証拠により、推論がそのギャップを生み出していることを示している。モデル間では、この効果は推論チャネルに追跡可能であり（Qwen3-32BおよびGPT-OSS-20Bでは高く、インラインCoTのGemma-4-31B-itでは低い）。独立したGPT-4o判定器はUCラベルの86%を裏付けており、トークンレベルのプローブはUCセルの84%で回答スロットのargmaxが正しいことを示し、素朴なトレースアンカー防御は逆効果となる。すべての軌跡、トレース、判定器ラベルを公開する。

同じ質問、異なるソース、異なる回答：医療マルチソースRAGにおけるソース依存性の検証
Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG

May 27

ByYubo Li, Rema Padman, Ramayya Krishnan

複数の著者による機関コーパス上に展開された検索拡張生成（RAG）システムは、同じ質問に対して、どの情報源を検索するかに応じて異なる回答を提供する可能性がある。これは、従来の単一正解を前提とする評価パラダイムでは診断できない障害モードである。本稿では、情報源依存性が自然言語処理（NLP）評価における欠落した軸であると主張し、その監査には評価の単位を回答の正しさから情報源間の関係性へと移行する必要があると論じる。この概念を移植患者教育において具体化する。移植患者教育では、機関の情報源間に明らかな不一致が存在する。本稿では、次の3つの成果物を公開する。すなわち、実際の患者質問をベンチマークとし、各質問に対して複数の機関ハンドブックを候補情報源として生成を基盤付けたTransplantQA、各回答を基盤付けし監査する階層的検索戦略を実装したHERO-QA、そして検証済みの5ラベル分類法に基づいて情報源間の関係性を評価する構造化出力判定器である。大規模な評価において、より優れた検索は従来の推定よりもはるかに多くの不一致を明らかにする。これは不一致の強度ではなくその頻度を過小評価していたことを示す。本フレームワークはドメインに依存せず、法務や教育分野のRAGにも転用可能である。情報源依存性の測定は、一般的に展開される複数情報源NLPにとっての責務である。

Review Arcade: LLMレビューにおける人間との整合性とゲーム耐性
Review Arcade: On the Human Alignment and Gameability of LLM Reviews

May 27

ByHans Ole Hatzel, Sebastian Steindl, Jan Strich

LLMによる科学論文のレビュー生成が急速に注目を集めており、主要な学会で公式に試験的に導入され始めている。査読者だけでなく、著者も投稿前に論文を修正するためにLLMを利用していると想定しなければならない。本研究では、2025年ACL Rolling Review (ARR) に投稿された論文を対象に実証実験を行い、著者と査読者の両方の視点からLLMレビューを評価する。第一に、LLMレビューと人間によるレビューの間には限定的な一致性しか見られないことを明らかにする。最良のシナリオでは、その一致性は妥当な水準にある。しかし、LLMと人間の一致性はプロンプトやモデルによって大きく異なることも判明した。最後に、著者がLLMレビューに従って投稿原稿を改善するために反復的な草稿修正ワークフローを利用するシナリオを調査する。このようなLLMレビューの「ゲーミング」は特定のシナリオで効果的であり、最大35%の論文において総合スコアの統計的に有意な向上をもたらすことが明らかになった。コードは以下のURLで公開している：https://github.com/uhh-hcds/reviewarcade

AIよ、ハンドルを握れ：人間とコンピュータの協調的質問応答における委任と信頼を駆動するものは何か？
AI, Take the Wheel: What Drives Delegation and Trust in Human-Computer Cooperative Question Answering?

May 27

ByMaharshi Gor, Yoo Yeon Sung, Yu Hou, Eve Fleisig, Irene Ying, Tianyi Zhou, Jordan Boyd-Graber

AIシステムは誤りを犯す可能性があり、人間も自身の判断よりもAIを信頼するかどうかの判断において誤りを犯す可能性がある。したがって、人間とAIの協調を改善するには、人間がいつ、なぜ、どのようにAIに依存するかを理解する必要がある。我々は二つの異なる依存判断を研究する。すなわち、委任選択（AIの出力を知らずにAIに自律的に行動させるタイミングを決定すること）と採用選択（AIの提案を評価し、その活用方法を決定すること）である。これらの切り離された依存パターンは両方とも協調を形成するが、先行研究では現実的な環境で同一ユーザーを対象にこれらを一緒に研究することはほとんどなかった。我々はこのギャップに対処するため、人間がいつどのようにAIエージェントと協力して勝利するかを選択できる質問応答ゲームで競う、人間とAIの協調チームを研究する。我々の24試合では、23人の専門家と16のAIエージェントをペアリングし、387件の委任判断と1440件の採用判断を収集した。人間とAIの協調はAI単独または人間単独よりも優れた性能を示す一方で、人間は最適ではない協調判断を下し、正しいAI提案への過小依存（機会の3.9％を逃す）と、AIが誤った情報を与えた場合の過剰依存（1.7％）の両方が見られる。両者とも誤答に寄与している。人間とAIが不一致の場合、報告されたモデルの信頼度は偶然レベルに近く、一方、AIの提案が人間の初期の誤答と一致する場合、確証バイアスにより過小依存が高まる（64.5％）。このギャップを埋めるために、我々は校正された信頼度、証拠に基づく説明、およびユーザーが信頼を洗練するのに役立つメカニズムを推奨する。

深層学習のハミルトン-ヤコビ理論
The Hamilton-Jacobi Theory of Deep Learning

May 27

ByJose Marie Antonio Miñoza, Erika Fille T. Legara, Christopher P. Monterola

本論文では，ニューラルネットワークの訓練が厳密にハミルトン–ヤコビ初期値問題の探索として同定される。すなわち，各勾配ステップは粘性ハミルトン–ヤコビ方程式の初期データを選択し，そのホップ–コール伝播子が観測に最も適合するようにする。推論時には，入力は解が評価される空間点であり，初期条件は既に重みに符号化されている。この対応は対数和指数（log-sum-exp）層に対して厳密であり，より広範なアーキテクチャ（残差ネットワーク，トランスフォーマー，リカレントアーキテクチャ（RNN，LSTM，SSM））に対しては構造的な対応となる。これらはいずれも同じクラスのハミルトン–ヤコビ方程式を離散化しており，ハミルトニアンと粘性はアーキテクチャに依存する。単一の変形パラメータεが，ネットワーク，トロピカル代数，粘性偏微分方程式，凸最適化という四つの視点すべてを，リプシッツ条件の下で閉じた可換図式として統合する。定量的な結果として以下が得られる：固定されたtに対するミニマックス最適汎化率O(n^{-1/(d+2)})，εによって制御される敵対的ロバスト性，残差ネットワークに対するハミルトン系の共状態方程式としての誤差逆伝播（ポントリャーギンの最大原理），PDE求積を介したデータ内在次元と整合するスケーリング指数，そして閉形式O(N)の影響関数（ソフトマックス帰属重みπ_j）が得られ，そのエントロピーランドスケープはεの増加に伴って折れ曲がり分岐を起こし，各帰属流域が融合する。

翻訳の迷い？ラテン語からオック語への文法的性の変化を探る
Lost in Translation? Exploring the Shift in Grammatical Gender from Latin to Occitan

May 26

ByAhan Chatterjee, Matthias Schöffel, Matthias Aßenmacher, Marinus Wiedner, Esteban Garces Arias

ラテン語からロマンス諸語への通時的変化においては、大半のロマンス諸語で文法性（ジェンダー）体系が三区分（男性・女性・中性）から二区分（男性・女性）へと再構築された。本研究では、この現象を語彙レベルおよび文脈レベルの両方で調査するための解釈可能な深層学習フレームワークを導入する。まず、従来のトークン化戦略はこの低リソースの歴史的設定に対して十分に頑健ではなく、我々が提案するトークナイザーがこれらのベースラインよりも性能を向上させることを示す。語彙レベルでは、形態的特徴がジェンダー予測に与える影響を評価する。文脈レベルでは、異なる品詞カテゴリが文法性予測に寄与する度合いを定量化する。これらの分析を組み合わせることで、レンマとその文中文脈との間におけるジェンダー情報の分布を特徴づける。コードベース、データセット、および結果はhttps://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}で公開している。

DOT-MoE: MoE化のための微分可能最適輸送
DOT-MoE: Differentiable Optimal Transport for MoEfication

Jun 1

ByUdbhav Bamba, Arnav Chavan, Aryamaan Thakur, Steve Teig, Deepak Gupta

大規模言語モデル（LLM）のスケーリングは大幅な性能向上をもたらしたが、推論効率において重大な課題を生み出している。混合専門家モデル（MoE）アーキテクチャは、モデルサイズと推論コストを切り離すことでこの問題に対処するが、MoEをゼロから学習することはしばしば不安定であり、計算負荷が大きい。事前学習済みの高密度モデルを疎なMoEに変換することが代替解決策として浮上しているが、既存手法は通常、フィードフォワードネットワーク（FFN）を専門家に分割するためにヒューリスティックなニューロンクラスタリングやランダム分割に依存している。本研究では、高密度層の分解を微分可能最適輸送（DOT）問題として定式化する新しいフレームワークDOT-MoEを提案する。静的ヒューリスティックの代わりに、ニューロン割り当てをバランスのとれた輸送問題としてモデル化し、微分可能なSinkhorn-Knopp反復を利用して厳密な専門家容量制約を強制する。さらに、ストレートスルー推定器（STE）を活用し、離散的なニューロン対専門家の割り当てと、トークン対専門家のルーティングポリシーをエンドツーエンドで共同学習する。複数のアーキテクチャとベンチマークにわたる広範な実験により、DOT-MoEは構造化プルーニング、ヒューリスティッククラスタリング、ランダム分割のベースラインを大幅に上回り、元の高密度モデルの性能の90%を維持しつつ、アクティブパラメータを50%削減することを示す。

意味動作アンカー：共発話ジェスチャーにおける動作と意味の橋渡し
Semantic Motion Anchors: Bridging Motion and Meaning in Co-Speech Gestures

Jun 1

ByVarsha Suresh, Mohammad Mahdi Abootorabi, Mohamed Salman, M. Hamza Mughal, Christian Theobalt, Ashwin Ram, Jürgen Steimle, Vera Demberg

音声テキストとジェスチャー間の共有表現を学習することは、共発話ジェスチャーの検索、合成、理解において中心的な課題であるが、動きだけでは伝達意図が捉えられない意味的に有意義なジェスチャーに対しては依然として困難が伴う。トランスクリプトと連続的な動作埋め込みとの直接的な対比的アライメントは、低レベルの運動学を過度に強調し、意味的ジェスチャーの象徴的内容を見落とすことが多い。我々は、ジェスチャー動作の物理的形態と伝達意図を捉えた自然言語による抽象化である意味的動作アンカーを提案する。本手法は、3Dジェスチャーを身体・手の動作プリミティブに離散化し、それらを構造化された記述に言語化し、トランスクリプトに接地することで補助的な対比的監督を提供する。BEAT2において、本手法はテキストからジェスチャーへのR@1を直接的なテキスト-動作ベースラインと比較して8.2%向上させ、テキストからジェスチャーおよびジェスチャーからテキストの検索方向において従来の検索手法を上回る。総合的な検索指標を超えて、意味的動作アンカーによる監督は、一般的な動作パターンに陥るのではなく、発話クエリに対して意味的に有意義なジェスチャーを検索するのに役立つ。下流の検索拡張ジェスチャー生成研究では、ユーザーが検索拡張生成ベースラインよりも本手法で検索されたジェスチャーを有意に好むことが示され、意味的に基づいた検索が下流生成において伝達意図をより適切に伝えるジェスチャーにつながることが実証された。

NLPにおけるアノテーションは誰が行うのか：2018年から2025年までの人間によるアノテーション報告の大規模評価
Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025

Jun 1

ByMaria Kunilovskaya, Gagan Bhatia, Lisa Sophie Albertelli, Yanran Chen, Christian Greisinger, Lotta Kiefer, Christoph Leiter, Subhadeep Roy, Tewodros Achamaleh, Muhammad Arslan Manzoor, Sebastian Pohl, Yufang Hou, Steffen Eger

人間によるアノテーションは、データセット構築からモデル評価に至るまで、多くのNLP研究の実証的基盤となっているが、論文では誰がアノテーションを生成し、アノテーションプロセスがどのように管理されたかが不明瞭なままであることが多い。本稿では、主要なNLP関連学会における人間によるアノテーション報告の大規模かつタスクレベルの初の監査を実施し、どのアノテーション詳細が文書化され、何が欠落しており、報告が時間、トピック、学会、および人間の判断の意図された用途にわたってどのように異なるかを問う。我々は、アノテーション報告慣行の統一的分類法を導入し、41論文・72アノテーションタスクからなる人間による調停済みゴールドスタンダード（Annotated-gold）に対してLLM支援抽出パイプラインを検証した。最良モデルは調停済みラベルと人間と同等の一致を示し、Krippendorffのα係数は0.606（人間間一致は0.585）であった。このパイプラインを用いて、2018年から2025年までのACL関連学会の論文を対象とし、1,603論文から2,667のアノテーションタスクを抽出したデータセットAnnotated-llmを構築した。その結果、論文はしばしば募集戦略、アノテーターの専門性、アノテーション量などの運用詳細を報告する一方で、アノテーションの妥当性評価に必要な詳細（訓練、言語能力、報酬、社会人口統計、調停、一致値など）を、特にモデル評価研究において省略することが多いことが判明した。我々の結果は、NLPにおけるアノテーション報告が時間とともに改善されてきたものの、依然として不均一であることを示しており、人間によるアノテーションをより信頼性が高く、再現可能で、解釈可能にするためのスケーラブルな枠組みと最低限の報告推奨事項を確立する。

τ₀-WM: ロボット操作のための統合ビデオ・アクション世界モデル
τ_0-WM: A Unified Video-Action World Model for Robotic Manipulation

May 31

ByPengfei Zhou, Shengcong Chen, Di Chen, Jiaxu Wang, Rongjun Jin, Bingwen Zhu, Yike Pan, Songen Gu, Kuanning Wang, Shufeng Nan, Xingyu Qiu, Chenhao Qiu, Pu Yang, Yunuo Cai, Jianxiong Gao, Yifan Li, Yanwei Fu, Xiangyu Yue, Zhi Chen, Jianlan Luo

ロボット操作には、物理的実行に先立って将来の結果を予測し評価しながら、実行可能な行動を生成するモデルが必要である。本稿では、ポリシー学習、動画予測、行動評価を単一の未来予測フレームワークに統合した統一型動画・行動世界モデル「τ_0-World Model (τ_0-WM)」を提案する。共有の動画拡散バックボーン上に構築されたτ_0-WMは、2つの補完的インターフェースを提供する。第一に、動画行動モデルは、多視点観測、言語指示、ロボット状態から将来の視覚潜在変数と連続的な行動チャンクを共同で予測する。第二に、行動条件付き動画シミュレータは、候補となる行動チャンクを多視点の未来フレームに展開し、密なタスク進捗スコアを予測する。本モデルは、約27,300時間に及ぶ実ロボット遠隔操作、UMI方式のインタラクション、一人称視点の人間動画、ならびにロールアウトや失敗軌跡のデータを、モダリティ別の教師マスクを用いて学習する。推論時には、τ_0-WMはテスト時計算を活用して行動候補をサンプリングし、再ノイズ除去の整合性に基づいてランク付けし、低品質な候補にはシミュレータによる修正を適用する。挑戦的な長期的かつ細粒度のロボット操作タスクにおいて、τ_0-WMは他の関連ベースラインを上回る優れた性能を示す。

示せ、語るな：説明可能なAI生成テキスト検出
Show, Don't TELL: Explainable AI-Generated Text Detection

May 27

ByAldan Creo, Suraj Ranganath

AI生成テキスト検出に関する研究では、人間の文章とAIの文章を区別するための多くのアプローチが提案されており、その中には高い分布内性能を達成するものもある。しかし、現実世界での適用可能性は停滞している。なぜなら、それらの出力は教授などのユーザーのニーズと乖離しており、数値スコアのみが提示され、それに付随する説明がないからである。我々はこの問題に取り組むため、根本から説明可能性を組み込んだ新しいアーキテクチャTELLを提案する。我々のシステムは他の検出器と同様に比較可能性のために数値スコアを提供するが、TELLは根本的に異なるアプローチをとる。すなわち、モデルがテキストをAI生成または人間作成と判断する根拠となる「兆候（tells）」をユーザーに示し、ユーザー自身の判断と、執筆の文脈や執筆者とされる人物の理解に基づいて誰が書いたかを決定できるようにすることを目指す。我々はTELLを、ドメイン固有の著者性アノテーションからなるカスタムSFTデータセットで訓練し、さらにカリキュラム学習を用いたGRPOによりシステムを洗練させて性能を向上させる。最先端の検出器と同等の性能（AUROC 0.927）を達成しつつ、検出器の判断根拠を説明するアノテーションをネイティブに提供する。さらに、人間によるアノテーションデータセットを用いて説明の質を評価し、アノテーションの具体性、反証可能性、一貫性、妥当性、根拠付けにおいて高い勝率（平均72.3%）を報告する。これにより、ユーザーは批判的に考え、自ら判断することができる。我々の研究は、これによりAI生成テキスト検出の問題を人間中心の視点から再構成し、ネイティブな説明可能性に焦点を当てた新しい検出器のファミリーへの道を開くものである。