HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

53 papers found

シンプルで統一的なスケーリングによる金メダル級オリンピアード推論の達成
Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

May 13

ByYafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng

126

近年の推論モデルの進歩により、長期的な数学・科学問題解決が大幅に向上し、いくつかのシステムは国際数学オリンピック（IMO）や国際物理オリンピック（IPhO）の問題で金メダルレベルの性能を達成している。本稿では、事後学習された推論バックボーンを、厳格なオリンピアードレベルの解法器に変換するためのシンプルかつ統一的なレシピを紹介する。このレシピは、まず逆パープレキシティカリキュラムを用いたSFTにより、厳密な証明探索と自己チェックの振る舞いを植え付け、次に検証可能な報酬を用いたRLからより繊細な証明レベルのRLへと進む2段階のRLパイプラインを通じてこれらの振る舞いを拡張し、最後にテスト時スケーリングによって解法性能を向上させる。このレシピを適用し、約34万のサブ8Kトークン軌跡に対するSFTとその後の200RLステップを用いて、30B-A3Bバックボーンを訓練した。得られたモデルSU-01は、10万トークンを超える軌跡で難問に対する安定した推論を可能とし、IMO 2025/USAMO 2026やIPhO 2024/2025を含む数学・物理オリンピック競技で金メダルレベルの性能を達成する。また、数学や物理を超えた領域への科学推論の強力な一般化も示す。

因果的フォーシング++: リアルタイムインタラクティブ動画生成のためのスケーラブルな数ステップ自己回帰拡散蒸留
Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

May 14

ByMin Zhao, Hongzhou Zhu, Kaiwen Zheng, Zihan Zhou, Bokai Yan, Xinyuan Li, Xiao Yang, Chongxuan Li, Jun Zhu

リアルタイムインタラクティブ動画生成には、低遅延、ストリーミング、および制御可能なロールアウトが必要です。既存の自己回帰（AR）拡散蒸留手法は、双方向ベースモデルを少数ステップのAR学生モデルに蒸留することで、チャンク単位の4ステップ設定において強力な結果を達成していますが、粗い応答粒度と無視できないサンプリング遅延に依然として制限されています。本論文では、より積極的な設定、すなわちわずか1～2サンプリングステップによるフレーム単位の自己回帰を研究します。この設定において、少数ステップAR学生モデルの初期化が主要なボトルネックであることを特定しました。既存の戦略は、目標との不一致、少数ステップ生成の不可能性、または拡張のためのコストが高すぎるという問題を抱えています。我々は、少数ステップAR初期化のために因果整合性蒸留（因果CD）を用いる、原理的かつスケーラブルなパイプラインであるCausal Forcing++を提案します。中核的なアイデアは、因果CDが因果ODE蒸留と同じAR条件付きフローマップを学習する一方で、隣接タイムステップ間の単一のオンライン教師ODEステップからの監視を得ることで、完全なPF-ODE軌跡の事前計算と保存を回避するという点です。これにより、初期化がより効率的かつ最適化が容易になります。結果として得られるパイプラインである\oursは、**フレーム単位の2ステップ設定**において、VBench Totalで0.1、VBench Qualityで0.3、VisionRewardで0.335の改善を、最先端の4ステップチャンク単位Causal Forcingに対して達成すると同時に、初フレーム遅延を50%削減し、Stage2の学習コストを約4倍削減します。さらに、このパイプラインをGenie3の精神に基づく行動条件付き世界モデル生成に拡張します。プロジェクトページ：https://github.com/thu-ml/Causal-Forcing および https://github.com/shengshu-ai/minWM 。

自己蒸留エージェント強化学習
Self-Distilled Agentic Reinforcement Learning

May 14

ByZhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

強化学習（RL）は、LLMエージェントの事後学習における中心的なパラダイムとして登場したが、その軌跡レベルの報酬信号は、長期的なインタラクションに対して粗い監督しか提供しない。オンポリシー自己蒸留（OPSD）は、特権的コンテキストで拡張された教師ブランチからの密なトークンレベルのガイダンスを導入することで、RLを補完する。しかし、OPSDをマルチターンエージェントに転用することは問題を引き起こす。複合的なマルチターンの不安定性が監督を不安定にし、スキル条件付き特権的ガイダンスは、不完全なスキル検索または活用に起因する否定的な教師の拒否に対し、非対称な扱いを必要とする。本稿では、SDAR（自己蒸餾エージェント強化学習）を提案する。SDARは、OPSDをゲート付き補助目的として扱いつつ、RLを主要な最適化基盤として維持する。SDARは、切り離されたトークンレベルの信号をシグモイドゲートにマッピングし、教師が承認したポジティブギャップトークンに対する蒸留を強化し、否定的な教師の拒否をソフトに減衰させる。Qwen2.5およびQwen3ファミリーにおいて、ALFWorld、WebShop、Search-QA上で評価した結果、SDARはGRPOと比較して大幅に改善され（ALFWorldで+9.4%、Search-QAで+7.0%、WebShop-Accで+10.2%）、単純なGRPO+OPSDの不安定性を回避し、モデル規模を問わずハイブリッドRL-OPSDベースラインを一貫して上回る。

MemLens: 大規模視覚言語モデルにおけるマルチモーダル長期記憶のベンチマーキング
MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

May 14

ByXiyu Ren, Zhaowei Wang, Yiming Du, Zhongwei Xie, Chi Liu, Xinlin Yang, Haoyue Feng, Wenjun Pan, Tianshi Zheng, Baixuan Xu, Zhengnan Li, Yangqiu Song, Ginny Wong, Simon See

大規模視覚言語モデル（LVLMs）にとって、長くマルチモーダルな対話を処理するには記憶が不可欠であり、この能力を提供する手法として、長文脈LVLMとメモリ拡張エージェントの二つの方向性がある。しかし、既存のベンチマークでは、真にマルチモーダルな証拠を必要とする質問について、これら二つを系統的に比較したものは存在しない。このギャップを埋めるため、我々はMEMLENSを導入する。これはマルチモーダルなマルチセッション対話における記憶を評価する包括的ベンチマークであり、789の質問から構成され、5つの記憶能力（情報抽出、マルチセッション推論、時間推論、知識更新、回答拒否）を、クロスモーダルなトークン数換算方式のもとで4つの標準的文脈長（32K～256Kトークン）に対して評価する。画像アブレーション研究により、MEMLENSの解決には視覚的証拠が必要であることが確認された。証拠画像を除去すると、証拠に画像を含む質問（全体の80.4%）において、最先端の二つのLVLMの正解率は2%を下回る。27のLVLMと7のメモリ拡張エージェントを評価した結果、長文脈LVLMは直接的な視覚的根拠に基づき短い文脈では高い正解率を示すものの、対話が長くなるにつれて性能が低下する。一方、メモリエージェントは長さに対して安定しているが、保存時の圧縮により視覚的忠実度が低下する。マルチセッション推論ではほとんどのシステムが30%を下回り、どちらか一方のアプローチだけでは課題を解決できない。これらの結果は、長文脈注意機構と構造化マルチモーダル検索を組み合わせたハイブリッドアーキテクチャの必要性を示唆する。コードは https://github.com/xrenaf/MEMLENS で公開している。

SANA-WM: ハイブリッド線形拡散トランスフォーマーを用いた効率的な分スケール世界モデリング
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

May 14

ByHaoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie

我々は、高効率な2.6Bパラメータのオープンソースワールドモデル「SANA-WM」を導入する。本モデルは1分間の生成をネイティブに学習し、高精細で720p、分単位のビデオを精密なカメラ制御とともに合成する。SANA-WMは、LingBot-WorldやHY-WorldPlayといった大規模産業ベースラインに匹敵する画質を達成しつつ、効率を大幅に向上させる。アーキテクチャは4つの核心的設計に基づく。(1) ハイブリッド線形注意機構：フレーム単位のGated DeltaNetとソフトマックス注意を組み合わせ、メモリ効率の高い長距離コンテキストモデリングを実現。(2) デュアルブランチカメラ制御：正確な6自由度軌跡の追従を保証。(3) 2段階生成パイプライン：ステージ1の出力に長ビデオリファイナーを適用し、シーケンス全体の品質と一貫性を向上。(4) 堅牢なアノテーションパイプライン：公開ビデオから正確なメートルスケールの6自由度カメラポーズを抽出し、高品質で時空間的に一貫したアクションラベルを生成。これらの設計により、SANA-WMはデータ、学習計算リソース、推論ハードウェアにおいて顕著な効率性を示す。メートルスケールのポーズ教師データを用いた約21万3千本の公開ビデオクリップのみを使用し、学習は64基のH100 GPUで15日間で完了、各60秒クリップの生成は単一GPU上で実行可能。蒸留版では、NVFP4量子化により単一のRTX 5090上で60秒の720pクリップを34秒でノイズ除去できる。我々の1分間ワールドモデルベンチマークにおいて、SANA-WMは既存のオープンソースベースラインよりも高いアクション追従精度を示し、同等の画質を36倍のスループットで達成し、スケーラブルなワールドモデリングを実現する。

MemEye: マルチモーダルエージェントメモリのための視覚中心評価フレームワーク
MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

May 14

ByMinghao Guo, Qingyue Jiao, Zeru Shi, Yihao Quan, Boxuan Zhang, Danrui Li, Liwei Che, Wujiang Xu, Shilong Liu, Zirui Liu, Mubbasir Kapadia, Vladimir Pavlovic, Jiang Liu, Mengdi Wang, Yiyu Shi, Dimitris N. Metaxas, Ruixiang Tang

長期エージェントメモリはますますマルチモーダル化しているが、既存の評価手法では、エージェントが後続の推論に必要な視覚的証拠を保持しているかどうかを検証することはほとんどない。従来の研究では、多くの視覚的な質問がキャプションやテキストトレースのみで回答可能であり、細粒度の視覚的証拠を保持しなくても推論できるケースが存在した。一方で、変化する視覚状態に基づく推論が必要な困難な事例はほとんど扱われていない。そこで我々は、メモリ能力を2つの次元から評価するフレームワークMemEyeを提案する。第1の次元は、決定的な視覚的証拠の粒度（シーンレベルからピクセルレベルまで）を測定し、第2の次元は、取得した証拠の利用方法（単一証拠から進化的統合まで）を測定する。本フレームワークに基づき、8つの生活シナリオタスクにわたる新たなベンチマークを構築し、アブレーション駆動型の検証ゲートを用いて、解答可能性、近道回避性、視覚的必要性、推論構造を評価する。4つのVLMバックボーンにおける13のメモリ手法を評価した結果、現在のアーキテクチャでは細粒度の視覚的詳細を保持し、時間経過に伴う状態変化を推論することが依然として困難であることが明らかになった。我々の知見は、長期マルチモーダルメモリが証拠のルーティング、時間的追跡、詳細抽出に依存していることを示している。

Darwinファミリー: MRI信頼重み付け進化的マージによる言語モデル推論の訓練不要スケーリング
Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

May 14

ByTaebong Kim, Youngsik Hong, Minsik Kim, Sunyoung Choi, Jaewon Jang, Junghoon Shin, Minseo Kim

本稿では、Darwin Familyを提案する。これは、大規模言語モデルを訓練なしで進化的に統合するための枠組みであり、勾配を用いない重み空間上の再結合により実現される。追加の訓練を行うことなく、既存のチェックポイントに符号化された潜在能力を再編成することで、フロンティアレベルの推論性能が向上するかどうかを問う。Darwinは以下の3つの主要なアイデアを導入する。(i) 14次元の適応的マージゲノムにより、コンポーネントおよびブロックレベルでの細粒度の再結合を可能にする。(ii) MRI-Trust Fusionは、学習可能な信頼パラメータを通じて、診断的な層重要度信号と進化的探索を適応的にバランスする。(iii) Architecture Mapperにより、異種のモデルファミリー間でのクロスアーキテクチャ育種を可能にする。実験的に、代表モデルであるDarwin-27B-OpusはGPQA Diamondで86.9%を達成し、評価された1,252モデル中第6位となり、勾配ベースの訓練を一切行わずに完全訓練済みの基盤モデルを上回る。4Bから35Bパラメータの規模にわたり、Darwinモデルは一貫して親モデルよりも改善され、再帰的な多世代進化をサポートし、TransformerベースとMambaベースのコンポーネントを組み合わせた訓練不要の進化的マージを実現する。Darwin Familyは全体として、診断誘導型の進化的マージが、推論中心の言語モデルにおける高コストな後処理パイプラインに代わる実用的かつ再現可能な選択肢であることを示している。

個人の知能を超えて：LLMに基づくマルチエージェントシステムにおける協調、失敗原因の帰属、および自己進化の展望
Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

May 14

ByShihao Qi, Jie Ma, Rui Xing, Wei Guo, Xiao Huang, Zhitao Gao, Jianhao Deng, Jun Liu, Lingling Zhang, Bifan Wei, Boqian Yang, Pinghui Wang, Jianwen Sun, Jing Tao, Yaqiang Wu, Hui Liu, Yu Yao, Tongliang Liu

LLMに基づく自律エージェントは、推論、計画、ツール使用において強力な能力を示しているが、役割、ツール、環境にわたる持続的な協調が必要なタスクでは依然として限界がある。マルチエージェントシステムは、専門化されたエージェント間の構造化された協調を通じてこれに対処するが、より緊密な連携は、あまり調査されていないリスクを増幅させる。すなわち、エラーがエージェント間やインタラクションのラウンドを超えて伝播し、診断が困難で、構造的な自己改善に結びつきにくい障害を生み出す可能性がある。既存のサーベイは、個別のエージェント能力、マルチエージェント連携、あるいはエージェントの自己進化を個別に扱っており、それらの間の因果関係は未検討のままである。本サーベイは、LIFE進行（能力基盤の構築、協調によるエージェント統合、帰属による障害の発見、自律的な自己改善による進化）と称する、因果的に関連する4つの段階に沿って統一的レビューを提供する。各段階について系統的分類体系を示し、隣接段階間の依存関係を形式的に特徴づけることで、各段階がいかに次の段階に依存し、制約するかを明らかにする。既存研究の統合に加えて、段階境界における未解決の課題を特定し、障害を継続的に診断し、構造を再編成し、エージェント行動を洗練することが可能な閉ループマルチエージェントシステムのためのクロスステージ研究課題を提案する。これにより、現在の協調フレームワークを、より自己組織化的な集合知の形態へと拡張する。これまで断片的だった研究の糸を結びつけることで、本サーベイは、自律的で自己改善的なマルチエージェント知能に向けた体系的参照および概念的ロードマップの両方を提供することを目指す。

STALE: LLMエージェントは自身の記憶がもはや有効でないことを知ることができるか
STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

May 7

ByHanxiang Chao, Yihan Bai, Rui Sheng, Tianle Li, Yushi Sun

大規模言語モデル（LLM）エージェントは、首尾一貫した長期的なパーソナライズ記憶を維持することがますます期待されているが、現在のベンチマークは主に静的なファクト検索を測定しており、新たな証拠が現れた際に保持している信念を修正する能力を見落としている。我々は、暗黙的矛盾という、これまで十分に探求されていない重大な障害モードを特定する。これは、後の観察が明示的な否定なしに以前の記憶を無効化するものであり、その検出には文脈推論と常識的推論が必要となる。この能力を厳密に評価するために、我々はSTALEを導入する。これは、100以上の日常トピックにわたり、最大150Kトークンのコンテキストを持つ、専門家検証済みの400の矛盾シナリオ（3つのプロービング次元にわたる1,200の評価クエリ）からなるベンチマークである。我々は、3次元のプロービングフレームワークを提案する。これは、状態解決（以前の信念が時代遅れであることを検出する）、前提抵抗（古い状態を誤って前提とするクエリを拒否する）、および暗黙方針適応（下流の行動において更新された状態を積極的に適用する）をテストする。最先端LLMおよび専用記憶フレームワークの体系的な評価により、更新された証拠の検索とそれに基づく行動の間には広範な乖離があり、最高評価モデルでも全体の精度は55.2%にとどまることが明らかになった。モデルはしばしばユーザーのクエリに埋め込まれた時代遅れの前提を受け入れ、ユーザーの状態のある側面の変化が関連する記憶を無効化すべきであることを認識するのに苦労する。状態認識記憶の初期ベースラインを確立するために、我々はさらにCUPMemを提示する。これは、構造化状態統合と伝搬認識検索を通じて書き込み時修正を強化するプロトタイプであり、明示的な状態裁定がロバストなエージェント記憶の有望な方向性であることを示唆している。

WildClawBench: 実世界における長期的なエージェント評価のためのベンチマーク
WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

May 11

ByShuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding, Ziyu Liu, Yang JingYi, Penghui Yang, Zhixiong Zhang, Xilin Wei, Xinyu Fang, Yubo Ma, Haodong Duan, Jing Shao, Jiaqi Wang, Dahua Lin, Kai Chen, Yuhang Zang

大規模言語モデルおよび視覚言語モデルは、コマンドラインインターフェース（CLI）ハーネスを介してユーザーに代わって行動するエージェントをますます強力にしている。しかしながら、ほとんどのエージェントベンチマークは依然として、合成サンドボックス、短期的なタスク、モックサービスAPI、そして最終回答の確認に依存しており、エージェントが実際に展開される実行環境において、現実的な長期的な作業を完了できるかどうかは未解決のままである。本研究では、WildClawBenchを提案する。これは、60の人間が作成したバイリンガル・マルチモーダルタスクから構成され、6つのテーマカテゴリにわたるネイティブランタイムベンチマークである。各タスクは平均して約8分の実行時間と20回以上のツール呼び出しを要し、実際のCLIエージェントハーネス（OpenClaw、Claude Code、Codex、またはHermes Agent）を搭載した再現可能なDockerコンテナ内で実行される。グレーディングはハイブリッド方式であり、決定論的なルールベースのチェック、副作用の環境状態監査、およびセマンティック検証のためのLLM/VLM判定器を組み合わせている。19のフロンティアモデルにおいて、最高性能のClaude Opus 4.7でもOpenClaw環境下での総合スコアは62.2%にとどまり、他のすべてのモデルは60%未満であった。また、ハーネスの変更だけで単一モデルのスコアが最大18ポイント変動した。これらの結果は、長期的かつネイティブランタイムでのエージェント評価が、現在のフロンティアモデルにとって未だ解決からほど遠い課題であることを示している。我々は、再現可能な評価を支援するために、タスク、コード、およびコンテナ化されたツール群を公開する。

Warp-as-History: 単一の訓練動画からの一般化可能なカメラ制御動画生成
Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

May 14

ByYifan Wang, Tong He

カメラ制御による動画生成は大きな進歩を遂げ、生成された動画が指定された視点の軌跡に従うことを可能にしている。しかし、既存の手法は通常、カメラエンコーダ、制御ブランチ、またはアテンションや位置符号化の修正を通じてカメラ固有の条件付けを学習しており、そのためには大規模なカメラアノテーション付き動画での追加学習（ポストトレーニング）が必要となることが多い。学習不要な代替手法はそのような追加学習を回避するが、代わりにテスト時の最適化や追加のノイズ除去時のガイダンスにコストを転嫁することが多い。我々は「Warp-as-History」、すなわちカメラ誘導ワープを、ターゲットフレームの位置合わせと可視トークン選択を伴うカメラワープ済み擬似履歴へと変換するシンプルなインターフェースを提案する。与えられたターゲットカメラ軌跡に対して、過去の観測からカメラワープ済み擬似履歴を構築し、それをモデルの視覚履歴経路に入力する。重要な点として、その位置符号化をノイズ除去中のターゲットフレームに合わせ、有効なソース観測のないワープ済み履歴トークンを除去する。学習、アーキテクチャの変更、テスト時の最適化を一切行わずに、このインターフェースは、固定された動画生成モデルがカメラ軌跡に従う非自明なゼロショット能力を明らかにする。さらに、1つのカメラアノテーション付き動画のみに対する軽量なオフラインLoRAファインチューニングにより、この能力はさらに向上し、未見の動画にも一般化される。テスト時の最適化やターゲット動画への適応なしに、カメラ追従性、視覚品質、動作ダイナミクスが改善される。多様なデータセットを用いた広範な実験により、本手法の有効性が確認された。

RouteProfile：ルーティングのためのLLMプロファイルの設計空間の解明
RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

Apr 30

ByJingjun Xu, Hongji Pu, Tao Feng, Haozhen Zhang, Jiaxuan You, Ge Liu

大規模言語モデル（LLM）のエコシステムが拡大するにつれ、個々のモデルはクエリ、ベンチマーク、ドメインにわたって異なる能力を示すようになり、LLMルーティングの開発が促進されている。従来の研究は主にルータ機構の設計に焦点を当ててきたが、モデルの能力を捉えるLLMプロファイルは未だ十分に検討されていない。本研究では、LLMプロファイルの設計が異なるルータ間でのルーティング性能にどのように影響するのかを問う。この問いに取り組むことで、ルーティングにおけるプロファイルの役割を明確化し、プロファイル設計とルータ設計を分離し、ルーティングシステムのより公平な比較と原理的な開発を可能にする。この目的のため、我々はLLMプロファイリングを異種の相互作用履歴にわたる構造化情報統合問題として捉える。そして、LLMプロファイルの一般設計空間であるRouteProfileを、組織形式、表現タイプ、集約深度、学習構成という4つの主要次元に沿って開発する。標準設定および新規LLM汎化設定の両方において、3つの代表的なルータを対象とした系統的評価を通じて、以下を示す。（1）構造化プロファイルは非構造化プロファイルよりも一貫して優れている、（2）クエリレベルの信号は粗いドメインレベルの信号よりも信頼性が高い、（3）新たに導入されたモデルへの汎化には、学習可能な構成下での構造化プロファイルが最も有効である。全体として、本研究はLLMプロファイル設計を将来のルーティング研究における重要な方向性として強調する。

PREPING: タスク不要のエージェントメモリ構築
PREPING: Building Agent Memory without Tasks

May 11

ByYumin Choi, Sangwoo Park, Minki Kang, Jinheon Baek, Sung Ju Hwang

エージェント記憶は通常、オフラインで厳選されたデモンストレーションから、あるいはオンラインで展開後のインタラクションから構築される。しかし、構築方法にかかわらず、エージェントはタスク固有の経験がない状態で新しい環境に初めて導入される際、コールドスタートギャップに直面する。本論文では、タスク前の記憶構築、すなわちエージェントが対象環境のタスクを観測する前に、自己生成による合成的練習のみを用いて手続き記憶を構築できるかどうかを研究する。しかし、合成的インタラクションだけでは不十分である。なぜなら、何を練習し何を記憶するかを制御しなければ、合成的タスクは冗長で実行不可能、最終的には有益でないものとなり、さらにフィルタリングされていない軌跡によって記憶は急速に劣化するからである。この問題を克服するために、我々はPreping（提案者誘導型記憶構築フレームワーク）を提案する。その核心は提案者記憶であり、これは将来の練習を形成する構造化された制御状態である。提案者（Proposer）はこの状態に条件付けられた合成的タスクを生成し、解決者（Solver）がそれを実行し、検証者（Validator）が記憶挿入に適格な軌跡を判定するとともに、将来の提案を導くフィードバックを提供する。AppWorld、BFCL v3、MCP-Universeにおける実験により、Prepingは記憶なしのベースラインを大幅に上回り、オフラインまたはオンライン経験から構築された強力なプレイブックベースの手法と競合する性能を達成し、展開コストはAppWorldで2.99倍、BFCL v3で2.23倍、オンライン記憶構築よりも低いことが示された。さらなる分析により、主な利点は合成量のみにあるのではなく、実現可能性、冗長性、カバレッジに対する提案者側の制御と、選択的な記憶更新の組み合わせによるものであることが明らかになった。

EvolveMem: LLMエージェントのためのAutoResearchによる自己進化メモリアーキテクチャ
EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

May 13

ByJiaqi Liu, Xinyu Ye, Peng Xia, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao

複数セッションにわたって動作するLLMエージェントにとって、長期記憶は不可欠である。しかし、既存の記憶システムは検索基盤を固定されたものとして扱い、記憶内容は進化する一方で、スコアリング関数、融合戦略、回答生成方針はデプロイ時から凍結されたままである。我々は、真に適応的な記憶には、記憶された知識とそれを問い合わせる検索メカニズムの2レベルにおける共進化が必要であると主張する。本論文では、EvolveMemを提案する。これは、全検索設定構成を構造化された行動空間として公開し、LLM駆動の診断モジュールによって最適化する自己進化型メモリアーキテクチャである。各進化ラウンドにおいて、診断モジュールは質問ごとの失敗ログを読み取り、根本原因を特定し、対象を絞った設定構成の調整を提案する。ガード付きメタ分析器は、回帰時自動復元および停滞時自動探索の保護機構を備え、これらの調整を適用する。この閉ループ自己進化はAutoResearchプロセスを実現する。すなわち、システムは自律的に自身のアーキテクチャに対する反復的研究サイクルを実施し、手動による設定構成の調整を不要とする。最小限のベースラインから開始し、プロセスは自律的に収束し、元の行動空間には存在しないまったく新しい設定構成次元を含む、効果的な検索戦略を発見する。LoCoMoにおいて、EvolveMemは最強のベースラインを相対25.7%上回り、最小ベースラインに対して相対78.0%の改善を達成した。MemBenchにおいても、EvolveMemは最強のベースラインを相対18.9%上回る。進化した設定構成は、壊滅的転移ではなく正の転移をもってベンチマーク間で転移可能であり、自己進化プロセスがベンチマーク固有のヒューリスティクスではなく、普遍的な検索原則を捕捉していることを示している。コードはhttps://github.com/aiming-lab/SimpleMemで公開されている。

Realiz3D: ドメイン認識学習によるフォトリアリスティックな3D生成
Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning

Mar 25

ByIdo Sobol, Kihyuk Sohn, Yoav Blum, Egor Zakharov, Max Bluvstein, Andrea Vedaldi, Or Litany

私たちは、正確な形状、材質、視点の制御に従い、フォトリアリスティックかつ3D一貫性のある画像を生成することをしばしば目指す。通常、これは数十億枚の実写画像で事前学習された画像生成器を、制御信号のアノテーションが利用可能な合成3Dアセットのレンダリングを用いて微調整することで達成される。このアプローチは所望の制御を学習できるものの、写真とレンダリングの間のドメインギャップにより、画像のリアリズムが損なわれることが多い。我々は、この問題が主に、モデルが制御信号の存在と画像の合成外観との間で意図しない関連性を学習することに起因すると考える。これに対処するため、制御と視覚ドメインを分離する、拡散モデル学習用の軽量フレームワークRealiz3Dを導入する。中心となるアイデアは、小さな残差アダプターに入力されてドメインをシフトさせる共変量を導入することにより、視覚ドメイン（実写または合成）を他の制御信号とは別個に明示的に学習することである。これにより、生成器は特定の視覚ドメインに適合することなく、制御可能性を獲得するよう学習できる。このようにして、制御が適用された場合でも、モデルを現実的な画像生成へと導くことができる。我々は、拡散ベース生成器における異なる層とノイズ除去ステップの役割に関する知見を活用し、ギャップをさらに緩和する新たな学習・推論戦略を導入することで、実ドメインへの制御転送可能性を向上させる。テキストから多視点画像生成や3D入力からのテクスチャリングといったタスクにおいて、Realiz3Dが3D一貫性とフォトリアリズムを兼ね備えた出力を生成する利点を示す。

ATLAS: エージェント的視覚推論か、潜在的な視覚推論か？一語で両方を表す
ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

May 14

ByZiyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng

視覚推論は、しばしば中間的な視覚状態と連動しながら進められ、この分野で有望な方向性として注目されている。単純なアプローチとして、推論中に統一モデルを通じて直接画像を生成する方法があるが、これは計算コストが高く、アーキテクチャ上も容易ではない。近年の代替手法としては、コードやツール呼び出しによるエージェント型推論、および学習可能な隠れ埋め込みを用いた潜在推論が挙げられる。しかし、エージェント型手法は外部実行によるコンテキスト切り替えのレイテンシを伴い、潜在型手法はタスク汎化に欠け、自己回帰的並列化を用いた学習が困難である。これらの強みを組み合わせつつ限界を緩和するために、我々はATLASを提案する。これは、機能トークンと呼ばれる単一の離散的な「単語」が、エージェント的操作と潜在的な視覚推論ユニットの両方として機能するフレームワークである。各機能トークンは内在化された視覚的操作と関連付けられているが、視覚的な教師信号を必要とせず、トークナイザの語彙に含まれる標準トークンであり、次トークン予測によって生成可能である。この設計により、冗長な中間視覚コンテンツの生成を回避しつつ、通常のスケーラブルなSFTやRL訓練との互換性を、アーキテクチャや方法論の変更なしに維持する。さらに、RL中の機能トークンのスパース性に対処するため、我々はLatent-Anchored GRPO（LA-GRPO）を導入する。これは、静的に重み付けされた補助目的関数で機能トークンをアンカーし、より強力な勾配更新を提供することで訓練を安定化する。広範な実験と分析により、ATLASが難しいベンチマークで優れた性能を達成し、明確な解釈可能性を維持することが示された。ATLASが将来の視覚推論研究に新たなパラダイムを提供することを期待する。

大規模マルチエージェント経路探索のための局所通信学習
Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding

May 12

ByValeriy Vyaltsev, Alsu Sagirova, Anton Andreychuk, Oleg Bulichev, Yuri Kuratov, Konstantin Yakovlev, Aleksandr Panov, Alexey Skrynnik

マルチエージェント経路探索（MAPF）は、共有環境内で複数の均質なエージェントが同時に移動するマルチロボット軌道計画問題の広く用いられる抽象化である。MAPFを最適に解くことはNP困難であるが、スケーラブルで効率的な解法は物流や捜索救助などの実世界応用にとって重要である。この目的のため、研究コミュニティは機械学習を活用した様々な分散型の準最適MAPF解法を提案してきた。そのような手法はMAPFを（単一エージェントの観点から）Dec-POMDPとして捉え、各タイムステップでエージェントが局所観測に基づいて行動を決定する必要があり、通常は強化学習または模倣学習によって問題を解決する。我々も同様のアプローチを採用するが、さらに効率的な特徴共有を通じてエージェント間の協調を強化するために調整された学習可能な通信モジュールを導入する。本稿では、近隣エージェント間の複数ラウンドの通信を適用して情報を交換し協調を改善する汎化可能な事前学習モデルである、マルチエージェント経路探索のためのローカル通信（LC-MAPF）を提案する。実験では、提案手法が多様な（未見の）テストシナリオにおいて、ILやRLベースの手法を含む既存の学習ベースMAPF解法を様々な指標で上回ることを示す。注目すべき点として、導入した通信機構はLC-MAPFのスケーラビリティを損なわない。これは通信ベースのMAPF解法における一般的なボトルネックである。

FrontierSmith: オープンエンドなコーディング問題の大規模合成
FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

May 14

ByRunyuan He, Qiuyang Mang, Shang Zhou, Kaiyuan Liu, Hanchen Li, Huanzhi Mao, Qizheng Zhang, Zerui Li, Bo Peng, Lufeng Cheng, Tianfu Fu, Yichuan Wang, Wenhao Chai, Jingbo Shang, Alex Dimakis, Joseph E. Gonzalez, Alvin Cheung

現実世界の多くのコーディング課題は終端開放型（オープンエンド）であり、既知の最適解が存在しない。しかし、LLMコーディングにおける近年の進歩は、機能実装、バグ修正、競技プログラミングといった明確に定義されたタスクに集中してきた。終端開放型コーディングは、LLMにとって依然として弱点であり、その主な理由は、訓練用の終端開放型問題が希少であり、構築に費用がかかることにある。我々の目標は、より強力なLLMコーダーを訓練するために、終端開放型コーディング問題を大規模に合成することである。本稿では、既存の閉じた（クローズドエンド）コーディングタスクから終端開放型問題を反復的に進化させる自動システム、FrontierSmithを紹介する。競技プログラミング問題を出発点として、FrontierSmithは問題の目標を変更し、出力を制約し、入力を一般化することで、終端開放型の候補変種を生成する。次に、定量的なアイデア発散度指標を用いて、異なる解法者から真に多様なアプローチを引き出す問題を選別する。その後、エージェントが選別された候補に対してテストケースと検証器を生成する。2つの終端開放型コーディングベンチマークにおいて、我々の合成データによる訓練はベースモデルに対して顕著な向上をもたらした。Qwen3.5-9BではFrontierCSで+8.82スコア、ALE-benchで+306.36（Eloレーティングベースのパフォーマンス）の向上を達成し、Qwen3.5-27Bではそれぞれ+12.12および+309.12の向上を示した。また、合成問題によりエージェントはより多くのターンとトークンを使用するようになり、これは人手で厳選された問題と類似しており、長期的な視点を持つコーディングデータの実用的な出発点として、閉じた問題シードが有効であることを示唆している。

Lighthouse Attentionを用いた長文脈事前学習
Long Context Pre-Training with Lighthouse Attention

May 7

ByBowen Peng, Subho Ghosh, Jeffrey Quesnelle

極めて長い系列長での因果トランスフォーマーの学習は、スケーリングドット積注意機構（SDPA）の二次的な時間とメモリによって妨げられている。本研究では、通常のSDPAをラップし、学習終盤で容易に除去可能な、学習専用の対称選択型階層注意アルゴリズムであるLighthouse Attentionを提案する。本手法の階層的選択は勾配を必要とせず、複雑で非効率になりがちな逆伝播カーネルを扱う必要がない。本研究の貢献は以下の3点である：(i) 系列の適応的圧縮・伸張を行う二乗未満の階層的前処理・後処理ステップ、(ii) クエリ、キー、バリューを同時にプールしつつ左から右への因果性を維持する対称圧縮戦略により並列性を大幅に向上させる点、(iii) 学習の大部分をLighthouse Attentionで事前学習し、終盤の短い学習で完全注意モデルを回復する2段階学習アプローチ。他の設定をすべて一致させた完全注意学習と比較し、本手法の有効性を示す小規模LLM事前学習の予備実験を実施した。その結果、回復フェーズ後において学習時間の短縮と最終損失の低減を達成した。完全なコードは https://github.com/ighoshsubho/lighthouse-attention で入手可能である。

IntentVLA: エイリアス化されたロボット操作のための短期意図モデリング
IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

May 14

ByShijie Lian, Bin Yu, Xiaopeng Lin, Zhaolong Shen, Laurence Tianruo Yang, Yurun Jin, Haishan Liu, Changti Wu, Hang Yuan, Cong Huang, Kai Chen

ロボットの模倣データはしばしばマルチモーダルである。すなわち、類似した視覚言語観測に対して、人間の実演者が異なる短期意図やタスクフェーズ、最近の文脈に基づいて行動するため、異なる行動チャンクが続く可能性がある。既存のフレーム条件付きVLAポリシーは、各チャンクを現在の観測と指示のみから推論するため、部分観測性の下では隣接する再計画ステップ間で異なる意図を再サンプリングし、チャンク間の競合や不安定な実行を引き起こす。本稿では、IntentVLAを提案する。これは、最近の視覚観測をコンパクトな短期意図表現に符号化し、それを使ってチャンク生成を条件付ける履歴条件付きVLAフレームワークである。さらに、短期観測のエイリアシングを分離した、整合された訓練データと評価環境を備えたRoboTwin2上の12タスクの曖昧性認識ベンチマークであるAliasBenchを導入する。AliasBench、SimplerEnv、LIBERO、RoboCasaにおいて、IntentVLAはロールアウトの安定性を向上させ、強力なVLAベースラインを凌駕する。

DiffusionOPD: 拡散モデルにおけるオン・ポリシー蒸留の統一的視点
DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

May 14

ByQuanhao Li, Junqiu Yu, Kaixun Jiang, Yujie Wei, Zhen Xing, Pandeng Li, Ruihang Chu, Shiwei Zhang, Yu Liu, Zuxuan Wu

強化学習は、拡散ベースのテキストから画像へのモデルを改善するための強力なツールとして登場したが、既存手法は主に単一タスク最適化に限定されている。強化学習を複数タスクに拡張することは困難である。共同最適化はタスク間干渉と不均衡の問題を抱え、カスケード強化学習は煩雑であり、破滅的忘却を起こしやすい。我々は、オンラインポリシー蒸留（OPD）に基づく拡散モデルのための新しいマルチタスク訓練パラダイムであるDiffusionOPDを提案する。DiffusionOPDはまず、タスク固有の教師を独立に訓練し、その後、学生自身のロールアウト軌跡に沿ってそれらの能力を統一的な学生に蒸留する。これにより、単一タスク探索とマルチタスク統合が分離され、すべてのタスクをゼロから共同で解く最適化負荷が回避される。理論的には、OPDフレームワークを離散トークンから連続状態マルコフ過程へ拡張し、平均マッチングを介して確率的SDEと決定論的ODEの両方のリファインメントを統合する、閉形式の1ステップあたりのKL目的関数を導出する。我々は、この解析的勾配が従来のPPOスタイルの政策勾配と比較して、より低い分散とより良い一般性を提供することを形式的かつ経験的に示す。広範な実験により、DiffusionOPDが訓練効率と最終性能においてマルチリワードRLおよびカスケードRLのベースラインを一貫して上回り、評価されたすべてのベンチマークで最新の結果を達成することが示される。

VGGT-Edit: 残差場予測によるフィードフォワードなネイティブ3Dシーン編集
VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

May 14

ByKaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi Chen, Delin Qu, Jaehong Yoon, Wentao Zhang

高品質な3次元シーン再構成は近年、汎用可能なフィードフォワードアーキテクチャへと進展し、単一の順伝搬で複雑な環境を生成できるようになった。しかしながら、静的なシーン知覚において優れた性能を示す一方で、これらのモデルは動的な人間の指示に応答する能力に限界があり、インタラクティブな応用での利用が制限されている。既存の編集手法は通常、2Dリフティング戦略に依存しており、個々の視点を独立に編集した後に3次元空間へリフティングする。この間接的なパイプラインは、2Dエディタが視点間の構造を保持するために必要な空間認識を欠くため、しばしばぼやけたテクスチャや不整合な幾何形状を引き起こす。これらの制約に対処するため、我々はVGGT-Editを提案する。これはテキスト条件付きのネイティブ3次元シーン編集のためのフィードフォワードフレームワークである。VGGT-Editは深度同期テキスト注入を導入し、セマンティックガイダンスをバックボーンの空間ポーズに整合させることで、安定した指示の接地を保証する。このセマンティック信号はその後、残差変換ヘッドによって処理され、背景の安定性を維持しつつシーンを変形させる3次元幾何学的変位を直接予測する。高忠実度の結果を保証するため、我々は幾何学的精度と視点間一貫性を強制する多項目的関数を用いてフレームワークを監視する。また、自動化されたパイプラインと3次元一致フィルタリングによってグラウンドトゥルースの品質を保証して生成された大規模データセットであるDeltaSceneデータセットを構築する。実験により、VGGT-Editは2Dリフティングベースラインを大幅に上回り、より鮮明な物体詳細、強力な多視点一貫性、ほぼ瞬時の推論速度を実現することを示す。

Orchard: オープンソースエージェントモデリングフレームワーク
Orchard: An Open-Source Agentic Modeling Framework

May 14

ByBaolin Peng, Wenlin Yao, Qianhui Wu, Hao Cheng, Xiao Yu, Rui Yang, Tao Ge, Alessandrio Sordoni, Xingdi Yuan, Yelong Shen, Pengcheng He, Tong Zhang, Zhou Yu, Jianfeng Gao

エージェントモデリングは、LLMを自律エージェントへと変換し、計画、推論、ツール使用、環境とのマルチターンインタラクションを通じて複雑なタスクを解決することを目的とする。大規模な投資にもかかわらず、オープンな研究はインフラと訓練のギャップに制約されたままである。多くの高性能システムはプロプライエタリなコードベース、モデル、サービスに依存しており、一方でほとんどのオープンソースフレームワークはスケーラブルなエージェント訓練ではなく、オーケストレーションと評価に焦点を当てている。本稿では、スケーラブルなエージェントモデリングのためのオープンソースフレームワークOrchardを提案する。その中核はOrchard Envであり、タスクドメイン、エージェントハーネス、パイプラインフェーズにわたるサンドボックスのライフサイクル管理のための再利用可能なプリミティブを提供する軽量な環境サービスである。Orchard Envの上に、我々は3つのエージェントモデリングレシピを構築する。Orchard-SWEはコーディングエージェントを対象とする。MiniMax-M2.5およびQwen3.5-397Bから107Kの軌跡を蒸留し、未解決軌跡の生産的なセグメントから学習するための信用割当SFTを導入し、RLにはバランス適応型ロールアウトを適用する。Qwen3-30B-A3B-Thinkingを起点として、Orchard-SWEはSFT後にSWE-bench Verifiedで64.3%、SFT+RL後に67.5%を達成し、同程度のサイズのオープンソースモデルの中での新たな最先端を記録する。Orchard-GUIは、わずか0.4Kの蒸留軌跡と2.2Kのオープンエンドタスクのみを用いて、4Bの視覚言語コンピュータ使用エージェントを訓練する。WebVoyager、Online-Mind2Web、DeepShopにおいてそれぞれ74.1%、67.0%、64.0%の成功率を達成し、最強のオープンソースモデルとなると同時に、プロプライエタリシステムとも競争力を維持する。Orchard-Clawはパーソナルアシスタントエージェントを対象とする。わずか0.2Kの合成タスクで訓練され、Claw-Evalでは59.6%のpass@3を達成し、より強力なZeroClawハーネスと組み合わせると73.9%に達する。総じてこれらの結果は、軽量でオープンかつハーネス非依存な環境層が、ドメイン横断的に再利用可能なエージェントデータ、訓練レシピ、評価を可能にすることを示している。

ViMU: ビデオ比喩理解のベンチマーキング
ViMU: Benchmarking Video Metaphorical Understanding

May 14

ByQi Li, Xinchao Wang

新しいメディアが登場すると、それは単に明白な内容を伝達するためだけに利用されるわけではない。それが担う情報は通常、二つのレベルで機能する。一つは直接提示される内容であり、もう一つはその背後にあるサブテキスト、すなわち創作者がメディアを通じて伝えようとする暗黙の意図や考えである。同様に、ビデオ技術が広く普及して以来、ビデオは視覚情報を記録・伝達する強力なツールとしてだけでなく、しばしば明示的に表現することが難しい感情、態度、社会的意味を伝える媒体としても機能してきた。したがって、多くのビデオの真の意味は、画面に映るものだけにあるのではなく、文脈、表現スタイル、視聴者の社会的経験に埋め込まれていることが多い。このようなビデオのサブテキストには、ユーモアを帯びたものもあれば、皮肉、嘲笑、批判を含むものもある。これらの暗黙の意味は、文化的背景や社会集団によっても大きく異なる解釈が可能である。しかし、既存のビデオ理解モデルのほとんどは、物体、動作、時間関係の認識といった、文字通りの視覚的理解に主に焦点を当てており、ビデオに埋め込まれた比喩的、皮肉的、社会的意味を体系的に理解する能力を欠いている。このギャップを埋めるため、我々はViMUを紹介する。これは、ビデオにおける先端モデルのサブテキスト理解能力を体系的に評価するために設計された初めてのベンチマークである。ViMUは、ビデオ理解モデルが文字通りの知覚を超えて暗黙の意味を推論し、その解釈をマルチモーダルな証拠に基づいて根拠付け、自由回答および多肢選択の両方の質問に答えることができるかどうかを評価する。重要なのは、すべての質問がヒントなしで設計されており、モデルが回答する前に重要な証拠が開示されないようにしている点である。

Forcing-KV: 効率的な自己回帰型ビデオ拡散モデルのためのハイブリッドKVキャッシュ圧縮
Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models

May 10

ByYicheng Ji, Zhizhou Zhong, Jun Zhang, Qin Yang, XiTai Jin, Ying Qin, Wenhan Luo, Shuiyang Mao, Wei Liu, Huan Li

自己回帰(AR)ビデオ拡散モデルは、ストリーミング生成フレームワークを採用し、Self Forcing学習パラダイムに代表されるように、長期的なビデオ生成をリアルタイム応答性とともに実現する。しかし、既存のARビデオ拡散モデルは、歴史的フレームにわたる冗長なキー・バリュー(KV)キャッシュにより、依然として大きな注意複雑性と深刻なメモリオーバーヘッドを抱えており、スケーラビリティが制限されている。本論文では、自己回帰ビデオ拡散にKVキャッシュ圧縮を導入することで、この課題に取り組む。我々は、主流のAR拡散モデルにおけるアテンションヘッドが、サンプルやノイズ除去ステップ間で安定した、顕著に異なる注意パターンと機能的役割を示すことを観察した。ヘッドごとの機能的特化に関する実証研究に基づき、アテンションヘッドを2つのカテゴリに分類する。すなわち、自己回帰チャンク間の遷移とフレーム内の忠実度に焦点を当てる静的ヘッドと、フレーム間の動きと一貫性を制御する動的ヘッドである。そして、我々はForcing-KVを提案する。これは、静的ヘッドに対して構造的静的プルーニングを、動的ヘッドに対してセグメントごとの類似性に基づく動的プルーニングを実行するハイブリッドKVキャッシュ圧縮戦略である。出力品質を維持しつつ、本手法は単一のNVIDIA H200 GPU上で毎秒29フレーム以上の生成速度と30%のキャッシュメモリ削減を達成し、LongLiveおよびSelf Forcingにおける480P解像度で最大1.35倍および1.50倍の高速化を実現し、さらに1080P解像度では2.82倍の高速化に拡張される。コードとデモ動画はhttps://zju-jiyicheng.github.io/Forcing-KV-Pageで提供されている。

合成階層設計データは階層設計分解に有効か？
Does Synthetic Layered Design Data Benefit Layered Design Decomposition?

May 14

ByKam Man Wu, Haolin Yang, Qingyu Chen, Yihu Tang, Jingye Chen, Qifeng Chen

画像生成の最近の進歩により、高品質な画像を容易に生成できるようになった。しかし、これらの出力は本質的に平坦化されており、前景要素、背景、テキストが固定キャンバス内に絡み合った状態にある。その結果、生成後の柔軟な編集は依然として困難であり、実用化に向けた明確なラストマイルギャップが顕在化している。既存のアプローチは、希少なプロプライエタリなレイヤーアセットに依存するか、限られた構造的事前知識から部分的な合成データを構築するかのいずれかである。しかし、どちらの戦略もスケーラビリティにおいて根本的な課題に直面している。本研究では、純粋な合成レイヤーデータがグラフィックデザイン分解を改善できるかどうかを調査する。グラフィックデザインにおいては、デザイン要素が意図的にモジュール化され意味的に分離可能なコンポーネントとして配置されることが多いため、効果的な分解には自然画像合成ほど精密なレイヤー間依存関係のモデリングは必要ないと仮定する。具体的には、最先端のレイヤー分解フレームワークであるCLDベースラインに基づいたデータ中心研究を実施する。ベースラインを基に、独自の合成データセットSynLayersを構築し、視覚言語モデルを用いてテキストによる教師情報を生成するとともに、VLMが予測したバウンディングボックスを用いて推論入力を自動化する。本研究により、以下の3つの主要な知見が明らかになった。（1）純粋な合成データのみでの学習でも、広く使用されているPrismLayersProデータセットのような非スケーラブルな代替手法を上回る性能を示し、スケーラブルで効果的な代替手段としての有効性が実証された。（2）学習データの規模を増やすにつれて性能は一貫して向上するが、約50Kサンプルで利得の飽和が始まる。（3）合成データによりレイヤー数分布のバランスの取れた制御が可能となり、実世界データセットで一般的に見られるレイヤー数の不均衡を回避できる。このデータ中心研究が、レイヤーベースのデザイン編集システムの実用的な基盤として、合成データのより広範な採用を促進することを期待する。

RAVEN：整合一致性モデルGRPOのリアルタイム自己回帰型ビデオ外挿
RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

May 14

ByYanzuo Lu, Ronglai Zuo, Jiankang Deng

因果性自己回帰ビデオ拡散モデルは、以前に生成されたコンテンツから将来のチャンクを外挿することでリアルタイムストリーミング生成を実現する。高忠実度の双方向ティーチャーからこのような生成器を蒸留することで、競争力のある少数ステップモデルが得られるが、訓練時に遭遇する履歴分布と推論時に生じる分布との間の永続的なギャップが、長期的な生成品質を制約する。我々は、Real-time Autoregressive Video Extrapolation Network (RAVEN)を導入する。これは訓練時のテストフレームワークであり、各自己ロールアウトをクリーンな履歴エンドポイントとノイズのあるデノイジング状態のインターリーブシーケンスに再パッケージする。この定式化により、訓練時の注意機構を推論時の外挿と整合させ、将来の予測が依存する履歴表現を下流のチャンクロスが監視できるようになる。さらに、Consistency-model Group Relative Policy Optimization (CM-GRPO)を提案する。これは一貫性サンプリングステップを条件付きガウス遷移として再定式化し、オンライン強化学習(RL)をこのカーネルに直接適用することで、先行するフローモデルRL定式化で採用されているEuler-Maruyama補助プロセスを回避する。実験により、RAVENが品質、意味、動的度合いの評価において最近の因果的ビデオ蒸留ベースラインを上回り、CM-GRPOをRAVENと組み合わせることでさらなる向上が得られることが示される。

PanoWorld：360°パノラマ世界における空間スーパーセンシングに向けて
PanoWorld: Towards Spatial Supersensing in 360^circ Panorama World

May 13

ByChangpeng Wang, Xin Lin, Junhan Liu, Yuheng Liu, Zhen Wang, Donglian Qi, Yunfeng Yan, Xi Chen

マルチモーダル大規模ラボモデル（MLLM）は、人間の知覚に近い視野の狭さを継承する支配的な透視画像パラダイムの下で、依然として空間理解に苦慮している。ナビゲーション、ロボット探索、3Dシーン理解において、360度パノラマセンシングは、周囲環境全体を一度に捕捉することで一種のスーパーセンシングを提供する。しかし、既存のMLLMパイプラインは通常、パノラマを複数の透視ビューに分解し、正距円筒図法（ERP）の球面構造を大部分暗黙的に扱っている。本論文では、MLLMが連続的で観測者中心の空間としてERPパノラマ上で推論することを必要とする、パノラマネイティブ理解を研究する。この目的のために、まず、意味的アンカリング、球面位置特定、参照フレーム変換、深度認識型3D空間推論を含む、パノラマネイブ理解に必要な主要能力を定義する。次に、混合ソースのERPパノラマを幾何学認識型、言語接地型、深度認識型の教師信号に変換する大規模メタデータ構築パイプラインを構築し、これらの信号を能力対応型の指示チューニングデータとして具体化する。モデル側では、球面空間クロスアテンションを備えたPanoWorldを導入し、球面幾何学を視覚ストリームに注入する。さらに、ERPネイティブな空間推論を評価するための診断ベンチマークであるPanoSpace-Benchを構築する。実験により、PanoWorldはPanoSpace-Bench、H* Bench、R2R-CE Val-Unseenベンチマークにおいて、プロプライエタリモデルとオープンソースモデルの両方を大幅に上回る性能を示す。これらの結果は、ロバストなパノラマ推論には専用のパノラマネイティブ教師信号と幾何学認識型モデル適応が必要であることを実証している。すべてのソースコードと提案データは公開される予定である。

BOOKMARKS：ロールプレイングのための効率的な能動的ストーリーライン記憶
BOOKMARKS: Efficient Active Storyline Memory for Role-playing

May 13

ByLetian Peng, Ziche Liu, Yiming Huang, Longfei Yun, Kun Zhou, Yupeng Hou, Jingbo Shang

記憶システムは、ロールプレイングエージェント（RPA）が長期的な一貫性を維持するために重要である。しかしながら、既存のRPA記憶手法（例：プロファイリング）は主に反復的な要約に依存しており、その圧縮により重要な詳細が必然的に失われる。この問題に対処するため、我々はBOOKMARKSという検索ベースの記憶フレームワークを提案する。これは現在のタスク（例：キャラクター演技）に関連するブックマークの断片を能動的に初期化、維持、更新する。ブックマークは、ストーリーライン上の特定の時点における質問に対する回答として構造化される。各現在のタスクに対して、BOOKMARKSは再利用可能な既存のブックマークを選択するか、有用な質問とともに（ストーリーラインの開始時点で）新しいブックマークを初期化する。これらのブックマークはその後、現在のストーリーポイントに同期され、それに応じて回答が更新されるため、将来のグラウンディングラウンドで効率的に再利用できる。反復的な要約と比較して、BOOKMARKSは(1)タスク固有の詳細を捕捉するための能動的なグラウンディングと、(2)不要な計算を避けるための受動的な更新を提供する。実装において、BOOKMARKSはコンセプト、行動、状態の検索をサポートし、それぞれが効率的な同期手法によって駆動される。BOOKMARKSは、16のアーティファクトから得られた85のキャラクターにおいて、RPA記憶ベースラインを大幅に上回り、RPAに対する検索ベースの記憶の有効性を示している。

環境を構築する学習：検証可能な環境合成による自己進化型推論強化学習
Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis

May 14

ByYucheng Shi, Zhenwen Liang, Kishan Panaganti, Dian Yu, Wenhao Yu, Haitao Mi

我々は、モデルが単に追従すべき問題や軌跡を生成するのではなく、自身を訓練する環境を構築するという、自己改善型言語モデルのビジョンを追求する。ゼロデータ推論RLにおいて、これは自己改善をデータ生成ループから環境構築ループへと再構成するものであり、各成果物はインスタンスをサンプリングし、参照を計算し、応答をスコアリングする再利用可能な実行可能オブジェクトとなる。このビジョンが持続的な改善をもたらすか否かは、ただ一つの特性に依存する。すなわち、環境が安定した解決-検証非対称性を示さなければならない。モデルは一度だけオラクルを記述でき、そのオラクルを新しいインスタンスに対して自然言語で確実に実行することはできない。この非対称性は、二つの相補的な形をとる。あるタスクは、アルゴリズム的に推論するのは難しいが、コードとしては些末である。動的計画法やグラフ探索は一度コンパイルすれば、無数の較正済みインスタンスを生み出す。別のタスクは、本質的に解決は難しいが検証は容易であり、例えば埋め込まれた部分和問題や制約充足問題が該当する。いずれも、提案と解決の間に永続的なギャップを生み出し、方策が検証器を欺くことでこのギャップを埋めることはできない。学習者が向上しても報酬が有益であり続けるのは、まさにこのギャップによるものである。我々はこの見解をEvoEnvとして具体化する。これは単一の方策生成・解決手法であり、10個のシードからPython環境を合成し、段階的検証、意味的自己レビュー、解法相対難易度調整、新規性チェックを経てのみ環境を受理する。最も強力な証拠は、すでに強いとされる領域から得られる。Qwen3-4B-Thinkingにおいて、固定公開データRLVRと固定手作り環境RLVRは平均を低下させるのに対し、EvoEnvはそれを72.4から74.8へと向上させ、相対ゲイン3.3%を達成する。安定した自己改善は、より多くの合成データを生成することではなく、モデルが自身の手の届かないところに構造的に難しさが留まるような世界を構築することを学ぶことに依存している、と我々は示唆する。

PhyMotion: 物理に基づく人物映像生成のための構造化3Dモーション報酬
PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

May 14

ByYidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal

現実的な人間の動作を生成することは、ビデオ生成における中心的な課題でありながら未だ解決されていない。強化学習（RL）に基づくポストトレーニングは、一般的なビデオ品質の最近の向上を牽引してきたが、これを人間の動作に拡張するには、動作の現実性を確実に評価できない報酬信号がボトルネックとなっている。既存のビデオ報酬は主に2次元の知覚信号に依存しており、関節で連結された人間の動作の根底にある3次元の身体状態、接触、力学を明示的にモデル化しておらず、浮遊する身体や物理的に非現実的な動きを含むビデオに高いスコアを割り当てることが多い。この問題に対処するため、我々はPhyMotionを提案する。これは、復元された3次元の人間軌跡を物理シミュレータに接地し、物理的実現可能性の複数の次元に沿って動作品質を評価する、構造化された細粒度の動作報酬である。具体的には、生成されたビデオからSMPLボディメッシュを復元し、それをMuJoCo物理シミュレータ内のヒューマノイドにリターゲットし、得られた動作を三つの軸（運動学的妥当性、接触とバランスの一貫性、動的実現可能性）に沿って評価する。各構成要素は、動作品質の特定の側面に関連付けられた連続的で解釈可能な信号を提供し、報酬が動作のどの側面が物理的に正しいか、または違反されているかを捉えることを可能にする。実験では、PhyMotionが既存の報酬定式化よりも人間の判断との相関が強いことを示す。これらの利点はRLベースのポストトレーニングにも引き継がれ、PhyMotionを最適化することで、既存の報酬を最適化するよりも大きく一貫した改善が得られ、自己回帰型および双方向型の両方のビデオ生成器において、自動評価指標およびブラインド人間評価（+68 Eloゲイン）の下で動作の現実性が向上する。アブレーション研究では、三つの軸が相補的な監視信号を提供し、報酬が全体的なビデオ生成品質を維持し、トレーニングのオーバーヘッドもわずかであることが示されている。

LLM推論における自己蒸留のための適応的教師露出
Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning

May 12

ByZihao Han, Tiangang Zhang, Huaibin Wang, Yilun Sun

オン方策自己蒸留は、LLM推論の強力な手法となっている。ここでは、特権的な教師が参照解を条件として生徒自身のロールアウトを監督する。しかし、こうした手法のほぼすべてに共通する設計上の選択が疑問視されることなく受け入れられてきた。すなわち、教師は常に完全な参照推論を見るという点である。我々は、このデフォルト自体が問題の一部であると主張し、教師側の露出ミスマッチを特定する。教師が生徒の現在の能力をはるかに超えた推論を条件とした場合、結果として得られるトークンターゲットが強すぎて吸収できなくなるのである。制御された固定露出スイープにより、このことは2つの観点から具体化される。1) 完全露出が確実に最良の選択とは限らないこと、2) 教師がより多くの特権的推論を見るにつれて、生徒-教師ミスマッチが単調に増大することである。これにより、教師露出を固定ハイパーパラメータとしてではなく、学習可能な訓練時制御変数として扱う動機が得られる。そこで我々は、自己蒸留のための適応的教師露出（ATESD）を提案する。ATESDは、コンパクトな訓練状態統計量を条件とした軽量なベータ方策制御器を用いて露出比率をモデル化し、サンプリングされた1つの露出を生徒更新の短いホールドウィンドウに使用する。この露出制御器を学習可能にするために、割引学習進捗報酬を用いて最適化する。この報酬は、各ホールドされた決定を即時損失変化ではなく生徒の将来の改善への影響で評価し、オン方策蒸留によって引き起こされる遅延クレジット割り当てに対処する。 AIME 24、AIME 25、HMMT 25におけるQwen3-{1.7B, 4B, 8B}を用いた実験では、ATESDが競合する自己蒸留およびRLベースラインを一貫して上回り、OPSDと比較してそれぞれ+0.95、+2.05、+2.33のAverage@12ポイントの改善を示し、適応的教師露出を推論自己蒸留の効果的な新しい軸として確立している。

WildTableBench: 実環境におけるテーブル理解のためのマルチモーダル基盤モデルのベンチマーキング
WildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild

May 1

ByJunzhe Huang, Xiaoxiao Sun, Yan Yang, Yuxuan Hou, Ruotian Zhang, Sirui Li, Hehe Fan, Serena Yeung-Levy, Xin Yu

マルチモーダル基盤モデルを用いたテーブル画像の分析は、消費者向けおよびエンタープライズ向けのシナリオにおいて価値が高い一方で、困難を伴う応用である。その重要性にもかかわらず、現在の評価は主に構造化テキストのテーブルまたはレンダリングされたクリーンな画像に依存しており、実環境のテーブル画像が持つ視覚的な複雑さは十分に探究されていない。このような画像は多様なレイアウトと様々なドメインを特徴とし、高度な構造認識と数値推論を必要とする。このギャップを埋めるため、我々は実世界の環境から得られた自然発生的なテーブル画像に対する初の質問応答ベンチマークであるWildTableBenchを提案する。WildTableBenchは、多様なドメインにわたるオンラインフォーラムやウェブサイトから収集した402枚の高情報密度テーブル画像と、5カテゴリ17サブタイプにわたる928個の手動アノテーションおよび検証済み質問で構成される。我々はこのベンチマークを用いて、21の最先端のプロプライエタリおよびオープンソースのマルチモーダル基盤モデルを評価した。1つのモデルのみが50%を超える精度を達成し、残りのモデルは4.1%から49.9%の範囲にとどまった。さらに、モデルの失敗を特徴づける診断的分析を実施し、構造認識と推論における持続的な弱点を明らかにした。これらの結果と分析は、現在のモデルの能力に関する有用な洞察を提供し、WildTableBenchをテーブル画像理解のための貴重な診断用ベンチマークとして確立するものである。

PRISM: 事前補正と不確実性を考慮した構造モデリングに基づく拡散ベーステキスト画像超解像
PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

May 13

ByZihang Xu, Xiaoyang Liu, Zheng Chen, Yulun Zhang, Xiaokang Yang

テキスト画像超解像（Text-SR）には、視覚的に妥当な細部の合成以上のものが求められる。ストロークトポロジのわずかな誤りが文字の同一性を変え、可読性を損なう可能性があるからである。既存手法は、より強力な認識ベースまたは生成的事前分布を用いてテキストの忠実度を向上させているが、深刻な劣化下において依然として2つの未解決課題に直面している。低品質入力から抽出されたテキスト条件自体が信頼できない可能性があることと、妥当なグローバル事前分布だけでは細かなストローク境界を完全に決定できないことである。本稿では、これら2つの課題に対処する単一段階拡散ベースのText-SRフレームワークであるPRISMを提案する。PRISMは、Flow-Matching Prior Rectification（FMPR）とStructure-guided Uncertainty-aware Residual Encoder（SURE）を通じてこれを実現する。FMPRは、ペア化された低品質/高品質潜在変数から特権的な訓練時事前分布を構築し、劣化埋め込みをこの復元指向の事前空間に輸送するフローマッチングを学習することで、より正確で信頼性の高いグローバルテキストガイダンスを実現する。SUREはさらに、不確実性を考慮した構造的残差を予測し、曖昧なストローク手がかりを抑制しながら、信頼できる局所境界証拠を選択的に吸収する。これらの要素を組み合わせることで、単一の拡散復元パス内で明示的なグローバル事前分布修正と局所構造洗練を可能にする。合成ベンチマークと実世界ベンチマークの両方での実験により、PRISMがミリ秒レベルの推論で最先端の性能を達成することを示す。データセットとコードはhttps://github.com/faithxuz/PRISMで公開予定である。

ホッジ分解による位相保存ニューラルオペレーター学習
Topology-Preserving Neural Operator Learning via Hodge Decomposition

May 13

ByDongzhe Zheng, Tao Zhong, Christine Allen-Blanchette

本論文では、幾何学的メッシュ上の物理場方程式の解作用素を関数空間の観点から研究する。我々は、ホッジ直交性が、学習不可能な位相的自由度を学習可能な幾何学的動力学から分離することでスペクトル干渉を根本的に解決し、構造保存部分空間に限定された加法的近似を可能にすることを明らかにする。ホッジ理論と作用素分割に基づき、原理的な作用素レベルの分解を導出する。その結果、我々がホッジスペクトル双対性（HSD）と呼ぶ代数的レベルの帰納的バイアスを備えたハイブリッド・オイラー・ラグランジュアーキテクチャが得られる。本フレームワークでは、離散微分形式を用いて位相支配成分を捉え、直交する補助外部空間を用いて複雑な局所動力学を表現する。本手法は、幾何学的グラフ上において、物理不変量への忠実性を高めつつ、優れた精度と効率を達成する。我々のコードは https://github.com/ContinuumCoder/Hodge-Spectral-Duality で公開されている。

画像生成における球形フローマッチングのための潜在幾何の調整
Aligning Latent Geometry for Spherical Flow Matching in Image Generation

May 14

ByTuna Han Salih Meral, Kaan Oktay, Hidir Yesiltepe, Adil Kaan Akan, Pinar Yanardag

画像生成における潜在フローマッチングは通常、線形経路に沿ってガウスノイズを変分オートエンコーダの潜在変数に輸送する。しかし、両端点は薄い球面殻に集中しており、前処理によってこれらの半径を揃えても、ユークリッド弦はそれらの殻を外れてしまう。各潜在トークンを動径成分と角度成分に分解することで、成分交換プローブにより、復号された知覚的・意味的内容は主に方向によって担われ、動径の寄与ははるかに小さいことが示される。そこで、データの潜在変数を固定トークン半径に投影し、ガウスノイズの動径投影を球面事前分布として、エンコーダを固定したままデコーダを微調整し、線形補間を球面線形補間に置き換える。これにより得られる測地線経路はすべてのタイムステップで球面上に留まり、その速度ターゲットは構成上純粋に角度のみとなる。同等の訓練条件下で、本手法は複数の画像トークナイザにわたってクラス条件付きImageNet-256のFIDを一貫して改善し、拡散アーキテクチャは変更せず、追加のエンコーダや表現整合性の目的関数も必要としない。

RewardHarness: 自己進化型エージェント的ポストトレーニング
RewardHarness: Self-Evolving Agentic Post-Training

May 9

ByYuxuan Zhang, Penghui Du, Bo Li, Cong Wei, Junwen Miao, Huaisong Zhang, Songcheng Cai, Yubo Wang, Dongfu Jiang, Yuyu Zhang, Ping Nie, Wenhu Chen, Changqian Yu, Kelsey R. Allen

指示に基づく画像編集を評価するには、微妙な人間の選好を反映する報酬が必要であるが、現在の報酬モデルは通常、大規模な選好アノテーションと追加のモデル学習に依存している。これによりデータ効率のギャップが生じる。すなわち、人間はわずかな例から対象となる評価基準を推測できるのに対し、モデルは通常、数十万の比較で学習される。本稿では、報酬モデリングを重み最適化ではなくコンテキスト進化として捉え直す、自己進化型エージェント報酬フレームワークRewardHarnessを提案する。大規模なアノテーションから学習する代わりに、RewardHarnessはわずか100個の選好デモンストレーションからツールとスキルのライブラリを反復的に進化させることで、人間の選好と整合する。元画像、候補となる編集済み画像、編集指示が与えられると、Orchestratorが維持されているライブラリから最も関連性の高いツールとスキルのサブセットを選択し、凍結されたSub-Agentがそれらを用いて推論連鎖を構築し、選好判断を生成する。予測された判断と正解の選好を比較し、推論プロセスにおける成功と失敗を分析することで、Orchestratorは追加の人間によるアノテーションなしにツールとスキルのライブラリを自動的に洗練する。EditReward選好データのわずか0.05%を使用して、RewardHarnessは画像編集評価ベンチマークにおいて平均精度47.4%を達成し、GPT-5を5.3ポイント上回る。GRPOファインチューニングの報酬信号として使用された場合、RLチューニングされたモデルはImgEdit-Benchで3.52を達成する。プロジェクトページ: https://rewardharness.com。

FutureSim: 世界イベントのリプレイによる適応的エージェントの評価
FutureSim: Replaying World Events to Evaluate Adaptive Agents

May 14

ByShashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu, Steffen Staab, Moritz Hardt, Maksym Andriushchenko, Jonas Geiping

AIエージェントは、新たな情報が到着するたびに適応する必要がある動的で開かれた環境にますます展開されている。現実的なユースケースにおいてこの能力を効率的に測定するために、実世界の出来事を発生順に再現する grounded simulation の構築を提案する。我々は FutureSim を構築する。このシミュレーションでは、エージェントが知識のカットオフを超えた世界の出来事を予測しながら、世界の時系列的な再現（シミュレーション期間中に到着する実際のニュース記事と解決される質問）と対話する。我々は、フロンティアエージェントを本来のハーネスで評価し、2026年1月から3月までの3ヶ月間にわたって世界の出来事を予測する能力をテストする。FutureSim はそれらの能力に明確な差を示し、最良のエージェントの精度は25%であり、多くのエージェントは全く予測しない場合よりもブライアスキルスコアが悪い。慎重なアブレーションを通じて、FutureSim が長期にわたるテスト時間適応、検索、記憶、不確実性に関する推論といった新興研究の方向性を研究するための現実的な設定を提供することを示す。全体として、我々のベンチマーク設計が、実世界における長い時間軸にわたる開かれた適応に関するAIの進歩を測定する道を開くことを期待している。

Sat3DGen: 単一衛星画像からの包括的な街路レベル3Dシーン生成
Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image

May 14

ByMing Qian, Zimin Xia, Changkun Liu, Shuailei Ma, Wen Wang, Zeran Ke, Bin Tan, Hang Zhang, Gui-Song Xia

単一の衛星画像からストリートレベルの3Dシーンを生成することは、重要ながらも困難な課題である。現在の手法には明確なトレードオフが存在する。幾何学-色付けモデルは高い幾何学的忠実度を達成するが、典型的には建物に特化しており、意味的多様性に欠ける。対照的に、プロキシベースのモデルはフィードフォワード型画像から3Dへのフレームワークを用い、幾何学とテクスチャを共同学習することで包括的なシーンを生成する。このプロセスは豊かなコンテンツを生み出す一方で、粗く不安定な幾何学をもたらす。我々は、これらの幾何学的失敗の原因を、衛星からストリートへのデータに固有の極端な視点ギャップと疎で一貫性のない監督にあると考える。これらの根本的な課題に対処するため、我々はSat3DGenを導入する。これは幾何学優先の方法論を具現化したものである。この方法論は、新規な幾何学的制約と視点に基づくトレーニング戦略を統合することでフィードフォワードパラダイムを強化し、幾何学的誤差の主な原因に明示的に対抗する。この幾何学中心の戦略により、3D精度とフォトリアリズムの両方で劇的な飛躍が達成される。検証のため、我々はまずVIGOR-OODテストセットと高解像度DSMデータをペアリングして新しいベンチマークを構築した。このベンチマークにおいて、本手法は幾何学的RMSEを6.76mから5.20mに改善した。重要なことに、この幾何学的飛躍はフォトリアリズムも向上させ、最先端手法であるSat2Density++に対して、特別な画像品質モジュールを追加していないにもかかわらず、Fréchet Inception Distance（FID）をsim40から19に低減した。我々は、この高品質な3Dアセットの多様性を、セマンティックマップから3Dへの合成、マルチカメラ動画生成、大規模メッシュ化、教師なし単一画像デジタルサーフェスモデル（DSM）推定など、多様な下流アプリケーションを通じて実証する。コードはhttps://github.com/qianmingduowan/Sat3DGenで公開されている。

全方位モーダル言語モデルの強化：視覚的デバイアス評価を用いた段階的事後学習
Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

May 13

ByChe Liu, Lichao Ma, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Xuerui Yang, Fei Tian

オムニモーダル言語モデルは、音声、視覚入力、言語を共同で理解することを目的としているが、視覚的証拠のみでクエリに回答できる場合、ベンチマークの向上が過大評価される可能性がある。我々は、現在のオムニモーダルベンチマークが視覚的ショートカットと真の音声-視覚-言語証拠統合を分離しているかどうか、また、視覚的にバイアス除去された評価設定の下でポストトレーニングがどのように振る舞うかを研究する。我々は、9つのオムニモーダルベンチマークを視覚のみのプロービングで監査し、視覚的に解けるクエリを除去し、フィルタリングが未定義であるか比較を不安定にする場合には完全なサブセットを保持する。これにより、監査された16,968クエリから保持された8,551クエリを含む、クリーンな評価ビューであるOmniCleanが得られる。OmniClean上で、我々はQwen2.5-Omni-3Bに基づく3段階のポストトレーニング手法であるOmniBoostを評価する：混合バイモーダルSFT、混合モダリティRLVR、および自己蒸留データでのSFTである。バランスの取れたバイモーダルSFTは限定的で不均一な向上をもたらし、RLVRは初めての広範な改善を提供し、自己蒸留はベンチマークプロファイルを再形成する。自己蒸留データでのSFT後、3Bモデルは、より強力なオムニモーダル教師を使用することなく、Qwen3-Omni-30B-A3B-Instructと同等で、全体としてわずかに上回る性能に達する。これらの結果は、評価が視覚的漏洩を制御するときにオムニモーダルの進歩が解釈しやすくなり、小型オムニモーダルモデルが自己蒸留オムニクエリ監視による段階的ポストトレーニングから利益を得られることを示している。プロジェクトページ：https://cheliu-computation.github.io/omni/

動的潜在ルーティング
Dynamic Latent Routing

May 14

ByFangyuan Yu, Xin Su, Amir Abdullah

我々は、時間変動報酬関数を持つマルコフ決定過程（MDP）におけるサブポリシーの時間的連結について調査する。一般化ダイクストラ探索（GDS）を導入し、中間最適サブポリシーの時間的合成を通じて大域的最適な目標到達ポリシーが復元可能であることを証明する。GDSの根底にある「探索、選択、更新」の原理に着想を得て、動的潜在ルーティング（DLR）を提案する。これは、単一のトレーニング段階での動的探索を通じて、離散潜在コード、ルーティングポリシー、モデルパラメータを同時に学習する言語モデルのポストトレーニング手法である。低データファインチューニング設定において、DLRは4つのデータセットと6つのモデルにわたって教師ありファインチューニングと同等かそれを上回り、平均+6.6パーセントポイントの向上を達成した。一方、従来の離散潜在ベースラインは一貫してSFTを下回った。メカニズム解析と対象を絞ったコードアブレーションにより、DLRが明確な因果的役割を持つ構造化されたルーティング行動を学習することが示された。

LLMに基づく操作的政治ナラティブの検出
LLM-based Detection of Manipulative Political Narratives

May 14

BySinclair Schneider, Florian Steuber, Gabi Dreo Rodosek

本稿では、操作的な政治ナラティブを検出・構造化するための新たな計算フレームワークを提案する。この課題は、政治的な議論がソーシャルメディアへ移行したことで重要性を増している。その主要な困難の一つは、操作的な政治ナラティブと正当な批判とを区別することにある。また、実際の出来事を操作的な文脈に再構成する投稿も存在する。良好なクラスタリング結果を得るために、我々は事前に詳細な少数ショットプロンプトを用いて操作的な投稿をフィルタリングする。このプロンプトは、文書化されたキャンペーンナラティブと正当な批判とを組み合わせ、両者を識別する。このプロンプトにより推論モデルがラベルを割り当て、操作的なナラティブ投稿のみをその後の処理に残す。残った投稿はその後埋め込み化され、UMAPを用いて次元削減された後、HDBSCANが適用されてナラティブグループが明らかにされる。この教師なしアプローチの重要な利点は、事前定義されたターゲットカテゴリリストに依存せず、新たなナラティブクラスタを発見できる点である。最後に、推論モデルを用いて各クラスタの背後にあるナラティブを解明する。このアプローチを120万以上のソーシャルメディア投稿に適用した結果、プロンプトベースのフィルタリングと教師なしクラスタリングを統合することで、41個の明確な操作的なナラティブクラスタを効果的に特定した。

ドイツの政治テキストのイデオロギー予測
Ideology Prediction of German Political Texts

May 14

BySinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek

選挙は国家の持続的発展における極めて重要な節目である。左派から右派に至る様々な運動の政治的レトリックをより深く理解するため、我々はテキストの政治的方向性を正規化されたスカラー値d（-1から1の範囲）で連続的な左-右スペクトラム上に投影可能なトランスフォーマーベースのモデルを提案する。この手法により、分析者はリベラル派や極右運動を除外しつつ、保守派のような政治領域の特定セグメントに焦点を当てることができる。このようなタスクは、対象とする方向性があらかじめ定義されたクラスの一つに組み込まれている場合に限り、多クラス分類器で達成可能である。本タスクに最も適した基盤モデルを13の候補トランスフォーマーから選定するため、4つの異なるコーパスを構築した。第1のコーパスはドイツ連邦議会の議事録に注釈を付したもの、第2のコーパスは公式オンライン意思決定ツールWahl-O-Matに基づくものである。第3のコーパスは政治的傾向が特定された33紙の新聞記事、第4のコーパスは第20期・第21期ドイツ連邦議会議員597名による535,200件のツイートで構成される。過学習を抑制するため、訓練には2つの異なるコーパスを、テストにはそれぞれ別の2つのコーパスを用いた。ドメイン内性能においては、DeBERTa-largeが最高F1スコア（F1=0.844）を達成し、X（Twitter）のドメイン外テストではACC=0.864を記録した。新聞のドメイン外テストでは、Gemma2-2Bが優れた結果（MAE=0.172）を示した。本研究は、トランスフォーマーモデルがドイツ語ニュースにおける政治的なフレーミングを世論調査水準で認識できることを実証している。我々の発見は、政治的バイアス推定において、モデルアーキテクチャとドメイン固有の訓練データの利用可能性が、モデル規模と同程度に影響力を持つ可能性を示唆する。方法論的限界について議論し、バイアス測定の頑健性向上に向けた方向性を概説する。

ランダム選択された少数ショットガイダンスによる検証可能な報酬を用いた強化学習の促進
Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance

May 14

ByKai Yan, Alexander G. Schwing, Yu-Xiong Wang

検証可能な報酬を用いた強化学習（RLVR）は、数学やコーディングなどの多くのタスクにおいて、思考連鎖ロールアウトを伴う大規模言語モデル（LLM）の開発に大きな成功を収めている。しかしながら、RLVRは、正しいロールアウトを生成することが困難な難易度の高い問題において、サンプル効率の面で課題を抱えている。先行研究では、この問題に対処するためにデモンストレーション誘導型RLVR、すなわちRLが失敗した際に教師ありファインチューニング（SFT）を実施する手法が提案されている。しかし、SFTは多くのデータを必要とすることが多く、その取得にはコストがかかる可能性がある。本論文では、FEST（FEw-ShoTデモンストレーション誘導型RLVRアルゴリズム）を提案する。FESTは、SFTデータセットからランダムに選択されたわずか128個のデモンストレーションで魅力的な結果を達成する。その成功には、教師信号、オン方策信号、そして複数エポック学習による過学習を防ぐための少数ショットSFTデータセットに対する減衰重みの3つの要素が重要であることが明らかになった。複数のベンチマークにおいて、FESTははるかに少ないSFTデータでベースラインを上回り、完全なデータセットを使用した場合と同等の性能を示す。

幾何学的整合性に関する定量的ビデオ世界モデル評価
Quantitative Video World Model Evaluation for Geometric-Consistency

May 14

ByJiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou

生成ビデオモデルは暗黙の世界モデルとしてますます研究されているが、物理的に妥当な3次元構造と動きを生成するかどうかの評価は依然として困難である。既存のビデオ評価パイプラインのほとんどは人間の判断や学習された評価器に大きく依存しており、幾何学的な破綻に対して主観的で診断力が弱い。本稿では、生成ビデオにおける幾何学的整合性を監査するための定量的フレームワークであるPDI-Bench（Perspective Distortion Index）を提案する。生成されたクリップに対し、セグメンテーションと点追跡（例：SAM 2、MegaSaM、CoTracker3）により物体中心の観測を取得し、単眼再構成を介して3次元ワールド空間座標に変換し、三つの破綻次元（スケール-深度の整合性、3次元動作の一貫性、3次元構造の剛性）を捉える一連の射影幾何残差を計算する。系統的な評価を支援するため、これらの幾何制約を強調するよう設計された多様なシナリオを網羅するPDI-Datasetを構築した。最先端のビデオ生成モデルを対象に、PDIは一般的な知覚指標では捉えられない一貫した幾何固有の破綻モードを明らかにし、物理的に基づいたビデオ生成および物理世界モデルへの進歩に向けた診断シグナルを提供する。コードとデータセットはhttps://pdi-bench.github.io/で公開している。

SPIN: 産業タスクのための反復ナビゲーションによる構造的LLM計画
SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

May 13

ByYusuke Ozaki, Dhaval Patel

産業用LLMエージェントシステムでは、多くの場合、計画と実行が分離されているが、LLMプランナーは構造的に無効または不必要に長いワークフローを頻繁に生成し、脆い障害や回避可能なツール・APIコストを引き起こす。我々はSPINを提案する。これは、検証済み有向非巡回グラフ（DAG）計画とプレフィックスベースの実行制御を組み合わせた計画ラッパーである。SPINは、`_validate_plan_text`と修復プロンプトを通じて厳格なDAG契約を強制し、下流の実行前に実行可能な計画を生成した後、DAGのプレフィックスを段階的に評価し、現在のプレフィックスがクエリに答えるのに十分な場合に停止する。AssetOpsBenchでは、261シナリオにおいて、SPINは実行タスク数を1061から623に削減し、Accomplishedスコアを0.638から0.706に向上させ、実行あたりのツール呼び出し数を11.81から6.82に削減した。MCP Benchでは、同ラッパーがGPT OSS1およびLlama 4 Maverickの両方において、計画、根拠付け、依存関係関連のスコアを改善した。

BEAM: MoEにおける二値エキスパート活性化マスキングによる動的ルーティング
BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE

May 14

ByJuntong Wu, Jialiang Cheng, Qishen Yin, Yue Dai, Yuliang Yan, Fuyu Lv, Ou Dan, Li Yuan

Mixture-of-Experts（MoE）アーキテクチャは、トークンごとに一部のエキスパートのみを活性化することで大規模言語モデルの効率を向上させる。しかし、標準的なMoEは固定のTop-Kルーティング戦略を採用しており、冗長な計算と最適でない推論レイテンシを引き起こす。既存の高速化手法は、アーキテクチャ変更を伴う高コストな再学習を必要とするか、または高い疎度において訓練と推論のミスマッチにより著しい性能低下を招く。これらの制約に対処するため、我々はBEAM（Binary Expert Activation Masking）を提案する。これは学習可能なバイナリマスクを通じてトークン適応的なエキスパート選択を学習する新規手法である。Straight-Through Estimatorと補助的正則化損失を用いることで、BEAMはモデルの性能を維持しつつ、エンドツーエンドの訓練を通じて動的なエキスパート疎性を誘導する。さらに、BEAM用の効率的なカスタムCUDAカーネルを実装し、vLLM推論フレームワークとのシームレスな統合を確保する。実験では、BEAMは元のモデルの性能の98%以上を保持しながら、MoE層のFLOPsを最大85%削減し、最大2.5倍のデコード高速化と1.4倍のスループット向上を達成しており、効率的なMoE推論のための実用的でプラグアンドプレイなソリューションとしての有効性を示している。

LiSA: 保守的政策誘導による生涯安全適応
LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

May 14

ByMinbeom Kim, Lesly Miculicich, Bhavana Dalvi Mishra, Mihir Parmar, Phillip Wallis, Bharath Chandrasekhar, Kyomin Jung, Tomas Pfister, Long T. Le

AIエージェントがチャットインターフェースから、個人データの読み取り、ツールの呼び出し、複数ステップのワークフローの実行を行うシステムへと移行するにつれて、ガードレールは具体的なデプロイ上の害悪に対する最後の防御線となる。このような状況では、ガードレールの障害は単なる回答品質の誤りではなくなる。すなわち、秘密情報の漏洩、安全でない動作の許可、または正当な作業の妨害を引き起こしうる。最も困難な障害は、しばしば文脈依存型である。ある動作が許容されるかどうかは、局所的なプライバシー規範、組織ポリシー、そして事前デプロイ仕様化に抵抗するユーザーの期待に依存する。これにより実践的なギャップが生じる。ガードレールは自身の動作環境に適応しなければならないが、デプロイ後のフィードバックは通常、まばらでノイズの多いユーザー報告による障害に限られ、繰り返しのファインチューニングはしばしば非現実的である。このギャップに対処するため、我々はLiSA（Lifelong Safety Adaptation、生涯安全適応）を提案する。これは構造化された記憶を通じて固定ベースガードレールを改善する保守的政策誘導フレームワークである。LiSAは、散発的な障害を再利用可能な政策抽象化に変換することで、希少な報告が個別事例を超えて汎化できるようにする。さらに、混合ラベル文脈における過剰汎化を防ぐ競合認識型局所ルールを追加し、事後下界を介した証拠認識型信頼度ゲーティングを適用することで、記憶再利用が経験的精度だけでなく蓄積された証拠に応じてスケールするようにする。PrivacyLens+、ConFaide+、AgentHarm全体で、LiSAは希少フィードバック下で強力な記憶ベースベースラインを一貫して上回り、20%のラベル反転率でもノイズの多いユーザーフィードバック下で堅牢性を維持し、レイテンシと性能のフロンティアをバックボーンモデルスケーリングを超えて押し広げる。最終的に、LiSAは実世界のエッジリスクの予測不可能なロングテールに対してAIエージェントを安全にする実践的な道を提供する。

閉ループ検証推論による複雑な視覚生成の実現
Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

May 14

ByHanbo Cheng, Limin Lin, Ruo Zhang, Yicheng Pan, Jun Du

近年の急速な進歩にもかかわらず、既存のテキスト画像生成（T2I）モデルは主に単一段階生成パラダイムに依存しており、複雑な意味論の処理に難渋し、パラメータスケーリングによる収穫逓減の課題に直面している。最近の多段階推論アプローチは有望であるが、検証を欠いた根拠なき計画の幻覚、モノリシックな事後的反映、長文脈最適化の不安定性、及び許容できない推論レイテンシといった問題に妨げられている。これらのボトルネックを克服するため、我々は閉ループ視覚推論（CLVR）フレームワークを提案する。これは、視覚言語論理計画とピクセルレベルの拡散生成を深く結合した包括的システムである。CLVRは、信頼性の高い推論軌跡を合成するためにステップレベル視覚検証を備えた自動データエンジンを導入し、長文脈最適化の不安定性を解決するために、インターリーブされたマルチモーダル履歴を明示的な報酬信号に蒸留し、正確な因果帰属を実現する代理プロンプト強化学習（PPRL）を提案する。さらに、反復的デノイジングによる深刻なレイテンシボトルネックを緩和するため、我々はΔ空間重み統合（DSWM）を提案する。これは、アライメント重みを既製の蒸留事前分布と融合する理論的に基づいた手法であり、高価な再蒸留を必要とせずに、ステップあたりの推論コストをわずか4 NFEsに削減する。広範な実験により、CLVRは複数のベンチマークにおいて既存のオープンソースベースラインを凌駕し、プロプライエタリな商用モデルの性能に迫るとともに、複雑な視覚生成における汎用的なテスト時間スケーリング能力を実現することを実証する。

PreScam: 初期の会話から詐欺進行を予測するためのベンチマーク
PreScam: A Benchmark for Predicting Scam Progression from Early Conversations

May 12

ByWeixiang Sun, Shang Ma, Yiyang Li, Tianyi Ma, Zehong Wang, Colby Nelson, Xusheng Xiao, Yanfang Ye

ロマンス詐欺や投資詐欺などの会話型詐欺は、オンライン詐欺の主要な形態として台頭している。偽宝くじや未払い料金メッセージといった一回限りの詐欺誘引とは異なり、これらは複数回の会話を通じて展開され、詐欺師は進化する心理的手法を用いて徐々に被害者を操作する。しかし、既存研究は主に静的な詐欺検知や合成詐欺に焦点を当てており、言語モデルが実際の詐欺が時間とともにどのように進行するかを理解できるかどうかは未解明である。我々は、初期の会話から詐欺進行をモデル化するためのベンチマークであるプレスキャム（PreScam）を導入する。ユーザー提出の詐欺報告から構築されたプレスキャムは、177,989件の生報告をフィルタリングおよび構造化し、20の詐欺カテゴリにわたる11,573件の会話型詐欺インスタンスとする。各インスタンスは、提案された詐欺キルチェーンによって定義される詐欺ライフサイクルに従って階層的に構造化され、さらにターンレベルで詐欺師の心理的行動と被害者の応答がアノテーションされる。我々は2つのタスクでモデルをベンチマークする。すなわち、会話が終了段階に近づいているかを推定するリアルタイム終了予測と、詐欺師の次の行動を予測する詐欺師行動予測である。結果は、表面的な流暢さと進行モデリングの間に明確なギャップを示している。すなわち、教師ありエンコーダがリアルタイム終了予測においてゼロショットLLMを大幅に上回る一方、次の行動予測は強力なLLMでも中程度の成功にとどまる。総合すると、これらの結果は、現在のモデルが詐欺関連の手がかりを捉えることはできるものの、リスクがどのように高まり、操作がターン間でどのように展開するかを追跡することには依然として苦戦していることを示している。

Nexus：時系列予測のためのエージェントベースフレームワーク
Nexus : An Agentic Framework for Time Series Forecasting

May 14

BySarkar Snigdha Sarathi Das, Palash Goyal, Mihir Parmar, Nanyun Peng, Vishy Tirumalashetty, Chun-Liang Li, Rui Zhang, Jinsung Yoon, Tomas Pfister

時系列予測は単なる数値の外挿ではなく、ニュースやイベントなどの非構造化コンテクストデータを用いた推論を必要とすることが多い。特殊化された時系列基盤モデル（TSFM）は数値パターンに基づく予測に優れている一方、現実世界のテキスト信号を認識できない。逆に、LLMはゼロショット予測器として台頭しつつあるが、その性能は領域やコンテクストの接地状況に応じて不均一である。このギャップを埋めるために、我々はNexusを提案する。これは、予測を特殊化された段階に分解するマルチエージェント予測フレームワークであり、マクロレベルおよびミクロレベルの時間的変動を分離し、利用可能な場合にはコンテクスト情報を統合した上で最終予測を合成する。この分解により、Nexusは外部の統計的アンカーや単一のプロンプトに依存することなく、季節的信号から変動の激しいイベント駆動型情報に適応できる。我々は、現在の世代のLLMが従来認識されていたよりもはるかに強い本質的な予測能力を持ち、その能力は数値的およびコンテクスト的推論の編成方法に決定的に依存することを示す。LLMの知識カットオフを厳密に超えたデータ（Zillow不動産指標や変動の激しい株式市場銘柄）で評価した結果、Nexusは最先端のTSFMや強力なLLMベースラインと一貫して同等以上の性能を達成した。数値的正確性に加え、Nexusは各予測の背後にある基本的な要因を明示的に示す高品質な推論トレースを生成する。我々の結果は、現実世界の予測がシーケンスモデリングをはるかに超えたエージェント的推論問題であることを確立する。

CurveBench: 入れ子構造を持つジョルダン曲線に対する正確な位相的推論のためのベンチマーク
CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves

May 13

ByAmirreza Mohseni, Mona Mohammadi, Morteza Saghafian, Naser Talebizadeh Saradari

本稿では、視覚入力からの階層的トポロジカル推論のためのベンチマークであるCurveBenchを紹介する。CurveBenchは、易しい構成、多角形、地形に着想を得た構成、迷路状構成、高密度計数構成にわたる、ペアワイズ非交差のジョルダン曲線を含む798枚の画像から構成される。各画像には、平面領域間の包含関係を符号化するルート付き木がアノテーションされている。タスクは構造予測として定式化される。すなわち、モデルは画像が与えられると、曲線によって誘導される完全なルート付き包含木を復元しなければならない。タスクの視覚的な単純さにもかかわらず、評価された中で最強のモデルであるGemini 3.1 Proは、CurveBench-Easyで71.1％、CurveBench-Hardで19.1％の木生成精度しか達成していない。さらに、RLVRスタイルのファインチューニングによるオープンウェイト視覚言語モデルを用いて、ベンチマークの有用性を実証する。訓練された当社のQwen3-VL-8Bモデルは、CurveBench-Easyにおいて、Qwen-3-VL-8B-Thinkingの2.8％から33.3％へと木生成精度を向上させ、当社の評価プロトコルにおいてGPT-5.4およびClaude Opus 4.5を上回った。残るギャップ、特にCurveBench-Hardにおけるそれは、正確なトポロジー認識型視覚推論が依然として解決にはほど遠いことを示している。

ダイナミクス盲目性の克服：VLAモデルのための訓練不要なペース・経路補正
Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

May 14

ByYanyan Zhang, Chaoda Song, Vikash Singh, Xinpeng Li, Kai Ye, Zhe Hu, Zhongzhu Pu, Yu Yin, Vipin Chaudhary

Vision-Language-Action（VLA）モデルは、古典的な制御パラダイムを超える顕著な柔軟性と汎化能力を実現している。しかし、既存のVLAの大半は単一フレーム観測パラダイムに基づいて訓練されており、構造的に時間的ダイナミクスを捉えられない。その結果、これらのモデルは動的データセットで訓練または微調整された場合でも、非定常的なシナリオにおいて性能が大幅に低下する。既存のアプローチは、高コストな再訓練を必要とするか、レイテンシのボトルネックやアクションチャンク間の時間的一貫性の低さといった課題を抱えている。本稿では、任意のチャンク化アクションVLAをラップする、訓練不要かつ閉形式の推論時演算子である「ペース・アンド・パス補正（Pace-and-Path Correction）」を提案する。単一の二次コスト関数から導かれる同時最小化により、直交的に分解された2つの独立したチャネルが得られる。ペースチャネルは計画方向に沿った実行を圧縮し、パスチャネルは直交する空間オフセットを適用することで、チャンクウィンドウ内で知覚されるダイナミクスを統合的に吸収する。提案手法は、動作のみを制御変数として分離する包括的診断ベンチマーク「MoveBench」上で評価した。実験結果は、本フレームワークが最先端の訓練不要ラッパーや動的適応手法を一貫して上回り、動的環境のみ、および静的・動的混合環境において、基本VLAモデルに対する成功率の絶対的な向上がそれぞれ最大28.8%、25.9%に達することを示している。