HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

22 papers found

再帰型マルチエージェントシステム
Recursive Multi-Agent Systems

Apr 28

ByXiyuan Yang, Jiaru Zou, Rui Pan, Ruizhong Qiu, Pan Lu, Shizhe Diao, Jindong Jiang, Hanghang Tong, Tong Zhang, Markus J. Buehler, Jingrui He, James Zou

123

再帰的またはループ構造を持つ言語モデルは近年、潜在状態に対して同一のモデル計算を反復的に適用することで推論を深化させる新たなスケーリング軸として登場している。本研究では、このスケーリング原理を単一モデルからマルチエージェントシステムへ拡張し、「エージェント協調そのものを再帰的にスケールさせることが可能か」という問いを立てる。そこで我々は、システム全体を統一的な潜在空間における再帰的計算として捉える再帰的マルチエージェントフレームワーク「RecursiveMAS」を提案する。RecursiveMASは軽量なRecursiveLinkモジュールを通じて異種エージェントを協調ループとして接続し、分布内潜在思考の生成とエージェント間の潜在状態転送を実現する。本フレームワークを最適化するため、再帰ラウンド間で共有される勾配ベースの信用割り当てを通じた反復的全システム共最適化のための内側-外側ループ学習アルゴリズムを開発した。時間計算量と学習ダイナミクスの理論分析により、RecursiveMASが従来のテキストベースMASより効率的であり、再帰的訓練中も安定した勾配を維持することを示す。実証実験では、4つの代表的なエージェント協調パターン下でRecursiveMASを具体化し、数学・科学・医学・検索・コード生成を含む9ベンチマークで評価した。先進的な単一/マルチエージェント及び再帰的計算ベースラインと比較し、RecursiveMASは平均精度8.3%向上、エンドツーエンド推論速度1.2倍～2.4倍向上、トークン使用量34.6%～75.6%削減を一貫して達成した。コードとデータはhttps://recursivemas.github.ioで公開されている。

データを用いたプログラミング：生コーパスからの自己改善型大規模言語モデルのためのテスト駆動データエンジニアリング
Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Apr 27

ByChenkai Pan, Xinglong Xu, Yuhang Xu, Yujun Wu, Siyuan Li, Jintao Chen, Conghui He, Jingxuan Wei, Cheng Tan

専門的な人間の知識をテキストから大規模言語モデルへ確実に移行することは、人工知能における根本的な課題であり続けている。ドメインコーパスによるファインチューニングは能力向上をもたらすが、このプロセスはフィードバックなく進行する：モデルがドメイン課題で失敗した際、学習データの何が不足しているかを診断する方法がなく、無差別にデータを追加することしか手段がない。本研究では、ソースコーパスから抽出された構造化知識表現が学習データと評価の共通基盤として機能する場合、データエンジニアリングの完全なライフサイクルがソフトウェア開発ライフサイクルに精密かつ実用的に対応することを示す：学習データはモデルが学ぶべき仕様を定義するソースコードとなり、モデル学習はコンパイルに、ベンチマーキングは単体テストに、失敗駆動型データ修正はデバッグに対応する。この対応関係の下では、モデルの失敗は概念レベルの欠落と推論連鎖の断絶に分解され、データの特定の欠陥まで遡って追跡可能となり、標的を絞った修正パッチによって修復できる。各修正サイクルは、一般的な能力を低下させることなく、モデル規模やアーキテクチャを超えた一貫した改善を生み出す。我々はこの原理を「データによるプログラミング」として形式化し、自然科学、工学、生物医学、社会科学にわたる16の分野で実証し、構造化知識ベース、ベンチマークスイート、学習コーパスをオープンリソースとして公開する。学習データとモデル挙動の関係が構造的に追跡可能で体系的に修復可能であることを実証することで、本研究成果は人間の専門知識を言語モデルに確実に組み込むための原理的な基盤を確立する。

DV-World: 実世界シナリオにおけるデータ可視化エージェントのベンチマーキング
DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Apr 28

ByJinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu

実世界のデータ可視化（DV）には、ネイティブな環境への接地、クロスプラットフォームな進化、能動的な意図整合が求められる。しかし、既存のベンチマークはコードサンドボックスへの閉じ込め、単一言語による作成タスクのみ、完璧な意図を前提とする傾向がある。これらのギャップを埋めるため、実世界の専門的なライフサイクル全体でDVエージェントを評価する260のタスクからなるベンチマーク「DV-World」を提案する。DV-Worldは3つの領域をカバーする：図表やダッシュボードの作成から診断的修復までを含むネイティブなスプレッドシート操作のための「DV-Sheet」、多様なプログラミングパラダイムにわたる参照可視化成果物の新規データへの適応・再構築のための「DV-Evolution」、実世界の曖昧な要求を模倣するユーザーシミュレータによる能動的意図整合のための「DV-Interact」である。ハイブリッド評価フレームワークは、数値精度のための「Table-value Alignment」と、意味的・視覚的評価のための評価基準付き「MLLM-as-a-Judge」を統合する。実験では、最先端モデルが全体のパフォーマンス50%未満に留まり、実世界のデータ可視化の複雑な課題に対処する能力に重大な欠陥があることが明らかになった。DV-Worldは、企業ワークフローで必要とされる汎用的な専門知識に向けた開発を導く現実的なテストベッドを提供する。データとコードはhttps://github.com/DA-Open/DV-World{このプロジェクトページ}で公開されている。

AutoResearchBench: 複雑な科学文献発見におけるAIエージェントのベンチマーキング
AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

Apr 28

ByLei Xiong, Kun Luo, Ziyi Xia, Wenbo Zhang, Jin-Ge Yao, Zheng Liu, Jingying Shao, Jianlyu Chen, Hongjin Qian, Xi Yang, Qian Yu, Hao Li, Chen Yue, Xiaan Du, Yuyang Wang, Yesheng Liu, Haiyu Xu, Zhicheng Dou

自律的な科学研究は、AIエージェントの発展により大きく進歩している。このプロセスにおける重要なステップの一つが、適切な科学文献の発見である。これは、研究課題に対する既存の知見を探索するためであれ、仮説の検証や主張の裏付けとなる証拠を収集するためであれ重要である。このプロセスを推進するAIエージェントの能力を評価するため、自律的な科学文献発見に特化したベンチマーク「AutoResearchBench」を提案する。AutoResearchBenchは、互いに補完的な2種類のタスクで構成される：（1）段階的で多段階の調査プロセスを通じて特定の目標論文を追跡することを要求する「深層研究」と、（2）与えられた条件を満たす論文群を網羅的に収集することを要求する「広範研究」である。従来のエージェント的ウェブ閲覧に関するベンチマークと比較して、AutoResearchBenchは以下の3つの次元で特徴づけられる：研究指向性（科学的概念の深い理解を要求する）、文献焦点性（詳細情報のきめ細かい活用を要求する）、および開放性（適格論文数が未知であるため、意図的な推論と探索全体を要求する）。これらの特性により、AutoResearchBenchは自律的研究能力を評価するのに独自に適しており、非常に困難な課題となっている。BrowseCompのような一般的なエージェント的ウェブ閲覧ベンチマークをほぼ征服した最も強力な大規模言語モデルでさえ、深層研究では9.39%の精度、広範研究では9.31%のIoUしか達成できておらず、他の多くの強力なベースラインは5%を下回っている。今後の研究の発展を促進するため、データセットと評価パイプラインを公開する。データセット、評価パイプライン、コードはhttps://github.com/CherYou/AutoResearchBench で公開している。

Meta-CoT：画像編集における粒度と汎化性の向上
Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Apr 27

ByShiyi Zhang, Yiji Cheng, Tiankai Hang, Zijin Yin, Runze He, Yu Xu, Wenxun Dai, Yunlong Lin, Chunyu Wang, Qinglin Lu, Yansong Tang

統合的なマルチモーダル理解・生成モデルは、細粒度の理解をChain-of-Thought（CoT）プロセスに組み込むことで、画像編集性能の向上を示してきた。しかし、どの形式のCoTと学習戦略が理解の粒度と汎化性能を同時に強化できるかという核心的な問いは、十分に探究されていない。この課題に対処するため、我々はMeta-CoTを提案する。これは単一画像編集操作を二段階で分解するパラダイムであり、以下の二つの主要特性を持つ：（1）分解可能性。あらゆる編集意図は（タスク、対象、必要な理解能力）の三つ組で表現できることを見出した。これに着想を得て、Meta-CoTは編集タスクと対象の両方を分解し、タスク固有のCoTを生成するとともに全ての対象に対する編集操作を横断的に実行する。この分解により編集操作に対する理解粒度が強化され、学習時に三つ組の各要素を習得するよう導くことで、編集能力を大幅に向上させる。（2）一般化性。第二の分解段階では、編集タスクを5つの基本メタタスクにさらに細分化する。これら5つのメタタスクを三つ組の他の2要素と共に学習することで、多様な未見の編集タスクに対する強力な汎化が達成可能であることを確認した。さらに編集動作とCoT推論の整合性を高めるため、CoT-編集一貫性報酬を導入し、編集時のCoT情報のより正確かつ効果的な利用を促進する。実験では、本手法が21の編集タスクにおいて平均15.8%の改善を達成し、少数のメタタスクのみで学習した場合でも未見の編集タスクに効果的に汎化することを実証した。コード、ベンチマーク、モデルはhttps://shiyi-zh0408.github.io/projectpages/Meta-CoT/で公開している。

洗練から再生成へ：修正空間の拡大が統合マルチモーダルモデルにおける画像精緻化を促進する
Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

Apr 28

ByJiayi Guo, Linqing Wang, Jiangshan Wang, Yang Yue, Zeyu Liu, Zhiyuan Zhao, Qinglin Lu, Gao Huang, Chunyu Wang

統合マルチモーダルモデル（UMM）は、視覚的理解と生成を単一のフレームワークに統合する。テキストから画像への生成（T2I）タスクにおいて、この統合能力によりUMMは生成後の出力を精緻化でき、性能の上限を引き上げる可能性がある。現在のUMMベースの精緻化手法は、主に「編集による精緻化（RvE）」パラダイムに従っており、UMMが編集指示を生成して不整合領域を修正しつつ、整合したコンテンツを保持する。しかし、編集指示はプロンプトと画像の不整合を大まかにしか記述せず、不完全な精緻化につながる。さらに、ピクセルレベルの保持は編集に必要だが、精緻化における有効な修正空間を不必要に制限する。これらの課題を解決するため、我々は「再生による精緻化（RvR）」という新規フレームワークを提案する。RvRは精緻化を編集ではなく条件付き画像再生として再定義し、編集指示への依存や厳密なコンテンツ保持を回避する。代わりに、目標プロンプトと初期画像の意味トークンを条件として画像を再生成し、より完全な意味的整合性と大きな修正空間を実現する。大規模な実験により、RvRの有効性が実証され、Genevalが0.78から0.91へ、DPGBenchが84.02から87.21へ、UniGenBench++が61.53から77.41へ改善された。

相互強制：高速自己回帰型音声映像キャラクター生成のためのデュアルモード自己進化
Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

Apr 28

ByYupeng Zhou, Lianghua Huang, Zhifan Wu, Jiabao Wang, Yupeng Shi, Biao Jiang, Daquan Zhou, Yu Liu, Ming-Ming Cheng, Qibin Hou

本研究では、長期的な音声-映像同期を実現する高速自己回帰型音声-映像生成フレームワーク「Mutual Forcing」を提案する。本手法は、音声-映像の共同モデリングと高速自己回帰生成という2つの重要課題に取り組む。音声-映像の共同最適化を容易にするため、2段階の学習戦略を採用する。まず単模态生成器を学習し、その後ペアデータを用いて統合音声-映像モデルとして結合して共同学習を行う。ストリーミング生成については、従来の双方向モデルを先に学習し複数の蒸留段階を経て因果的生成器に変換する手法とは異なり、ネイティブな高速因果的音声-映像モデルを直接学習できるかという問いに着目する。我々の答えがMutual Forcingであり、これはネイティブな自己回帰モデルに直接基づき、少数ステップ生成と多ステップ生成を単一の重み共有モデル内に統合することで、自己蒸留と学習-推論一貫性の向上を実現する。多ステップモードは自己蒸留により少数ステップモードを改善し、少数ステップモードは学習時に履歴文脈を生成することで学習-推論一貫性を向上させる。両モードはパラメータを共有するため、これらの効果が単一モデル内で相互に強化される。Self-Forcingなどの従来手法と比較し、Mutual Forcingは追加の双方向教師モデルが不要であり、より柔軟な学習系列長をサポートし、学習オーバーヘッドを削減し、固定された教師モデルではなく実ペアデータから直接改善できる。実験では、Mutual Forcingが約50サンプリングステップを要する強力なベースラインを、わずか4～8ステップで同等または上回る性能を示し、効率と品質の両面で大きな優位性を実証した。プロジェクトページはhttps://mutualforcing.github.ioで公開されている。

Step-Audio-R1.5 技術報告書
Step-Audio-R1.5 Technical Report

Apr 28

ByYuxin Zhang, Xiangyu Tony Zhang, Daijiao Liu, Fei Tian, Yayue Deng, Jun Chen, Qingjian Lin, Haoyang Zhang, Yuxin Li, Jinglan Gong, Yechang Huang, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Gang Yu, Xiangyu Zhang, Daxin Jiang

大規模音声言語モデルの最近の進展により、連鎖的思考（Chain-of-Thought：CoT）推論が聴覚領域に拡張され、モデルがますます複雑な音響・音声タスクに取り組めるようになってきた。このような拡張された推論連鎖を誘発・持続させるため、テキストベース推論モデルの成功に牽引された支配的パラダイムは、検証可能報酬による強化学習（RLVR）への過度な依存を示している。しかし、モデルが豊かで連続的な聴覚文脈を孤立した検証可能なテキストラベルへ蒸留するように厳密に最適化されるにつれ、根本的な疑問が生じる：我々は真の音声知能を育んでいるのか、それとも連続的な感覚メディアを単なる離散的なパズルに還元しているだけなのか？我々はこれを「検証可能報酬の罠」と定義する。RLVRは標準化された客観的ベンチマークで顕著なスコアを達成する一方、音声モデルの実世界での会話感覚を体系的に劣化させる。音響的ニュアンスよりも孤立的正解性を優先するRLVRは、動的な相互作用を機械的な「応答マシン」に退化させ、特に長い対話では韻律的自然性、感情的連続性、ユーザーの没入感を深刻に損なう。機械的客観検証と真の感覚的共感の間の隔たりを埋めるため、我々はStep-Audio-R1.5を提案する。これは音声推論における人間フィードバック強化学習（RLHF）へのパラダイム転換を意味する。包括的評価により、Step-Audio-R1.5が堅牢な分析的推論を維持するだけでなく、対話体験を根本的に変革し、深く没入する長い音声対話の境界を再定義することが実証された。

共同ディレクター：エージェンシック生成映像ストーリーテリング
Co-Director: Agentic Generative Video Storytelling

Apr 27

ByYale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister

拡散モデルは高精細な動画クリップを生成するが、それらを一貫性のあるストーリーテリングエンジンへと変換することは依然として課題である。現行のエージェント型パイプラインは連鎖モジュールによりこの過程を自動化するが、独立した手作りのプロンプト起因するセマンティックドリフトと連鎖故障に悩まされている。本論文では、動画ストーリーテリングを大域最適化問題として形式化する階層型マルチエージェントフレームワーク「Co-Director」を提案する。意味的一貫性を確保するため、階層的パラメータ化を導入する：マルチアームドバンディットが大域的に有望な創作方向を特定し、局所的なマルチモーダル自己修正ループがアイデンティティドリフトを軽減しシーケンスレベルの一貫性を保証する。これにより、新規な物語戦略の探索と効果的な創作構成の利用のバランスを取る。評価のために、パーソナライズ広告向け架空製品400シナリオからなるデータセットGenAD-Benchを導入する。実験により、Co-Directorが最先端ベースラインを大幅に上回り、より広範な映画的叙事へシームレスに一般化する原理に基づいたアプローチを提供することを実証する。プロジェクトページ: https://co-director-agent.github.io/

BARRED: 非対称討論によるカスタムポリシーガードレールの合成的訓練
BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Apr 28

ByArnon Mazza, Elad Levi

カスタムポリシーに対するガードレールの導入は依然として課題が多い。一般的な安全性モデルはタスク固有の要件を捉えられず、LLMへのプロンプティングは境界事例での性能不安定性や高い推論コストに悩まされるためである。カスタム分類器の学習は精度と効率の両方を達成するが、多大なコストがかかる大量のラベル付きデータを必要とする。本研究では、タスク記述と少数のラベルなし事例のみを用いて、忠実で多様な合成訓練データを生成するフレームワークBARRED（Boundary Alignment Refinement through REflection and Debate）を提案する。本手法は領域空間を次元分解して包括的カバレッジを確保し、マルチエージェント討論を活用してラベル正確性を検証することで、高精度な訓練コーパスを生成する。様々なカスタムポリシーにおける実験により、合成データでファインチューニングした小型言語モデルが、最先端のプロプライエタリLLM（推論モデルを含む）や専用ガードレイルモデルを一貫して凌駕することを実証した。削除実験により、次元分解と討論ベース検証の双方が、効果的なファインチューニングに必要な多様性とラベル忠実性の確保に不可欠であることを確認した。BARREDフレームワークは大規模な人手アノテーションへの依存を排除し、正確なカスタムガードレイルのためのスケーラブルなソリューションを提供する。

TCOD: マルチターン自律エージェントにおけるオンポリシー蒸留の時間的カリキュラムの探求
TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Apr 27

ByJiaqi Wang, Wenhao Zhang, Weijie Shi, Yaliang Li, James Cheng

オン方針蒸留（OPD）は、最先端モデルやドメイン特化モデルからより小さな学生モデルへ推論能力を転送する強力な可能性を示している。静的単一ターンタスクでは効果的であるが、マルチターンのエージェント設定におけるその挙動は未解明のままである。本研究では、このような設定における従来のOPDの主要な限界を特定し、それを「軌跡レベルのKL不安定性」と命名する。具体的には、KLダイバージェンスが成功率の低下と共に増加し、収束後もKLが高止まりすることで訓練が不安定化することを観察した。この不安定性はターン間誤差の累積によって生じる。誤差が蓄積するにつれ、学生モデルは教師モデルの有効サポート範囲を超えて駆動され、監督信号が信頼できなくなる。この問題に対処するため、我々はTCOD（Temporal Curriculum On-Policy Distillation）を提案する。これは、学生モデルに曝す軌跡の深さを制御し、カリキュラムスケジュールに従って短い軌跡から長い軌跡へ段階的に拡張する、簡潔かつ効果的なフレームワークである。3つのマルチターンエージェントベンチマーク（ALFWorld, WebShop, ScienceWorld）における4組の教師-学生ペアでの実験結果は、TCODがKL値の急上昇を緩和し、訓練全体を通じてKL安定性を向上させ、従来のOPDと比較してエージェント性能を最大18ポイント向上させることを示した。更なる評価により、TCODは教師モデルの性能を凌駕し、教師モデルが失敗するタスクへも一般化し得ることが示された。

スキルグラフによるスケーラブルな終端タスク合成に向けて
Toward Scalable Terminal Task Synthesis via Skill Graphs

Apr 28

ByZhiyuan Fan, Tinghao Yu, Yuanjun Cai, Jiangtao Guan, Yun Yang, Dingxin Hu, Jiang Zhou, Xing Wu, Zhuo Han, Feng Zhang, Lilin Wang

ターミナルエージェントは自律的なコマンドライン実行において強力な可能性を示しているが、その学習は高品質で多様な実行軌跡の不足によって制約を受け続けている。既存のアプローチは、軌跡サンプリングのための大規模なターミナルタスクインスタンスを合成することで、このボトルネックを緩和している。しかし、それらは主にタスク数のスケーリングに焦点を当てており、エージェントが学習中に実際に経験する実行軌跡の多様性を制御する機能は限られている。本論文では、シナリオ媒介型スキルグラフに基づくターミナルタスク合成の自動化フレームワークであるSkillSynthを提案する。SkillSynthはまず、シナリオを多様なコマンドラインスキルを接続する中間遷移ノードとして機能させる大規模スキルグラフを構築する。次に、このグラフからパスをサンプリングして現実世界のワークフローの抽象化とし、マルチエージェントシステムを用いて実行可能なタスクインスタンスへと具体化する。グラフからサンプリングされたワークフローパスにタスク合成を基盤させることで、SkillSynthは合成タスクを解決するために必要な最小限の実行軌跡の多様性を明示的に制御する。Terminal-Benchを用いた実験により、SkillSynthの有効性が実証された。さらに、SkillSynthによって合成されたタスクインスタンスはHy3 Previewの学習に採用され、ターミナルベースの環境におけるそのエージェント能力の向上に貢献している。

MAIC-UI: 生成型UIによるインタラクティブ教材の作成
MAIC-UI: Making Interactive Courseware with Generative UI

Apr 28

ByShangqing Tu, Yanjia Li, Keyu Chen, Sichen Zhang, Jifan Yu, Daniel Zhang-Li, Lei Hou, Juanzi Li, Yu Zhang, Huiqin Liu

従来、インタラクティブなSTEM教材の作成にはHTML/CSS/JavaScriptの専門知識が必要であり、教育者にとって障壁となっていた。生成AIを用いてHTMLコードを生成する手法はあるものの、既存のツールは静的なプレゼンテーションを生成するにとどまり、インタラクティブなシミュレーションの作成が困難である。さらに、長文ドキュメントの処理に課題があり、教育的正確性を担保する機構も備えていない。加えて、修正のたびに200〜600秒を要する全体再生成は、創造的な作業の流れを妨げる。本研究では、教育者が教科書、PPT、PDFからインタラクティブな教材を作成し、迅速に編集できるノーコードオーサリングシステム「MAIC-UI」を提案する。MAIC-UIは以下の特徴を有する：(1) マルチモーダル理解に基づく構造化された知識分析により、教育的严谨性を確保；(2) コンテンツ整合性の確認と視覚的洗練を分離した、生成-検証-最適化の2段階パイプライン；(3) Unified Diffベースの差分生成によるインクリメンタルな「Click-to-Locate」編集機能により、10秒未満の反復サイクルを実現。40名を対象とした実験室調査では、MAIC-UIが直接的なText-to-HTML生成と比較して、編集反復回数を削減（4.9回対7.0回）し、習得性と制御性を大幅に向上させることが示された。高校生53名を対象とした3か月間の教室導入実験では、MAIC-UIが学習の主体性を促進し、学習成果の格差を縮小することが実証された―パイロットクラスはSTEM科目で9.21ポイントの向上を示したのに対し、対照クラスでは-2.32ポイントであった。コードはhttps://github.com/THU-MAIC/MAIC-UI で公開している。

V-GRPO：ノイズ除去生成モデルのためのオンライン強化学習は想像以上に容易である
V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Apr 25

ByBingda Tang, Yuhui Zhang, Xiaohan Wang, Jiayuan Mao, Ludwig Schmidt, Serena Yeung-Levy

ノイズ除去生成モデルを人間の選好や検証可能な報酬に適合させることは、依然として重要な課題である。方策勾配によるオンライン強化学習（RL）は原理的に堅牢な学習後フレームワークを提供するが、これらのモデルが持つ扱いにくい尤度により直接適用は妨げられてきた。このため、従来研究では、サンプリング軌道上に誘導されたマルコフ決定過程（MDP）を最適化する（安定しているが非効率な）手法か、または拡散証拠下限界（ELBO）に基づく尤度代理指標を用いる（これまで視覚生成では十分な性能を発揮していない）手法のいずれかが採用されてきた。我々の重要な知見は、ELBOベースのアプローチが、実際には安定性と効率性の両立が可能であるという点である。代理指標の分散低減と勾配ステップの制御により、このアプローチがMDPベース手法を上回り得ることを示す。この目的のために、我々はVariational GRPO（V-GRPO）を提案する。この手法は、ELBOベースの代理指標をGroup Relative Policy Optimization（GRPO）アルゴリズムと統合し、さらにシンプルかつ不可欠な技術群を組み合わせたものである。我々の手法は実装が容易で、事前学習の目的と整合し、MDPベース手法の限界を回避する。V-GRPOは、テキストから画像への合成タスクにおいて最先端の性能を達成し、MixGRPOに対して2倍、DiffusionNFTに対して3倍の高速化を実現した。

ビデオ生成のための体系的なポストトレインフレームワーク
A Systematic Post-Train Framework for Video Generation

Apr 28

ByZeyue Xue, Siming Fu, Jie Huang, Shuai Lu, Haoran Li, Yijun Liu, Yuming Li, Xiaoxuan He, Mengzhao Chen, Haoyang Huang, Nan Duan, Ping Luo

大規模なビデオ拡散モデルは、高解像度で意味的に豊かなコンテンツを生成する印象的な能力を示しているが、プロンプトへの敏感性、時間的不一貫性、過大な推論コストといった重大な課題により、その事前学習時の性能と実世界での展開要件との間には依然として大きな隔たりが存在する。この隔たりを埋めるため、我々は包括的な学習後調整フレームワークを提案する。これは、4つの相補的な段階を通じて、事前学習済みモデルを体系的にユーザーの意図に合わせるものである：まず教師ありファインチューニング（SFT）を用いてベースモデルを安定した指示追従ポリシーへ変換し、続いてビデオ拡散に特化した新規のGroup Relative Policy Optimization（GRPO）手法を利用する人間フィードバック強化学習（RLHF）段階により、知覚品質と時間的一貫性を向上させる。その後、専門化された言語モデルによるプロンプト拡張を統合してユーザー入力を洗練し、最後に推論最適化を通じてシステム効率に対処する。これらの構成要素が一体となり、視覚的品質、時間的一貫性、指示追従性を向上させつつ、事前学習で獲得された制御性を維持する体系的なアプローチを提供する。その結果、実世界の展開において安定し、適応的で効果的な、スケーラブルな学習後調整パイプラインを構築するための実用的な設計図が得られる。大規模な実験により、この統一パイプラインが、一般的なアーティファクトを効果的に軽減し、厳格なサンプリングコスト制約を守りながら、制御性と視覚的美観を大幅に改善することが実証されている。

音声ファースト国家の嗜好：インド言語におけるTTSの大規模ペアワイズ評価と嗜好分析
Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

Apr 23

BySrija Anand, Ashwin Sankar, Ishvinder Sethi, Aaditya Pareek, Kartik Rajput, Gaurav Yadav, Nikhil Narasimhan, Adish Pandya, Deepon Halder, Mohammed Safi Ur Rahman Khan, Praveen S V, Shobhit Banga, Mitesh M Khapra

クラウドソーシングによるペアワイズ評価は、基盤モデルを評価するためのスケーラブルな手法として登場した。しかし、これを音声合成（TTS）に適用する場合、言語的多様性と音声知覚の多次元性により、高い分散が生じるという課題がある。本研究では、言語的制御と知覚に基づく注釈を組み合わせた、多言語TTS向けの制御された多次元ペアワイズ評価フレームワークを提案する。10のインド系言語にわたる5,000以上のネイティブ文およびコード混合文を用いて、7つの最先端TTSシステムを評価し、1,900人以上のネイティブ評価者から12万件以上のペアワイズ比較データを収集した。評価者は総合的な嗜好性に加えて、6つの知覚的次元（明瞭度、表現力、音声品質、活気、雑音、幻聴）にわたる評価を提供した。Bradley-Terryモデルを用いて多言語リーダーボードを構築し、SHAP分析により人間の嗜好性を解釈するとともに、リーダーボードの信頼性と、各知覚次元におけるモデルの強み及びトレードオフを分析した。

見ることは信じることならず：評価者向け視覚言語モデルの盲点を探る
Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

Apr 23

ByMohammed Safi Ur Rahman Khan, Sanjay Suryanarayanan, Tushar Anand, Mitesh M. Khapra

大規模視覚言語モデル（VLM）は、視覚質問応答などの画像対テキスト（I2T）タスクや、テキスト対画像（T2I）生成タスクにおいて、他のモデルの出力を評価するために利用が増加している。このような依存度の高まりにもかかわらず、評価者としてのVLMの信頼性については未解明な部分が多い。本研究では、I2TとT2Iの両タスクにおいて、評価者VLMの信頼性を体系的に評価する。対象物の幻覚、空間推論、事実的根拠、視覚的忠実度といった主要な誤り次元に沿って出力品質を劣化させる標的化摂動を導入し、評価者VLMがこれらの品質劣化誤りを評価において確実に考慮できるかどうかを検証する。40の摂動次元にわたる4,000以上の摂動インスタンスから成る包括的ベンチマークを用い、単一回答採点、ペアワイズ比較、参照文誘導の3つの評価パラダイムにより4つの主要VLMを評価した。結果として、現在のVLM評価者は重大な盲点を有することが明らかとなった：摂動を加えた出力を検知できない場合が多く（一部では50％超）、特に細粒度の構成要素的・空間的誤りに対して弱く、入力画像と矛盾する幻覚内容に対してしばしば鈍感である。ペアワイズ比較は比較的信頼性が高いものの、失敗率はなお持続する。これらの結果は、現在の評価者VLMの信頼性の低さを浮き彫りにし、ベンチマーキングや開発判断への適用には注意を促すものである。コードとデータは公開されている。

IAM: アイデンティティ認識に基づく人間の動作と形状の統合的生成
IAM: Identity-Aware Human Motion and Shape Joint Generation

Apr 28

ByWenqi Jia, Zekun Li, Abhay Mittal, Chengcheng Tang, Chuan Guo, Lezi Wang, James Matthew Rehg, Lingling Tao, Size An

近年のテキスト駆動人間動作生成の進歩により、自然言語記述から現実的な動作シーケンスを合成するモデルが可能となった。しかし、既存手法の多くはアイデンティティに中立な動作を想定し、標準的な身体表現を用いて動作を生成するため、身体形態が動作力学に与える強い影響を無視している。実際には、身体比率、質量分布、年齢などの属性は動作の実行方法に大きく影響し、この連成効果を無視すると物理的に不整合な動作が生じがちである。本研究では、身体形態と動作力学の関係を明示的にモデル化するアイデンティティ認識型動作生成フレームワークを提案する。明示的な幾何学的計測に依存する代わりに、自然言語記述や視覚的手がかりを含むマルチモーダル信号を用いてアイデンティティを表現する。さらに、動作シーケンスと身体形状パラメータを同時合成する共同動作-形状生成パラダイムを導入し、アイデンティティ手がかりが直接動作力学を調整できるようにする。モーションキャプチャデータセットと大規模実世界ビデオを用いた広範な実験により、高い動作品質を維持しつつ、動作の現実性と動作-アイデンティティ一貫性の改善を実証する。プロジェクトページ: https://vjwq.github.io/IAM

最後のハーネス、これで完成
The Last Harness You'll Ever Build

Apr 22

ByHaebin Seong, Li Yin, Haoran Zhang

AIエージェントは、複雑でドメイン固有のワークフローへの展開が増加している。例えば、数十回のクリックとフォーム入力を必要とするエンタープライズWebアプリケーションの操作、検索・抽出・統合にまたがる多段階の研究パイプラインのオーケストレーション、未知のリポジトリにわたるコードレビューの自動化、微妙なドメイン知識を要するカスタマーエスカレーションの対応などである。各新しいタスク領域では、基礎モデルを効果的に機能させるためのプロンプト、ツール、オーケストレーションロジック、評価基準を設計するという、専門家による入念なハーネスエンジニアリングが必要とされてきた。本稿では、このプロセスを自動化する2段階のフレームワークを提案する。第一段階では、**ハーネス進化ループ**が単一タスクに対してワーカーエージェントのハーネスHを最適化する。すなわち、ワーカーエージェントW_{H}がタスクを実行し、評価エージェントVが失敗を敵対的に診断してパフォーマンスをスコア付けし、進化エージェントEが過去の試行の完全な履歴に基づいてハーネスを修正する。第二段階では、**メタ進化ループ**が多様なタスクにわたって進化プロトコルΛ = (W_{H}, H^{(0)}, V, E) 自体を最適化し、あらゆる新規タスクにおいてハーネスが迅速に収束することを可能にする最適なプロトコルΛ^{(best)}を学習する。これにより、エージェントを新しい領域に適応させる際に、人的なハーネスエンジニアリングが一切不要となる。我々は、メタ学習との対応関係を形式化し、両方のアルゴリズムを示す。このフレームワークは、手動のハーネスエンジニアリングを自動化されたハーネスエンジニアリングへと転換し、さらに一歩進んで、自動化そのものの設計を自動化するものである。

AutoGUI-v2：包括的なマルチモーダルGUI機能理解ベンチマーク
AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

Apr 27

ByHongxin Li, Xiping Wang, Jingran Su, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang

グラフィカルユーザインタフェース（GUI）を操作可能な自律エージェントは、デジタル生産性に革命をもたらす可能性を秘めている。しかし、真のデジタル自律性を実現するには、反応的な要素マッチングを超えて、インタフェースの動的変化に関する予測的なメンタルモデルと、操作によって生じる「デジタル世界の状態」を先読みする能力が不可欠である。現代の視覚言語モデル（VLM）は知覚能力を有するにもかかわらず、既存のベンチマークは二分されたまま（ブラックボックスのタスク完了、あるいは静的な浅い接地のいずれかに焦点を当てている）であり、エージェントがGUIの暗黙的な機能性と状態遷移論理を真に理解しているかどうかを評価できていない。この隔たりを埋めるため、我々は深層的なGUI機能理解と操作結果予測を評価する包括的ベンチマークであるAutoGUI-v2を提案する。本ベンチマークは、マルチプラットフォームのスクリーンショットを階層的な機能領域に再帰的に解析し、多様な評価タスクを生成する新しいVLM-人間協調パイプラインを用いて構築した。6つのオペレーティングシステムにわたる2,753のタスクを提供するAutoGUI-v2は、領域および要素レベルの意味論、接地、動的状態予測についてエージェントを厳密に試験する。評価結果から、VLMに顕著な二極化が明らかになった：エージェントデータでファインチューニングされたオープンソースモデル（例：Qwen3-VL）は機能的接地で優れる一方、商用モデル（例：Gemini-2.5-Pro-Thinking）は機能説明で優位を示した。決定的に、全てのモデルは稀な操作における複雑な相互作用論理に対処するのに苦戦しており、深い機能理解が依然として重大な障壁であることが強調される。これらの基盤能力を体系的に測定することで、AutoGUI-v2は次世代GUIエージェントの発展に向けた新たな視点を提供する。

GoClick: 自律的GUI操作のための軽量要素接地モデル
GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Apr 27

ByHongxin Li, Yuntao Chen, Zhaoxiang Zhang

グラフィカルユーザインタフェース（GUI）要素のグラウンディング（自然言語指示に基づくスクリーンショット上の要素の正確な位置特定）は、GUIと対話するエージェントにとって基本的な技術である。この機能をスマートフォンなどのリソース制約のあるデバイス上で直接動作させることは、低遅延を要求するGUIエージェントにとって重要性を増している。しかし、現在の視覚的グラウンディング手法は一般的に大規模な視覚言語モデル（VLM）（25億パラメータ超）を採用しており、メモリと計算資源の制約からオンデバイス実行には非現実的であるという重大な課題に直面している。この問題に対処するため、本論文はわずか2億3千万パラメータでありながら優れた視覚的グラウンディング精度を達成し、大幅に大規模なモデルと同等の性能を発揮する軽量VLM、GoClickを提案する。既存のデコーダのみのVLMを単純に縮小することは軽量モデル設計の直接的な方法であるが、我々の実験ではこのアプローチが最適な結果をもたらさないことが明らかとなった。代わりに、GUIグラウンディングタスクにおいて、小規模パラメータ条件下でデコーダのみの方式を上回る性能を示すエンコーダ-デコーダアーキテクチャを選択した。さらに、小規模VLMの限られた容量を考慮し、タスクタイプフィルタリングとデータ比率調整を活用して、1080万サンプルの生データセットから高品質な380万サンプルのコアセットを抽出するプログレッシブデータリファインメントパイプラインを開発した。このコアセットを用いてGoClickを学習させることで、グラウンディング精度の顕著な向上がもたらされた。実験の結果、GoClickは複数のGUI要素グラウンディングベンチマークで優れた性能を発揮しつつ、小型サイズと高速な推論速度を維持することを確認した。また、GoClickはデバイス-クラウド連携フレームワークに組み込まれた場合、GUIエージェントの性能を向上させ、クラウドベースのタスクプランナーが正確な要素位置特定を実行し、より高い成功率を達成することを可能にした。我々の手法がGUIエージェントコミュニティにおける有意義な探求となることを期待する。

推薦システムにおける公平性のオフライン評価指標
Offline Evaluation Measures of Fairness in Recommender Systems

Apr 27

ByTheresia Veronika Rampisela

推薦システムの公平性評価は、特に公正で責任ある人工知能の開発を重視する最近の法規制により、その重要性が高まっている。これに伴い、様々な公平性評価指標が登場し、それぞれ異なる定義に基づいて公平性を定量化している。しかし、多くの指標は単に提案され使用されるだけで、その頑健性に関する詳細な分析が不足している。その結果、指標の限界についての理解と認識が不十分である。特に、どのようなモデル出力が（非）公平なスコアを生み出すのか、指標スコアの経験的な分布はどのようなものか、指標が計算不能となる場合（例：ゼロ除算）があるかどうか、といった点が不明確である。これらの問題は、指標スコアの解釈を困難にし、特定のケースでどの指標を使用すべきかについて混乱を招く。本論文は、既存の推薦システム公平性評価指標が持つ理論的、実証的、概念的な様々な限界を評価し、克服する一連の研究を提示する。我々は、評価対象（ユーザとアイテム）と評価粒度（対象群と個別対象）に基づいて分類された、異なる公平性概念に対する多様なオフライン評価指標を調査する。まず、指標に対して理論的及び実証的分析を行い、それらの解釈可能性、表現力、または適用可能性を制限する欠点を明らかにする。次に、これらの限界を克服する新しい評価手法と指標を提案する。最後に、指標の限界を考慮し、適切な指標使用のためのガイドラインを提言することで、実践的な場面における公平性評価指標のより精密な選択を可能にする。全体として、本論文は推薦システムの公平性に関するオフライン評価の最先端を推進するものである。