AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

大規模言語モデルエージェント：方法論、応用、課題に関する調査
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Mar 27

ByJunyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yifan Wang, Meng Xiao, Chenwu Liu, Jingyang Yuan, Shichang Zhang, Yiqiao Jin, Fan Zhang, Xian Wu, Hanqing Zhao, Dacheng Tao, Philip S. Yu, Ming Zhang

大規模言語モデルの革命的な進展により、知的エージェントの時代が到来しました。目標駆動型の行動と動的適応能力を備えた大規模言語モデル（LLM）エージェントは、人工汎用知能（AGI）に向けた重要な道筋を潜在的に示しています。本調査では、方法論中心の分類体系を通じてLLMエージェントシステムを体系的に解体し、アーキテクチャの基盤、協調メカニズム、進化の経路を結びつけます。エージェント設計原則と複雑な環境における創発的挙動の間の基本的な関連性を明らかにすることで、断片的な研究の糸を統合します。本論文は、エージェントがどのように構築され、協調し、時間とともに進化するかを検証する統一的なアーキテクチャの視点を提供するとともに、評価方法論、ツールの応用、実践的な課題、多様な応用領域にも言及します。この急速に進化する分野の最新の進展を調査することで、研究者に対してLLMエージェントを理解するための体系的な分類体系を提供し、将来の研究に向けた有望な方向性を特定します。本コレクションはhttps://github.com/luo-junyu/Awesome-Agent-Papersで公開されています。

Video-R1: MLLMにおけるビデオ推論の強化
Video-R1: Reinforcing Video Reasoning in MLLMs

Mar 27

ByKaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue

DeepSeek-R1がルールベースの強化学習（RL）を通じて推論能力を引き出すことに成功したことに触発され、我々はマルチモーダル大規模言語モデル（MLLMs）におけるビデオ推論を引き出すためのR1パラダイムを体系的に探求する最初の試みとしてVideo-R1を導入しました。しかし、GRPOアルゴリズムを用いたRLトレーニングをビデオ推論に直接適用するには、主に2つの課題があります：(i) ビデオ推論のための時間的モデリングの欠如、(ii) 高品質なビデオ推論データの不足。これらの問題に対処するため、我々はまず、ビデオの時間的情報を活用して推論を行うことを促すT-GRPOアルゴリズムを提案しました。さらに、ビデオデータのみに依存するのではなく、高品質な画像推論データをトレーニングプロセスに組み込みました。我々は、SFTコールドスタート用のVideo-R1-COT-165kとRLトレーニング用のVideo-R1-260kという2つのデータセットを構築し、どちらも画像とビデオデータで構成されています。実験結果は、Video-R1がVideoMMMUやVSI-Benchなどのビデオ推論ベンチマーク、およびMVBenchやTempCompassなどの一般的なビデオベンチマークにおいて、大幅な改善を達成したことを示しています。特に、Video-R1-7Bはビデオ空間推論ベンチマークVSI-benchで35.8%の精度を達成し、商用のプロプライエタリモデルGPT-4oを上回りました。すべてのコード、モデル、データが公開されています。

UI-R1: 強化学習によるGUIエージェントのアクション予測の強化
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Mar 27

ByZhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

最近のDeepSeek-R1は、ルールベースの報酬を用いた強化学習（RL）を通じて、大規模言語モデル（LLM）における推論能力の出現を示しました。このアイデアを基に、我々はマルチモーダル大規模言語モデル（MLLM）の推論能力をグラフィカルユーザーインターフェース（GUI）のアクション予測タスクにおいて強化するために、ルールベースのRLを初めて探求しました。この目的のために、我々は136の挑戦的なタスクからなる小さくも高品質なデータセットをキュレーションし、モバイルデバイスにおける5つの一般的なアクションタイプを網羅しました。また、Group Relative Policy Optimization（GRPO）などのポリシーベースのアルゴリズムを通じてモデル最適化を可能にする統一されたルールベースのアクション報酬を導入しました。実験結果は、我々が提案したデータ効率の良いモデル、UI-R1-3Bが、ドメイン内（ID）およびドメイン外（OOD）のタスクにおいて大幅な改善を達成することを示しています。具体的には、IDベンチマークであるAndroidControlにおいて、アクションタイプの精度が15％向上し、グラウンディング精度が10.3％向上しました（ベースモデルであるQwen2.5-VL-3Bと比較して）。OOD GUIグラウンディングベンチマークであるScreenSpot-Proでは、我々のモデルはベースモデルを6.0％上回り、76Kのデータで教師あり微調整（SFT）を経たより大きなモデル（例：OS-Atlas-7B）と競争力のある性能を達成しました。これらの結果は、ルールベースの強化学習がGUIの理解と制御を進める可能性を強調し、この分野における将来の研究の道を開くものです。

推論の限界に挑む：大規模言語モデルのためのオリンピアードレベル数学ベンチマーク
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Mar 27

ByHaoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen

近年、大規模推論モデルの急速な発展により、数学的推論を評価するための既存のベンチマークが飽和状態に達し、より挑戦的で厳密な評価フレームワークの必要性が緊急に求められています。このギャップを埋めるため、我々はOlymMATHを導入します。これは、LLMの複雑な推論能力を厳密にテストするために設計された、オリンピアドレベルの数学的ベンチマークです。OlymMATHは、200の入念に選ばれた問題を特徴としており、各問題は手動で検証され、英語と中国語の並行バージョンが用意されています。これらの問題は、体系的に2つの異なる難易度層に分類されています：(1) 数学的推論評価のベースラインを確立するAIMEレベルの問題（易しい）、および (2) 現在の最先端モデルの限界を押し上げるために設計された、より挑戦的な問題（難しい）。我々のベンチマークでは、これらの問題は4つの主要な数学分野にまたがり、それぞれ検証可能な数値解を含むことで、客観的でルールベースの評価を可能にしています。実証結果は、OlymMATHが提示する重要な課題を強調しており、DeepSeek-R1やOpenAIのo3-miniを含む最先端モデルでも、難しいサブセットでの精度が著しく限られていることが示されています。さらに、このベンチマークは、数学的推論能力の包括的な二言語評価を可能にします。これは、主流の数学的推論ベンチマークではほとんど取り組まれていない重要な側面です。我々は、OlymMATHベンチマークをSTILLプロジェクトで公開しています：https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。

VBench-2.0：本質的な忠実性のためのビデオ生成ベンチマークスイートの進化
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Mar 27

ByDian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu

ビデオ生成技術は大きく進化し、非現実的な出力から、視覚的に説得力があり時間的にも一貫したビデオを生成する段階へと発展してきました。これらのビデオ生成モデルを評価するために、VBenchなどのベンチマークが開発され、フレームごとの美的感覚、時間的整合性、基本的なプロンプトへの忠実度などの要素を測定しています。しかし、これらの側面は主に表面的な忠実度を表しており、ビデオが視覚的に説得力があるかどうかに焦点を当てるもので、現実世界の原則に従っているかどうかは考慮されていません。最近のモデルはこれらの指標でますます良い性能を発揮していますが、視覚的に妥当であるだけでなく、根本的に現実的なビデオを生成するにはまだ課題があります。ビデオ生成を通じて真の「世界モデル」を実現するためには、生成されたビデオが物理法則、常識的推論、解剖学的正確さ、構成的整合性に従うことを保証する内在的忠実度が次のフロンティアとなります。このレベルのリアリズムを達成することは、AI支援映画制作やシミュレートされた世界モデリングなどのアプリケーションにとって不可欠です。このギャップを埋めるために、私たちはビデオ生成モデルの内在的忠実度を自動的に評価する次世代ベンチマークであるVBench-2.0を紹介します。VBench-2.0は、人間の忠実度、制御性、創造性、物理学、常識の5つの主要な次元を評価し、それぞれがさらに細分化された能力に分解されます。個々の次元に合わせた評価フレームワークは、最先端のVLMやLLMなどのジェネラリストと、ビデオ生成のために提案された異常検出方法などのスペシャリストを統合しています。私たちは人間の判断との整合性を確保するために広範なアノテーションを行います。表面的な忠実度を超えて内在的忠実度に向けて推進することにより、VBench-2.0は次世代のビデオ生成モデルの新たな基準を設定することを目指しています。

ReaRAG: 知識誘導型推論が反復的検索拡張生成による大規模推論モデルの事実性を向上
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Mar 27

ByZhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li

大規模推論モデル（LRM）は優れた推論能力を示すが、主にパラメトリックな知識に依存しているため、事実の正確性に限界がある。最近の研究では、強化学習（RL）ベースのLRMに検索機能を追加しているが、過剰な思考や推論の堅牢性の欠如に悩まされており、質問応答（QA）タスクでの効果が低下している。この問題に対処するため、我々はReaRAGを提案する。これは、過度な反復なしに多様なクエリを探索する事実性強化型推論モデルである。我々のソリューションには、推論チェーンの長さに上限を設けた新しいデータ構築フレームワークが含まれる。具体的には、まずLRMを活用して慎重な思考を生成し、次に事前定義されたアクション空間（検索と終了）からアクションを選択する。検索アクションの場合、RAGエンジンに対してクエリが実行され、その結果が観測として返され、後の推論ステップを導く。このプロセスは、終了アクションが選択されるまで繰り返される。ReaRAGの強力な推論能力により、我々のアプローチはマルチホップQAにおいて既存のベースラインを上回る。さらに、エラーを認識し推論軌道を洗練する強力な反射能力が分析により明らかになった。本研究は、LRMの事実性を向上させつつ、検索拡張生成（RAG）のための堅牢な推論を効果的に統合するものである。

ChatAnyone: 階層型モーションディフュージョンモデルによるスタイライズされたリアルタイムポートレート動画生成
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Mar 27

ByJinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo

リアルタイムインタラクティブなビデオチャットポートレートは、特にテキストや音声チャット技術の著しい進歩により、未来のトレンドとしてますます認識されています。しかし、既存の手法は主に頭部の動きのリアルタイム生成に焦点を当てており、これらの頭部の動きと同期した身体の動きを生成することには苦戦しています。さらに、話し方のスタイルや顔の表情のニュアンスを細かく制御することも課題となっています。これらの制限に対処するため、私たちはスタイリッシュなリアルタイムポートレートビデオ生成のための新しいフレームワークを導入し、トーキングヘッドから上半身のインタラクションまで拡張した表現力豊かで柔軟なビデオチャットを実現します。私たちのアプローチは以下の2段階で構成されます。第1段階では、音声入力を基に明示的および暗示的な動き表現を考慮した効率的な階層的モーションディフュージョンモデルを使用し、スタイル制御と頭部と身体の動きの同期を伴う多様な顔の表情を生成します。第2段階では、手のジェスチャーを含む上半身の動きを特徴とするポートレートビデオを生成します。ジェネレーターに明示的な手の制御信号を注入してより詳細な手の動きを生成し、さらに顔のリファインメントを行ってポートレートビデオの全体的なリアリズムと表現力を向上させます。さらに、私たちのアプローチは4090 GPU上で最大512 * 768解像度で最大30fpsの上半身ポートレートビデオの効率的かつ連続的な生成をサポートし、リアルタイムでのインタラクティブなビデオチャットを可能にします。実験結果は、私たちのアプローチが豊かな表現力と自然な上半身の動きを伴うポートレートビデオを生成する能力を示しています。

LeX-Art: スケーラブルで高品質なデータ合成によるテキスト生成の再考
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Mar 27

ByShitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li

我々はLeX-Artを紹介する。これは、プロンプトの表現力とテキストレンダリングの忠実度の間のギャップを体系的に埋める、高品質なテキスト画像合成のための包括的なスイートである。我々のアプローチはデータ中心のパラダイムに従い、Deepseek-R1に基づいた高品質なデータ合成パイプラインを構築し、10,000枚の高解像度（1024×1024）で美的に洗練された画像からなるLeX-10Kデータセットをキュレーションした。データセット構築に加えて、我々は堅牢なプロンプト拡張モデルであるLeX-Enhancerを開発し、2つのテキスト画像モデル、LeX-FLUXとLeX-Luminaをトレーニングし、最先端のテキストレンダリング性能を達成した。視覚的テキスト生成を体系的に評価するために、我々はLeX-Benchを導入し、忠実度、美的感覚、整合性を評価する。これに加えて、堅牢なテキスト精度評価のための新しい指標であるPairwise Normalized Edit Distance（PNED）を補完的に使用する。実験結果は、LeX-LuminaがCreateBenchで79.81%のPNED向上を達成し、LeX-FLUXが色精度（+3.18%）、位置精度（+4.45%）、フォント精度（+3.81%）においてベースラインを上回るなど、大幅な改善を示している。我々のコード、モデル、データセット、デモは公開されている。

エンボディド・リーズナー：視覚探索、推論、行動のシナジーによるエンボディドインタラクティブタスクの実現
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Mar 27

ByWenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang

深層思考モデルの最近の進展は、数学やコーディングタスクにおいて顕著な推論能力を示してきました。しかし、画像と行動が交互に連なる軌跡を通じて環境と継続的に相互作用を必要とする具現化された領域での有効性は、ほとんど未探査のままです。本論文では、具現化された探索タスクにo1スタイルの推論を拡張するモデル「Embodied Reasoner」を提案します。論理的推論に主に依存する数学的推論とは異なり、具現化されたシナリオでは空間理解、時間的推論、および相互作用の履歴に基づく継続的な自己省察が要求されます。これらの課題に対処するため、我々は9.3kの一貫した「観察-思考-行動」軌跡を合成し、64kのインタラクティブな画像と90kの多様な思考プロセス（分析、空間推論、省察、計画、検証）を含むデータセットを作成しました。模倣学習、リジェクトサンプリングによる自己探索、省察チューニングによる自己修正を通じて、モデルの能力を段階的に向上させる3段階のトレーニングパイプラインを開発しました。評価の結果、我々のモデルは先進的な視覚推論モデル（例：OpenAI o1、o3-mini、Claude-3.7）を+9%、24%、+13%上回りました。分析によると、我々のモデルは繰り返し検索や論理的不整合が少なく、特に複雑な長期タスクにおいて優位性を示しています。実世界の環境でも、繰り返し検索や論理的不整合のケースが少ないという点で我々の優位性が確認されました。

Lumina-Image 2.0：統合された効率的な画像生成フレームワーク
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Mar 27

ByQi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao

Lumina-Image 2.0を紹介します。これは、従来のLumina-Nextと比較して大幅な進歩を達成した高度なテキストから画像生成フレームワークです。Lumina-Image 2.0は、以下の2つの主要な原則に基づいて構築されています。(1) 統一性 - テキストと画像トークンを結合されたシーケンスとして扱う統一アーキテクチャ（Unified Next-DiT）を採用し、自然なクロスモーダル相互作用を可能にし、シームレスなタスク拡張を実現します。さらに、高品質なキャプショナーは意味的に整合性の高いテキスト-画像トレーニングペアを提供できるため、T2I生成タスクに特化した統一キャプショニングシステム、Unified Captioner（UniCap）を導入しました。UniCapは包括的で正確なキャプションを生成し、収束を加速し、プロンプトへの忠実度を向上させます。(2) 効率性 - 提案モデルの効率を向上させるため、多段階のプログレッシブトレーニング戦略を開発し、画像品質を損なうことなく推論加速技術を導入しました。学術ベンチマークおよび公開テキストから画像アリーナでの広範な評価により、Lumina-Image 2.0はわずか2.6Bパラメータでも強力な性能を発揮し、そのスケーラビリティと設計効率が強調されています。トレーニングの詳細、コード、およびモデルはhttps://github.com/Alpha-VLLM/Lumina-Image-2.0で公開しています。

ResearchBench: インスピレーションに基づくタスク分解による科学的発見における大規模言語モデルのベンチマーキング
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Mar 27

ByYujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

大規模言語モデル（LLM）は科学研究を支援する可能性を示しているものの、高品質な研究仮説を発見する能力は、専用のベンチマークが存在しないため未検証のままであった。このギャップを埋めるため、我々は科学的発見のほぼ十分なサブタスク（インスピレーション検索、仮説構成、仮説ランキング）を備えた、LLM評価のための初の大規模ベンチマークを導入する。12の学問分野にわたる科学論文から、研究課題、背景調査、インスピレーション、仮説といった重要な要素を抽出する自動化フレームワークを開発し、専門家による検証を通じてその精度を確認した。データ汚染を防ぐため、2024年に発表された論文に焦点を当て、LLMの事前学習データとの重複を最小限に抑えた。評価の結果、LLMは分布外タスクであるインスピレーション検索において良好なパフォーマンスを示し、新たな知識の関連性を浮かび上がらせる能力が示唆された。これにより、LLMは「研究仮説の鉱山」として位置づけられ、最小限の人的介入で革新的な仮説を大規模に生成することで、自動化された科学的発見を促進する可能性を秘めていることが明らかとなった。

FinAudio: 金融アプリケーションにおける音声大規模言語モデルのベンチマーク
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Mar 26

ByYupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie

オーディオ大規模言語モデル（AudioLLMs）は広く注目を集めており、会話、オーディオ理解、自動音声認識（ASR）などの音声タスクにおいて性能が大幅に向上しています。しかし、これらの進歩にもかかわらず、決算説明会やCEOスピーチなどの音声データが財務分析や投資判断において重要なリソースとなる金融シナリオにおいて、AudioLLMsを評価するためのベンチマークが存在しません。本論文では、金融領域におけるAudioLLMsの能力を評価するための最初のベンチマークであるFinAudioを紹介します。まず、金融領域の特性に基づいて3つのタスクを定義します：1）短い金融オーディオのASR、2）長い金融オーディオのASR、3）長い金融オーディオの要約。次に、それぞれ2つの短いオーディオデータセットと2つの長いオーディオデータセットをキュレーションし、FinAudioベンチマークを構成する金融オーディオ要約のための新しいデータセットを開発します。その後、7つの主要なAudioLLMsをFinAudioで評価します。評価結果から、既存のAudioLLMsが金融領域において持つ限界が明らかになり、AudioLLMsの改善に向けた洞察が得られます。すべてのデータセットとコードは公開されます。

合成映像は映像合成における物理的忠実性を向上させる
Synthetic Video Enhances Physical Fidelity in Video Synthesis

Mar 26

ByQi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan Wang

コンピュータグラフィックスパイプラインから生成された合成映像を活用することで、ビデオ生成モデルの物理的忠実度を向上させる方法を調査します。これらのレンダリングされた映像は、3D一貫性の維持など現実世界の物理法則に従っており、ビデオ生成モデルの改善に役立つ貴重なリソースとなります。この潜在能力を活用するため、合成データを精選・統合するとともに、その物理的リアリズムをモデルに転移する手法を提案し、不要なアーティファクトを大幅に削減します。物理的一貫性を重視した3つの代表的なタスクにおける実験を通じて、物理的忠実度の向上における有効性を実証します。我々のモデルはまだ物理に対する深い理解を欠いていますが、合成映像がビデオ合成における物理的忠実度を向上させることを実証した最初期の研究の一つを提供します。ウェブサイト: https://kevinz8866.github.io/simulation/

拡散サンプリングにおける最適ステップサイズ
Optimal Stepsize for Diffusion Sampling

Mar 27

ByJianning Pei, Han Hu, Shuyang Gu

拡散モデルは優れた生成品質を実現しますが、最適でないステップ離散化のため、計算集約的なサンプリングが課題となっています。既存研究は主にノイズ除去方向の最適化に焦点を当てていますが、本論文ではステップサイズスケジュールの原理的な設計に取り組みます。本論文では、最適ステップサイズ蒸留（Optimal Stepsize Distillation）を提案します。これは、参照軌跡から知識を蒸留することで理論的に最適なスケジュールを抽出する動的計画法フレームワークです。ステップサイズ最適化を再帰的誤差最小化として再定式化することで、最適部分構造の活用を通じてグローバルな離散化境界を保証します。重要な点として、蒸留されたスケジュールは、アーキテクチャ、ODEソルバー、ノイズスケジュールにわたって強力なロバスト性を示します。実験では、テキストから画像への生成を10倍加速しつつ、GenEvalにおいて99.4%の性能を維持することが確認されました。コードはhttps://github.com/bebebe666/OptimalStepsで公開されています。

映像生成における物理的認知の進化を探る：サーベイ
Exploring the Evolution of Physics Cognition in Video Generation: A Survey

Mar 27

ByMinghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang

近年、ビデオ生成技術は著しい進歩を遂げており、特に拡散モデルの急速な発展が目覚ましい。しかしながら、物理的認知能力の欠如が次第に広く認識されるようになり、生成されたコンテンツが物理の基本法則に反する「視覚的リアリズムだが物理的には不条理」というジレンマに陥ることが多くなっている。研究者たちは、ビデオ生成における物理的忠実度の重要性をますます認識し、運動表現や物理的知識といったヒューリスティックな物理的認知を生成システムに統合し、現実世界の動的シナリオをシミュレートしようと試みている。この分野における体系的な概観の欠如を考慮し、本調査はアーキテクチャ設計とその応用を包括的にまとめることでこのギャップを埋めることを目的としている。具体的には、認知科学の観点からビデオ生成における物理的認知の進化プロセスを議論し整理するとともに、1)生成のための基本的なスキーマ知覚、2)生成のための物理的知識の受動的認知、3)世界シミュレーションのための能動的認知という3層の分類を提案し、最先端の手法、古典的なパラダイム、ベンチマークを網羅している。その後、この領域に内在する主要な課題を強調し、将来の研究のための潜在的な道筋を描き、学界と産業界の議論の最前線を進めることに貢献する。構造化されたレビューと学際的分析を通じて、本調査は解釈可能で制御可能、かつ物理的に一貫したビデオ生成パラダイムを開発するための方向性を示し、生成モデルを「視覚的模倣」の段階から「人間のような物理的理解」の新たな段階へと推進することを目指している。

Feature4X：多様なガウシアン特徴フィールドによる任意の単眼動画から4DエージェントAIへの架け橋
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

Mar 26

ByShijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi

近年の2Dおよびマルチモーダルモデルの進歩は、大規模なデータセットを用いたトレーニングにより目覚ましい成功を収めてきました。しかし、これらの成果を自由形式のインタラクションや複雑な3D/4Dシーンに対する高レベルの意味操作に拡張することは依然として困難です。この難しさは、大規模で注釈付きの3D/4Dまたはマルチビューデータセットの限られた可用性に起因しており、これらのデータセットはオープン語彙やプロンプトベースのセグメンテーション、言語ガイド編集、視覚的質問応答（VQA）などの汎用的な視覚と言語タスクに不可欠です。本論文では、Feature4Xを紹介します。これは、ユーザー生成コンテンツから広く利用可能な単眼ビデオ入力のみを使用して、2D視覚基盤モデルの任意の機能を4D領域に拡張するための汎用フレームワークです。Feature4Xの「X」はその汎用性を表しており、適応可能なモデル条件付き4D特徴場蒸留を通じて任意のタスクを可能にします。私たちのフレームワークの中核には、複数のモデル能力を単一の表現に統合する動的最適化戦略があります。さらに、私たちの知る限り、Feature4Xは、Gaussian Splattingを使用してビデオ基盤モデル（例：SAM2、InternVideo2）の特徴を明示的な4D特徴場に蒸留し、リフトする最初の方法です。私たちの実験では、フィードバックループにおけるLLMの力を借りて、新規ビューセグメンテーション、幾何学的および外観シーン編集、全時間ステップにわたる自由形式のVQAを実現しました。これらの進歩は、没入型の動的4Dシーンインタラクションが可能な、スケーラブルで文脈的および時空間的に認識されたシステムの基盤を提供することにより、エージェントAIアプリケーションの範囲を広げます。

セマンティックライブラリ適応：オープン語彙セマンティックセグメンテーションのためのLoRA検索と融合
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

Mar 27

ByReza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi

オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを用いて未定義のクラスセットからピクセルにラベルを付けることで、新しいデータセットに対して汎用的な性能を発揮します。しかし、訓練とテストのドメイン間の大きな乖離は性能を低下させ、実世界のアプリケーションで効果的に機能させるためにはファインチューニングが必要となります。本研究では、Semantic Library Adaptation (SemLA) という、訓練不要のテスト時ドメイン適応のための新しいフレームワークを提案します。SemLA は、CLIP埋め込みでインデックス化されたLoRAベースのアダプタのライブラリを活用し、埋め込み空間内でのターゲットドメインへの近接性に基づいて最も関連性の高いアダプタを動的に統合します。このアプローチにより、追加の訓練なしに、各特定の入力に合わせたアドホックなモデルを構築します。本手法は効率的にスケーリングし、アダプタの貢献を追跡することで説明可能性を向上させ、データプライバシーを本質的に保護するため、機密性の高いアプリケーションに最適です。10の標準データセットに基づいて構築された20ドメインベンチマークでの包括的な実験により、SemLAが多様な設定において優れた適応性と性能を発揮し、オープン語彙セマンティックセグメンテーションのドメイン適応において新たな標準を確立することが示されました。

統一マルチモーダル離散拡散
Unified Multimodal Discrete Diffusion

Mar 26

ByAlexander Swerdlow, Mihir Prabhudesai, Siddharth Gandhi, Deepak Pathak, Katerina Fragkiadaki

複数のモダリティを理解し生成できるマルチモーダル生成モデルは、現在、トークンを左から右、または上から下へと順次処理する自己回帰（AR）アプローチが主流となっています。これらのモデルは、画像キャプショニング、質問応答、画像生成などのさまざまなタスクにおいて、画像、テキスト、動画、音声を統合的に扱います。本研究では、テキスト生成における最近の成功を基盤として、テキストと画像の領域における統一的な生成手法として離散拡散モデルを探求します。離散拡散モデルは、ARモデルに比べていくつかの利点を提供します。これには、生成サンプルの品質と多様性の制御の向上、テキストと画像の両領域にわたる共同マルチモーダルインペインティングの能力、ガイダンスを通じた生成の制御性の向上などが含まれます。これらの利点を活用し、我々は初の統一マルチモーダル離散拡散モデル（UniDisc）を提案します。このモデルは、さまざまな下流タスクにおいてテキストと画像を共同で理解し生成することが可能です。UniDiscをマルチモーダルARモデルと比較し、スケーリング分析を行い、UniDiscが性能と推論時の計算効率、制御性、編集性、インペインティング、推論時間と生成品質の柔軟なトレードオフにおいて優れていることを示します。コードと追加のビジュアライゼーションはhttps://unidisc.github.ioで公開されています。

ZJUKLAB at SemEval-2025 Task 4: モデルマージによるアンラーニング
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging

Mar 27

ByHaoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang

本論文は、SemEval-2025 Task 4「大規模言語モデルからのセンシティブなコンテンツのアンラーニング」に対するZJUKLABチームの提出物を紹介する。このタスクは、大規模言語モデルからセンシティブな知識を選択的に削除し、過剰な忘却と不十分な忘却の両方を回避することを目的としている。我々は、Model Merging（特にTIES-Merging）を活用したアンラーニングシステムを提案し、2つの専門化されたモデルを組み合わせてよりバランスの取れたアンラーニングモデルを構築する。このシステムは、26チーム中2位という競争力のある結果を達成し、Task Aggregateでは0.944、全体のAggregateでは0.487のオンラインスコアを記録した。本論文では、ローカル実験を実施し、アンラーニングプロセスの包括的な分析を行い、パフォーマンスの軌跡、損失ダイナミクス、重みの視点を検証するとともに、いくつかの補足実験を行い、我々の手法の有効性を理解する。さらに、我々の手法と評価指標の欠点を分析し、MIAスコアとROUGEベースの指標だけでは、成功したアンラーニングを完全に評価するには不十分であることを強調する。最後に、より包括的な評価方法と、将来の研究におけるアンラーニング目標の再考の必要性を強調する。コードはhttps://github.com/zjunlp/unlearn/tree/main/semeval25で公開されている。

LLPut: バグレポートに基づく入力生成のための大規模言語モデルの調査
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

Mar 26

ByAlif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman

障害を引き起こす入力は、ソフトウェアのバグを診断・分析する上で重要な役割を果たします。バグレポートには通常、これらの入力が含まれており、開発者はデバッグを容易にするためにそれらを抽出します。バグレポートは自然言語で記述されているため、これまでの研究では自動入力抽出のために様々な自然言語処理（NLP）技術が活用されてきました。大規模言語モデル（LLM）の登場に伴い、重要な研究課題が浮上しています：生成型LLMはバグレポートから障害を引き起こす入力をどれだけ効果的に抽出できるのか？本論文では、LLPutという手法を提案し、オープンソースの生成型LLM（LLaMA、Qwen、Qwen-Coder）がバグレポートから関連する入力を抽出する性能を実証的に評価します。206件のバグレポートデータセットを用いた実験的評価を通じて、これらのモデルの精度と有効性を検証します。我々の知見は、自動バグ診断における生成型LLMの能力と限界についての洞察を提供します。

Tracktention: ポイントトラッキングを活用した高速かつ高精度なビデオ注意機構
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

Mar 25

ByZihang Lai, Andrea Vedaldi

映像予測において、時間的一貫性は出力の整合性を保ち、アーティファクトを排除するために極めて重要です。従来の手法、例えば時間的アテンションや3D畳み込みは、大きな物体の動きに対応するのが難しく、動的なシーンにおける長期的な時間的依存関係を捉えられない場合があります。この課題を解決するため、我々はTracktention Layerを提案します。これは、フレーム間の対応点のシーケンスであるポイントトラックを用いて、明示的に動き情報を統合する新しいアーキテクチャコンポーネントです。これらの動きの手がかりを取り入れることで、Tracktention Layerは時間的アラインメントを強化し、複雑な物体の動きを効果的に処理し、時間経過に伴う特徴表現の一貫性を維持します。我々のアプローチは計算効率が良く、Vision Transformerなどの既存モデルに最小限の変更でシームレスに統合できます。これにより、画像のみを扱うモデルを最先端の映像モデルにアップグレードすることが可能で、場合によっては映像予測専用に設計されたモデルを凌駕することもあります。我々はこれを映像深度予測と映像カラー化において実証し、Tracktention Layerを追加したモデルがベースラインと比べて時間的一貫性が大幅に向上することを示します。

LOCATEdit: 局所的なテキストガイド画像編集のためのグラフラプラシアン最適化クロスアテンション
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

Mar 27

ByAchint Soni, Meet Soni, Sirisha Rambhatla

テキストガイド画像編集は、自然言語の指示に従って画像の特定の領域を変更しつつ、全体的な構造と背景の忠実性を維持することを目的としています。既存の手法では、拡散モデルから生成されたクロスアテンションマップに基づいてマスクを利用し、変更対象の領域を特定します。しかし、クロスアテンションメカニズムは意味的な関連性に焦点を当てるため、画像の整合性を維持することが困難です。その結果、これらの手法はしばしば空間的な一貫性を欠き、編集アーティファクトや歪みを引き起こします。本研究では、これらの制限に対処し、LOCATEditを提案します。LOCATEditは、グラフベースのアプローチを用いてクロスアテンションマップを強化し、セルフアテンションから導出されたパッチ間の関係を利用して、画像領域全体にわたる滑らかで一貫したアテンションを維持します。これにより、指定されたアイテムに限定された変更を行いながら、周囲の構造を保持することが可能になります。\methodは、PIE-Benchにおいて既存のベースラインを一貫して大幅に上回り、様々な編集タスクにおける最先端の性能と有効性を実証しています。コードはhttps://github.com/LOCATEdit/LOCATEdit/で公開されています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

大規模言語モデルエージェント：方法論、応用、課題に関する調査
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Mar 27

Video-R1: MLLMにおけるビデオ推論の強化
Video-R1: Reinforcing Video Reasoning in MLLMs

Mar 27

ByKaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue

UI-R1: 強化学習によるGUIエージェントのアクション予測の強化
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Mar 27

ByZhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

推論の限界に挑む：大規模言語モデルのためのオリンピアードレベル数学ベンチマーク
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Mar 27

ByHaoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen

VBench-2.0：本質的な忠実性のためのビデオ生成ベンチマークスイートの進化
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Mar 27

ByDian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu

ReaRAG: 知識誘導型推論が反復的検索拡張生成による大規模推論モデルの事実性を向上
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Mar 27

ByZhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li

ChatAnyone: 階層型モーションディフュージョンモデルによるスタイライズされたリアルタイムポートレート動画生成
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Mar 27

ByJinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo

LeX-Art: スケーラブルで高品質なデータ合成によるテキスト生成の再考
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Mar 27

ByShitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li

エンボディド・リーズナー：視覚探索、推論、行動のシナジーによるエンボディドインタラクティブタスクの実現
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Mar 27

ByWenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang

Lumina-Image 2.0：統合された効率的な画像生成フレームワーク
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Mar 27

ResearchBench: インスピレーションに基づくタスク分解による科学的発見における大規模言語モデルのベンチマーキング
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Mar 27

ByYujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

FinAudio: 金融アプリケーションにおける音声大規模言語モデルのベンチマーク
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Mar 26

ByYupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie

合成映像は映像合成における物理的忠実性を向上させる
Synthetic Video Enhances Physical Fidelity in Video Synthesis

Mar 26

ByQi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan Wang

拡散サンプリングにおける最適ステップサイズ
Optimal Stepsize for Diffusion Sampling

Mar 27

ByJianning Pei, Han Hu, Shuyang Gu

映像生成における物理的認知の進化を探る：サーベイ
Exploring the Evolution of Physics Cognition in Video Generation: A Survey

Mar 27

ByMinghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang

Feature4X：多様なガウシアン特徴フィールドによる任意の単眼動画から4DエージェントAIへの架け橋
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

Mar 26

ByShijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi

セマンティックライブラリ適応：オープン語彙セマンティックセグメンテーションのためのLoRA検索と融合
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

Mar 27

LOCATEdit: 局所的なテキストガイド画像編集のためのグラフラプラシアン最適化クロスアテンション
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

Mar 27

ByAchint Soni, Meet Soni, Sirisha Rambhatla