HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

28 papers found

一般世界モデルの定義原理としての一貫性の三要素
The Trinity of Consistency as a Defining Principle for General World Models

Feb 26

ByJingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng Tan

197

客観的物理法則を学習・シミュレーション・推論可能な世界モデルの構築は、人工汎用知能の実現における基盤的課題である。Soraに代表される映像生成モデルの進展は、データ駆動型のスケーリング則が物理ダイナミクスを近似する可能性を示した一方、登場した統一マルチモーダルモデル（UMM）は知覚・言語・推論を統合する有望なアーキテクチャパラダイムを提供する。しかしながら、汎用世界モデルに必要不可欠な特性を定義する原理的な理論枠組みは依然として欠如している。本論文では、世界モデルが「三つの一貫性」に基づくべきことを提案する。意味的インターフェースとしてのモーダル一貫性、幾何学的基盤としての空間的一貫性、因果的駆動機関としての時間的一貫性である。この三位一体の視点からマルチモーダル学習の進化を体系的に検証すると、疎結合な専門モジュールから、内部世界シミュレーターの創発を可能にする統一アーキテクチャへの移行軌跡が明らかとなる。この概念的枠組みを補完するため、マルチフレーム推論・生成シナリオに焦点を当てたベンチマークCoW-Benchを導入する。CoW-Benchは映像生成モデルとUMMを統一評価プロトコル下で比較評価する。本研究は汎用世界モデルへの原理的な道筋を示し、現行システムの限界と将来進歩に必要なアーキテクチャ要件を明確化する。

見落としから成長へ：大規模マルチモーダルモデルのための診断主導型反復学習
From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Feb 26

ByHongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye

148

大規模マルチモーダルモデル（LMM）のスケール拡大と強化学習（RL）手法の成熟に伴い、LMMは複雑な推論と意思決定において顕著な進歩を遂げている。しかし、訓練は依然として静的なデータと固定されたレシピに依存しており、能力の盲点を診断したり、動的で標的型の強化を提供したりすることが困難である。テスト主導の誤り曝露とフィードバックに基づく修正が反復練習を凌駕するという知見に動機付けられ、我々は診断がデータ生成と強化を駆動し、各反復で更新されたモデルを再診断することで次の標的型改善を促進する螺旋ループ「診断駆動型漸進的進化（DPE）」を提案する。DPEには2つの主要コンポーネントがある。第一に、複数のエージェントが大規模な未ラベルマルチモーダルデータに注釈を付与し、品質管理を行う。これにより、ウェブ検索や画像編集などのツールを活用して多様で現実的なサンプルを生成する。第二に、DPEは失敗を特定の弱点に帰属させ、データ混合比を動的に調整し、エージェントが弱点に焦点を当てたデータを生成して標的型強化を導く。Qwen3-VL-8B-InstructとQwen2.5-VL-7B-Instructを用いた実験では、11のベンチマークで安定した継続的改善が確認され、DPEが開放的なタスク分布下での継続的LMM訓練におけるスケーラブルなパラダイムであることが示唆された。コード、モデル、データはhttps://github.com/hongruijia/DPEで公開されている。

MobilityBench: 実世界のモビリティシナリオにおける経路計画エージェントを評価するベンチマーク
MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Feb 26

ByZhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu

106

大規模言語モデル（LLM）を中核とする経路計画エージェントは、自然言語による対話とツールを介した意思決定を通じて、日常的な人間の移動を支援する有望なパラダイムとして登場しました。しかし、実際の移動環境における体系的な評価は、多様な経路需要、非確定的なマッピングサービス、再現性の低さによって妨げられています。本研究では、実世界の移動シナリオにおけるLLMベースの経路計画エージェントを評価するためのスケーラブルなベンチマーク「MobilityBench」を提案します。MobilityBenchはAmapから収集した大規模な匿名化実ユーザークエリから構築され、世界中の複数都市にわたる幅広い経路計画意図を網羅しています。再現性のあるエンドツーエンド評価を可能にするため、ライブサービスからの環境変動を排除した決定論的APIリプレイサンドボックスを設計しました。さらに、結果の有効性を中核とし、指示理解、計画立案、ツール使用、効率性の評価を補完する多次元評価プロトコルを提案します。MobilityBenchを用いて、多様な実世界移動シナリオにおける複数のLLMベース経路計画エージェントを評価し、その動作と性能に関する詳細な分析を提供します。分析結果から、現行のモデルは基本的情報検索と経路計画タスクでは有能に動作するものの、選好条件付き経路計画では著しく苦戦することが明らかとなり、個人化された移動アプリケーションにおける改善余地の大きさが示されました。ベンチマークデータ、評価ツールキット、ドキュメントをhttps://github.com/AMAP-ML/MobilityBench で公開しています。

OmniGAIA: ネイティブな全モーダルAIエージェントに向けて
OmniGAIA: Towards Native Omni-Modal AI Agents

Feb 26

ByXiaoxi Li, Wenxiang Jiao, Jiarui Jin, Shijian Wang, Guanting Dong, Jiajie Jin, Hao Wang, Yinuo Wang, Ji-Rong Wen, Yuan Lu, Zhicheng Dou

人間の知能は、視覚、聴覚、言語にわたる全モーダル知覚を、複雑な推論や道具の使用と自然に統合し、世界と相互作用している。しかし、現在のマルチモーダル大規模言語モデルは主に二モーダル間の相互作用（例：視覚-言語）に限定され、汎用AIアシスタントに必要な統一的な認知能力を欠いている。この隔たりを埋めるため、我々はOmniGAIAを提案する。これは映像、音声、画像モダリティにわたる深い推論と複数ターンにわたる道具実行を必要とするタスクにおいて、全モーダルエージェントを評価する包括的ベンチマークである。革新的な全モーダル事象グラフ手法により構築されたOmniGAIAは、実世界データから導出された、クロスモーダル推論と外部道具統合を必要とする複雑なマルチホップクエリを合成する。さらに、我々はOmniAtlasを提案する。これは道具統合推論パラダイムの下、能動的全モーダル知覚を備えたネイティブな全モーダル基盤エージェントである。後悔情報誘導型木探索戦略により合成された軌跡と、細粒度誤り修正のためのOmniDPOを用いて学習されたOmniAtlasは、既存のオープンソースモデルの道具使用能力を効果的に強化する。本研究成果は、実世界シナリオにおける次世代ネイティブ全モーダルAIアシスタントへの一歩を記すものである。

想像力は視覚的推論を助けるが、潜在空間ではまだ限界がある
Imagination Helps Visual Reasoning, But Not Yet in Latent Space

Feb 26

ByYou Li, Chi Chen, Yanghao Li, Fanhu Zeng, Kaiyu Huang, Jinan Xu, Maosong Sun

潜在視覚推論は、マルチモーダル大規模言語モデルの隠れ状態を媒介として、人間の想像プロセスを模倣することを目指している。視覚推論における有望なパラダイムとして認識されながらも、その有効性を支える根本的なメカニズムは未解明のままであった。本論文では、この有効性の真の源を解明するため、因果媒介分析を用いて潜在推論の妥当性を検証する。当該プロセスを「入力＝処置」「潜在トークン＝媒介変数」「最終回答＝結果」から成る因果連鎖としてモデル化した。分析結果から二つの重大な断絶が明らかになった：(a) 入力-潜在間の断絶：入力への大幅な摂動にもかかわらず潜在トークンの変化は無視可能であり、潜在トークンが入力系列を効果的に注目していないことを示唆。(b) 潜在-回答間の断絶：潜在トークンへの摂動が最終回答に与える影響は極めて小さく、潜在トークンが結果に及ぼす因果的効果が限定的であることを示唆。さらに詳細なプロービング分析により、潜在トークンが符号化する視覚情報は限定的であり、高い類似性を示すことが判明した。これらを踏まえ、我々は潜在推論の必要性に疑問を投げかけ、テキストを用いた明示的想像をモデルに学習させる新手法「CapImagine」を提案する。視覚中心ベンチマークでの実験により、CapImagineが複雑な潜在空間ベースライン手法を大幅に上回り、明示的想像を通じた視覚推論の優れた可能性が実証された。

探索的メモリ拡張LLMエージェントのためのハイブリッド方策オン・オフ最適化手法
Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Feb 26

ByZeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

探索は、強化学習で訓練された大規模言語モデルエージェントの主要なボトルネックである。従来手法は事前学習済み知識を活用するが、新規状態の発見を必要とする環境では機能しない。本論文では、探索的メモリ拡張オン・オフポリシー最適化（EMPO²）を提案する。これはメモリを探索に活用するハイブリッド強化学習フレームワークであり、オン・オフポリシー更新を組み合わせることで、メモリあり場合のLLMの高性能化と、メモリなし場合の堅牢性の両立を実現する。ScienceWorldとWebShopにおける実験では、EMPO²はGRPOに対しそれぞれ128.6%、11.3%の性能向上を達成した。さらに、分布外テストでは、EMPO²は新しいタスクへの優れた適応性を示し、メモリを用いた少数試行のみでパラメータ更新なしの適応を実現した。これらの結果は、EMPO²がより探索的で一般化可能なLLMベースエージェント構築の有望なフレームワークであることを示している。

AgentDropoutV2：テスト時における修正または拒否による枝刈りを介したマルチエージェントシステムの情報フロー最適化
AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Feb 26

ByYutong Wang, Siyuan Xiong, Xuebo Liu, Wenkang Zhou, Liang Ding, Miao Zhang, Min Zhang

マルチエージェントシステム（MAS）は複雑な推論において優れた性能を発揮する一方で、個々の参加者が生成する誤った情報の連鎖的影響に悩まされている。現在の解決策は、厳格な構造設計や高コストなファインチューニングに依存することが多く、展開性と適応性が制限されている。本論文では、再学習を必要とせずにMASの情報フローを動的に最適化するテストタイム修正・棄却プルーニングフレームワーク「AgentDropoutV2」を提案する。本手法は能動的なファイアウォールとして機能し、エージェントの出力を傍受した上で、検索拡張型修正器を用いて失敗駆動型指標プールに基づき誤りを反復的に修正する。このメカニズムにより、蒸留された失敗パターンを事前知識として活用し、潜在的な誤りを精密に特定することが可能となる。修復不能な出力は直ちに刈り込まれ誤りの伝播を防止するとともに、フォールバック戦略によりシステムの完全性が維持される。大規模な数学ベンチマークにおける実験結果から、AgentDropoutV2がMASのタスク性能を大幅に向上させ、数学ベンチマークにおいて平均6.3ポイントの精度向上を達成することが示された。さらに本システムは、タスク難易度に基づいて修正努力量を動的に調整し、文脈を意識した指標を活用して多様な誤りパターンを解決する、強力な一般化性能と適応性を発揮する。コードとデータセットはhttps://github.com/TonySY2/AgentDropoutV2で公開している。

MediX-R1: オープンエンド医療強化学習
MediX-R1: Open Ended Medical Reinforcement Learning

Feb 26

BySahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal

MediX-R1を紹介する。これは医療マルチモーダル大規模言語モデル（MLLM）のためのオープンエンド強化学習（RL）フレームワークであり、多肢選択形式を超えた、臨床的に根拠のある自由形式の回答を可能にする。MediX-R1は、ベースラインの視覚言語バックボーンを、グループベースRLと医療推論に特化した複合報酬でファインチューニングする。報酬は、意味的正しさを厳密なYES/NO判定で評価するLLMベースの精度報酬、言い換えや専門用語のバリエーションを捉える医療埋め込みベースの意味報酬、解釈可能な推論とモダリティ認識を強化する軽量な形式報酬とモダリティ報酬で構成される。このマルチシグナル設計は、従来の検証可能な報酬や多肢選択式のみの報酬では不十分なオープンエンドの出力に対して、安定した情報量の多いフィードバックを提供する。進捗を測定するため、テキストのみのタスクと画像＋テキストのタスクの両方に対応する統一評価フレームワークを提案する。これは、脆弱な文字列一致指標の代わりに、参照ベースのLLM-as-judgeを用いて、意味的正しさ、推論、文脈的整合性を捉える。わずか51Kの模擬命令例のみを使用しているにもかかわらず、MediX-R1は標準的な医療LLM（テキストのみ）およびVLM（画像＋テキスト）ベンチマークで優れた結果を達成し、強力なオープンソースベースラインを上回り、特にオープンエンドの臨床タスクで大きな向上をもたらす。我々の結果は、包括的な報酬信号とLLMベースの評価を伴うオープンエンドRLが、マルチモーダルモデルにおける信頼性の高い医療推論に向けた実用的な道筋であることを示す。学習済みモデル、精選されたデータセット、ソースコードはhttps://medix.cvmbzuai.comで公開されている。

より多く検索し、より少なく思考する：効率性と一般化のための長期的エージェント検索の再考
Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Feb 26

ByQianben Chen, Tianrui Qin, King Zhu, Qiexiang Wang, Chengjun Yu, Shu Xu, Jiaqi Wu, Jiayu Zhang, Xinpeng Liu, Xin Gui, Jingyi Cao, Piaohong Wang, Dingfeng Shi, He Zhu, Tiannan Wang, Yuqing Wang, Maojia Song, Tianyu Zheng, Ge Zhang, Jian Yang, Jiaheng Liu, Minghao Liu, Yuchen Eleanor Jiang, Wangchunshu Zhou

近年の深層研究エージェントは、主に推論の深さを拡張することで性能向上を図ってきたが、検索集約的なシナリオでは高い推論コストと遅延が生じる問題がある。さらに、異種混合の研究環境間での汎化も課題として残っている。本研究では、効率性と汎化の両方を目指した長期的なエージェント検索フレームワーク「Search More, Think Less（SMTL）」を提案する。SMTLは逐次的な推論を並列的な証拠収集に置き換え、限られたコンテキスト予算下での効率的なコンテキスト管理を実現する。タスク種別を跨ぐ汎化を支援するため、決定論的な質問応答と開放型研究シナリオの両方をカバーする検索タスクを構築し、タスクに適した評価指標を備えた統一データ合成パイプラインをさらに導入した。教師ありファインチューニングと強化学習を用いてエンドツーエンドのエージェントを訓練し、BrowseComp（48.6%）、GAIA（75.7%）、Xbench（82.0%）、DeepResearch Bench（45.9%）などのベンチマークで強力かつしばしば最高水準の性能を達成した。Mirothinker-v1.0と比較して、最大100インタラクションステップのSMTLは、BrowseCompにおける平均推論ステップ数を70.7%削減しつつ精度を向上させた。

VGG-T^3: 大規模オフライン・フィードフォワード3D再構成
VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

Feb 26

BySven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep

本論文では、オフラインのフィードフォワード手法が抱える重要な課題、すなわち入力画像数に対して計算量とメモリ使用量が二次関数的に増大する問題に着目した、スケーラブルな3次元再構成モデルを提案する。本手法の核心は、このボトルネックがシーン幾何学の可変長キー・バリュー空間表現に起因するという洞察にある。我々は、テスト時学習によりこの表現を固定サイズの多層パーセプトロンに集約する。VGG-T^3は、オンラインモデルと同様に入力ビュー数に対して線形にスケールし、1,000枚の画像コレクションをわずか54秒で再構成し、ソフトマックス注意機構に依存するベースライン手法と比較して11.6倍の高速化を実現する。本手法は大域的なシーン集約能力を保持するため、ポイントクラウド再構成誤差は他の線形時間手法を大幅に上回る。最後に、未見画像を用いてシーン表現に問い合わせることで、本モデルの視覚的位置推定能力を実証する。

条件付きガイダンススケジューリングに基づくハイブリッドデータ・パイプライン並列処理による拡散モデルの高速化
Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Feb 25

ByEuisoo Jung, Byunghyun Kim, Hyunjin Kim, Seonghye Cho, Jae-Gil Lee

拡散モデルは高精細な画像・動画・音声生成において顕著な進歩を遂げているが、推論時の計算コストは依然として高い。既存の分散並列化に基づく拡散加速手法は、目立つ生成アーティファクトが生じやすく、GPU数の増加に比例した大幅な加速を達成できていない。そこで本研究では、条件付き拡散モデルにおいて、生成レイテンシを削減し高品質な生成を実現するため、新規のデータ並列戦略である条件ベース分割と、最適なパイプラインスケジューリング手法である適応的並列化切替を組み合わせたハイブリッド並列化フレームワークを提案する。核心となる考え方は、(i) 条件付き・無条件付きのノイズ除去経路を新たなデータ分割の視点として活用すること、(ii) これら2経路間のノイズ除去の差異に応じて最適なパイプライン並列化を適応的に有効化することである。提案フレームワークは、2台のNVIDIA RTX 3090 GPUを用いて、SDXLとSD3においてそれぞれ2.31倍、2.07倍のレイテンシ削減を達成しつつ画像品質を維持した。この結果は、U-Netベースの拡散モデルとDiTベースのフローマッチング構造の双方において、本アプローチの汎用性を確認するものである。さらに高解像度合成設定下での加速性能においても、既存手法を上回る。コードはhttps://github.com/kaist-dmlab/Hybridiff で公開されている。

総合エージェント評価
General Agent Evaluation

Feb 26

ByElron Bandel, Asaf Yehudai, Lilach Eden, Yehoshua Sagron, Yotam Perlitz, Elad Venezian, Natalia Razinkov, Natan Ergas, Shlomit Shachor Ifergan, Segev Shlomov, Michal Jacovi, Leshem Choshen, Liat Ein-Dor, Yoav Katz, Michal Shmueli-Scheuer

汎用エージェント - ドメイン固有の設計を必要とせずに未知の環境でタスクを実行するシステム - の実現は未だ大部分が未達の領域である。既存のエージェントは専ら特化型が主流であり、OpenAI SDK AgentやClaude Codeといった新興の実装が広範な能力を示唆するものの、それらの汎用的性能に関する体系的な評価は行われていない。現行のエージェント評価基準はドメイン固有の統合を前提としており、タスク情報の符号化方法が汎用エージェントの公平な評価を妨げている。本論文は、汎用エージェント評価を第一級の研究目標として位置付ける。我々は、そのような評価のための概念的指針、エージェントと評価基準の統合を可能にする統一プロトコル、そして実践的な汎用エージェント評価フレームワークであるExgenticを提案する。5つの著名なエージェント実装を6環境で評価し、初のオープンな汎用エージェントリーダーボードを構築した。実験結果は、汎用エージェントが多様な環境にわたって一般化し、環境固有の調整なしでドメイン固有エージェントに匹敵する性能を達成することを示す。評価プロトコル、フレームワーク、リーダーボードを公開し、汎用エージェントに関する体系的研究の基盤確立を目指す。

EmbodMocap：身体化エージェントのための実環境4D人間・シーン再構築
EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Feb 26

ByWenjia Wang, Liang Pan, Huaijin Pi, Yuke Lou, Xuqian Ren, Yifan Wu, Zhouyingcheng Liao, Lei Yang, Rishabh Dabral, Christian Theobalt, Taku Komura

現実世界における人間の行動は、知覚・理解・行動のための具身化エージェントを訓練するために活用可能な、豊富で長期的な文脈情報を自然に符号化する。しかし、既存のモーションキャプチャシステムは、高価なスタジオ設備やウェアラブルデバイスに依存することが一般的であり、日常環境におけるシーン条件付き人間動作データの大規模収集を制限している。この問題を解決するため、我々は2台の移動可能なiPhoneを用いた、携帯性に優れ低コストなデータ収集パイプライン「EmbodMocap」を提案する。本手法の中核は、デュアルRGB-Dシーケンスを共同較正し、人間とシーンを統一されたメートル法世界座標系内で再構築する点にある。提案手法は、固定カメラやマーカーを必要とせず、日常環境におけるメートルスケールかつシーン整合性のあるキャプチャを可能とし、人間の動作とシーン幾何学をシームレスに統合する。光学式キャプチャのグラウンドトゥルースとの比較により、デュアルビュー設定が深度曖昧性を軽減する顕著な能力を有し、単一iPhoneや単眼モデルを上回るアライメントと再構築性能を達成することを実証する。収集したデータに基づき、我々は3つの具身化AIタスクへの応用を示す：フィードフォワードモデルを微調整し、メートルスケールで世界座標に位置合わせされた人間とシーンを出力する単眼人間-シーン再構築、物体操作スキルとシーンを考慮した動作追跡の学習を拡大できることを実証する物理ベースキャラクターアニメーション、およびシミュレーションto現実実世界強化学習によりヒューマノイドロボットを訓練し、映像に描かれた人間の動作を再現するロボット動作制御である。実験結果は、本パイプラインの有効性と、具身化AI研究の進展に対する貢献を裏付けている。

AIゲームストア：人間のゲームを用いた機械の汎用知能のスケーラブルで拡張性のある評価
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Feb 19

ByLance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum

技術の急速な進歩が続く現代において、機械の知能を人間の汎用知能の広範なスペクトルに対して厳密に評価することは、ますます重要性と困難性を増している。従来のAIベンチマークは、通常、限られた範囲の人間活動における狭い能力のみを評価する。また、その多くは静的であり、開発者が明示的または暗黙的にベンチマークに対して最適化を行うため、すぐに飽和してしまう。我々は、AIシステムにおける人間様の汎用知能を評価するより有望な方法は、特に強力な形式の汎用ゲームプレイ、すなわち、AIシステムが如何にして、またどの程度の質で、あらゆる考えられる人間のゲームをプレイし、学習するかを、同じ経験値、時間、その他のリソースを持つ人間のプレイヤーと比較して研究することであると提案する。我々は「人間のゲーム」を、人間が人間のために設計したゲームと定義し、人々が想像し楽しむことができるすべてのそのようなゲームの空間——「人間ゲームの多元宇宙」——の評価手法としての適合性を主張する。このビジョンに向けた第一歩として、我々はAI GameStoreを紹介する。これは、人間-in-the-loop型の大規模言語モデルを用いて、人気のある人間向けデジタルゲームプラットフォームから標準化されコンテナ化されたゲーム環境のバリアントを自動的に収集・適応させることで、新しい代表的な人間のゲームを合成する、スケーラブルで拡張性の高いプラットフォームである。概念実証として、我々はApple App StoreとSteamのトップチャートに基づいて100のそのようなゲームを生成し、7つの最先端視覚言語モデルに対して短いプレイセッションでの評価を行った。最高性能のモデルでも、大多数のゲームにおいて人間の平均スコアの10%未満しか達成できず、特に世界モデルの学習、記憶、計画を必要とするゲームに苦戦した。最後に、AI GameStoreを、機械における人間様の汎用知能への進歩を測定し推進する実用的な方法として構築するための次のステップを提示する。

GeoWorld: 幾何学的世界モデル
GeoWorld: Geometric World Models

Feb 26

ByZeyu Zhang, Danning Li, Ian Reid, Richard Hartley

エネルギーに基づく予測的世界モデルは、ピクセル生成ではなく潜在エネルギー地形上の推論によって、多段階の視覚的計画に対する強力なアプローチを提供する。しかし、既存の手法は二つの重大な課題に直面している：(i) それらの潜在表現は通常ユークリッド空間で学習され、状態間の基礎となる幾何学的および階層的構造を無視していること、(ii) 長期的な予測に苦戦し、長いロールアウトにおいて急速に性能が劣化することである。これらの課題に対処するため、本論文ではGeoWorldを提案する。これは双曲JEPAを通じて幾何学的構造と階層的関係を保持する幾何学的世界モデルであり、潜在表現をユークリッド空間から双曲多様体へ写像する。さらに、エネルギー基底最適化のための幾何学的強化学習を導入し、双曲潜在空間における安定した多段階計画を可能にする。CrossTaskとCOINにおける大規模な実験により、最先端のV-JEPA 2と比較して、3段階計画では約3%、4段階計画では約2%の成功率(SR)向上が実証された。プロジェクトウェブサイト: https://steve-zeyu-zhang.github.io/GeoWorld。

因果的モーション拡散モデルによる自己回帰的モーション生成
Causal Motion Diffusion Models for Autoregressive Motion Generation

Feb 26

ByQing Yu, Akihisa Watanabe, Kent Fujiwara

近年、モーション拡散モデルの進展により、人間の動作合成のリアリズムが大幅に向上している。しかし、既存の手法は、時間的因果性とリアルタイム適用性を制限する双方向生成に依存するフルシーケンス拡散モデルか、不安定性と累積誤差に悩む自己回帰モデルのいずれかに依存している。本研究では、意味的に整列された潜在空間で動作する因果的拡散トランスフォーマーに基づく、自己回帰的モーション生成のための統一フレームワークであるCausal Motion Diffusion Models（CMDM）を提案する。CMDMは、モーションシーケンスを時間的に因果関係のある潜在表現に符号化するMotion-Language-Aligned Causal VAE（MAC-VAE）を基盤としている。この潜在表現の上で、自己回帰的拡散トランスフォーマーが因果的拡散強制を用いて訓練され、モーションフレーム間で時間順にデノイズを行う。高速な推論を実現するため、因果的不確実性を伴うフレーム単位のサンプリングスケジュールを導入し、後続の各フレームが部分的にデノイズされた前フレームから予測される。結果として得られるフレームワークは、高品質なテキストからモーションへの生成、ストリーミング合成、およびインタラクティブなレートでの長期的なモーション生成をサポートする。HumanML3DおよびSnapMoGenでの実験により、CMDMが意味的忠実度と時間的滑らかさの両方において既存の拡散モデルおよび自己回帰モデルを凌駕し、推論遅延を大幅に削減することを実証した。

veScale-FSDP: スケールにおける柔軟かつ高性能なFSDP
veScale-FSDP: Flexible and High-Performance FSDP at Scale

Feb 25

ByZezhou Wang, Youjie Li, Zhiqi Lin, Jiacheng Yang, Cong Xie, Guanyu Feng, Zheng Zhong, Ziyue Huang, Hongyu Zhu, Zhi Zhang, Yanghua Peng, Xin Liu

Fully Sharded Data Parallel（FSDP）、別名ZeROは、大規模モデルの学習に広く用いられており、その柔軟性とモデルコードへの最小限の侵入性が特徴です。しかし、現行のFSDPシステムは、構造を考慮した学習手法（例：ブロック単位の量子化学習）や、先進的なモデル（例：Gemini、Kimi K2）で使用される非要素単位のオプティマイザ（例：Shampoo、Muon）に対応するのに苦戦しています。FSDPの固定された要素単位または行単位のシャーディング形式は、ブロック構造を持つ計算と矛盾します。さらに、現在の実装は通信とメモリ効率において不十分であり、数万GPUへのスケーリングを制限しています。本論文では、柔軟なシャーディング形式「RaggedShard」と構造を考慮した計画アルゴリズムを組み合わせ、スケール時の柔軟性と性能の両方を実現するように再設計されたFSDPシステム、veScale-FSDPを提案します。veScale-FSDPは、FSDPが必要とする効率的なデータ配置をネイティブにサポートし、ブロック単位の量子化と非要素単位のオプティマイザを可能にします。その結果、veScale-FSDPは既存のFSDPシステムと比較して、5～66%高いスループットと16～30%低いメモリ使用量を達成し、数万GPUへの効率的なスケーリングを実現します。

取得とセグメンテーション：少数の例示でオープン語彙セグメンテーションの監督ギャップは埋まるのか？
Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Feb 26

ByTilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias

オープン語彙セグメンテーション（OVS）は、視覚言語モデル（VLM）が持つゼロショット認識能力をピクセルレベル予測に拡張し、テキストプロンプトで指定された任意のカテゴリのセグメンテーションを可能にする。近年進展が見られるものの、OVSは完全教師あり手法に遅れを取っている。これは主に、（1）VLMの学習に用いられる画像レベルの大まかな教師信号と、（2）自然言語の意味的曖昧さ、という2つの課題に起因する。我々は、テキストプロンプトをピクセル注釈付き画像からなるサポートセットで補強する数ショット設定を導入し、これらの限界に取り組む。これを基盤として、テキストと視覚のサポート特徴を融合させることで、軽量な画像単位の分類器を学習する検索拡張型テスト時適応手法を提案する。従来手法が手作りの後期融合に依存するのに対し、本手法は学習に基づくクエリ単位の融合を実行し、モダリティ間のより強力な相乗効果を実現する。本手法は継続的に拡張可能なサポートセットに対応し、パーソナライズドセグメンテーションなどの細粒度タスクにも適用可能である。実験により、オープン語彙性を維持しつつ、ゼロショットセグメンテーションと教師ありセグメンテーションの性能差を大幅に縮小できることを示す。

過信エラーにはより強い修正を：強化学習における非対称的な信頼度ペナルティ
Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Feb 24

ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang

検証可能な報酬を用いた強化学習（RLVR）は、大規模言語モデル（LLM）の推論能力を向上させる主要なパラダイムとなっている。しかし、標準的なRLVRアルゴリズムにはよく知られた問題点がある：シャープ化されたサンプリングによってPass@1精度は向上する一方で、モデルの推論境界を狭め、生成多様性を減少させてしまうのである。我々は、既存手法が見落としている根本原因を特定した：誤りの均一なペナルティ化である。現在のアプローチ（難易度に基づくプロンプト選択を行うデータフィルタリング法やアドバンテージ正規化スキームなど）は、グループ内の全ての不正解ロールアウトを同一に扱う。我々は、この均一性が、過剰に自信のある誤り（RLプロセスが誤って強化した不正解の推論経路）を存続させ、確率質量を独占させることで、有効な探索的軌道を最終的に抑制することを示す。この問題に対処するため、非対称的な信頼度を考慮した誤りペナルティ（ACE）を提案する。ACEは、ロールアウト毎の信頼度シフト指標、c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)) を導入し、負のアドバンテージを動的に調整する。理論的には、ACEの勾配が、過剰に自信のある誤りに制限された選択的正則化項の勾配と、その強度を部分的に緩和するよく特徴付けられた残差項に分解できることを示す。VERLフレームワーク内でGRPOおよびDAPOを用い、DAPO-Math-17KデータセットでQwen2.5-Math-7B、Qwen3-8B-Base、Llama-3.1-8B-Instructをファインチューニングする大規模な実験を実施した。MATH-500およびAIME 2025による評価では、ACEは既存手法とシームレスに組み合わさり、3つのモデルファミリーとベンチマーク全てにおいて、完全なPass@kスペクトラムを一貫して改善した。

良いクエリとは何か？人間を混乱させる言語的特徴がLLM性能に与える影響の測定
What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Feb 23

ByWilliam Watson, Nicole Cho, Sumitra Ganesh, Manuela Veloso

大規模言語モデル（LLM）における虚構生成は、一般にモデルまたはそのデコード戦略の欠陥として扱われてきた。本論文は古典言語学の知見に基づき、クエリの形式が聴者（およびモデル）の応答を形成し得ることを論じる。この洞察を操作化するため、節の複雑性、語彙の希少性、照応、否定、回答可能性、意図の接地など、人間の理解に影響を与えることが知られる22次元のクエリ特徴ベクトルを構築した。369,837件の実世界クエリを用いて、虚構生成を生じさせやすいクエリの類型が存在するかを検証する。大規模分析により、一貫した「リスク景観」が明らかになった：深い節の入れ子構造や未特定性といった特徴は高い虚構生成傾向と関連し、明確な意図の接地や回答可能性は低い虚構生成率と関連した。一方、ドメイン特異性など他の特徴は、データセットおよびモデルに依存した混合的な効果を示した。以上より、これらの知見は虚構生成リスクと相関する経験的に観測可能なクエリ特徴表現を確立し、誘導型クエリ書き換えや将来の介入研究への道を開くものである。

DLT-Corpus: 分散型台帳技術ドメイン向け大規模テキストコレクション
DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain

Feb 25

ByWalter Hernandez Cruz, Peter Devine, Nikhil Vadgama, Paolo Tasca, Jiahua Xu

本論文では、分散型台帳技術（DLT）研究向けの最大のドメイン特化型テキストコーパス「DLT-Corpus」を紹介する。本コーパスは、科学文献（37,440報）、米国特許商標庁（USPTO）特許（49,023件）、ソーシャルメディア（2,200万投稿）にわたる2,212万文書から抽出された29.8億トークンで構成される。既存のDLT向け自然言語処理（NLP）リソースは暗号通貨の価格予測やスマートコントラクトに偏っており、約3兆ドルもの時価総額と急速な技術進化を遂げる本分野において、ドメイン特有の言語表現は十分に探究されていなかった。本コーパスの有用性は、技術出現パターンと市場・イノベーション相関の分析によって実証する。分析結果から、技術は科学文献で発生後、特許やソーシャルメディアへと伝播するという従来型の技術移転パターンに従うことが明らかとなった。また、暗号資産の冬相場時でさえソーシャルメディアのセンチメントが圧倒的に強気である一方、科学文献と特許活動は市場変動に依存せず、市場全体の拡大に連動して成長する。これは、研究が経済成長を先導・促進し、その成長がさらなるイノベーションへ資金を供給するという好循環を形成している。本論文では、DLT-Corpus全文、DLT特化の固有表現認識タスクにおいてBERT-baseを23%上回る性能を示すドメイン適応モデル「LedgerBERT」、および関連する全ツールとコードを公開する。

万能策は存在しない：幻覚緩和のためのクエリバンディット
No One Size Fits All: QueryBandits for Hallucination Mitigation

Feb 23

ByNicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

大規模言語モデル（LLM）における高度な推論能力の進展に伴い、幻覚（ハルシネーション）の発生が頻繁になっている。しかし、その緩和策に関する研究の大半はオープンソースモデルに焦点を当て、事後的検出やパラメータ編集に集中している。クローズドソースモデルにおける幻覚に注目した研究が不足していることは特に懸念材料である。なぜなら、実際の組織導入においてはクローズドソースモデルが圧倒的多数を占めるからだ。本論文ではQueryBanditsを提案する。これはモデルに依存しない文脈的バンディットフレームワークであり、実証的に検証され較正された報酬関数を活用して、最適なクエリ書き換え戦略をオンラインで適応的に学習する。16の質問応答シナリオにおける評価では、我々の最良のQueryBandit（トンプソン抽出法）が、書き換えなしベースラインに対して87.5%の勝率を達成し、ゼロショット静的ポリシー（言い換えや拡張など）をそれぞれ42.6%、60.3%上回った。さらに、全ての文脈的バンディットは、すべてのデータセットにおいて単純なバンディットを性能で凌駕し、特徴量の分散が大きいほど選択肢（アーム）選択の分散も大きくなることを確認した。これは、あらゆるクエリに対して最適な単一の書き換えポリシーが存在しないという我々の発見を裏付ける。また、特定の静的ポリシーは「書き換えなし」よりも高い累積後悔を招くことから、柔軟性のないクエリ書き換えポリシーが幻覚を悪化させ得ることも明らかになった。したがって、QueryBanditsを用いて意味的特徴量に対してオンラインポリシーを学習することは、順伝搬メカニズムのみを通じてモデルの振る舞いを変化させることが可能であり、クローズドソースモデルでの利用を可能にするとともに、再学習や勾配ベースの適応の必要性を回避するものである。

一般化可能なエンドツーエンド自律走行のためのリスク考慮型世界モデル予測制御
Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Feb 26

ByJiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe

模倣学習（IL）と大規模運転データセットの進歩により、エンドツーエンド自動運転（E2E-AD）は近年大きな進展を遂げている。現在、ILベースの手法は主流のパラダイムとなっており、モデルは専門家による標準的な運転行動に依存し、自身の行動と専門家の行動の差異を最小化するように学習する。しかし、「専門家のように運転するのみ」というこの目的は、一般化能力が限定的であるという課題を抱えている。専門家の実証データの分布外にある稀なまたは未経験のロングテールシナリオに遭遇した場合、モデルは事前経験の欠如により不安全な判断を下す傾向がある。これは根本的な疑問を提起する：専門家の行動監督なしで、E2E-ADシステムは信頼性の高い判断を下すことができるだろうか？この問題意識に動機付けられ、我々はロバスト制御を通じてこの一般化のジレンマに対処する統一フレームワーク「Risk-aware World Model Predictive Control（RaWMPC）」を提案する。本手法は、専門家の実証データに依存しない。具体的には、RaWMPCは世界モデルを利用して複数の候補行動の結果を予測し、明示的なリスク評価を通じて低リスクな行動を選択する。世界モデルに危険な運転行動の結果を予測する能力を付与するため、世界モデルを体系的に危険な行動に曝露するリスク認識相互作用戦略を設計し、致命的な結果を予測可能（ひいては回避可能）にする。さらに、テスト時に低リスクな候補行動を生成するため、十分に学習された世界モデルからリスク回避能力を生成的行動提案ネットワークに蒸留する自己評価蒸留法を導入する。大規模な実験により、RaWMPCが分布内及び分布外の両シナリオにおいて既存の最先端手法を凌駕し、優れた判断の解釈可能性を提供することを示す。

MedCLIPSeg: データ効率性と一般化性に優れた医用画像セグメンテーションのための確率的視覚言語適応
MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

Feb 23

ByTaha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari, Berardino Barile, Yiming Xiao, Hassan Rivaz

医用画像セグメンテーションは、学習用のアノテーション不足、解剖学的特徴の曖昧さ、ドメインシフトにより、依然として課題が多い。CLIPなどの視覚言語モデルは強力なクロスモーダル表現を提供するが、密なテキスト誘導型医用画像セグメンテーションへの応用可能性は十分に検討されていない。本研究では、CLIPをロバストでデータ効率が高く、不確実性を考慮した医用画像セグメンテーションに適応させる新規フレームワークMedCLIPSegを提案する。本手法は、確率的クロスモーダルアテンションを通じてパッチレベルのCLIP埋め込みを活用し、画像トークンとテキストトークンの双方向的な相互作用と予測不確実性の明示的なモデリングを実現する。さらに、多様なテキストプロンプト間の細やかな意味論的学習を促進するソフトパッチレベル対照損失と組み合わせることで、MedCLIPSegはデータ効率とドメイン一般化性を効果的に向上させる。5つの画像モダリティと6つの臓器にわたる16のデータセットでの大規模な実験により、MedCLIPSegが精度、効率性、ロバスト性の面で従来手法を上回り、セグメンテーション結果の局所的信頼性を強調する解釈可能な不確実性マップを提供することを実証した。本研究成果は、テキスト駆動型医用画像セグメンテーションにおける確率的視覚言語モデリングの可能性を示すものである。

DyaDiT: 社会的に好ましい二者間ジェスチャー生成のためのマルチモーダル拡散トランスフォーマー
DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Feb 26

ByYichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani

現実的な対話動作の生成は、デジタルヒューマンとの自然で社会的に魅力的な相互作用を実現する上で不可欠である。しかし、既存手法の多くは単一の音声ストリームを単一話者の動作にマッピングするもので、社会的文脈の考慮や対話中の二者間の相互ダイナミクスのモデル化がなされていない。本論文では、二者間の音声信号から文脈に適した人間の動作を生成するマルチモーダル拡散トランスフォーマーであるDyaDiTを提案する。Seamless Interaction Datasetで学習したDyaDiTは、二者間音声とオプションの社会文脈トークンを受け取り、文脈に適した動作を生成する。本手法は両話者からの情報を融合して相互作用のダイナミクスを捉え、モーション辞書を用いて動作の事前分布を符号化し、オプションで対話相手のジェスチャーを利用してより応答性の高い動作を生成することができる。標準的な動作生成指標による評価と定量的ユーザスタディを実施し、DyaDiTが客観的指標において既存手法を凌駕するだけでなく、ユーザからも強く選好されることを実証した。これは本手法の頑健性と社会的に好ましい動作生成能力を裏付けるものである。コードとモデルは採択後公開予定である。

時を超える響き：映像音声生成モデルにおける長さ一般化の解明
Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Feb 24

ByChristian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji

ビデオと音声の間のマルチモーダルな対応関係のスケーリングは、データの限界やテキスト記述とフレーム単位のビデオ情報の不一致により、困難な課題である。本研究では、マルチモーダル情報から音声を生成するタスクにおけるスケーリング課題に取り組み、短いインスタンスで学習したモデルが推論時に長いインスタンスへ一般化できるか検証する。この課題に対処するため、我々はMMHNetと称するマルチモーダル階層ネットワークを提案する。これは既存の最先端ビデオ-音声生成モデルを拡張したものである。本手法は階層的アプローチと非因果的Mambaを統合し、長尺音声生成を可能にする。提案手法は5分以上にわたる長尺音声生成を大幅に改善する。また、より長いデータで学習することなく、ビデオから音声を生成するタスクにおいて「短いデータで学習し、長いデータで推論する」ことが可能であることを実証する。実験により、提案手法が長尺ビデオ音声生成ベンチマークで優れた結果を達成し、従来のビデオ-音声タスクにおける手法を凌駕することを示す。さらに、従来手法が長尺生成に課題を抱える中、我々のモデルが5分以上の生成を可能にする能力を実証する。

MEG-to-MEG転移学習と限られたデータによるタスク横断的音声/無音検出
MEG-to-MEG Transfer Learning and Cross-Task Speech/Silence Detection with Limited Data

Feb 20

ByXabier de Zuazo, Vincenzo Verbeni, Eva Navas, Ibon Saratxaga, Mathieu Bourguignon, Nicola Molinaro

データ効率の良い神経デコーディングは、音声ブレイン・コンピュータ・インターフェースにおける中心的な課題である。本研究では、知覚と産出を跨ぐMEGベースの音声モデルに対して、転移学習とクロスタスクデコーディングを初めて実証する。単一被験者の50時間に及ぶ聴取データに基づきConformerベースのモデルを事前学習し、18名の被験者それぞれに対してわずか5分間のデータでファインチューニングを行った。転移学習により一貫した改善が得られ、タスク内精度では1～4%、クロスタスク精度ではより大きな5～6%の向上が見られた。事前学習は各タスク内の性能を向上させるだけでなく、知覚と産出の間での信頼性のあるクロスタスクデコーディングを可能にした。決定的には、音声産出で学習したモデルが受動的聴取をチャンスレベル以上にデコードでき、学習された表現がタスク特異的な運動活動ではなく、共通の神経プロセスを反映していることを確認した。

言語モデルにおける視床経由皮質カラムを介した効率的継続学習
Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Feb 25

ByAfshin Khadangi

継続学習は、実運用環境における言語モデルの核心的な要件であるが、標準的な訓練およびファインチューニングのパイプラインは、非定常データ下では依然として脆弱である。オンライン更新はしばしば破滅的忘卻を引き起こす一方、安定性を向上させる手法は、遅延、メモリフットプリント、または高密度な計算を増加させ、長文脈へのスケーリングが困難な場合が多い。本論文では、TRC²（視床経由皮質カラム）を提案する。これは、継続学習をアーキテクチャレベルで扱うデコーダのみのバックボーンである。TRC²は、皮質カラムに対する疎な視床経路制御と、変調、予測、記憶、フィードバックのメカニズム、さらに遅いパラメータを不安定化させることなく迅速な適応を可能にする高速補正経路を組み合わせている。結果として得られるブロックは疎でチャンク並列処理が可能であり、各サブシステムの明確なアブレーションを維持しつつ、効率的な訓練と推論を実現する。我々は再現可能な訓練・評価スタックと、ストリーミングするドメインシフト下での代理忘卻を測定する継続学習ハーネスを構築した。言語モデリングおよび継続学習ベンチマークにおいて、TRC²は同等の計算量で安定性と可塑性のトレードオフを改善し、過去に獲得した振る舞いを保持しながら迅速なオンストリーム適応を可能にする。