HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

46 papers found

AIは科学的センスを学習できる
AI Can Learn Scientific Taste

Mar 15

ByJingqi Tong, Mingzhe Li, Hangcheng Li, Yongzhuo Yang, Yurong Mou, Weijie Ma, Zhiheng Xi, Hongji Chen, Xiaoran Liu, Qinyuan Cheng, Ming Zhang, Qiguang Chen, Weifeng Ge, Qipeng Guo, Tianlei Ying, Tianxiang Sun, Yining Zheng, Xinchi Chen, Jun Zhao, Ning Ding, Xuanjing Huang, Yugang Jiang, Xipeng Qiu

393

優れた科学者は、強い判断力と先見性を備えており、それは我々が「科学的センス」と呼ぶものと密接に関連している。ここではこの用語を、高いインパクトを持つ研究アイデアを評価し提案する能力を指すものとする。しかし、既存研究の大半はAI科学者の実行能力の向上に焦点を当てており、AIの科学的センスを高める研究は未開拓のままである。本研究では、大規模なコミュニティシグナルを教師信号として利用する訓練パラダイム「Reinforcement Learning from Community Feedback (RLCF)」を提案し、科学的センスの学習を選好モデリングとアライメント問題として定式化する。選好モデリングでは、70万組の分野・年代を一致させた高被引用論文と低被引用論文のペアを用いて、アイデアを評価する「Scientific Judge」を訓練する。選好アライメントでは、Scientific Judgeを報酬モデルとして用い、高い潜在インパクトを持つ研究アイデアを提案する方策モデル「Scientific Thinker」を訓練する。実験の結果、Scientific JudgeはSOTAの大規模言語モデル（GPT-5.2、Gemini 3 Pro等）を上回り、将来年度のテスト、未見分野、査読選好に対しても一般化可能であることを示す。さらにScientific Thinkerは、ベースラインよりも高い潜在インパクトを持つ研究アイデアを提案する。我々の発見は、AIが科学的センスを学習可能であることを示し、人間レベルのAI科学者実現に向けた重要な一歩を記すものである。

注意残差
Attention Residuals

Mar 16

ByKimi Team, Guangyu Chen, Yu Zhang, Jianlin Su, Weixin Xu, Siyuan Pan, Yaoyu Wang, Yucheng Wang, Guanduo Chen, Bohong Yin, Yutian Chen, Junjie Yan, Ming Wei, Y. Zhang, Fanqing Meng, Chao Hong, Xiaotong Xie, Shaowei Liu, Enzhe Lu, Yunpeng Tai, Yanru Chen, Xin Men, Haiqing Guo, Y. Charles, Haoyu Lu, Lin Sui, Jinguo Zhu, Zaida Zhou, Weiran He, Weixiao Huang, Xinran Xu, Yuzhi Wang, Guokun Lai, Yulun Du, Yuxin Wu, Zhilin Yang, Xinyu Zhou

153

現代の大規模言語モデルでは、PreNormを伴う残差接続が標準的であるが、これらは全ての層の出力を固定の単位重みで累積する。この均一な集約は制御不能な隠れ状態の成長を深さとともに引き起こし、各層の寄与を次第に希薄化させる。我々はAttention Residuals（AttnRes）を提案する。これは固定された累積を、先行する層の出力に対するソフトマックス注意に置き換え、各層が学習された入力依存の重みを用いて先行する表現を選択的に集約することを可能にする。大規模モデル訓練において全ての先行層の出力に注意を向ける際のメモリと通信のオーバーヘッドに対処するため、層をブロックに分割しブロックレベルの表現に注意を向けるBlock AttnResを導入する。これによりメモリ使用量を削減しつつ、完全なAttnResの利点の大部分を保持する。キャッシュベースのパイプライン通信と2段階計算戦略と組み合わせることで、Block AttnResは最小限のオーバーヘッドで標準的な残差接続の実用的なドロップイン代替となる。スケーリング則実験により、改善効果がモデルサイズ間で一貫していることが確認され、アブレーション研究はコンテンツ依存の深さ方向選択の利点を検証した。さらにAttnResをKimi Linearアーキテクチャ（総パラメータ48B／活性化パラメータ3B）に統合し、1.4Tトークンで事前学習を実施した。その結果、AttnResはPreNormの希薄化を緩和し、深度全体でより均一な出力大きさと勾配分布をもたらし、評価した全ての下流タスクにおいて性能向上が確認された。

HSImul3R: 物理ループ内再構成によるシミュレーション対応の人間-シーン相互作用
HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

Mar 16

ByYukang Cao, Haozhe Xie, Fangzhou Hong, Long Zhuo, Zhaoxi Chen, Liang Pan, Ziwei Liu

149

我々はHSImul3Rを提案する。これは、まばらな視点画像や単眼動画といったカジュアルな撮影データから、人間と環境の相互作用（HSI）のシミュレーション対応3D再構成を統一的に行うフレームワークである。既存手法は知覚とシミュレーションの乖離に悩まされてきた。視覚的に妥当な再構成結果が物理的制約に違反し、物理エンジンにおける不安定性や具身AIアプリケーションの失敗を招くのである。この乖離を埋めるため、我々は物理シミュレータを能動的監督役として人間の動力学とシーン幾何学を共同で精緻化する、物理に根ざした双方向最適化パイプラインを導入する。順方向では、動作の忠実性と接触安定性の二重監督下で人間の動作を最適化するため、シーン対象強化学習を採用する。逆方向では、重力安定性と相互作用の成功度に関するシミュレーションからのフィードバックを活用してシーン幾何学を改善する、直接シミュレーション報酬最適化を提案する。さらに、多様な物体と相互作用シナリオを備えた新しいベンチマークHSIBenchを提示する。大規模な実験により、HSImul3Rが初めて安定したシミュレーション対応のHSI再構成を実現し、実世界のヒューマノイドロボットに直接適用可能であることを実証する。

現実世界の大都市に基づく世界シミュレーションモデルの構築
Grounding World Simulation Models in a Real-World Metropolis

Mar 16

ByJunyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi, Siyoon Jin, Gayoung Lee, Junho Kim, JoungBin Lee, Geonmo Gu, Dongyoon Han, Sangdoo Yun, Seungryong Kim, Jin-Hwa Kim

145

もし世界シミュレーションモデルが、想像上の環境ではなく、実在する都市を描画できるとしたらどうだろうか？従来の生成的ワールドモデルは、すべてのコンテンツを想像力で生成することで、視覚的に妥当ではあるが人工的な環境を合成してきた。本論文では、実在する都市ソウルに基づいた都市規模のワールドモデル「Seoul World Model (SWM)」を提案する。SWMは、近隣のストリートビュー画像を検索強化型条件付けとして用いることで、自己回帰的なビデオ生成を現実に基づいて行う。しかし、この設計にはいくつかの課題がある。具体的には、検索された参照画像と動的なターゲットシーン間の時間的な不一致、車載カメラによる間隔の空いた撮影に起因する軌道の多様性の限界、データの希薄性などである。我々は、多様なカメラ軌道を可能にする大規模合成データセットによる「時間横断的ペアリング」、および疎なストリートビュー画像から一貫性のあるトレーニング用ビデオを合成する「視点補間パイプライン」を通じて、これらの課題に対処する。さらに、将来位置で取得された画像に各チャンクを継続的に再接地することで、長期的な生成を安定化する「仮想先読みシンク」を導入する。SWMを、ソウル、釜山、アナーバーの3都市で最近のビデオワールドモデルと比較評価した。その結果、SWMは数百メートルに及ぶ軌道上で、実際の都市環境に基づいた空間的に正確で時間的に一貫性のある長期的ビデオの生成において既存手法を凌駕し、多様なカメラ動作やテキストプロンプトによるシナリオ変化にも対応できることを示す。

EnterpriseOps-Gym: エンタープライズ環境におけるステートフルなエージェント計画とツール利用のための環境と評価
EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

Mar 13

ByShiva Krishna Reddy Malay, Shravan Nayak, Jishnu Sethumadhavan Nair, Sagar Davasam, Aman Tiwari, Sathwik Tejaswi Madhusudhan, Sridhar Krishna Nemala, Srinivas Sunkara, Sai Rajeswar

142

大規模言語モデルは、受動的な情報提供者から、複雑なワークフローを遂行する能動的エージェントへと移行しつつある。しかし、企業における信頼性の高いAIワーカーとしての展開は、専門的環境の複雑さ、特に永続的な状態変化と厳格なアクセスプロトコルの中での長期的計画の必要性を十分に捉えられないベンチマークによって停滞している。本研究では、現実的な企業環境におけるエージェントの計画立案能力を評価するために設計されたベンチマーク「EnterpriseOps-Gym」を提案する。具体的には、EnterpriseOps-Gymは、164のデータベーステーブルと512の機能ツールを備えたコンテナ化されたサンドボックスを特徴とし、実世界の検索摩擦を模倣する。この環境内で、エージェントは8つのミッションクリティカルな分野（カスタマーサービス、人事、ITを含む）にわたる1,150の専門家によって精選されたタスクについて評価される。14の先進モデルを評価した結果、最先端モデルにも重大な限界があることが明らかになった：最高性能のClaude Opus 4.5でさえ、成功率は37.4%に留まった。さらに分析すると、オラクルな人間の計画を提供することで性能が14～35パーセントポイント向上し、戦略的推論が主要なボトルネックであることが特定された。加えて、エージェントは実行不可能なタスクを拒否することに頻繁に失敗し（最高性能モデルでも53.9%）、意図しない、そして潜在的に有害な副作用を引き起こすことが分かった。我々の知見は、現在のエージェントが自律的な企業展開の準備がまだ整っていないことを強調する。より広く見れば、EnterpriseOps-Gymは、専門的ワークフローにおけるエージェントの計画立案の堅牢性を向上させるための具体的なテストベッドを提供する。

OpenSeeker: トレーニングデータの完全オープンソース化によるフロンティア検索エージェントの民主化
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Mar 16

ByYuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen

141

深層検索能力はフロンティア大規模言語モデル（LLM）エージェントにとって不可欠な能力となっているが、高性能な検索エージェントの開発は、透明性の高い高品質な学習データの不足から、産業界の大手企業によって独占されているのが現状です。この継続的なデータ不足は、この領域における広範な研究コミュニティの進歩と革新を根本的に妨げてきました。この格差を埋めるため、我々はフロンティアレベルの性能を達成する初の完全オープンソース検索エージェント（モデルとデータの両方）であるOpenSeekerを紹介します。その中核となる技術的革新は二つあります：（1）事実に基づくスケーラブルで制御可能なQA合成。これは、トポロジカル拡張とエンティティ難読化によってウェブグラフを逆解析し、カバレッジと複雑性を制御可能な複雑なマルチホップ推論タスクを生成します。（2）ノイズ除去された軌道合成。これは、回顧的要約メカニズムを用いて軌道のノイズを除去し、教師LLMが高品質なアクションを生成することを促進します。実験結果により、わずか11.7kの合成サンプルで（単一の学習実行で）学習されたOpenSeekerが、BrowseComp、BrowseComp-ZH、xbench-DeepSearch、WideSearchを含む複数のベンチマークで最先端の性能を達成することが実証されています。特に、単純なSFTで学習されたOpenSeekerは、二番目に優れた完全オープンソースエージェントであるDeepDive（例：BrowseCompで29.5%対15.3%）を大幅に上回り、BrowseComp-ZHでは、大規模な継続事前学習、SFT、RLを経て学習されたTongyi DeepResearchのような産業界の競合相手さえも上回りました（48.4%対46.7%）。我々は、フロンティア検索エージェント研究の民主化と、より透明性が高く協力的なエコシステムの育成を目指し、完全な学習データセットとモデル重みを完全オープンソースとして公開します。

混合深度アテンション
Mixture-of-Depths Attention

Mar 16

ByLianghui Zhu, Yuxin Fang, Bencheng Liao, Shijie Wang, Tianheng Cheng, Zilong Huang, Chen Chen, Lai Wei, Yutao Zeng, Ya Wang, Yi Lin, Yu Li, Xinggang Wang

深さのスケーリングは大規模言語モデル（LLM）における重要な推進力である。しかし、LLMが深くなるにつれて、信号劣化が生じることが多い。すなわち、浅い層で形成された情報豊富な特徴量が、繰り返される残差更新によって徐々に希薄化され、深い層で回復することが難しくなる。本論文では、混合深度注意（Mixture-of-Depths Attention, MoDA）を提案する。これは、各注意ヘッドが現在の層のシーケンスのキー・バリューペアと、先行する層からの深度のキー・バリューペアの両方に注意を向けることを可能にする機構である。さらに、非連続的なメモリアクセスパターンを解決し、シーケンス長64KにおいてFlashAttention-2の効率の97.3%を達成する、ハードウェア効率の良いMoDAアルゴリズムについて述べる。15億パラメータモデルを用いた実験により、MoDAが強力なベースラインを一貫して上回ることを実証した。特に、10の検証ベンチマークにおける平均パープレキシティを0.2改善し、10の下流タスクにおける平均性能を2.11%向上させ、FLOPs計算量のオーバーヘッドはわずか3.7%に抑えられた。また、MoDAを事前正規化ではなく事後正規化と組み合わせることで、より優れた性能が得られることも確認した。これらの結果は、MoDAが深度スケーリングのための有望な基本要素であることを示唆している。コードはhttps://github.com/hustvl/MoDAで公開されている。

効率的な蒸留によるハイブリッドxLSTMアーキテクチャへの適用
Effective Distillation to Hybrid xLSTM Architectures

Mar 16

ByLukas Hauzenberger, Niklas Schmidinger, Thomas Schmied, Anamaria-Roberta Hartl, David Stap, Pieter-Jan Hoedt, Maximilian Beck, Sebastian Böck, Günter Klambauer, Sepp Hochreiter

二次コストの注意機構に基づく大規模言語モデル（LLM）を、準二次的な線形化アーキテクチャに蒸留する試みは数多くなされてきた。しかし、広範な研究にもかかわらず、こうした蒸留モデルは様々な下流タスクにおいて教師LLMの性能を満たすことが往々にしてできない。我々は、タスク集合における生徒と教師の間の許容補正済みWin-and-Tie率によって定義する、ロスレス蒸留の目標を掲げた。この目的のために、xLSTMベースの生徒モデルに対する効果的な蒸留パイプラインを提案する。個別に線形化された専門家を単一モデルに結合する追加のマージ段階を導入する。Llama、Qwen、Olmoファミリーからベースモデルと指示チューニングモデルを蒸留することで、本パイプラインの有効性を示す。多くの設定において、xLSTMベースの生徒モデルは教師モデルの性能の大部分を回復し、一部の下流タスクではそれを上回ることさえある。我々の貢献は、トランスフォーマーベースのLLMに代わる、よりエネルギー効率が高く費用対効果の良い代替モデルへの重要な一歩である。

虚偽の解剖：視覚言語モデルにおける幻覚を追跡する多段階診断フレームワーク
Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Mar 16

ByLexiang Xiong, Qi Li, Jingwen Ye, Xinchao Wang

視覚言語モデル（VLM）は、しばしば「幻覚」現象を引き起こす―事実上は誤りながらも説得力のある記述を生成する―これが信頼性のある実用化における重大な障壁となっている。本研究では、幻覚を静的な出力誤差としてではなく、モデルの計算的認知における動的な病理として再定義し、その診断を行う新たなパラダイムを提案する。我々の枠組みは計算合理性の規範的原則に基づいており、VLMの生成過程を動的な認知軌道としてモデル化することを可能にする。この軌道を解釈可能な低次元の認知状態空間へ射影する、情報理論に基づく一連のプローブを設計した。中核となる発見は、「幾何-情報双対性」と名付けた支配原理である：この空間内における認知軌道の幾何的異常性は、情報理論的な驚異値の高さと本質的に等価である。これにより、幻覚検出は幾何的異常検出問題として定式化される。厳密な二値QA（POPE）から包括的推論（MME）、さらに制約のない自由記述キャプション生成（MS-COCO）まで多様な設定で評価した結果、本枠組みは最先端の性能を達成した。決定的に、弱い教師信号の下で高効率に動作し、較正データが重度に汚染された場合でも高い頑健性を維持する。この手法は失敗の因果的帰属を可能にし、観測可能な誤差を異なる病理的状態―知覚的不安定性（知覚エントロピーで測定）、論理的因果関係の破綻（推論矛盾で測定）、決定的曖昧性（決定エントロピーで測定）―に対応付ける。最終的にこれは、推論過程が設計段階から透明で、監査可能、かつ診断可能なAIシステムの構築への道筋を開くものである。

安全かつスケーラブルなWebエージェント学習のための再現Webサイト環境
Safe and Scalable Web Agent Learning via Recreated Websites

Mar 11

ByHyungjoo Chae, Jungsoo Park, Alan Ritter

自律的なWebエージェントの訓練は、学習元となる環境によって根本的に制限されている。実世界のWebサイトは探索が安全ではなく、リセットが困難で、検証可能なフィードバックをほとんど提供しない。本論文では、言語モデルを環境創造器として扱い、実世界のWebサイトを完全に実行可能で検証可能な合成環境へ自動複製するフレームワーク「VeriEnv」を提案する。Python SDKを介して制御された内部アクセスを公開することで、VeriEnvはエージェントが決定論的かつプログラム的に検証可能な報酬を伴うタスクを自己生成することを可能にし、ヒューリスティックやLLMベースの評価器への依存を排除する。この設計は、安全でない実世界との相互作用からエージェントの学習を分離しつつ、環境拡張を通じたスケーラブルな自己進化を可能にする。Webエージェントベンチマークを用いた実験により、VeriEnvで訓練されたエージェントは未見のWebサイトへ一般化し、自己進化的な訓練を通じてサイト特化的な熟達を達成し、訓練環境数のスケーリングから恩恵を受けることを示す。コードとリソースは採択後、https://github.com/kyle8581/VeriEnv で公開予定である。

ViFeEdit: ビデオ拡散Transformerのためのビデオフリーチューナー
ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

Mar 16

ByRuonan Yu, Zhenxiong Tan, Zigeng Chen, Songhua Liu, Xinchao Wang

拡散トランスフォーマー（DiT）は、画像および動画生成において顕著なスケーラビリティと高品質を実証し、制御可能な生成や編集タスクへの拡張に対する関心が高まっている。しかし、画像分野と比較して、動画の制御と編集の進展は限定的である。これは主に、ペアとなる動画データの不足と、動画拡散モデルの学習に必要な計算コストの高さに起因する。この問題に対処するため、本論文では動画拡散トランスフォーマー向けに、動画データを必要としないチューニングフレームワーク「ViFeEdit」を提案する。ViFeEditは、いかなる形式の動画学習データも必要とせず、2D画像のみで適応させることで、多様な動画生成と編集を実現する。本手法の核心は、現代の動画拡散トランスフォーマーにおける完全な3Dアテンションから空間的独立性を分離するアーキテクチャの再パラメータ化にある。これにより、視覚的に忠実な編集を実現しつつ、最小限の追加パラメータのみで時間的一貫性を維持する。さらに、この設計は、ノイズスケジューリングのために独立したタイムステップ埋め込みを持つデュアルパイプラインパイプラインで動作し、多様な条件付け信号に対して強い適応性を示す。大規模な実験により、本手法が2D画像データによる最小限の学習のみで、制御可能な動画生成と編集において有望な結果をもたらすことが実証された。コードはhttps://github.com/Lexie-YU/ViFeEdit で公開されている。

POLCA: 大規模言語モデルを用いた確率的生成最適化
POLCA: Stochastic Generative Optimization with LLM

Mar 16

ByXuanfei Ren, Allen Nie, Tengyang Xie, Ching-An Cheng

大規模言語モデル（LLM）のプロンプトからマルチターンエージェントに至るまで、複雑なシステムの最適化は、従来、人的労力を要する手動の反復作業を必要としてきた。本研究では、この課題を確率的生成最適化問題として形式化し、生成言語モデルがオプティマイザとして機能し、数値的な報酬とテキストフィードバックに導かれて最適なシステムを発見する枠組みを提案する。我々は、優先度付きキューを用いて探索と利用のトレードオフを管理し、候補解とその評価履歴を体系的に追跡する、スケーラブルなフレームワークであるPOLCA（Prioritized Optimization with Local Contextual Aggregation）を導入する。本フレームワークは、ノイジーなフィードバック、ミニバッチサンプリング、確率的システム挙動といった最適化における確率性を扱いながら、解空間の制約のない拡大を効果的に管理するように設計されている。効率性を高めるため、パラメータ多様性を維持するε-Netメカニズムと、過去の試行を跨ぐメタ学習を行うLLM要約器を統合している。理論的には、POLCAが確率性の下で最適に近い候補解に収束することを証明する。我々は、τ-bench、HotpotQA（エージェント最適化）、VeriBench（コード翻訳）、KernelBench（CUDAカーネル生成）を含む多様なベンチマークで本フレームワークを評価した。実験結果は、POLCAがロバストで、サンプル効率および時間効率に優れた性能を達成し、決定論的および確率的問題の両方において、最先端のアルゴリズムを一貫して上回ることを示している。本研究成果のコードベースはhttps://github.com/rlx-lab/POLCA で公開されている。

EvoClaw: 継続的ソフトウェア進化におけるAIエージェントの評価
EvoClaw: Evaluating AI Agents on Continuous Software Evolution

Mar 13

ByGangda Deng, Zhaoling Chen, Zhongming Yu, Haoyang Fan, Yuhong Liu, Yuxin Yang, Dhruv Parikh, Rajgopal Kannan, Le Cong, Mengdi Wang, Qian Zhang, Viktor Prasanna, Xiangru Tang, Xingyao Wang

AIエージェントが長期運用システムとして展開されるにつれ、動的環境内での相互作用を可能にするために、カスタマイズされたソフトウェアを自律的に構築し、継続的に進化させることが不可欠となっている。しかし、既存のベンチマークは、分離された単発的なコーディングタスクに対してエージェントを評価しており、実世界のソフトウェア進化に内在する時間的依存性と技術的負債を無視している。このギャップを埋めるため、我々はDeepCommitを提案する。これは、マイルストーン（意味的にまとまりのある開発目標と定義される）から検証可能なマイルストーンDAGをノイズの多いコミットログから再構築するエージェント型パイプラインである。これらの実行可能なシーケンスは、EvoClawという新たなベンチマークを可能にする。EvoClawは、エージェントがシステムの完全性を維持し、誤差の蓄積を抑制することを要求し、現在のベンチマークではほぼ欠落している長期ソフトウェア進化の側面を評価する。4つのエージェントフレームワークにわたる12の先進モデルを評価した結果、重大な脆弱性が明らかになった：全体的なパフォーマンススコアは、分離タスクでは80%以上であったものが、継続的設定では最大でも38%に大きく低下し、エージェントが長期維持管理と誤差伝播に深刻な困難を抱えていることが暴露された。

WebVR: 人間整合型視覚評価基準によるビデオからのウェブページ再現のためのマルチモーダルLLMベンチマーク
WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

Mar 11

ByYuhong Dai, Yanlin Lai, Mitt Huang, Hangyu Guo, Dingming Li, Hongbo Peng, Haodong Li, Yingxiu Zhao, Haoran Lyu, Zheng Ge, Xiangyu Zhang, Daxin Jiang

既存のWeb生成ベンチマークは、テキストプロンプトや静止画スクリーンショットを入力として依存している。しかし、動画は自然に、インタラクションフロー、遷移タイミング、動きの連続性といったより豊かな信号を伝達し、忠実なWebページ再現に不可欠である。この可能性にもかかわらず、動画を条件としたWebページ生成はほとんど未開拓のままであり、このタスク専用のベンチマークも存在しない。このギャップを埋めるため、我々はWebVRを提案する。これはMLLMが実演動画からWebページを忠実に再現できるかを評価するベンチマークである。WebVRは多様なカテゴリにわたる175のWebページを含み、これらは全てWebクローリングではなく制御された合成パイプラインを通じて構築されており、既存のオンラインページとの重複なく、多様で現実的な実演を保証する。さらに、生成されたWebページを多次元にわたって評価する、人間の判断に沿った細粒度の視覚的評価基準を設計した。19のモデルを用いた実験では、細かなスタイルや動きの品質の再現において大きな隔たりが明らかになった一方、評価基準に基づく自動評価は人間の選好と96%の一致率を達成した。今後の動画からWebページ生成に関する研究を支援するため、データセット、評価ツールキット、およびベースライン結果を公開する。

ターミネーター：連鎖思考推論における早期終了のための最適出口点の学習
TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Mar 13

ByAlliot Nagle, Jakhongir Saydaliev, Dhia Garbaya, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim

大規模推論モデル（LRM）は、Chain-of-Thought（CoT）推論により複雑な推論タスクで顕著な性能を達成する。CoT推論により、最終回答に至る前に中間的な思考トークンを生成することが可能となる。しかし、LRMはしばしば深刻な「過剰思考」に悩まされ、回答が早期に生成された後も過剰な計算時間を消費する。先行研究では、推論をこの時点で打ち切ると、性能をほぼ変化させることなくCoT出力を大幅に短縮できる最適な推論長が存在することが明らかにされている。しかし、実用的なデータセットに対する最適なCoT長の決定は、それがタスクとモデルに完全に依存するため、極めて容易ではない。本論文では、この問題を正確に捉え、推論時の過剰思考を軽減するためのLRM向け早期終了戦略「TERMINATOR」を設計する。TERMINATORの根底にある中心的な考え方は、LRMの最終回答が最初に出現するタイミングは多くの場合予測可能であるということであり、我々はこれらの最初の回答位置を活用して、TERMINATORを訓練するための新しい最適推論長データセットを構築する。このアプローチにより、TERMINATORは、MATH-500、AIME 2025、HumanEval、GPQAという4つの挑戦的な実用データセットにおいて、CoT長を平均14%～55%大幅に短縮し、かつ現在の最先端手法を上回る性能を達成する。

大規模言語モデルにおける動機付け
Motivation in Large Language Models

Mar 15

ByOmer Nahum, Asael Sklar, Ariel Goldstein, Roi Reichart

動機付けは人間の行動の中核的な駆動力であり、意思決定、目標設定、課題遂行を形成する。大規模言語モデル（LLM）が人間の選好と次第に整合するようになる中で、我々はLLMが動機付けに類似した特性を示すかどうかを問う。本論文では、LLMが異なる水準の動機付けを「報告」するかどうか、これらの報告がその行動とどう関連するか、外的要因がそれらに影響を与えうるかどうかを検証する。実験結果は、人間の心理学に通じる一貫性ある構造化されたパターンを明らかにする：自己申告された動機付けは異なる行動特性と整合し、課題タイプによって変動し、外的操作によって調整可能である。これらの発見は、動機付けがLLMの行動に対する首尾一貫した組織化概念であり、報告・選択・努力・パフォーマンスを体系的に結びつけ、人間心理学で実証されたものと類似する動機的ダイナミクスを明らかにすることを示す。この視点は、モデル行動の理解と人間由来の概念との関連性を深化させる。

SINGを実現する：分類器における意味論的不変性の分析
Make it SING: Analyzing Semantic Invariants in Classifiers

Mar 15

ByHarel Yadid, Meir Yossef Levi, Roy Betser, Guy Gilboa

最先端の視覚モデルを含む全ての分類器は、その線形写像の幾何学的構造に一部由来する不変量を有している。これらの不変量は分類器の零空間に存在し、同一の出力に写像される等価な入力セットを誘導する。既存の手法では人間が解釈可能な情報を提供することが困難なため、これらの不変量の意味論的内容は未だ不明確である。この問題を解決するため、我々はSemantic Interpretation of the Null-space Geometry（SING）を提案する。この手法は、ネットワークに対して等価な画像を構築し、利用可能な変動に意味論的解釈を付与する。ネットワークの特徴量からマルチモーダル視覚言語モデルへの写像を用いることで、誘導された意味論的変化に関する自然言語記述と視覚的例を得ることが可能となる。SINGは単一画像に適用して局所的不変量を明らかにすることも、画像セットに適用してクラスレベルやモデルレベルでの幅広い統計分析を可能とする。例えば本手法により、ResNet50は関連する意味的属性を零空間に漏洩させる一方で、自己教師ありDINOで事前学習されたViTであるDinoViTは、不変空間全体でクラス意味論を保持する点で優れていることが明らかとなった。

MMOU: 長尺で複雑な実世界動画向け大規模マルチタスク全理解・推論ベンチマーク
MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Mar 14

ByArushi Goel, Sreyan Ghosh, Vatsal Agarwal, Nishit Anand, Kaousheik Jayakumar, Lasha Koroshinadze, Yao Xu, Katie Lyons, James Case, Karan Sapra, Kevin J. Shih, Siddharth Gururani, Abhinav Shrivastava, Ramani Duraiswami, Dinesh Manocha, Andrew Tao, Bryan Catanzaro, Mohammad Shoeybi, Wei Ping

マルチモーダル大規模言語モデル（MLLM）は、個別に評価した場合、視覚および聴覚の理解において強力な性能を示している。しかし、長く複雑な動画内におけるオムニモーダル（視覚、聴覚、テキスト）信号の統合的な推論能力は、ほとんど検証されていない。本研究では、このような現実的な困難な条件下でのマルチモーダル理解と推論を体系的に評価するための新しいベンチマーク「MMOU」を提案する。MMOUは、15,000問の厳選された質問と、様々な長さのウェブ収集動画9,038本から構成され、多様な領域をカバーし、豊かで密接に結合した視聴覚コンテンツを特徴とする。このベンチマークは13の基礎的スキルカテゴリを網羅し、いずれもモダリティと時間を跨いだ証拠の統合を必要とする。全ての質問は専門のアノテーターによる複数回にわたる手動注釈が施され、高品質かつ推論の正確性が保証されている。我々は20以上の最先端オープンソース及びプロプライエタリのマルチモーダルモデルをMMOUで評価した。結果は大きな性能差を明らかにする：最高のクローズドソースモデルで64.2%、最強のオープンソースモデルに至っては46.8%の精度しか達成できなかった。本結果は、長尺動画におけるオムニモーダル理解の課題を浮き彫りにし、現行のモデルが長い動画では基礎的スキルすら適応できない頻度が高いことを示す。詳細な分析を通じて、我々はさらに体系的な失敗モードを特定し、現行モデルがどこで、なぜ破綻するのかに関する知見を提供する。

不確実性下における戦略的情報配分を通じた大規模言語モデルの推論理解
Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty

Mar 16

ByJeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dongsheng Li, Yuqing Yang

大規模言語モデル（LLM）は、推論過程において「Wait」のようなトークンに続く明らかな自己修正など、「ひらめき」の瞬間を示すことが多いが、その基盤となるメカニズムは未解明である。本論文では、推論を手続き的情報と認識的言語化（不確実性を明示的に外在化し、下流の制御行動を支援するプロセス）に分解する情報理論的枠組みを提案する。純粋に手続き的な推論は情報的に停滞しうるのに対し、認識的言語化は継続的な情報獲得を可能にし、情報の十分性達成に重要であることを示す。実証結果から、強力な推論性能は特定の表層トークンではなく、不確実性の外在化によって駆動されることが明らかとなった。本枠組みは、ひらめきの瞬間に関する既存の知見と学習後実験とを統合し、将来の推論モデル設計への示唆を提供する。

リーマン運動生成：リーマンフローマッチングによる人間の運動表現と生成の統一的枠組み
Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching

Mar 16

ByFangran Miao, Jian Huang, Ting Li

ヒューマンモーション生成は、有効なモーションが構造化された非ユークリッド幾何学に従うにもかかわらず、ユークリッド空間で学習されることが多い。本論文では、モーションを積多様体上で表現し、リーマン流れマッチングを介してダイナミクスを学習する統一フレームワークであるRiemannian Motion Generation（RMG）を提案する。RMGはモーションを複数の多様体因子に分解し、固有の正規化を伴うスケールフリーな表現を実現するとともに、測地線補間、接空間での監督、多様体を保存するODE積分を学習とサンプリングに用いる。HumanML3Dにおいて、RMGはHumanML3Dフォーマットで最先端のFID（0.043）を達成し、MotionStreamerフォーマットにおける全ての報告済み指標で首位を占める。MotionMillionにおいても、強力なベースライン（FID 5.6, R@1 0.86）を上回る。アブレーションスタディにより、コンパクトなT+R（並進＋回転）表現が最も安定かつ効果的であることが示され、幾何学を考慮したモデリングが高精度なモーション生成への実用的かつスケーラブルな道筋であることが明らかとなった。

Code-A1: 強化学習によるコードLLMとテストLLMの敵対的進化
Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning

Mar 16

ByAozhe Wang, Yuchen Yan, Nan Zhou, Zhengxi Lu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

コード生成のための強化学習は、単体テストの合格率に基づく検証可能な報酬に依存している。しかし、高品質なテストスイートは不足しており、既存のデータセットの網羅性は限られ、静的報酬はモデルの改善に適応できない。最近のセルフプレイ手法はコード生成とテスト生成を単一モデルで統合するが、根本的なジレンマに直面する。すなわち、ホワイトボックスアクセスはモデルが容易な報酬を得るための自明なテストを生成する「自己共謀」を引き起こし、一方ブラックボックス制限は実装固有のバグを見逃す汎用的なテストしか生成しない。本稿では、Code-A1を提案する。これは、対立する目的を持つコードLLMとテストLLMを共同で最適化する敵対的共進化フレームワークである。コードLLMはより多くのテストを通過することで報酬を受け、テストLLMはより多くの欠陥を曝露することで報酬を受ける。このアーキテクチャ上の分離は自己共謀のリスクを排除し、テストLLMが候補コードを検査して標的型の敵対的テストを作成できるホワイトボックステスト生成を安全に可能にする。さらに、経験再生のための「誤り帳」メカニズムと、テストの有効性と敵対的難易度を均衡させる複合報酬を導入する。Qwen2.5-Coderモデルを用いた実験により、Code-A1が人手で注釈付けされたテストで学習したモデルに匹敵あるいは超越するコード生成性能を達成しつつ、テスト生成能力を大幅に向上させることを実証する。

教師によるファインチューニングと強化学習：大規模言語モデルのポストトレーニング手法に関する研究
Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Mar 14

ByHaitao Jiang, Wenbo Zhang, Jiarui Yao, Hengrui Cai, Sheng Wang, Rui Song

事前学習済み大規模言語モデル（LLM）は広範な能力を示すが、特定のタスクや領域においてより高い精度と信頼性の高い推論を実現するには、一般に教師ありファインチューニング（SFT）または強化学習（RL）による事後学習が不可欠である。これらはしばしば別個の手法として扱われるが、近年の理論的・実証的研究はSFTとRLが密接に関連していることを示している。本研究は、SFTとRLによるLLM事後学習に関する包括的かつ統一的な視点を提示する。まず、両技術の目的、アルゴリズム構造、データ要件を検討し、詳細な概観を示す。次に、SFTとRLを統合するフレームワーク、ハイブリッド訓練パイプライン、両者の相補的強みを活用する方法に焦点を当て、その相互作用を体系的に分析する。2023年から2025年までの代表的な応用研究を基に、新興トレンドを特定し、ハイブリッド事後学習パラダイムへの急速な移行を特徴付け、各手法が最も効果的な状況とその理由を明確化する重要な知見を抽出する。理論的洞察、実践的方法論、実証的証拠を統合することにより、本研究は統一フレームワーク内でのSFTとRLの首尾一貫した理解を確立し、拡張性・効率性・一般化性に優れたLLM事後学習の将来研究に向けた有望な方向性を提示する。

ポケエージェントチャレンジ：大規模な競争的・長文脈学習の取り組み
The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

Mar 16

BySeth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin

我々は、Pokemonのマルチエージェントバトルシステムと広大なロールプレイングゲーム（RPG）環境を基盤とした、意思決定研究のための大規模ベンチマーク「PokeAgent Challenge」を提案する。部分観測性、ゲーム理論的推論、長期計画立案は、最先端AIにとって未解決の問題であり続けているが、これら3つを現実的な条件下で同時に評価するベンチマークはほとんど存在しない。PokeAgentは、2つの相補的なトラックを通じて、これらの限界に大規模に取り組む。すなわち、競争的なPokemonバトルにおいて部分観測性下での戦略的推論と一般化を求める「Battling Track」と、Pokemon RPGにおける長期計画立案と逐次的意思決定を必要とする「Speedrunning Track」である。Battling Trackは、2000万以上のバトル軌跡データセットと、高水準の競技プレイが可能なヒューリスティック、強化学習（RL）、LLMベースのベースライン一式を提供する。Speedrunning Trackは、RPGスピードラン向け初の標準化された評価フレームワークを提供し、ハーネスベースのLLMアプローチのモジュール化された再現可能な比較のためのオープンソースのマルチエージェントオーケストレーションシステムを含む。我々のNeurIPS 2025競技会は、両トラックで100以上のチームが参加し、論文で詳細を解説する優勝ソリューションが生まれたことにより、本リソースの質と研究コミュニティのPokemonへの関心の高さを実証している。参加者の提出物と我々のベースラインは、ジェネラリスト（LLM）、スペシャリスト（RL）、エリート人間のパフォーマンスの間にかなりの隔たりがあることを示す。BenchPress評価マトリックスに対する分析は、Pokemonバトルが標準的なLLMベンチマークとほぼ直交しており、既存の評価スイートでは捕捉できない能力を測定し、RLおよびLLM研究を推進する未解決のベンチマークとしてPokemonを位置づけている。我々は、Battling用のライブリーダーボードと、Speedrunning用の独立した評価環境をhttps://pokeagentchallenge.com で提供し、本ベンチマークを継続的に更新する「ライブィングベンチマーク」へと移行する。

FineRMoE：より細粒度な専門家のための次元拡張とそのアップサイクル手法
FineRMoE: Dimension Expansion for Finer-Grained Expert with Its Upcycling Approach

Mar 9

ByNing Liao, Xiaoxing Wang, Xiaohan Qin, Junchi Yan

細粒度MoEのスケーリング則が示すように、中間次元の粒度が最適閾値を超えるとモデル性能の向上が止まり、単一次元における細粒度設計の限界が生じる。このボトルネックを解決するため、我々はFineRMoE（FineR-Grained MoE）を提案する。このアーキテクチャは細粒度エキスパート設計を中間次元と出力次元の両方に拡張し、単一次元の限界を超えたエキスパート専門性の向上を目指す。さらに、二段階疎フォワード計算パラダイムと専用ルーティング機構を導入し、活性化を制御する。加えて、FineRMoEのスクラッチ学習に伴う莫大なコストを回避するため、コスト効率的にFineRMoEを構築する一般化アップサイクル手法を考案した。大規模実験により、FineRMoEが10の標準ベンチマークで優れた性能を達成することを実証した。最強のベースラインと比較して、FineRMoEは推論時に6倍のパラメータ効率、281倍の低いプリフィルレイテンシ、136倍の高いデコードスループットを実現した。

パノラマ的アフォーダンス予測
Panoramic Affordance Prediction

Mar 16

ByZixin Zhang, Chenfei Liao, Hongfei Zhang, Harold Haodong Chen, Kanghao Chen, Zichen Wen, Litao Guo, Bin Ren, Xu Zheng, Yinchuan Li, Xuming Hu, Nicu Sebe, Ying-Cong Chen

アフォーダンス予測は、具身化AIにおける知覚と行動の重要な橋渡しとして機能する。しかし、既存研究はピンホールカメラモデルに限定されており、視野角が狭く断片的な観測しか得られないため、環境全体の文脈を見落とすことが多い。本論文では、大域的な空間関係と包括的なシーン理解を捉えるために360度画像を活用する、パノラマアフォーダンス予測に関する初の探求を発表する。この新規課題を推進するため、まず1,000枚以上の超高解像度（12k, 11904×5952）パノラマ画像と、12,000以上の厳密に注釈付けされたQAペア及びアフォーダンスマスクを含む大規模ベンチマークデータセットPAP-12Kを構築した。さらに、人間の中心視覚システムにヒントを得た、学習不要の粗密連携パイプラインPAPを提案する。本手法はグリッドプロンプトを用いた再帰的視覚ルーティングで対象を段階的に特定し、適応的注視機構で局所的な幾何歪みを補正し、カスケード型グラウンディングパイプラインで精密なインスタンスレベルマスクを抽出する。PAP-12Kでの実験結果から、標準透視画像用に設計された既存手法はパノラマ視覚特有の課題により性能が大幅に劣化し失敗するのに対し、PAPフレームワークはこれらの障害を効果的に克服し、最先端ベースラインを大幅に上回り、ロバストな具身化知能におけるパノラマ知覚の巨大な可能性を実証した。

時空間尤度に基づく生成動画の検出手法
Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

Mar 16

ByOmer Ben Hayun, Roy Betser, Meir Yossef Levi, Levi Kassel, Guy Gilboa

テキスト生成や画像生成における大きな進歩に続き、映像分野も急速に発展し、非常に現実的で制御性の高い連続シーケンスを生成できるようになりました。この進展とともに、これらのモデルは誤った情報拡散への深刻な懸念も引き起こしており、合成映像の信頼性のある検出がますます重要になっています。画像ベースの検出器はフレーム単位で動作し時間的動態を無視するため、根本的に限界があります。一方、教師あり映像検出器は未見の生成モデルへの汎化性能が低く、新たなモデルが急速に出現する現状では重大な欠点です。これらの課題は、合成データを避け、代わりに実データの統計量に対してコンテンツを評価するゼロショットアプローチを後押ししており、学習不要でモデル非依存の検出を可能にします。本論文では、STALLを提案します。これは、確率的枠組み内で空間的・時間的証拠を統合的にモデリングし、映像に対して尤度ベースのスコアリングを提供する、シンプルで学習不要、かつ理論的根拠に基づく検出器です。STALLを2つの公開ベンチマークで評価し、最新の生成モデルを含む新たなベンチマークComGenVidを導入しました。STALLは、従来の画像ベースおよび映像ベースのベースライン手法を一貫して凌駕します。コードとデータは https://omerbenhayun.github.io/stall-video で公開されています。

潜在プロキシを用いた制御可能な単一画像再照明
Learning Latent Proxies for Controllable Single-Image Relighting

Mar 16

ByHaoze Zheng, Zihao Wang, Xianfeng Wu, Yajing Bai, Yexin Liu, Yun Li, Xiaogang Xu, Harry Yang

単一画像の再照明は非常に制約が少ない問題である。照明のわずかな変化が、陰影、影、鏡面反射に非線形な大きな変動をもたらす一方で、幾何学形状や材質は観測不能なままである。既存の拡散モデルベースの手法は、高密度で脆弱な教師信号を必要とするインテリンシック分解やGバッファーパイプラインに依存するか、あるいは物理的根拠を持たない潜在空間のみで動作するため、方向、強度、色の微細な制御が信頼できない。我々は、正確な再照明には完全なインテリンシック分解が不必要かつ冗長であると考察する。代わりに、照明が変化すべき場所と材質がどう反応すべきかを示す、疎ではあるが物理的に意味のある手がかりが、拡散モデルを導くには十分である。この知見に基づき、我々はLightCtrlを提案する。これは物理的な事前知識を2段階で統合する：限られたPBR教師データからコンパクトな材質・幾何学手がかりを抽出する少数ショット潜在代理エンコーダと、照明変化に敏感な領域を特定し、デノイザーを陰影関連ピクセルに向けて誘導する照明認識マスクである。PBRデータの不足を補うため、予測された手がかりの物理的一貫性を強化するDPOベースの目的関数を用いて代理分岐を洗練する。さらに、体系的に変化する照明と完全なカメラ・照明メタデータを備えた大規模オブジェクトレベルデータセットであるScaLightを提示し、物理的一貫性と制御性を備えた学習を可能にする。オブジェクトレベル及びシーンレベルのベンチマークにおいて、本手法は正確な連続制御を伴う測光的に忠実な再照明を実現し、従来の拡散モデル及びインテリンシックベースのベースラインを凌駕し、制御された照明変化下で最大+2.4 dBのPSNR向上と35%低いRMSEを示す。

RS-WorldModel：リモートセンシング理解と将来予測のための統合モデル
RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting

Mar 16

ByLinrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li

リモートセンシング世界モデルは、観測された変化の説明と妥当な将来の予測という、時空間的な事前知識を共有する2つのタスクを同時に目的としている。しかし、既存手法では通常これらを別個に扱うため、タスク間の知識転移が制限されている。本研究では、時空間変化の理解とテキスト誘導型将来シーン予測を統一的に扱うリモートセンシング向け世界モデル「RS-WorldModel」を提案し、両タスクをカバーする110万サンプルからなる豊富な言語注釈付きデータセット「RSWBench-1.1M」を構築した。RS-WorldModelは3段階で学習を行う：(1) 地理・取得メタデータに基づく予測条件付けのための地理認識生成事前学習（GAGP）、(2) 理解タスクと予測タスクの協調的学習を実現する相乗的指示チューニング（SIT）、(3) 検証可能なタスク特化型報酬による出力改良を図る検証可能強化学習最適化（VRO）。パラメータ数が20億に過ぎないにもかかわらず、RS-WorldModelは、大半の時空間変化質問応答指標において、最大120倍大規模なオープンソースモデルを凌駕する。テキスト誘導型将来シーン予測ではFID値43.13を達成し、全てのオープンソースベースラインおよびクローズドソースのGemini-2.5-Flash Image (Nano Banana)を上回った。

HorizonMath：自動検証による数学的発見に向けたAIの進歩の測定
HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

Mar 16

ByErik Y. Wang, Sumeet Motwani, James V. Roggeveen, Eliot Hodges, Dulhan Jayalath, Charles London, Kalyan Ramakrishnan, Flaviu Cipcigan, Philip Torr, Alessandro Abate

AIは重要な未解決数学問題に進展をもたらしうるか？大規模言語モデルは現在、高度な数学的・科学的推論能力を有するが、新規研究を遂行しうるかについては依然として広く議論の的であり、十分に検証されていない。本論文では、計算数学・応用数学の8領域にわたる100問以上の未解決問題から構成されるHorizonMathベンチマークと、自動検証のためのオープンソース評価フレームワークを提案する。本ベンチマークは、有意な数学的洞察を要する発見が困難だが、検証が計算効率的かつ簡便な問題群を対象とする。これらの解は未確定であるため、HorizonMathはデータ汚染の影響を受けず、最新モデルのスコアはほぼ0%に留まっている。既存の研究レベルベンチマークは、形式的証明検証や手動査読に依存しており、いずれも拡張にコストがかかる。本プラットフォームを用いた検証により、GPT 5.4 Proが既知の最良結果を改善する解法を提案した2問題を発見した（専門家査読待ちの新規貢献の可能性あり）。HorizonMathをオープンな挑戦課題および成長するコミュニティリソースとして公開し、未解決問題クラスにおける正解は数学文献における新規成果となりうる。

VisionCoach: 視覚的知覚プロンプティングによる接地された映像推論の強化
VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting

Mar 15

ByDaeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal

映像推論では、モデルがフレーム間で質問に関連する証拠を特定し追跡する必要があります。検証可能な報酬を用いた強化学習（RL）は精度向上に寄与するものの、推論過程における信頼性の高い時空間的グラウンディングの実現には依然として課題があります。さらに、グラウンディングの改善は、通常、大規模な訓練データまたは推論時の知覚ツールに依存しており、アノテーションコストや計算コストの増大を招きます。この課題に対処するため、我々は**VisonCoach**を提案します。これは、訓練時のガイダンスとして視覚的プロンプトを用いて時空間的グラウンディングを改善する、入力適応型のRLフレームワークです。RL訓練中、視覚的プロンプトは困難な入力に対して選択的に適用され、質問関連の証拠を増幅し、妨害要素を抑制します。モデルはその後、自己蒸留を通じてこれらの改善点を内在化し、推論時には視覚的プロンプトなしで生の映像に対して直接グラウンディングされた推論を行えるようにします。VisonCoachは二つのコンポーネントから構成されます：(1) **視覚的プロンプト選択器**：映像と質問に条件付けられて適切なプロンプトタイプを予測するもの、(2) **時空間推論器**：視覚的プロンプトのガイダンスと、オブジェクトの同一性の一貫性および複数領域のバウンディングボックス重複を強化するオブジェクト認識型グラウンディング報酬の下で最適化されるRLモデルです。大規模な実験により、VisonCoachが、多様な映像推論、映像理解、時間的グラウンディングのベンチマーク（V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, Charades-STA）において、同等の設定下で最先端の性能を達成し、外部ツールを必要としない単一の効率的な推論経路を維持することが実証されました。我々の結果は、訓練時の視覚的プロンプトがグラウンディングされた映像推論を改善する一方で、自己蒸留によりモデルがこの能力を推論時にプロンプトを必要とせず内在化できることを示しています。

FlashMotion: 軌道ガイダンスによる数ステップ制御可能なビデオ生成
FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Mar 12

ByQuanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu

軌道制御可能なビデオ生成の最近の進展は目覚ましい進歩を遂げている。従来手法は主に、事前定義された軌道に沿った精密な動き制御のためにアダプタベースのアーキテクチャを採用してきた。しかし、これらの手法はすべて多段階のノイズ除去プロセスに依存しており、大幅な時間的冗長性と計算コストを招いている。既存のビデオ蒸留手法は多段階ジェネレータを少数段階に蒸留することに成功しているが、これらのアプローチを軌道制御可能なビデオ生成に直接適用すると、ビデオ品質と軌道精度の両方で顕著な劣化が生じる。この課題を解決するため、我々は少数段階での軌道制御可能なビデオ生成のために設計された新しい訓練フレームワークであるFlashMotionを提案する。まず、精密な軌道制御のために多段階ビデオジェネレータ上で軌道アダプタを訓練する。次に、ビデオ生成を高速化するため、ジェネレータを少数段階版に蒸留する。最後に、拡散目標と敵対的目標を組み合わせたハイブリッド戦略を用いてアダプタをファインチューニングし、高品質で軌道精度の高いビデオを生成するために少数段階ジェネレータと整合させる。評価のために、長系列の軌道制御可能なビデオ生成のためのベンチマークであるFlashBenchを導入し、様々な数の前景オブジェクトにわたるビデオ品質と軌道精度の両方を測定する。2つのアダプタアーキテクチャを用いた実験により、FlashMotionが既存のビデオ蒸留手法および従来の多段階モデルを、視覚品質と軌道一貫性の両方で凌駕することを示す。

大規模言語モデルにおける深さの呪いをスパース性が緩和する条件
When Does Sparsity Mitigate the Curse of Depth in LLMs

Mar 16

ByDilxat Muhtar, Xinyuan Song, Sebastian Pokutta, Max Zimmer, Nico Pelleriti, Thomas Hofmann, Shiwei Liu

近年の研究では、大規模言語モデル（LLM）における「深さの呪い」が実証されている。これは、下位層に比べて上位層の学習および表現への寄与が小さくなる現象である。このような利用不足は、Pre-Layer Normalizationにおける分散の累積的な増大に関連しており、深いブロックをほぼ恒等写像の挙動に近づける可能性がある。本論文では、スパース性が効率化を可能にするだけでなく、分散伝播の調整役として機能し、それによって深さの利用効率を改善することを示す。我々の調査は、以下の二つのスパース性の源を対象とする：(i) 重み減衰によって誘発される重みのスパース性や、長文コンテキスト入力によって誘発される注意機構のスパース性など、訓練とデータ条件から生じる暗黙的スパース性；(ii) Grouped-Query Attentionにおけるキー/値共有スパース性や、Mixture-of-Expertsにおける専門家活性化スパース性など、アーキテクチャ設計によって強制される明示的スパース性である。我々の主張は、制御された深度スケーリング実験と層の効果に焦点を当てた介入実験によって十分に支持されている。様々な設定を通じて、一貫した関係性を観察した：スパース性は、出力分散を低減し機能的分化を促進することによって、層の利用効率を改善する。最終的に、我々の発見を実用的な経験則として結晶化し、深度効率の良いLLMを訓練するためのレシピを提案する。これにより、下流タスクにおいて顕著な4.6%の精度向上が得られた。我々の結果は、標準的な設計選択から自然に生じるスパース性が、LLMにおける効果的な深度スケーリングのための、重要でありながら従来見過ごされてきたメカニズムであることを明らかにする。コードはhttps://github.com/pUmpKin-Co/SparsityAndCoDで公開されている。

自律エージェント群による創発的アーティファクト交換を介した分散的発見の協調
Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange

Mar 15

ByFiona Y. Wang, Lee Marom, Subhadeep Pal, Rachel K. Luu, Wei Lu, Jaime A. Berkovich, Markus J. Buehler

本論文では、自律的な科学探求のためのフレームワークScienceClaw + Infiniteを提案する。本システムでは、独立したエージェントが中央制御なしに研究を実施し、あらゆる貢献者が共有エコシステムに新たなエージェントを導入できる。このシステムは、以下の3つの構成要素を中核として構築されている。(1) 300以上に及ぶ相互運用可能な科学スキルの拡張可能なレジストリ、(2) 有向非巡回グラフ(DAG)として計算の完全な系譜を保存するアーティファクト層、(3) プロベナンスを考慮したガバナンスを備えたエージェントベースの科学的議論のための構造化プラットフォームである。エージェントは自身の科学的プロファイルに基づいてツールを選択・連結し、型付けされたメタデータと親の系譜を持つ不変のアーティファクトを生成し、満たされていない情報要求を共有グローバルインデックスにブロードキャストする。ArtifactReactorは、プランナーを介さない調整を可能にする。ピアエージェントは、圧力ベースのスコアリングを通じて未解決の要求を発見し充足させ、スキーマ重複マッチングは独立した分析間での複数親合成を引き起こす。自律的変異層は、矛盾や冗長なワークフローを解決するため、拡大するアーティファクトDAGを積極的に刈り込み、永続メモリによりエージェントは複数サイクルにわたる複雑な認識状態を継続的に構築できる。Infiniteはこれらの出力を、構造化された投稿、プロベナンスビュー、機械可読な議論関係を通じて監査可能な科学記録に変換し、コミュニティフィードバックが後続の調査サイクルを方向付ける。ソマトスタチン受容体SSTR2向けペプチド設計、軽量耐衝撃性セラミックスクリーニング、生物学・材料・音楽を架橋するクロスドメイン共鳴、都市形態と粒界進化の間の形式的アナロジー構築という4つの自律的調査を通じて、本フレームワークは、異種ツールの連結、独立動作するエージェント間での創発的収束、生の計算から公表された知見に至る追跡可能な推論を実証する。

Tri-Prompting：シーン、被写体、動きを統一的に制御するビデオ拡散
Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Mar 16

ByZhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo

近年、ビデオ拡散モデルは視覚的品質において目覚ましい進歩を遂げているが、精密で細かな制御は、コンテンツ制作における実用的なカスタマイズ性を制限する主要なボトルネックとして残っている。AIビデオ制作者にとって、以下の3つの制御形態が重要である：(i) シーン構成、(ii) マルチビュー一貫性を保った被写体のカスタマイズ、(iii) カメラポーズまたはオブジェクトモーションの調整。既存手法は通常これらの次元を個別に扱い、任意のポーズ変化下でのマルチビュー被写体合成や同一性保持に対するサポートが限られている。この統一されたアーキテクチャの欠如により、多様で連携して制御可能なビデオの実現が困難になっている。本研究では、シーン構成、マルチビュー被写体の一貫性、モーション制御を統合する統一フレームワークおよび二段階トレーニングパラダイムであるTri-Promptingを提案する。本手法は、背景シーンには3Dトラッキングポイントにより、前景被写体にはダウンサンプリングされたRGB手がかりにより駆動されるデュアル条件モーションモジュールを活用する。制御性と視覚的真实性のバランスを確保するため、推論時のControlNetスケールスケジュールをさらに提案する。Tri-Promptingは、任意のシーンへの3D認識被写体挿入や、画像内の既存被写体の操作を含む新しいワークフローをサポートする。実験結果により、Tri-Promptingが、PhantomやDaSなどの専門的なベースラインを、マルチビュー被写体の同一性、3D一貫性、モーション精度において大幅に上回ることを実証する。

GlyphPrinter: グリフ精度の高い視覚的テキストレンダリングのための領域グループ化直接選好最適化
GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Mar 16

ByXincheng Shuai, Ziye Li, Henghui Ding, Dacheng Tao

視覚的なテキストレンダリングにおいて、正確なグリフ生成は重要であるが困難な課題である。既存手法は、高品質なシーンテキスト画像を大量に学習することでテキストレンダリングの質向上を図るが、グリフ変種の網羅性不足や過度なスタイライゼーションにより、特に複雑な文字やドメイン外文字ではグリフ精度が損なわれやすい。一部の手法は強化学習を応用してこの問題を緩和するが、それらの報酬モデルは細かいグリフ誤差に鈍感な文字認識システムに依存するため、誤ったグリフを含む画像が高評価を受ける可能性がある。Direct Preference Optimization (DPO) に着想を得て、我々は明示的な報酬モデルへの依存を排除した選好ベースのテキストレンダリング手法GlyphPrinterを提案する。しかし標準DPO目的関数は2サンプル間の全体的な選好のみをモデル化するため、グリフ誤差が局所的に生じやすい視覚的テキストレンダリングには不十分である。この問題を解決するため、我々は領域レベルでのグリフ選好注釈を付与したGlyphCorrectorデータセットを構築し、注釈領域におけるサンプル間・サンプル内選好を最適化する領域ベースの目的関数Region-Grouped DPO (R-GDPO) を提案し、グリフ精度を大幅に向上させる。さらに、グリフ精度を制御可能な最適分布からのサンプリングを行う推論戦略Regional Reward Guidanceを導入する。大規模実験により、提案するGlyphPrinterがスタイライゼーションと精度の良好なバランスを保ちつつ、既存手法をグリフ精度で上回ることを実証する。

OxyGen: マルチタスク並列処理下における視覚-言語-行動モデルの統合KVキャッシュ管理
OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

Mar 15

ByXiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu

エンボディードAIエージェントは、異なる時間制約下で共有観測から操作、対話、記憶構築などの複数タスクを並列実行する必要性が高まっている。近年のMixture-of-Transformers (MoT) アーキテクチャに基づくVision-Language-Actionモデル (VLA) は構造的にこうした異種出力をサポートするが、既存の推論システムでは計算の重複やリソース競合により、オンデバイス展開における効率的なマルチタスク並列処理を実現できていない。本問題の根本原因をKVキャッシュ管理の分離にあると特定する。これに対処するため、我々はKVキャッシュをタスク横断的・時間的に共有される第一級リソースとして扱う推論パラダイムである統一KVキャッシュ管理を提案する。この抽象化により二つの重要最適化が可能となる：共有観測の重複プリフィルを排除するタスク横断的KV共有と、制御周期を跨いだ可変長言語デコーディングと固定周期アクション生成を分離するフレーム横断的連続バッチ処理である。本パラダイムを最も普及しているMoT VLAであるπ_{0.5}向けに実装し、代表的なロボット設定で評価した。OxyGenは分離実行比最大3.7倍の高速化を達成し、アクション品質を劣化させることなく200トークン/秒以上の言語処理速度と70 Hzのアクション生成頻度を同時に実現した。

スペクトルマッチング：潜在拡散における優れた拡散性のための統一的視点
Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion

Mar 15

ByMang Ning, Mingxiao Li, Le Zhang, Lanmiao Liu, Matthew B. Blaschko, Albert Ali Salah, Itir Onal Ertugrul

本論文では、潜在拡散における変分自己符号化器（VAE）の拡散可能性（学習可能性）を研究する。まず、MSE目的関数で学習されたピクセル空間拡散が、低・中空間周波数の学習に対して本質的にバイアスを持つこと、そして自然画像のべき乗則パワースペクトル密度（PSD）がこのバイアスを知覚的に有益なものにしていることを示す。この結果に動機づけられ、我々はスペクトルマッチング仮説を提案する：優れた拡散可能性を持つ潜在表現は、(i) 平坦化されたべき乗則PSDに従うべき（符号化スペクトルマッチング、ESM）であり、(ii) デコーダを通じて周波数-周波数間の意味的対応を保存すべき（復号化スペクトルマッチング、DSM）である。実践的には、ESMを画像と潜在表現の間のPSDマッチングにより、DSMを周波数整合性再構成による共有スペクトルマスキングを通じて適用する。重要なことに、スペクトルマッチングは、過剰にノイジーまたは過剰に平滑化された潜在表現に関する従来の観察を明確化し、いくつかの最近の手法（例：VA-VAE, EQ-VAE）を特殊なケースとして解釈する統一的な視点を提供する。実験により、スペクトルマッチングがCelebAおよびImageNetデータセットにおいて優れた拡散生成を実現し、従来のアプローチを上回ることを示す。最後に、スペクトルの視点を表現アライメント（REPA）に拡張する：対象表現の方向的スペクトルエネルギーがREPAにとって重要であることを示し、REPAの性能をさらに向上させるためのDoGベースの手法を提案する。コードはhttps://github.com/forever208/SpectrumMatching で公開されている。

動的環境における汎用性の高いロボットマニピュレーションに向けて
Towards Generalizable Robotic Manipulation in Dynamic Environments

Mar 16

ByHeng Fang, Shangru Li, Shuhan Wang, Xuanyang Xi, Dingkang Liang, Xiang Bai

視覚言語動作（VLA）モデルは静的操作において優れる一方、移動標的を含む動的環境では課題を抱えている。この性能差は主に、動的操作データセットの不足と、主流のVLAモデルが単一フレーム観測に依存するため時空間推論能力が制限されることに起因する。この問題に対処するため、我々は一般化可能な動的操作のための大規模データセット及びベンチマーク「DOMINO」を提案する。DOMINOは、複雑性の階層を持つ35のタスク、11万を超える専門家軌道、多次元評価スイートを特徴とする。包括的実験を通じて、既存VLAモデルの動的タスクにおける性能を系統的に評価し、動的認識のための効果的な学習戦略を探求し、動的データの一般化可能性を検証する。さらに、動的認識VLAアーキテクチャ「PUMA」を提案する。PUMAは、シーン中心の履歴オプティカルフローと専門的なワールドクエリを統合することでオブジェクト中心の将来状態を暗黙的に予測し、履歴認識知覚と短期予測を結合する。結果として、PUMAは最先端の性能を達成し、ベースライン比で成功率が6.3%絶対値向上した。加えて、動的データによる学習が静的任务に転移可能な頑健な時空間表現を育成することを示す。全てのコード及びデータはhttps://github.com/H-EmbodVis/DOMINO で公開されている。

MoKus: 知識を考慮した概念カスタマイズのためのクロスモーダル知識転移の活用
MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

Mar 13

ByChenyang Zhu, Hongxiang Li, Xiu Li, Long Chen

概念カスタマイズでは、通常、稀なトークンを対象概念に紐付ける手法が取られる。しかし、これらのアプローチは、事前学習データにこれらの稀なトークンがほとんど含まれていないため、不安定な性能に悩まされることが多い。同時に、これらの稀なトークンは対象概念の内在的な知識を伝達することができない。そこで我々は、多様なテキスト知識を対象の視覚概念に紐付けることを目的とした新たなタスク、知識認識型概念カスタマイズを提案する。このタスクでは、高忠実度なカスタマイズ生成を実行するために、モデルがテキストプロンプト内の知識を識別することが要求される。同時に、モデルは全てのテキスト知識を対象概念に効率的に紐付けるべきである。したがって、我々は知識認識型概念カスタマイズのための新しいフレームワークであるMoKusを提案する。我々のフレームワークは、ある重要な観察に依拠している：クロスモーダル知識転送、すなわち、テキストモダリティ内の知識を変更することが、生成過程中に自然に視覚モダリティへ転送されるという観察である。この観察に着想を得て、MoKusは2つの段階を包含する：(1) 視覚概念学習では、まず対象概念の視覚情報を格納するアンカー表現を学習する。(2) テキスト知識更新では、知識クエリに対する回答をアンカー表現へと更新し、高忠実度なカスタマイズ生成を可能にする。さらに、この新タスクにおいて提案手法MoKusを包括的に評価するため、知識認識型概念カスタマイズにおける最初のベンチマークKnowCusBenchを導入する。大規模な評価により、MoKusが最先端の手法を凌駕することが実証されている。さらに、クロスモーダル知識転送により、MoKusは仮想概念創造や概念抹消のような他の知識認識型アプリケーションへ容易に拡張可能である。我々はまた、世界知識ベンチマークにおいて改善を達成する当手法の能力も実証する。

注意シフト：大規模言語モデルを用いたFOMC声明からの金融政策スタンスの解読
Mind the Shift: Decoding Monetary Policy Stance from FOMC Statements with Large Language Models

Mar 15

ByYixuan Tang, Yi Yang

連邦公開市場委員会（FOMC）声明は金融政策情報の主要な情報源であり、その文言の微妙な変化さえも世界の金融市場を動かし得る。したがって、これらのテキストが伝えるタカ派的・ハト派的なスタンスを測定することが中心的な課題となる。既存のアプローチでは通常、スタンス検出を標準的な分類問題として扱い、各声明を個別にラベル付けする。しかし、金融政策コミュニケーションの解釈は本質的に相対的である：市場反応は声明のトーンだけでなく、会合間でのトーンの変化の仕方にも依存する。本研究では、デルタ一貫性スコアリング（DCS）を提案する。これは、絶対的スタンスと相対的な会合間の変化を同時にモデル化することで、固定化された大規模言語モデル（LLM）の表現を連続的なスタンススコアに写像する、教師データを必要としないフレームワークである。DCSは手動によるタカ派・ハト派ラベルに依存する代わりに、連続する会合を自己教師学習の情報源として利用する。各声明に対する絶対的スタンススコアと、連続する声明間の相対的変化スコアを学習する。デルタ一貫性目的関数は、絶対的スコアの変化が相対的変化と整合することを促す。これにより、DCSは手動ラベルなしで時間的に一貫したスタンスの軌跡を復元することが可能となる。4つのLLMバックボーンにおいて、DCSは教師ありプローブやLLM-as-judgeベースラインを一貫して上回り、文レベルのタカ派・ハト派分類で最大71.1%の精度を達成した。また、得られた会合レベルのスコアは経済的にも意味があり、インフレ指標と強く相関し、国債利回りの変動と有意に関連していた。全体として、これらの結果は、LLMの表現が、相対的な時間構造を通じて復元可能な金融政策シグナルを内包していることを示唆している。

並列トークン予測による効率的な文書解析
Efficient Document Parsing via Parallel Token Prediction

Mar 16

ByLei Li, Ze Zhao, Meng Li, Zhongwang Lun, Yi Yuan, Xingjing Lu, Zheng Wei, Jiang Bian, Zang Li

文書解析は、基礎的でありながら極めて重要な視覚タスクとして、視覚言語モデル（VLM）によって革新が進められている。しかし、VLMに内在する自己回帰的（AR）復号化は重大なボトルネックとなり、解析速度を大幅に制限している。本論文では、並列トークン予測（PTP）を提案する。これは、VLMが将来の複数のトークンを並列生成し、サンプル効率を向上させることを可能にする、プラグイン可能でモデル非依存、かつシンプルでありながら効果的な手法である。具体的には、学習可能なトークンを入力シーケンスに挿入し、対応する訓練目標を設計することで、モデルに文書解析のための並列復号化能力を付与する。さらに、効果的な訓練を支援するため、VLM向けの大規模で高品質な文書解析訓練データを効率的に生成する包括的なデータ生成パイプラインを開発した。OmniDocBenchおよびolmOCR-benchにおける大規模な実験により、本手法が復号化速度を大幅に向上させる（1.6倍～2.2倍）だけでなく、モデルの hallucination を低減し、強力な汎化能力を示すことが実証された。

SCoCCA: 正準相関分析によるマルチモーダル疎概念分解
SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis

Mar 14

ByEhud Gordon, Meir Yossef Levi, Guy Gilboa

視覚言語モデルの内部的推論過程を解釈することは、安全性が重要な領域でAIを展開する上で不可欠である。概念ベースの説明可能性は、意味的に意味のある構成要素を通じてモデルの振る舞いを表現することで、人間に沿った解釈の枠組みを提供する。しかし、既存の手法は主に画像に限定されており、クロスモーダルな相互作用を見過ごしている。CLIPによって生成されるようなテキスト-画像埋め込みは、モダリティギャップに悩まされており、視覚的特徴とテキスト特徴が異なる分布に従うため、解釈可能性を制限している。正準相関分析（CCA）は、異なる分布からの特徴を整合させる原理的な方法を提供するが、マルチモーダルな概念レベルの分析には活用されていない。本研究では、CCAとInfoNCEの目的関数が密接に関連しており、CCAを最適化することがInfoNCEを暗黙的に最適化することを示す。これにより、事前学習済みのInfoNCE目的関数に影響を与えることなく、クロスモーダルな整合性を高める単純で訓練不要なメカニズムが提供される。この知見に基づき、概念ベースの説明可能性とCCAを組み合わせ、クロスモーダル埋め込みを整合させながら解釈可能な概念分解を可能にするフレームワークであるConcept CCA（CoCCA）を提案する。さらにこれを拡張し、スパース性を課すことで、より分離された識別的な概念を生成するSparse Concept CCA（SCoCCA）を提案する。これにより、活性化、アブレーション、意味的操作の改善が促進される。本手法は概念ベースの説明をマルチモーダル埋め込みに一般化し、概念アブレーションなどの再構成および操作タスクにおいて、概念発見の分野で最先端の性能を達成する。

Garments2Look：衣類とアクセサリーを備えた高精細なアウトフィットレベル仮想試着のためのマルチリファレンスデータセット
Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

Mar 14

ByJunyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou

仮想試着（VTON）技術は単一アイテムの可視化において進歩を遂げているが、現実のファッションは、複数の衣服やアクセサリーからなるフルコーディネート、細粒度カテゴリ、重ね着、多様なスタイリングが中心であり、現在のVTONシステムの範囲を超えている。既存のデータセットはカテゴリが限定的で、コーディネートの多様性に欠ける。本研究では、アウトフィットレベルのVTONに向けた初の大規模マルチモーダルデータセット「Garments2Look」を提案する。本データセットは40の主要カテゴリ、300以上の細粒度サブカテゴリにわたる8万組の「複数アイテム対一コーディネート」ペアで構成される。各ペアには、3～12点（平均4.48点）の参照衣服画像からなるコーディネート、それを着用したモデル画像、詳細なアイテム情報および仮想試着に関するテキスト注釈が含まれる。実写性と多様性のバランスを取るため、試着結果生成前にヒューリスティックにコーディネートリストを構築する合成パイプラインを提案する。全工程は厳格な自動フィルタリングと人的検証を経て、データ品質を保証している。課題の難易度を探るため、SOTAのVTON手法と汎用画像編集モデルを適用してベースラインを確立した。結果、既存手法ではコーディネート全体のシームレスな試着、正しい重ね順やスタイリングの推論が困難であり、位置ずれや不自然な痕跡が生じることが明らかになった。

VoXtream2：動的発話速度制御を備えたフルストリームTTS
VoXtream2: Full-stream TTS with dynamic speaking rate control

Mar 13

ByNikita Torgashov, Gustav Eje Henter, Gabriel Skantze

対話型システムにおけるフルストリーム音声合成（TTS）は、テキストが逐次的に到着する中で、最小限の遅延で発話を開始しつつ、制御性を維持しなければならない。本論文では、発話途中でも動的に更新可能な話速制御機能を備えた、ゼロショットフルストリームTTSモデル「VoXtream2」を提案する。VoXtream2は、継続時間状態に対する分布マッチング機構と、条件付け信号に対する分類器不要ガイダンスを組み合わせることで、制御性と合成品質を向上させている。プロンプトテキストマスキングにより、テキストを必要としない音声プロンプティングが可能となり、プロンプトの文字起こしが不要となる。標準的なゼロショットベンチマークおよび専用の話速テストセットによる評価では、モデルサイズが小さく訓練データも少ないにもかかわらず、公開ベースラインと比較して競争力のある客観的・主観的結果を達成した。フルストリームモードでは、消費者向けGPU上で、最初のパケットまでの遅延が74ミリ秒、リアルタイムの4倍の速度で動作する。

ArchEHR-QA 2026におけるsebis: ローカル環境でどこまでできるか？単一ノートブックでの接地型EHR QAの評価
sebis at ArchEHR-QA 2026: How Much Can You Do Locally? Evaluating Grounded EHR QA on a Single Notebook

Mar 14

ByIbrahim Ebrar Yurt, Fabian Karl, Tejaswi Choppa, Florian Matthes

電子カルテ（EHR）を対象とした臨床質問応答は、医療従事者と患者が関連する医療情報により効率的にアクセスすることを支援できる。しかし、近年の多くのアプローチは大規模なクラウドベースのモデルに依存しており、プライバシー上の制約や計算リソースの要件から、臨床環境への導入が困難である。本研究では、単一のノートパソコンに制限された条件下で、接地（grounded）型EHR質問応答がどこまで実現可能かを検討する。我々はArchEHR-QA 2026共有タスクの全4サブタスクに参加し、市販のハードウェア上で動作するよう設計された複数のアプローチを評価する。すべての実験は、外部APIやクラウドインフラを用いずにローカルで実施された。結果は、このようなシステムが共有タスクのリーダーボードにおいて競争力のある性能を達成できることを示している。特に、我々の提出システムは2つのサブタスクで平均以上の性能を発揮し、適切に設定された小型モデルが、はるかに大規模なシステムの性能に迫り得ることを確認した。これらの知見は、完全にローカルで動作するプライバシー保護型EHR質問応答システムが、現行のモデルと市販ハードウェアを用いて実現可能であることを示唆する。ソースコードは https://github.com/ibrahimey/ArchEHR-QA-2026 で公開されている。

SNCE: スケーラブルな離散画像生成のための幾何学を考慮した教師信号
SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation

Mar 16

ByShufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Aditya Grover, Jason Kuen

近年の離散画像生成の進展により、VQコードブックのサイズを拡大することで再構成忠実度が大幅に向上することが示されてきた。しかし、大規模なVQコードブックを用いた生成モデルの学習は依然として困難であり、通常、より大きなモデルサイズとより長い学習スケジュールを必要とする。本研究では、大規模コードブックを用いた離散画像生成器の最適化の課題に取り組むために設計された新しい学習目的関数である、確率的近傍交差エントロピー最小化（SNCE）を提案する。SNCEは、ハードなone-hotターゲットでモデルを指導する代わりに、近傍トークンの集合に対するソフトなカテゴリカル分布を構築する。各トークンに割り当てられる確率は、そのコード埋め込みと正解画像の埋め込みとの近接度に比例し、量子化された埋め込み空間において意味的に有意義な幾何学的構造をモデルに捕捉させることを促す。クラス条件付きImageNet-256生成、大規模テキストから画像への合成、画像編集タスクにわたる広範な実験を行った。結果は、SNCEが標準的な交差エントロピー目的関数と比較して、収束速度と全体的な生成品質を大幅に改善することを示している。