HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

21 papers found

シード拡散：高速推論を実現する大規模拡散言語モデル
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Aug 4

ByYuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou

130

本論文では、離散状態拡散に基づく大規模言語モデル「Seed Diffusion Preview」を提案する。このモデルは、非常に高速な推論速度を実現している。非逐次的で並列的な生成により、離散拡散モデルは、トークンごとのデコードに伴う固有の遅延を軽減する顕著な高速化を提供する。最近の研究（例：Mercury Coder、Gemini Diffusion）で示されている通りである。Seed Diffusion Previewは、H20 GPU上で2,146トークン/秒の推論速度を達成し、標準的なコード評価ベンチマークにおいて競争力のある性能を維持している。これは、最新のMercuryおよびGemini Diffusionを大幅に上回る速度であり、コードモデルにおける速度と品質のパレートフロンティアにおいて新たな最先端を確立した。

Skywork UniPic: 視覚理解と生成のための統合自己回帰モデリング
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

Aug 5

ByPeiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou

Skywork UniPicを紹介する。これは15億パラメータの自己回帰モデルであり、画像理解、テキストから画像への生成、および画像編集を単一のアーキテクチャに統合し、タスク固有のアダプターやモジュール間コネクターの必要性を排除する。これにより、コンパクトなマルチモーダルシステムが市販のハードウェア上で最先端の性能を達成できることを実証する。Skywork UniPicは、GenEvalスコア0.86を達成し、既存の統合モデルのほとんどを上回る。DPG-Benchの複雑生成記録として85.5を樹立し、画像編集においてGEditBench-ENで5.83、ImgEdit-Benchで3.49を達成する。さらに、1024 x 1024の画像を15 GB未満のGPUメモリ（例：RTX 4090）で生成する。(1) 合成用のマスク付き自己回帰エンコーダと理解用のSigLIP2エンコーダを活用した分離エンコーディング戦略を採用し、これらが共有の自己回帰デコーダに供給される。(2) 256 x 256から1024 x 1024までスケーリングする解像度対応の段階的トレーニングスケジュールを採用し、パラメータを動的に解放して容量と安定性のバランスを取る。(3) 生成および編集目標を洗練するために、タスク固有の報酬モデルで拡張された1億規模の厳選されたデータセットを使用する。高忠実度のマルチモーダル統合が過剰なリソース要求を招く必要がないことを示すことで、Skywork UniPicは、展開可能な高忠実度マルチモーダルAIの実用的なパラダイムを確立する。コードと重みはhttps://huggingface.co/Skywork/Skywork-UniPic-1.5Bで公開されている。

LongVie: マルチモーダル誘導型制御可能超長尺動画生成
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

Aug 5

ByJianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

制御可能な超長尺動画生成は、基本的でありながらも困難な課題である。既存の手法は短尺クリップに対して有効であるが、時間的な不整合や視覚的劣化といった問題により、スケーリングが困難である。本論文では、まず初めに、分離されたノイズ初期化、独立した制御信号の正規化、および単一モダリティガイダンスの限界という3つの主要な要因を調査し、特定する。これらの課題に対処するため、我々はLongVieを提案する。LongVieは、制御可能な長尺動画生成のためのエンドツーエンドの自己回帰型フレームワークであり、時間的な一貫性を確保するために2つのコア設計を導入している：1) クリップ間で一貫した生成を維持する統一ノイズ初期化戦略、および2) ビデオ全体を通じて制御空間での整合性を強制するグローバル制御信号正規化である。視覚的劣化を軽減するために、LongVieは3) 密な（例：深度マップ）および疎な（例：キーポイント）制御信号を統合するマルチモーダル制御フレームワークを採用し、4) 時間の経過に伴うモダリティの貢献を適応的にバランスさせて視覚品質を維持する劣化認識型トレーニング戦略を補完している。また、我々はLongVGenBenchを導入する。これは、多様な実世界および合成環境にわたる100本の高解像度ビデオから成る包括的なベンチマークであり、各ビデオは1分以上続く。大規模な実験により、LongVieが長距離制御性、一貫性、および品質において最先端の性能を達成することが示された。

CompassVerifier: LLM評価と結果報酬のための統合的かつ堅牢な検証システム
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

Aug 5

ByShudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen

回答検証は、大規模言語モデル（LLM）の非構造化出力を標準回答と照合して評価するだけでなく、LLMの最適化を導く報酬モデルとしても重要な役割を果たします。ほとんどの評価フレームワークは、正規化された照合に依存するか、一般的なLLMを回答検証に使用しており、これには正規表現ルールや評価プロンプトの広範で反復的なカスタマイズが必要です。現在の方法論には2つの根本的な制限があります：1）異なるLLM間での検証能力を体系的に評価する包括的なベンチマークの欠如、2）検証器開発の初期段階であり、既存のアプローチは複雑なエッジケースを処理する堅牢性と異なるドメイン間での汎用性の両方を欠いています。本研究では、評価と結果報酬のための正確で堅牢な軽量検証器モデル「CompassVerifier」を開発しました。これは、数学、知識、多様な推論タスクにわたるマルチドメイン能力を示し、複数のサブ問題、数式、シーケンス回答を含むさまざまな回答タイプを処理し、異常/無効な回答を効果的に識別する能力を備えています。また、複数のデータソースから収集したモデル出力を含む「VerifierBench」ベンチマークを導入し、メタエラーパターンの手動分析を通じて強化することでCompassVerifierを向上させました。CompassVerifierとVerifierBenchが、回答検証、評価プロトコル、強化学習研究を促進することを期待しています。コードとデータセットはhttps://github.com/open-compass/CompassVerifierで公開されています。

リポジトリ深層検索のためのツール統合型強化学習
Tool-integrated Reinforcement Learning for Repo Deep Search

Aug 5

ByZexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

課題のローカライゼーション、すなわちソフトウェアの問題を解決するために修正が必要なコードの位置を特定するプロセスは、ソフトウェア開発において重要でありながらも困難なタスクです。自然言語による課題記述と不具合のあるコードとの間の意味的ギャップは、コードの依存関係を通じた複雑なマルチホップ推論を必要とします。既存のLLMベースのエージェントは、リポジトリ検索ツールを統合することでこの問題に対処しようとしています。しかし、これにより課題のローカライゼーションは、我々が「Repo Deep Search」と呼ぶ要求の高いタスクに変わり、LLMが多段階の推論とナビゲーションプロセスを通じて様々なリポジトリ検索ツールを効果的に活用することを必要とします。この課題に対処するため、我々はToolTrainを提案します。これは、リジェクトサンプリングによる教師ありファインチューニングとツール統合型強化学習を組み合わせた2段階のツール統合型トレーニングフレームワークであり、LLMが検索ツールを活用して課題をローカライズする能力を向上させます。実験結果は、ToolTrainでトレーニングされたモデルが最先端の性能を達成し、我々の32Bモデルが関数レベルのローカライゼーションにおいてClaude-3.7を上回ることを示しています。また、ローカライゼーション性能の向上がエンドツーエンドの課題解決性能の向上につながることも示されています。これは、課題のローカライゼーションのためのトレーニングが、自動化されたソフトウェア開発を改善するための有効かつ実用的な戦略であることをさらに実証しています。

LiveMCPBench: エージェントはMCPツールの海を航海できるか？
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

Aug 3

ByGuozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun

Model Context Protocol（MCP）の急速な発展に伴い、MCPサーバーの数は10,000を超えました。しかし、既存のMCPベンチマークは、単一サーバー設定と少数のツールに限定されており、大規模な実世界シナリオにおけるエージェント能力の効果的な評価を妨げています。この制約に対処するため、我々はLiveMCPBenchを提案します。これは、MCPエコシステムに基づく95の実世界タスクから成る初の包括的なベンチマークであり、多様なサーバーにわたるLLMエージェントの大規模評価を目的としています。大規模MCP環境におけるスケーラブルで再現可能な評価パイプラインを支援するため、我々はLiveMCPToolをキュレーションしました。これは、70のMCPサーバーと527のツールから成る多様で即座に展開可能なコレクションです。さらに、我々はLiveMCPEvalを導入します。これは、動的で時間変動するタスク環境における自動的かつ適応的な評価を可能にするLLM-as-a-Judgeフレームワークであり、人間のレビュアーとの一致率は81%に達します。最後に、我々はMCP Copilot Agentを提案します。これは、動的計画のためにツールをルーティングし、LiveMCPToolスイート全体にわたるAPIインタラクションのためにツールを実行する多段階エージェントです。我々の評価は10の主要モデルをカバーし、最高性能のモデル（Claude-Sonnet-4）は78.95%の成功率を達成しました。しかし、モデル間で大きな性能のばらつきが観察され、いくつかの広く使用されているモデルは、LiveMCPBenchの複雑でツール豊富な環境で低い性能を示しました。全体として、LiveMCPBenchは、現実的でツール豊富な動的MCP環境におけるLLMエージェントのベンチマークのための初の統一フレームワークを提供し、エージェント能力に関するスケーラブルで再現可能な研究のための堅固な基盤を築きます。我々のコードとデータはhttps://icip-cas.github.io/LiveMCPBenchで公開されます。

表現シフト：トークン圧縮とFlashAttentionの統合
Representation Shift: Unifying Token Compression with FlashAttention

Aug 1

ByJoonmyung Choi, Sanghyeok Lee, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim

Transformerは、視覚、言語、およびビデオの分野で顕著な成功を収めてきました。しかし、タスクの複雑さが増すにつれて、モデルの規模が大きくなり、トークン数も増加し、自己注意機構の二次的なコストとGPUメモリアクセスのオーバーヘッドが問題となっています。自己注意機構の計算コストを削減するために、これまでの研究では、冗長または情報量の少ないトークンを削除するトークン圧縮技術が提案されてきました。一方で、FlashAttentionのような融合注意カーネルは、注意マップの構築とそれに関連するHBMへのI/Oを回避することで、メモリオーバーヘッドを軽減するために開発されています。しかし、これにより、注意マップに依存してトークンの重要性を決定するほとんどのトレーニング不要なトークン圧縮手法との互換性が失われています。ここでは、各トークンの表現の変化の程度を測定する、トレーニング不要でモデルに依存しない指標であるRepresentation Shiftを提案します。これにより、注意マップや再トレーニングなしで、トークン圧縮をFlashAttentionとシームレスに統合することが可能になります。さらに、本手法はTransformerを超えてCNNや状態空間モデルにも一般化されます。広範な実験により、Representation ShiftがFlashAttentionと互換性のある効果的なトークン圧縮を可能にし、ビデオテキスト検索とビデオQAにおいてそれぞれ最大5.5%と4.4%の大幅な高速化を実現することが示されています。コードはhttps://github.com/mlvlab/Representation-Shiftで公開されています。

CRINN: 近似最近傍探索のための対比強化学習
CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

Aug 4

ByXiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

近似最近傍探索（ANNS）アルゴリズムは、最近のAIアプリケーション、特に検索拡張生成（RAG）やエージェントベースのLLMアプリケーションにおいて、ますます重要な役割を果たすようになっています。本論文では、ANNSアルゴリズムの新しいパラダイムであるCRINNを提案します。CRINNは、ANNSの最適化を強化学習問題として扱い、実行速度を報酬信号として利用します。このアプローチにより、精度の制約を維持しながら、次第に高速化されるANNS実装を自動生成することが可能になります。実験評価では、CRINNが6つの広く使用されているNNSベンチマークデータセットにおいて有効性を示しています。最先端のオープンソースANNSアルゴリズムと比較した場合、CRINNはそのうち3つ（GIST-960-Euclidean、MNIST-784-Euclidean、GloVe-25-angular）で最高の性能を達成し、2つ（SIFT-128-EuclideanとGloVe-25-angular）では首位を分け合いました。CRINNの成功の意義は、ANNS最適化の範囲をはるかに超えています：強化学習を組み合わせたLLMが、専門知識と労力を要する手動の改良を必要とする高度なアルゴリズム最適化を自動化するための効果的なツールとして機能し得ることを検証しています。コードはhttps://github.com/deepreinforce-ai/CRINNで公開されています。

自己回帰的画像編集における強化学習の可能性
The Promise of RL for Autoregressive Image Editing

Aug 1

BySaba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal

幅広い画像編集タスクにおける性能向上を目指し、私たちは3つの戦略を探求しました：教師ありファインチューニング（SFT）、強化学習（RL）、およびChain-of-Thought（CoT）推論です。これらの要素を一貫したフレームワークで研究するため、テキストと視覚的トークンを統一的に処理する自己回帰型マルチモーダルモデルを採用しました。その結果、大規模なマルチモーダルLLM検証器と組み合わせたRLが最も効果的な戦略であることがわかりました。これを受けて、EARL: Editing with Autoregression and RLをリリースしました。これは強力なRLベースの画像編集モデルであり、はるかに少ないトレーニングデータを使用しながらも、強力なベースラインと比較して多様な編集タスクで競争力のある性能を発揮します。したがって、EARLは画像編集における自己回帰型マルチモーダルモデルの最先端を押し進めています。私たちはコード、トレーニングデータ、およびトレーニング済みモデルをhttps://github.com/mair-lab/EARLで公開しています。

Goedel-Prover-V2: 足場データ合成と自己修正による形式的定理証明のスケーリング
Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

Aug 5

ByYong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin

Goedel-Prover-V2を紹介する。これは、自動定理証明において新たな最先端を確立する一連のオープンソース言語モデルである。標準的な専門家反復と強化学習のパイプラインに基づいて構築された本アプローチは、以下の3つの主要な革新を組み込んでいる：(1) 足場付きデータ合成：モデルがより複雑な定理を習得できるよう、難易度を段階的に上げた合成タスクを生成する。(2) 検証器による自己修正：Leanコンパイラからのフィードバックを活用し、モデルが証明を反復的に修正できるようにする。(3) モデル平均化：トレーニングの後期段階でモデル出力の多様性が低下するのを防ぐため、モデルのチェックポイントを統合する。我々の小型モデル、Goedel-Prover-V2-8Bは、MiniF2Fにおいて84.6%のpass@32を達成し、同じ指標でDeepSeek-Prover-V2-671Bを上回り、そのサイズは80分の1である。我々の主力モデル、Goedel-Prover-V2-32Bは、MiniF2Fにおいて標準モードで88.1%、自己修正モードで90.4%のpass@32を達成し、従来のSOTAを大幅に上回る。さらに、主力モデルはPutnamBenchにおいて184回の試行で86問を解決し、オープンソースモデルのリーダーボードで首位を獲得し、DeepSeek-Prover-V2-671Bが1024回の試行で47問を解決した記録を、大幅に小さいモデルサイズと計算予算で上回った。リリース時（2025年7月～8月）において、Goedel-Prover-V2は全てのオープンソース定理証明器の中で最も強力な総合性能を達成した。また、公開された性能が報告されているクローズドソースシステムを含むトップパフォーマンスモデルの中でも、制約付きテストタイム計算予算下で上位に位置する。我々のモデル、コード、データはhttps://github.com/Goedel-LM/Goedel-Prover-V2で公開されている。

マルチヒューマンインタラクティブ会話データセット
Multi-human Interactive Talking Dataset

Aug 5

ByZeyu Zhu, Weijia Wu, Mike Zheng Shou

既存の会話動画生成に関する研究は、主に単一人物のモノローグや孤立した顔面アニメーションに焦点を当てており、現実的な複数人間の相互作用への適用性が限られていました。このギャップを埋めるため、我々は複数人間の会話動画生成に特化した大規模データセットMITを導入します。この目的のために、複数人物の会話動画を自動的に収集・注釈するパイプラインを開発しました。結果として得られたデータセットは、2人から4人の話者を特徴とする12時間の高解像度映像からなり、身体のポーズや発話相互作用の詳細な注釈が付与されています。これにより、複数話者シナリオにおける自然な会話ダイナミクスを捉え、インタラクティブな視覚的行動を研究するための豊富なリソースを提供します。 MITの可能性を示すため、我々はさらにこの新規タスクのためのベースラインモデルCovOGを提案します。CovOGは、個々のポーズ埋め込みを集約することで可変数の話者を扱うMulti-Human Pose Encoder (MPE)と、話者固有の音声特徴に基づいて頭部の動きを調整するInteractive Audio Driver (IAD)を統合しています。これらのコンポーネントは、現実的な複数人間の会話動画を生成する可能性と課題を示し、MITを将来の研究のための貴重なベンチマークとして確立します。コードはhttps://github.com/showlab/Multi-human-Talking-Video-Datasetで公開されています。

LAMIC：マルチモーダル拡散トランスフォーマーのスケーラビリティによるレイアウト対応マルチイメージ合成
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

Aug 1

ByYuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang

制御可能な画像合成において、空間的レイアウトを意識した複数の参照画像から一貫性のある画像を生成することは、依然として未解決の課題である。本論文では、LAMIC（Layout-Aware Multi-Image Composition）フレームワークを提案する。LAMICは、初めて単一参照の拡散モデルをトレーニング不要な形で複数参照シナリオに拡張するものである。MMDiTモデルを基盤として、LAMICは2つのプラグアンドプレイ型の注意機構を導入している：1）エンティティの分離を強化するためのグループ分離注意（Group Isolation Attention, GIA）、および2）レイアウトを意識した生成を可能にする領域変調注意（Region-Modulated Attention, RMA）である。モデルの能力を包括的に評価するため、さらに3つの指標を導入した：1）レイアウト制御を評価するための包含率（Inclusion Ratio, IN-R）と充填率（Fill Ratio, FI-R）、および2）背景の一貫性を測定するための背景類似度（Background Similarity, BG-S）である。大規模な実験により、LAMICは主要な指標のほとんどで最先端の性能を達成することが示された：すべての設定において、既存の複数参照ベースラインをID-S、BG-S、IN-R、およびAVGスコアで一貫して上回り、複雑な合成タスクでは最高のDPGを達成した。これらの結果は、LAMICがトレーニングやファインチューニングを一切行わずに、アイデンティティの保持、背景の保存、レイアウト制御、およびプロンプト追従において優れた能力を発揮することを示しており、強力なゼロショット汎化能力を実証している。先進的な単一参照モデルの強みを継承し、複数画像シナリオへのシームレスな拡張を可能にすることで、LAMICは制御可能な複数画像合成のための新しいトレーニング不要なパラダイムを確立した。基盤モデルの進化に伴い、LAMICの性能もそれに応じてスケールすることが期待される。実装はhttps://github.com/Suchenl/LAMICで公開されている。

ChartCap: 高密度チャートキャプション生成における幻覚の軽減
ChartCap: Mitigating Hallucination of Dense Chart Captioning

Aug 5

ByJunyoung Lim, Jaewoo Ahn, Gunhee Kim

正確で情報量が多く、幻覚的要素のないチャートのキャプションを生成することは、視覚言語モデルにとって依然として課題であり、その主な理由は大規模で高品質な実世界のチャートデータセットの不足にある。しかし、既存の実世界のチャートデータセットは、チャートから推測できない余分な情報を含んでいたり、構造的要素や重要な洞察を十分に捉えられていないという問題を抱えている。そこで、本論文ではChartCapを紹介する。これは56万5千枚の実世界のチャート画像と、余分な情報を排除し、構造的要素と重要な洞察を詳細に強調したタイプ固有の密なキャプションをペアにした大規模データセットである。ChartCapを構築するために、チャートから識別可能なデータのみを使用してキャプションを生成する4段階のパイプラインを設計し、サイクル一貫性に基づく人間による検証を採用することで、精度を犠牲にすることなく品質管理を加速した。さらに、参照キャプションに依存せず、キャプションから再生成されたチャートと元のチャートの類似性を測定することでキャプションの品質を評価する新しい指標、Visual Consistency Scoreを提案する。大規模な実験により、ChartCapでファインチューニングされたモデルは、オープンソースおよびプロプライエタリモデルを上回り、人間による注釈付きキャプションさえも凌駕する、より正確で情報量が多く、幻覚的要素の少ないキャプションを一貫して生成することが確認された。

HyCodePolicy: マルチモーダル監視と意思決定のためのハイブリッド言語コントローラを備えたエンボディードエージェント
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

Aug 4

ByYibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

マルチモーダル大規模言語モデル（MLLMs）の最近の進展により、エンボディドエージェントにおけるコードポリシー生成のためのより豊かな知覚的基盤が可能となった。しかし、既存のシステムの多くは、タスク完了中にポリシー実行を適応的に監視し、コードを修復する効果的なメカニズムを欠いている。本研究では、HyCodePolicyを紹介する。これは、コード合成、幾何学的基盤、知覚的監視、および反復的修復をエンボディドエージェントのための閉ループプログラミングサイクルに体系的に統合するハイブリッド言語ベースの制御フレームワークである。技術的には、自然言語の指示が与えられると、本システムはまずそれをサブゴールに分解し、オブジェクト中心の幾何学的プリミティブに基づいた初期の実行可能プログラムを生成する。次に、プログラムはシミュレーション内で実行され、視覚言語モデル（VLM）が選択されたチェックポイントを観察して実行失敗を検出し、その位置を特定し、失敗の原因を推論する。プログラムレベルのイベントを捕捉する構造化された実行トレースとVLMベースの知覚的フィードバックを融合させることで、HyCodePolicyは失敗の原因を推論し、プログラムを修復する。このハイブリッドな二重フィードバックメカニズムにより、最小限の人間の監督で自己修正型のプログラム合成が可能となる。我々の結果は、HyCodePolicyがロボット操作ポリシーの堅牢性とサンプル効率を大幅に向上させ、マルチモーダル推論を自律的意思決定パイプラインに統合するためのスケーラブルな戦略を提供することを示している。

UniEgoMotion: エゴセントリックな運動の再構築、予測、生成のための統合モデル
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation

Aug 2

ByChaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli

エゴセントリックな人間の動作生成と予測は、AR/VR体験の向上、人間とロボットのインタラクションの改善、支援技術の進展、そして一人称視点からの正確な動作予測とシミュレーションを通じた適応型医療ソリューションの実現において重要である。しかし、既存の手法は主に構造化された3Dシーンコンテキストを用いた三人称視点の動作合成に焦点を当てており、視野の制限、頻繁な遮蔽、動的なカメラによるシーン認識の困難さが生じる現実世界のエゴセントリックな環境ではその効果が限られている。このギャップを埋めるため、我々はエゴセントリックな動作生成とエゴセントリックな動作予測という二つの新たなタスクを提案し、明示的な3Dシーンに依存せずに一人称画像を用いたシーン認識型の動作合成を実現する。我々は、エゴセントリックデバイスに特化した新しい頭部中心の動作表現を備えた統一的な条件付き動作拡散モデルであるUniEgoMotionを提案する。UniEgoMotionのシンプルでありながら効果的な設計は、一人称視覚入力を基にしたエゴセントリックな動作再構築、予測、生成を統一的なフレームワークでサポートする。従来の研究がシーンセマンティクスを軽視していたのに対し、我々のモデルは画像ベースのシーンコンテキストを効果的に抽出し、妥当な3D動作を推論する。トレーニングを容易にするため、我々はEgoExo4Dから派生した大規模データセットEE4D-Motionを導入し、疑似グラウンドトゥルースの3D動作アノテーションを追加した。UniEgoMotionはエゴセントリックな動作再構築において最先端の性能を達成し、単一のエゴセントリック画像から動作を生成する初めてのモデルである。広範な評価により、我々の統一フレームワークの有効性が実証され、エゴセントリックな動作モデリングの新たなベンチマークを設定し、エゴセントリックアプリケーションの新たな可能性を切り開いた。

あなたのAIエージェントは何を購入しているのか？エージェント型Eコマースの評価、影響、および新たな課題
What Is Your AI Agent Buying? Evaluation, Implications and Emerging Questions for Agentic E-Commerce

Aug 4

ByAmine Allouah, Omar Besbes, Josué D Figueroa, Yash Kanoria, Akshit Kumar

オンラインマーケットプレイスは、消費者に代わって行動する自律型AIエージェントによって変革されるでしょう。人間がブラウジングやクリックを行う代わりに、視覚言語モデル（VLM）エージェントがウェブページを解析し、製品を評価し、取引を行うことができます。これにより、根本的な疑問が浮かび上がります：AIエージェントは何を購入し、なぜ購入するのか？この疑問を研究するために、プラットフォームに依存しないVLMエージェントと完全にプログラム可能な模擬マーケットプレイスを組み合わせたACESというサンドボックス環境を開発しました。まず、単純なタスクの文脈で基本的な合理性チェックを行い、次に、製品の位置、価格、評価、レビュー、スポンサータグ、プラットフォームの推奨をランダム化することで、最先端のVLMが実際にどのようにショッピングを行うかの因果的推定を得ます。モデルは強力だが異質な位置効果を示します：すべてのモデルが最上段を好む一方で、異なるモデルが異なる列を好むため、普遍的な「トップ」ランクという仮定が崩れます。スポンサータグをペナルティとし、推奨を報酬とします。価格、評価、レビューに対する感応度は方向性において人間に似ていますが、モデル間でその大きさが大きく異なります。売り手がAIエージェントを使用して製品リストを最適化するシナリオに動機づけられ、AI買い手の好みをターゲットにした製品説明の微調整を行う売り手側エージェントが、AIを介したショッピングが主流となる場合に大きな市場シェアの向上をもたらすことを示します。また、モデル間でモーダルな製品選択が異なる場合があり、場合によっては需要が少数の選択された製品に集中する可能性があり、競争に関する疑問を提起します。全体として、私たちの結果は、AIエージェントがeコマース設定でどのように振る舞うかを明らかにし、AIを介したエコシステムにおける具体的な売り手戦略、プラットフォーム設計、規制上の疑問を浮き彫りにします。

マルチモーダル大規模言語モデルを用いた双方向尤度推定によるテキスト-ビデオ検索
Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval

Jul 31

ByDohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim

テキスト-ビデオ検索（Text-Video Retrieval）は、大規模なオンラインデータベースから、ビデオ（またはテキスト）クエリに対して最も関連性の高いテキスト（またはビデオ）候補を見つけることを目的としています。最近の研究では、マルチモーダル大規模言語モデル（MLLMs）を活用して検索性能を向上させることが試みられており、特に長いまたは複雑なクエリ-候補ペアに対して効果を発揮しています。しかし、MLLMsを単純に適用する方法、すなわち候補の尤度に基づく検索では、候補の事前確率バイアスが導入され、クエリに対してより関連性の高い候補よりも、本質的に事前確率が高い候補が優先される傾向があります。この問題に対処するため、我々は新しい検索フレームワークである「Bidirectional Likelihood Estimation with MLLM（BLiM）」を提案します。BLiMは、与えられたビデオからテキストを生成するだけでなく、与えられたテキストからビデオ特徴を生成するようにモデルを訓練することで、クエリと候補の両方の尤度を活用します。さらに、候補の事前確率バイアスを軽減するために、訓練不要のスコアキャリブレーションモジュールである「Candidate Prior Normalization（CPN）」を導入します。4つのテキスト-ビデオ検索ベンチマークにおいて、CPNを搭載したBLiMは、従来の最先端モデルを平均6.4 R@1で上回り、候補の事前確率バイアスを効果的に軽減し、クエリ-候補の関連性を強調します。検索を超えた様々なマルチモーダルタスクにわたる詳細な分析を通じて、CPNがテキストの事前確率への依存を減らすことで視覚的理解を向上させる広範な適用可能性を明らかにしました。コードはhttps://github.com/mlvlab/BLiMで公開されています。

TreeRanker: IDEにおけるコード提案のための高速かつモデル非依存なランキングシステム
TreeRanker: Fast and Model-agnostic Ranking System for Code Suggestions in IDEs

Aug 4

ByDaniele Cipollone, Egor Bogomolov, Arie van Deursen, Maliheh Izadi

トークンレベルのコード補完は、現代の統合開発環境（IDE）において最も重要な機能の一つである。これは、開発者がコーディング中に関連する識別子やAPIを提案することで支援する。補完は通常、静的解析に基づいて行われるが、その有用性はランキングの方法に大きく依存する。なぜなら、リストの深部に埋もれた正しい予測は、ユーザーにほとんど見られることがないからである。現在のほとんどのシステムは、手作りのヒューリスティックやユーザーログに基づいて訓練された軽量な機械学習モデルに依存しており、これらはコンテキスト情報を捕捉し、プロジェクトやコーディングスタイルを越えて一般化するためにさらに改善される余地がある。本研究では、言語モデルを使用して静的補完をランキングする新しいスコアリング手法を提案する。この手法は、軽量でモデルに依存しない方法で行われる。我々の方法は、すべての有効な補完をプレフィックスツリーに整理し、単一の貪欲デコーディングパスを実行してツリー全体のトークンレベルのスコアを収集する。これにより、ビームサーチ、プロンプトエンジニアリング、またはモデルの適応を必要とせずに、正確なトークン認識ランキングが可能となる。このアプローチは高速で、アーキテクチャに依存せず、既に展開されているコード補完モデルと互換性がある。これらの発見は、言語モデルをIDE内の既存ツールに統合し、最終的によりスマートで応答性の高い開発者支援を提供するための実践的で効果的な道筋を示している。

AttnTrace: 長文脈LLMのためのアテンションベース文脈トレースバック
AttnTrace: Attention-based Context Traceback for Long-Context LLMs

Aug 5

ByYanting Wang, Runpeng Geng, Ying Chen, Jinyuan Jia

Gemini-2.5-ProやClaude-Sonnet-4などの長文脈対応大規模言語モデル（LLM）は、検索拡張生成（RAG）パイプラインや自律エージェントを含む高度なAIシステムを強化するためにますます利用されています。これらのシステムでは、LLMは指示とともに、しばしば知識データベースやメモリから取得されたテキストで構成される文脈を受け取り、その指示に従って文脈に基づいた応答を生成します。最近の研究では、LLMが生成した応答に最も寄与する文脈内のテキストのサブセットを追跡するための解決策が設計されています。これらの解決策は、攻撃後のフォレンジック分析の実行や、LLM出力の解釈可能性と信頼性の向上など、多くの実世界の応用があります。しかし、最先端の解決策であるTracLLMなどは、高い計算コストを伴うことが多く、例えばTracLLMは単一の応答-文脈ペアの追跡に数百秒を要します。本研究では、LLMがプロンプトに対して生成するアテンションウェイトに基づいた新しい文脈追跡手法であるAttnTraceを提案します。AttnTraceの効果を高めるために、2つの技術を導入し、設計選択に対する理論的洞察を提供します。また、AttnTraceの体系的な評価を行い、その結果、AttnTraceが既存の最先端の文脈追跡手法よりも正確で効率的であることを示します。さらに、AttnTraceが長文脈下でのプロンプトインジェクションの検出において、属性付け-検出パラダイムを通じて最先端の手法を改善できることも示します。実世界の応用例として、AttnTraceがLLM生成レビューを操作するために設計された論文内に注入された指示を効果的に特定できることを実証します。コードはhttps://github.com/Wang-Yanting/AttnTraceにあります。

AlignGuard-LoRA: フィッシャー情報量に基づく分解とリーマン幾何学的測地線衝突正則化による整合性保持ファインチューニング
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

Aug 4

ByAmitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha

低ランク適応（LoRA）は、大規模言語モデル（LLM）の効率的なファインチューニングにおける標準的なツールとなっています。しかし、わずかなLoRAの更新でも、絡み合ったパラメータ変化を通じてアライメントのずれを引き起こし、安全性や行動制約を弱める可能性があります。この問題に対処するため、我々はAlignGuard-LoRA（AGL）を提案します。AGLは、ファインチューニング中にアライメントを維持するための原則に基づいたフレームワークです。AGLは、いくつかの主要なコンポーネントを導入しています：監督のための主要タスク損失、アライメントに敏感な部分空間での更新を制限するためのフィッシャー情報行列に基づく正則化、および新しい知識の統合を安定化するためのタスク固有の正則化です。さらに、衝突を意識した正則化を導入し、座標ごとの干渉を罰するリーマン重なりと、互いに独立した更新幾何学を促進する測地的分離を組み合わせています。我々は、アライメントのずれと安全性の低下を定量化するために設計された、安全および不安全なプロンプトを対象とした診断ベンチマークであるDriftCapsを策定しました。実証評価により、AGLが安全性が重要なベンチマークにおいてアライメントのずれを最大50％軽減し、下流タスクの性能を低下させないことが示されています。包括的なアブレーション研究により、各コンポーネントが潜在的な安全行動を維持するために独自に貢献していることが確認されました。最後に、我々は破滅的な忘却のスケーリング則を導出し検証し、AGLが適応ダイナミクスを維持しながらファインチューニング後の損失の急増を平坦化することを明らかにしました。AGLは、LoRAの構造的に基づいた改良であり、最小限のトレードオフでアライメントの維持を保証します。さらなる探求と開発を促進するため、我々は実装をオープンソースとして公開します。

TRACEALIGN ― ドリフトの追跡：LLMにおけるアライメント失敗の原因をトレーニング時の信念源に帰属させる
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

Aug 4

ByAmitava Das, Vinija Jain, Aman Chadha

人間の価値観に沿うようにファインチューニングされた大規模言語モデル（LLMs）は、敵対的なプロンプト、デコードの摂動、または言い換えられたジャイルブレイクにさらされた際に、安全性を欠くまたはポリシーに違反する補完を生成する「アライメントドリフト」を示すことが多い。これまでの研究では、アライメントの失敗を行動的に特徴づけてきたが、これらの失敗の根底にあるトレーニング時の信念の源についてはほとんど知られていない。本研究では、TraceAlignという統一フレームワークを導入し、安全でない補完をモデルのトレーニングコーパスにおける根本原因まで遡る手法を提案する。我々のアプローチの中核となるのは、Belief Conflict Index（BCI）であり、これはサフィックスアレイマッチングを用いて検索されたトレーニング文書に基づき、生成されたスパンとアライメントされたポリシー間の意味的な不整合を定量化するものである。我々は、以下の3つの補完的な介入策を提案する：(i) TraceShield、高BCIスパンを含む補完を拒否する推論時の安全フィルタ、(ii) Contrastive Belief Deconfliction Loss、DPO中に高BCIの継続をペナルティするコントラスティブファインチューニング目的関数、(iii) Prov-Decode、高BCIスパンを生成すると予測されるビーム拡張を拒否するプロベナンスを意識したデコード戦略。これらの防御策を組み合わせることで、我々が作成したAlignment Drift Benchmark（ADB）において、アライメントドリフトを最大85％削減しつつ、標準タスクでの有用性を維持し、デルタを0.2未満に抑え、拒否品質を向上させた。さらに、サフィックスアレイスパン統計を用いて、記憶頻度と長さを敵対的再活性化リスクに関連付けることで、ドリフトの可能性に関する理論的上限を導出した。TraceAlignは、アライメントの失敗を理解し、その源を緩和するための初めてのスケーラブルでトレーサブルかつ根拠に基づいたツールキットを提供する。さらなる探求と開発を促進するため、我々は実装をオープンソースとして公開している：https://anonymous.4open.science/r/tracealign-2DA7