HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

16 papers found

深層推論を伴うエージェンシックRAGに向けて：LLMにおけるRAG推論システムのサーベイ
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs

Jul 13

ByYangning Li, Weizhi Zhang, Yuyao Yang, Wei-Chieh Huang, Yaozu Wu, Junyu Luo, Yuanchen Bei, Henry Peng Zou, Xiao Luo, Yusheng Zhao, Chunkit Chan, Yankai Chen, Zhongfen Deng, Yinghui Li, Hai-Tao Zheng, Dongyuan Li, Renhe Jiang, Ming Zhang, Yangqiu Song, Philip S. Yu

検索拡張生成（RAG）は、外部知識を注入することで大規模言語モデル（LLM）の事実性を向上させるが、多段階の推論を必要とする問題には不十分である。一方、純粋に推論指向のアプローチは、しばしば事実を誤って生成したり、誤った根拠に基づいたりする。本調査では、これら二つの流れを統一的な推論-検索の視点で統合する。まず、高度な推論がRAGの各段階をどのように最適化するかをマッピングする（推論強化型RAG）。次に、異なる種類の検索された知識が、欠落した前提を補い、複雑な推論のための文脈を拡張する方法を示す（RAG強化型推論）。最後に、検索と推論を反復的に交互に行うことで、知識集約型ベンチマークで最先端の性能を達成する（エージェント型）LLMを中心とした新興のシナジーRAG-推論フレームワークに焦点を当てる。本調査では、手法、データセット、未解決の課題を分類し、より効果的で、マルチモーダルに適応可能で、信頼性が高く、人間中心の深層RAG-推論システムに向けた研究の方向性を概説する。コレクションはhttps://github.com/DavidZWZ/Awesome-RAG-Reasoningで公開されている。

PhysX: 物理ベースの3Dアセット生成
PhysX: Physical-Grounded 3D Asset Generation

Jul 16

ByZiang Cao, Zhaoxi Chen, Linag Pan, Ziwei Liu

3Dモデリングは仮想から物理的な領域へと移行しつつある。既存の3D生成技術は主に形状とテクスチャに重点を置き、物理的な基盤に基づくモデリングを軽視してきた。その結果、3D生成モデルの急速な発展にもかかわらず、合成された3Dアセットは豊かで重要な物理的特性を見落としがちで、シミュレーションやエンボディードAIなどの物理的領域での実世界応用を妨げている。この課題に対処するための最初の試みとして、我々は物理的基盤に基づく3Dアセット生成のためのエンドツーエンドのパラダイムであるPhysXを提案する。1) 物理的に注釈付けされた3Dデータセットの重要なギャップを埋めるために、絶対スケール、材質、アフォーダンス、運動学、機能記述という5つの基礎的な次元にわたって体系的に注釈付けされた最初の物理的基盤に基づく3DデータセットであるPhysXNetを提示する。特に、ビジョン言語モデルに基づくスケーラブルな人間参加型注釈パイプラインを考案し、生の3Dアセットから物理ファーストのアセットを効率的に作成することを可能にする。2) さらに、物理的知識を事前学習済みの3D構造空間に注入する、物理的基盤に基づく画像から3Dアセット生成のためのフィードフォワードフレームワークであるPhysXGenを提案する。具体的には、PhysXGenはデュアルブランチアーキテクチャを採用し、3D構造と物理的特性の間の潜在的な相関を明示的にモデル化することで、本来の形状品質を保ちつつも物理的に妥当な予測を持つ3Dアセットを生成する。広範な実験により、我々のフレームワークの優れた性能と有望な汎化能力が検証された。すべてのコード、データ、モデルは、生成物理AIの将来の研究を促進するために公開される。

SWE-Perf: 言語モデルは実世界のリポジトリにおけるコードパフォーマンスを最適化できるか？
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

Jul 16

ByXinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma

コードパフォーマンスの最適化は、実世界のソフトウェア工学において極めて重要であり、プロダクションレベルのシステムにとって不可欠です。大規模言語モデル（LLM）は、コード生成やバグ修正において印象的な能力を発揮していますが、リポジトリレベルでのコードパフォーマンス向上における熟練度は、まだほとんど検証されていません。このギャップを埋めるため、我々はSWE-Perfを導入します。これは、本物のリポジトリコンテキスト内でコードパフォーマンス最適化タスクにおけるLLMを体系的に評価するために特別に設計された初のベンチマークです。SWE-Perfは、人気のあるGitHubリポジトリからのパフォーマンス改善プルリクエストに基づいて厳選された140のインスタンスで構成されています。各ベンチマークインスタンスには、関連するコードベース、ターゲット関数、パフォーマンス関連のテスト、専門家が作成したパッチ、および実行可能な環境が含まれています。ファイルレベルおよびリポジトリレベルのアプローチ（例：AgentlessやOpenHands）を網羅する代表的な手法の包括的な評価を通じて、既存のLLMと専門家レベルの最適化パフォーマンスの間に大きな能力ギャップがあることを明らかにし、この新興分野における重要な研究機会を強調します。

DrafterBench: 土木工学におけるタスク自動化のための大規模言語モデルのベンチマーキング
DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

Jul 15

ByYinsheng Li, Zhen Dong, Yi Shao

大規模言語モデル（LLM）エージェントは、現実世界の問題解決において大きな可能性を示しており、産業界におけるタスク自動化のソリューションとして期待されています。しかし、特に土木工学などの産業的観点から自動化エージェントを体系的に評価するためのベンチマークがさらに必要とされています。そこで我々は、土木工学における表現タスクである技術図面の修正という文脈でLLMエージェントを包括的に評価するためのDrafterBenchを提案します。DrafterBenchは、実世界の図面ファイルからまとめられた12種類のタスク、46のカスタマイズされた関数/ツール、合計1920のタスクを含んでいます。DrafterBenchはオープンソースのベンチマークであり、複雑で長文脈の指示を解釈する能力、事前知識の活用、暗黙的なポリシー認識を通じた動的な指示品質への適応といったAIエージェントの熟練度を厳密にテストすることを目的としています。このツールキットは、構造化データの理解、関数の実行、指示の遵守、批判的推論といった異なる能力を包括的に評価します。DrafterBenchは、タスクの精度とエラー統計の詳細な分析を提供し、エージェントの能力に対する深い洞察を得るとともに、LLMを工学アプリケーションに統合するための改善目標を特定することを目指しています。我々のベンチマークはhttps://github.com/Eason-Li-AIS/DrafterBenchで公開されており、テストセットはhttps://huggingface.co/datasets/Eason666/DrafterBenchでホストされています。

Seq vs Seq: ペア型エンコーダーとデコーダーのオープンスイート
Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Jul 15

ByOrion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme

大規模言語モデル（LLM）コミュニティは、テキスト生成に使いやすいデコーダのみの言語モデルにほぼ独占的に焦点を当てています。しかし、分類や検索などのタスクでは、依然としてエンコーダのみのモデルを使用するコミュニティの大部分が存在します。これまでの研究では、これらのアーキテクチャを比較しようと試みてきましたが、パラメータ数、トレーニング手法、データセットが異なるモデル間での比較を余儀なくされてきました。本研究では、SOTA（State-of-the-Art）のオープンデータモデルスイート「Ettin」を紹介します。これは、1700万パラメータから10億パラメータまでのエンコーダのみとデコーダのみのモデルをペアで提供し、最大2兆トークンでトレーニングされています。エンコーダのみとデコーダのみのモデルに対して同じレシピを使用することで、それぞれのサイズにおいてSOTAのレシピを実現し、エンコーダとしてModernBERTを、デコーダとしてLlama 3.2とSmolLM2を上回りました。これまでの研究と同様に、エンコーダのみのモデルは分類や検索タスクで優れている一方、デコーダは生成タスクで優れていることがわかりました。しかし、デコーダモデルをエンコーダタスクに適応させる（またはその逆）ための継続トレーニングは、逆の目的のみを使用する場合に比べて劣ることを示しました（例えば、400MのエンコーダはMNLIで1Bのデコーダを上回り、生成タスクではその逆が成立します）。本研究のすべての成果物、トレーニングデータ、チェックポイントごとに分割されたトレーニング順序、および200以上のチェックポイントをオープンソースとして公開し、将来の研究がトレーニングのすべての側面を分析または拡張できるようにしました。

MMHU：人間行動理解のための大規模マルチモーダルベンチマーク
MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding

Jul 16

ByRenjie Li, Ruijie Ye, Mingyang Wu, Hao Frank Yang, Zhiwen Fan, Hezhen Hu, Zhengzhong Tu

人間は交通エコシステムの不可欠な構成要素であり、その行動を理解することは安全な運転システムの開発を促進する上で極めて重要です。近年の進展により、動き、軌跡、意図など人間の行動の様々な側面が探究されてきましたが、自動運転における人間の行動理解を評価するための包括的なベンチマークは未だ存在しません。本研究では、MMHUという大規模な人間行動分析ベンチマークを提案します。これは、人間の動きや軌跡、動きのテキスト記述、人間の意図、運転安全に関連する重要な行動ラベルなど、豊富なアノテーションを特徴としています。私たちのデータセットは、Waymoなどの既存の運転データセット、YouTubeの実世界動画、および独自に収集したデータなど、多様なソースから収集された57,000の人間の動画クリップと173万フレームで構成されています。人間の行動に関する詳細なキャプションを生成するため、人間参加型のアノテーションパイプラインを開発しました。データセットの詳細な分析を提供し、動きの予測から動きの生成、人間の行動に関する質問応答まで、幅広いタスクをベンチマークすることで、包括的な評価スイートを提供します。プロジェクトページ: https://MMHU-Benchmark.github.io

MOSPA: 空間音響に駆動される人間の動作生成
MOSPA: Human Motion Generation Driven by Spatial Audio

Jul 16

ByShuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura

仮想人間が多様な聴覚刺激に対して動的かつリアルに反応することを可能にすることは、キャラクターアニメーションにおける重要な課題であり、知覚モデリングとモーション合成の統合を必要とします。その重要性にもかかわらず、このタスクはまだほとんど未開拓のままです。これまでの研究の多くは、音声、オーディオ、音楽などのモダリティをマッピングして人間のモーションを生成することに焦点を当ててきました。しかし、これらのモデルは通常、空間オーディオ信号にエンコードされた空間的特徴が人間のモーションに与える影響を見落としています。このギャップを埋め、空間オーディオに対する人間の動きの高品質なモデリングを可能にするために、我々は初めての包括的な空間オーディオ駆動人間モーション（SAM）データセットを導入します。このデータセットは、多様で高品質な空間オーディオとモーションデータを含んでいます。ベンチマークのために、我々は空間オーディオ駆動の人間モーション生成のためのシンプルでありながら効果的な拡散ベースの生成フレームワークを開発し、MOSPAと名付けました。MOSPAは、効果的な融合メカニズムを通じて、身体の動きと空間オーディオの関係を忠実に捉えます。一度訓練されると、MOSPAはさまざまな空間オーディオ入力に基づいて多様でリアルな人間のモーションを生成することができます。我々は提案されたデータセットの徹底的な調査を行い、ベンチマークのための広範な実験を実施し、我々の方法がこのタスクにおいて最先端の性能を達成することを示しました。我々のモデルとデータセットは、受理後にオープンソース化されます。詳細については、補足ビデオを参照してください。

SpatialTrackerV2: 3Dポイント追跡を簡単に
SpatialTrackerV2: 3D Point Tracking Made Easy

Jul 16

ByYuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou

本論文では、単眼動画におけるフィードフォワード型3Dポイントトラッキング手法「SpatialTrackerV2」を提案する。従来の3Dトラッキング向けモジュール型パイプラインを超え、ポイントトラッキング、単眼深度推定、カメラポーズ推定の本質的な関連性を統合し、高性能なフィードフォワード型3Dポイントトラッカーを実現した。本手法は、ワールド空間における3D運動をシーン幾何学、カメラの自己運動、ピクセル単位の物体運動に分解し、完全微分可能かつエンドツーエンドのアーキテクチャを採用することで、合成シーケンス、ポーズ付きRGB-D動画、ラベルなし実世界映像など、多様なデータセットにわたるスケーラブルな学習を可能にしている。このような異種データから幾何学と運動を同時に学習することにより、SpatialTrackerV2は既存の3Dトラッキング手法を30%上回る性能を発揮し、主要な動的3D再構成手法と同等の精度を維持しながら50倍高速に動作する。

Lizard: 大規模言語モデルのための効率的な線形化フレームワーク
Lizard: An Efficient Linearization Framework for Large Language Models

Jul 11

ByChien Van Nguyen, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Viet Dac Lai, Haoliang Wang, Jayakumar Subramanian, Ryan A. Rossi, Trung Bui, Nikos Vlassis, Franck Dernoncourt, Thien Huu Nguyen

我々は、事前学習済みTransformerベースの大規模言語モデル（LLM）を、無限コンテキスト生成のための柔軟なサブ二次元アーキテクチャに変換する線形化フレームワーク「Lizard」を提案する。TransformerベースのLLMは、コンテキスト長が増加するにつれて、ソフトマックスアテンションの二次元複雑性と増大するキー・バリュー（KV）キャッシュにより、メモリと計算上のボトルネックに直面する。Lizardは、ソフトマックスアテンションを密接に近似しつつ出力品質を維持するサブ二次元アテンションメカニズムを導入することで、これらの制限に対処する。固定モデル構造に制約される従来の線形化手法とは異なり、Lizardは最新の線形モデルにインスパイアされたゲーティングモジュールを組み込む。これにより、適応的なメモリ制御、定数メモリ推論のサポート、強力な長さ一般化、そしてより柔軟なモデル設計が可能となる。Lizardは、グローバルコンテキスト圧縮のためのゲート付き線形アテンションと、メタメモリで強化されたスライディングウィンドウアテンションを組み合わせ、長距離依存性と細粒度の局所的相互作用の両方を捉えるハイブリッドメカニズムを形成する。さらに、ハードウェアを意識したアルゴリズムを導入し、モデルの学習速度を加速する。大規模な実験により、Lizardは標準的な言語モデリングタスクにおいて教師モデルの性能をほぼロスレスで回復しつつ、従来の線形化手法を大幅に上回ることが示された。5-shot MMLUベンチマークでは、Lizardは先行モデルを18ポイント上回り、連想想起タスクにおいても大幅な改善を示した。

思考をツールの使用に置き換えることで、小規模な言語モデルでも推論が可能になる
Replacing thinking with tool usage enables reasoning in small language models

Jul 7

ByCorrado Rainone, Tim Bakker, Roland Memisevic

近年の進歩により、推論時と学習時の両方で計算リソースをスケールアップする新しい機械学習パラダイムが確立されました。この研究の流れでは、合成デモンストレーションを用いた教師ありファインチューニング（SFT）と検証可能な報酬を用いた強化学習（RLVR）を組み合わせて、大規模言語モデルを訓練し、自然言語で表現される「思考」という形で推論時に追加の計算リソースを消費させます。本論文では、これらのトークンをステートフルなツールとの多段階インタラクショントレースとしてフォーマットすることを提案します。各段階で、ツールの新しい状態がモデルのコンテキストに追加され、モデルはカスタムDSLを介してツールを制御するために必要なトークンを生成します。このアプローチを、誤動作するPythonコードの修復問題でベンチマークし、この制約付きセットアップが経験の高速サンプリングと密度の高い報酬信号を可能にし、最大3Bパラメータのモデルでもタスクに追加の計算リソースを効率的に消費する方法を学習できることを示します。

AnyI2V: モーション制御による任意の条件付き画像のアニメーション化
AnyI2V: Animating Any Conditional Image with Motion Control

Jul 3

ByZiye Li, Hao Luo, Xincheng Shuai, Henghui Ding

最近のビデオ生成技術、特に拡散モデルにおける進展は、テキストからビデオ（T2V）および画像からビデオ（I2V）合成において顕著な進歩をもたらしました。しかし、動的なモーション信号と柔軟な空間的制約を効果的に統合する上で課題が残っています。既存のT2V手法は通常、テキストプロンプトに依存しており、生成されるコンテンツの空間的レイアウトを精密に制御することが本質的に困難です。一方、I2V手法は実画像に依存するため、合成されたコンテンツの編集可能性が制限されています。ControlNetを導入して画像ベースの条件付けを行う手法も存在しますが、明示的なモーション制御が欠如しており、計算コストの高いトレーニングを必要とします。これらの制限を解決するため、我々はAnyI2Vを提案します。これは、ユーザー定義のモーショントラジェクトリを用いて任意の条件付き画像をアニメーション化するトレーニング不要のフレームワークです。AnyI2Vは、ControlNetではサポートされていないメッシュやポイントクラウドなどのデータタイプを含む、より広範なモダリティを条件付き画像としてサポートし、より柔軟で多用途なビデオ生成を可能にします。さらに、混合条件付き入力をサポートし、LoRAやテキストプロンプトを介したスタイル転送と編集を可能にします。大規模な実験により、提案されたAnyI2Vが優れた性能を達成し、空間的およびモーション制御されたビデオ生成において新たな視点を提供することが実証されました。コードはhttps://henghuiding.com/AnyI2V/で公開されています。

GitChameleon: Pythonライブラリのバージョン非互換性に対するAIコード生成の評価
GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities

Jul 16

ByDiganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia

ソフトウェアライブラリの急速な進化は、コード生成において大きな障壁となっており、頻繁なバージョン更新に継続的に適応しながら、後方互換性を維持する必要があります。既存のコード進化ベンチマークは貴重な洞察を提供しますが、特定のライブラリバージョンに準拠したコード生成のための実行ベースの評価を欠いていることが一般的です。この問題に対処するため、私たちはGitChameleonを紹介します。これは、特定のライブラリバージョンに条件付けされた328のPythonコード補完問題から成る、注意深くキュレーションされた新しいデータセットであり、各問題には実行可能なユニットテストが付属しています。GitChameleonは、現代の大規模言語モデル（LLMs）、LLMを活用したエージェント、コードアシスタント、およびRAGシステムが、実行を通じて機能的な正確性を示すバージョン条件付きコード生成を行う能力を厳密に評価します。私たちの広範な評価は、最先端のシステムがこのタスクに大きな課題を抱えていることを示しています。企業モデルは48-51％の範囲でベースラインの成功率を達成しており、この問題の複雑さを浮き彫りにしています。コードライブラリの動的な性質を強調する実行ベースのベンチマークを提供することで、GitChameleonはこの課題をより明確に理解し、より適応性があり信頼性の高いAIコード生成手法の開発を導くのに役立ちます。データセットと評価コードは、https://github.com/mrcabbage972/GitChameleonBenchmark で公開されています。

RLEP: 大規模言語モデル推論のための経験再生を活用した強化学習
RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

Jul 10

ByHongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou

大規模言語モデルのための強化学習（RL）はエネルギー集約的な取り組みであり、訓練が不安定になる可能性があり、ポリシーが事前学習された重みから徐々に逸脱する可能性があります。本論文では、RLEP（Reinforcement Learning with Experience rePlay）を提案します。これは、検証済みの軌跡を最初に収集し、その後の訓練中にそれらを再生する2段階のフレームワークです。各更新ステップで、新しく生成されたロールアウトとこれらの再生された成功例を組み合わせたミニバッチに対してポリシーを最適化します。高品質な例を再生することで、RLEPはモデルを無駄な探索から遠ざけ、有望な推論パスに学習を集中させ、より速い収束とより強力な最終性能を実現します。Qwen2.5-Math-7Bベースモデルにおいて、RLEPは大幅に少ない更新回数でベースラインのピーク精度に到達し、最終的にはそれを上回り、AIME-2024では38.2%から39.9%、AIME-2025では19.8%から22.3%、AMC-2023では77.0%から82.2%に精度を向上させました。再現性とさらなる研究を促進するため、コード、データセット、チェックポイントをhttps://github.com/Kwai-Klear/RLEPで公開しています。

CheckThat! 2025のAIウィザード：ニュース記事の主観性検出におけるTransformerベースの埋め込みと感情分析の強化
AI Wizards at CheckThat! 2025: Enhancing Transformer-Based Embeddings with Sentiment for Subjectivity Detection in News Articles

Jul 15

ByMatteo Fasulo, Luca Babboni, Luca Tedeschini

本論文は、CLEF 2025 CheckThat! LabのTask 1「ニュース記事における主観性検出」におけるAI Wizardsの参加を報告する。このタスクでは、単一言語、多言語、およびゼロショット設定において、文を主観的/客観的に分類する。アラビア語、ドイツ語、英語、イタリア語、ブルガリア語のトレーニング/開発データセットが提供され、最終評価では一般化能力を評価するために、ギリシャ語、ルーマニア語、ポーランド語、ウクライナ語などの未見の言語が追加された。我々の主要な戦略は、補助モデルから導出された感情スコアを文表現と統合することで、トランスフォーマーベースの分類器を強化し、標準的なファインチューニングを改善することを目指した。この感情強化アーキテクチャを、mDeBERTaV3-base、ModernBERT-base（英語）、およびLlama3.2-1Bで探索した。言語間で普遍的なクラス不均衡に対処するため、開発セットで最適化された決定閾値キャリブレーションを採用した。実験結果は、感情特徴の統合が性能、特に主観的F1スコアを大幅に向上させることを示している。このフレームワークにより、特にギリシャ語で1位（Macro F1 = 0.51）という高い順位を獲得した。

（ほぼ）自由なモダリティ接続による基盤モデルの統合
(Almost) Free Modality Stitching of Foundation Models

Jul 14

ByJaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto

基盤マルチモーダルモデルは、複数の既存の事前学習済みユニモーダルモデルを組み合わせて設計されることが多い。例えば、画像分類器とテキストモデルを組み合わせる場合などである。この組み合わせプロセスは、これらのユニモーダルモデルの表現空間をマルチモーダル目的に合わせるためのコネクタモジュールを訓練することで行われる。しかし、大規模なウェブベースのデータセット上でこのようなコネクタを訓練する複雑さと、利用可能な事前学習済みユニモーダルモデルの数が増え続けていることを考えると、ユニモーダルモデルの選択とそれに続くコネクタモジュールの訓練は計算量が非常に大きくなる。この未解決の重要な問題に対処するため、我々はハイパーネットワークを活用した最適なユニモーダルモデル選択とコネクタ訓練のための新たなオールインワンソリューションであるHypernetwork Model Alignment (Hyma)を提案する。具体的には、我々のフレームワークはハイパーネットワークのパラメータ予測能力を利用して、N×Mのユニモーダルモデルの組み合わせに対して共同で訓練されたコネクタモジュールを取得する。実験では、Hymaは最適なユニモーダルモデルのペアを探索するコストを10分の1に削減し、多様なマルチモーダルベンチマークスイートにおけるグリッドサーチで得られたランキングと訓練済みコネクタの性能に匹敵する結果を示した。

MST-Distill：クロスモーダル知識蒸留のための専門化教師モデルの混合
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation

Jul 9

ByHui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang

知識蒸留は効率的な知識転送技術として、単一モダリティのシナリオで顕著な成功を収めてきました。しかし、クロスモーダル設定では、従来の蒸留手法はデータと統計的な異質性により重大な課題に直面し、クロスモーダル教師モデルに埋め込まれた補完的な事前知識を活用することができません。本論文では、既存のアプローチにおける2つの重要な問題、すなわち蒸留パスの選択と知識のドリフトを実証的に明らかにします。これらの制限を解決するため、我々はMST-Distillという新しいクロスモーダル知識蒸留フレームワークを提案します。このアプローチでは、クロスモーダルおよびマルチモーダル設定にわたる多様な教師モデルのアンサンブルを採用し、適応的かつ動的な蒸留を促進するインスタンスレベルルーティングネットワークと統合します。このアーキテクチャは、単調で静的な教師モデルに依存する従来の手法の制約を効果的に超越します。さらに、モダリティ固有の不一致を抑制し、教師表現を再構築するために独立して訓練されるプラグインマスキングモジュールを導入し、知識のドリフトを軽減し転送効果を向上させます。視覚、音声、テキストにわたる5つの多様なマルチモーダルデータセットでの広範な実験により、我々の手法がクロスモーダル蒸留タスクにおいて既存の最先端知識蒸留手法を大幅に上回ることを実証しました。ソースコードはhttps://github.com/Gray-OREO/MST-Distillで公開されています。

MOSPA: 空間音響に駆動される人間の動作生成
MOSPA: Human Motion Generation Driven by Spatial Audio

Jul 16

ByShuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura