AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

ブロック拡散：自己回帰モデルと拡散言語モデルの間の補間
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Mar 12

ByMarianne Arriola, Aaron Gokaslan, Justin T Chiu, Zhihan Yang, Zhixuan Qi, Jiaqi Han, Subham Sekhar Sahoo, Volodymyr Kuleshov

拡散言語モデルは、並列生成と制御性の可能性から自己回帰モデルに対して独自の利点を提供しますが、尤度モデリングにおいては遅れをとり、固定長の生成に制限されています。本研究では、離散的なノイズ除去拡散モデルと自己回帰モデルの間を補間するブロック拡散言語モデルのクラスを紹介します。ブロック拡散は、柔軟な長さの生成をサポートし、KVキャッシュと並列トークンサンプリングによる推論効率を向上させることで、両アプローチの主要な制限を克服します。我々は、効率的な訓練アルゴリズム、勾配分散の推定器、分散を最小化するデータ駆動型ノイズスケジュールを含む、効果的なブロック拡散モデルを構築するためのレシピを提案します。ブロック拡散は、言語モデリングベンチマークにおいて拡散モデルの中で新たな最先端の性能を確立し、任意の長さのシーケンスの生成を可能にします。プロジェクトページ（https://m-arriola.com/bd3lms/）にて、コード、モデル重み、ブログ記事を提供しています。

TPDiff：時間ピラミッド型ビデオ拡散モデル
TPDiff: Temporal Pyramid Video Diffusion Model

Mar 12

ByLingmin Ran, Mike Zheng Shou

ビデオ拡散モデルの開発において、重要な課題が明らかになりました：それは膨大な計算リソースの必要性です。この課題を緩和するため、我々は拡散の逆過程が本質的にエントロピーを減少させる性質を持つことに着目しました。ビデオモダリティにおけるフレーム間の冗長性を考慮すると、高エントロピー段階で完全なフレームレートを維持する必要はありません。この洞察に基づき、我々はTPDiffという統一フレームワークを提案します。これはトレーニングと推論の効率を向上させるものです。拡散プロセスを複数の段階に分割し、最終段階のみで完全なフレームレートを扱うことで、計算効率を最適化します。多段階拡散モデルをトレーニングするため、我々は専用のトレーニングフレームワークを導入しました：段階的拡散です。整列されたデータとノイズの下で分割された確率流常微分方程式（ODE）を解くことで、このトレーニング戦略は様々な拡散形式に適用可能であり、さらにトレーニング効率を向上させます。包括的な実験的評価により、本手法の汎用性が検証され、トレーニングコストの50%削減と推論効率の1.5倍向上が実証されました。

Search-R1: 強化学習を用いて大規模言語モデルに推論と検索エンジンの活用を訓練する
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Mar 12

ByBowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han

大規模言語モデル（LLM）において、効果的な推論とテキスト生成を行うためには、外部知識や最新情報を効率的に取得することが不可欠です。検索エンジンをツールとして扱う検索拡張やツール使用トレーニングのアプローチでは、複雑なマルチターン検索の柔軟性が欠けているか、大規模な教師付きデータを必要とします。推論中に検索エンジンを使用するよう高度な推論能力を持つLLMをプロンプトすることは最適ではなく、LLMが検索エンジンと最適に相互作用する方法を学習しないためです。本論文では、DeepSeek-R1モデルの拡張であるSearch-R1を紹介します。Search-R1では、LLMが強化学習（RL）のみを通じて、段階的な推論中にリアルタイム検索を行いながら（複数の）検索クエリを自律的に生成することを学習します。Search-R1は、マルチターン検索相互作用を活用してLLMのロールアウトを最適化し、安定したRLトレーニングのための検索されたトークンのマスキングとシンプルな結果ベースの報酬関数を利用します。7つの質問応答データセットでの実験により、Search-R1はSOTAベースラインに対して、Qwen2.5-7Bで26%、Qwen2.5-3Bで21%、LLaMA3.2-3Bで10%の性能向上を示しました。本論文ではさらに、RL最適化手法、LLMの選択、および検索拡張推論における応答長のダイナミクスに関する実証的な洞察を提供します。コードとモデルチェックポイントはhttps://github.com/PeterGriffinJin/Search-R1で公開されています。

モーション・エニシング：任意からモーション生成へ
Motion Anything: Any to Motion Generation

Mar 10

ByZeyu Zhang, Yiran Wang, Wei Mao, Danning Li, Rui Zhao, Biao Wu, Zirui Song, Bohan Zhuang, Ian Reid, Richard Hartley

条件付きモーション生成はコンピュータビジョン分野で広く研究されてきたが、依然として2つの重要な課題が残されている。第一に、マスク付き自己回帰モデルが最近拡散ベースのアプローチを上回る成果を上げているものの、既存のマスキングモデルには与えられた条件に基づいて動的なフレームや身体部位を優先するメカニズムが欠けている。第二に、異なる条件付けモダリティに対する既存の手法は、複数のモダリティを効果的に統合することができず、生成されるモーションの制御性と一貫性が制限されている。これらの課題に対処するため、我々はMotion Anythingを提案する。これは、Attentionベースのマスクモデリングアプローチを導入したマルチモーダルモーション生成フレームワークであり、キーフレームやアクションに対するきめ細かい空間的・時間的制御を可能にする。本モデルはテキストや音楽を含むマルチモーダル条件を適応的にエンコードし、制御性を向上させる。さらに、テキスト、音楽、ダンスの2,153ペアからなる新しいモーションデータセットText-Music-Dance (TMD)を導入し、AIST++の2倍の規模を実現することで、コミュニティにおける重要なギャップを埋める。大規模な実験により、Motion Anythingが複数のベンチマークで最先端の手法を上回り、HumanML3DではFIDで15%の改善を達成し、AIST++とTMDでも一貫した性能向上を示すことが実証された。プロジェクトウェブサイトはhttps://steve-zeyu-zhang.github.io/MotionAnythingを参照。

Reangle-A-Video: 4Dビデオ生成をビデオ間翻訳として実現
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

Mar 12

ByHyeonho Jeong, Suhyeon Lee, Jong Chul Ye

Reangle-A-Videoを紹介します。これは、単一の入力ビデオから同期したマルチビュービデオを生成するための統一フレームワークです。大規模な4Dデータセットでマルチビュービデオ拡散モデルを訓練する主流のアプローチとは異なり、本手法はマルチビュービデオ生成タスクをビデオ間変換として再定義し、公開されている画像およびビデオ拡散事前知識を活用します。本質的に、Reangle-A-Videoは2つの段階で動作します。(1) マルチビュー運動学習: 画像からビデオへの拡散トランスフォーマーを自己教師あり方式で同期して微調整し、ワープされたビデオセットからビュー不変の運動を抽出します。(2) マルチビュー整合性のある画像間変換: 入力ビデオの最初のフレームをワープし、DUSt3Rを使用した推論時のクロスビュー整合性ガイダンスの下でさまざまなカメラ視点にインペイントし、マルチビュー整合性のある開始画像を生成します。静的ビュー転送および動的カメラ制御に関する広範な実験により、Reangle-A-Videoが既存の手法を凌駕し、マルチビュービデオ生成の新たなソリューションを確立することが示されました。コードとデータを公開予定です。プロジェクトページ: https://hyeonho99.github.io/reangle-a-video/

GTR: ガイド付き思考強化によるRLベースVLMエージェント訓練における思考崩壊の防止
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Mar 11

ByTong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye

検証可能な結果報酬を用いた強化学習（RLVR）は、大規模言語モデル（LLM）における連鎖的思考（CoT）推論のスケールアップに効果的である。しかし、視覚環境における目標指向の行動推論を行うための視覚言語モデル（VLM）エージェントの訓練における有効性は、まだ十分に確立されていない。本研究では、24点ゲームなどの複雑なカードゲームやALFWorldの具現化タスクを通じて、この問題を詳細に調査する。報酬が行動結果のみに基づいている場合、RLはVLMにおけるCoT推論を促進するのではなく、思考の多様性が急速に失われる「思考崩壊」と呼ばれる現象を引き起こすことがわかった。この現象は、状態に関連しない不完全な推論とそれに続く無効な行動を特徴とし、結果として負の報酬をもたらす。思考崩壊に対抗するため、プロセスガイダンスの必要性を強調し、各RLステップでエージェントの推論を評価・改善する自動修正器を提案する。このシンプルでスケーラブルなGTR（Guided Thought Reinforcement）フレームワークは、ステップごとの高密度な人間によるラベル付けを必要とせずに、推論と行動を同時に訓練する。実験結果は、GTRがLLaVA-7bモデルの性能と一般化能力を様々な視覚環境において大幅に向上させ、モデルサイズが著しく小さいにもかかわらず、SoTAモデルと比較して3～5倍高いタスク成功率を達成することを示している。

より多くの文書、同じ長さ：RAGにおける複数文書の課題の分離
More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

Mar 6

ByShahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky

検索拡張生成（RAG）は、大規模言語モデル（LLM）に関連文書を提供します。これまでの研究では、多くの文書を取得すると性能が低下する可能性が指摘されていましたが、文脈の長さを制御しながら文書の量が性能にどのように影響するかは明確にされていませんでした。私たちは、マルチホップQAタスクから派生したカスタムデータセットを用いて、さまざまな言語モデルを評価しました。文脈の長さと関連情報の位置を一定に保ちながら文書の数を変化させた結果、RAG設定で文書数を増やすことがLLMにとって大きな課題となることがわかりました。さらに、複数の文書を処理することは、長い文脈を扱うこととは別の課題であることも示唆されています。私たちは、データセットとコードも公開しています：https://github.com/shaharl6000/MoreDocsSameLen。

RewardSDS: 報酬重み付きサンプリングによるスコア蒸留のアラインメント
RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

Mar 12

ByItay Chachy, Guy Yariv, Sagie Benaim

スコア蒸留サンプリング（SDS）は、テキストから3D生成などのタスクにおいて2D拡散事前分布を活用する効果的な技術として登場しました。しかし、SDSはユーザーの意図に細かく一致させることに苦戦しています。これを克服するため、我々はRewardSDSを提案します。これは、報酬モデルからの整合性スコアに基づいてノイズサンプルを重み付けし、重み付きSDS損失を生成する新しいアプローチです。この損失は、整合性の高い高報酬出力をもたらすノイズサンプルからの勾配を優先します。我々のアプローチは広く適用可能であり、SDSベースの手法を拡張することができます。特に、RewardVSDを導入することで、変分スコア蒸留（VSD）への適用性を示します。RewardSDSとRewardVSDをテキストから画像生成、2D編集、テキストから3D生成のタスクで評価し、生成品質と所望の報酬モデルへの整合性を測定する多様な指標において、SDSとVSDを大幅に上回る改善を示し、最先端の性能を実現しました。プロジェクトページはhttps://itaychachy.github.io/reward-sds/で公開されています。

自己学習型自己修正による小型言語モデルの改善
Self-Taught Self-Correction for Small Language Models

Mar 11

ByViktor Moskvoretskii, Chris Biemann, Irina Nikishina

大規模言語モデル（LLM）は様々なタスクで顕著な性能を達成しているものの、依然としてエラーが発生しやすいという課題があります。その中でも重要な課題の一つは、モデル自身による自己修正能力を実現することです。これまでの研究では外部ツールや大規模なプロプライエタリモデルに依存してきましたが、本研究では、自己生成データのみを用いた反復的なファインチューニングを通じて、小規模言語モデル（SLM）における自己修正を探求します。我々は、複数のアルゴリズム設計選択を組み込んだ「自己学習型自己修正（STaSC）」アルゴリズムを提案します。質問応答タスクにおける実験結果は、STaSCが効果的に自己修正を学習し、性能の大幅な向上をもたらすことを示しています。さらに、我々の分析は、自己修正のメカニズムや、異なる設計選択が学習ダイナミクスと全体的な性能に与える影響についての洞察を提供します。今後の研究を支援するため、使いやすいコードベースと軽量モデルを公開します。

WildIFEval：実世界における指示追従評価
WildIFEval: Instruction Following in the Wild

Mar 9

ByGili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor

最近の大規模言語モデル（LLM）は、ユーザーの指示に従う能力において顕著な成功を収めているが、複数の制約条件を伴う指示の処理は依然として重要な課題である。本研究では、WildIFEvalを紹介する。これは、多様で複数の制約条件を持つ12,000件の実ユーザー指示からなる大規模データセットである。従来のデータセットとは異なり、私たちのコレクションは、自然なユーザープロンプトにおける広範な語彙的およびトピック的な制約のスペクトルを網羅している。これらの制約を8つの高レベルなクラスに分類し、実世界のシナリオにおけるその分布と動態を捉える。WildIFEvalを活用し、主要なLLMの指示追従能力をベンチマークするための広範な実験を実施した。その結果、評価されたすべてのモデルにおいて、制約の数が増えるにつれて性能が低下することが明らかになった。したがって、すべてのモデルがこのようなタスクにおいて大幅な改善の余地があることを示した。さらに、特定の制約の種類がモデルの性能に重要な役割を果たすことが観察された。私たちは、複雑で現実的な条件下での指示追従に関するさらなる研究を促進するために、このデータセットを公開する。

エッジデバイス向けマルチエージェント医療アシスタント
Multi Agent based Medical Assistant for Edge Devices

Mar 7

BySakharam Gawade, Shivam Akhouri, Chinmay Kulkarni, Jagdish Samant, Pragya Sahu, Aastik, Jai Pahal, Saswat Meher

大規模行動モデル（LAMs）はインテリジェントオートメーションに革命をもたらしましたが、医療分野での応用にはプライバシー問題、レイテンシ、インターネット接続への依存といった課題が存在します。本報告書では、これらの制限を克服するオンデバイス型マルチエージェント医療アシスタントを紹介します。このシステムは、より小型でタスク特化型のエージェントを活用し、リソースの最適化、スケーラビリティ、および高性能を実現します。提案するシステムは、予約管理、健康モニタリング、服薬リマインダー、日々の健康レポートといった機能を備えた、医療ニーズに対するワンストップソリューションとして機能します。Qwen Code Instruct 2.5 7Bモデルを搭載したプランナーエージェントとコーラーエージェントは、タスクにおける計画立案で平均RougeLスコア85.5、呼び出しで96.5を達成しつつ、オンデバイス展開に適した軽量性を維持しています。この革新的なアプローチは、オンデバイスシステムの利点とマルチエージェントアーキテクチャを組み合わせ、ユーザー中心の医療ソリューションへの道を切り開くものです。

VLog: ナレーションの生成的検索によるビデオ-言語モデル語彙
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

Mar 12

ByKevin Qinghong Lin, Mike Zheng Shou

人間の日常活動は、ビデオストリームにおける一連のルーチンイベント（例：アラームを止める）として簡潔に語られることができ、これがイベント語彙を形成します。これに着想を得て、我々はVLogを紹介します。これは、既存の生成型ビデオ言語モデルで一般的なサブワード語彙を超えて、ビデオのナレーションを語彙として定義する新しいビデオ理解フレームワークです。軽量な言語モデルGPT-2を基盤とするVLogは、以下の3つの主要な革新を特徴とします：(i) 言語モデルの複雑な推論能力と対照検索の効率的な類似性検索を組み合わせた生成型検索モデル。(ii) 大規模なビデオナレーションから我々のナレーションペアエンコーディングアルゴリズムを用いて導出された階層的語彙。これにより、広範なシナリオ（例：キッチン）を特定し、表現力豊かな接尾辞（例：左手で）を用いて特定のイベント（例：トマトを切る）を効率的に索引付けできます。(iii) 推論中に遭遇する新しいイベントに対して語彙を拡張するための生成モデルを活用した語彙更新戦略。我々のアプローチを検証するために、推論関係（例：前後関係）を伴う簡潔なナレーションを必要とする開発セットVidCap-Evalを導入しました。EgoSchema、COIN、HiRESTでの実験は、VLogの有効性をさらに実証し、簡潔で文脈的に正確かつ効率的なナレーションを生成する能力を強調し、ビデオ理解に対する新しい視点を提供します。コードはhttps://github.com/showlab/VLogで公開されています。

PhysicsGen: 生成モデルは画像から複雑な物理的関係を予測することを学習できるか？
PhysicsGen: Can Generative Models Learn from Images to Predict Complex Physical Relations?

Mar 7

ByMartin Spitznagel, Jan Vaillant, Janis Keuper

生成学習モデルの画像間変換能力は、最近、画像分布間の複雑な（制御された）マッピングの推定において大きな進展を遂げています。画像修復やスタイル転送のような外観ベースのタスクは長く研究されてきましたが、我々は物理シミュレーションの文脈における生成モデルの可能性を探ることを提案します。30万枚の画像ペアのデータセットと3つの異なる物理シミュレーションタスクに対するベースライン評価を提供し、以下の研究課題を調査するためのベンチマークを提案します：i) 生成モデルは入力-出力画像ペアから複雑な物理的関係を学習できるか？ ii) 微分方程式ベースのシミュレーションを置き換えることでどの程度の高速化が達成できるか？異なる最新モデルのベースライン評価は、高い高速化の可能性（ii）を示す一方で、物理的正しさ（i）に対する強い制限も明らかにしています。これは、物理的正しさを強制するための新しい手法の必要性を強調しています。データ、ベースラインモデル、評価コードはhttp://www.physics-gen.orgで公開されています。

コード生成のための大規模言語モデルの量子化：差別化された再現
Quantizing Large Language Models for Code Generation: A Differentiated Replication

Mar 10

ByAlessandro Giagnorio, Antonio Mastropaolo, Saima Afrin, Massimiliano Di Penta, Gabriele Bavota

大規模言語モデル（LLM）は、コード生成において特に自然言語で記述された要件を自動的に実装する能力において、印象的な性能を示しています。一般に、LLMの有効性はそのサイズに比例して向上します。つまり、LLMの学習可能なパラメータ数が多ければ多いほど、コードを実装する能力が高まります。しかし、LLMベースのコードジェネレータをデプロイする際には、より大規模なLLMはメモリ（および結果としてのカーボン）フットプリントに関連する重大な課題を引き起こします。Weiらによる以前の研究では、量子化技術を活用してLLMベースのコードジェネレータのメモリフットプリントを削減しつつ、その有効性を大幅に低下させない方法を提案しました。簡単に言えば、彼らは最大16BパラメータのLLMを対象に、その精度を浮動小数点32ビットから整数8ビットに量子化し、コード生成性能への影響が限定的であることを示しました。LLMの能力と量子化技術が急速に進化していることを踏まえ、本研究ではWeiらの研究を発展的に再現し、(i) より新しく大規模なコード関連LLM（最大34Bパラメータ）、(ii) モデルパラメータあたり2ビットという極端な量子化レベルまで圧縮を可能にする最新の量子化技術の進展、および (iii) 量子化プロセスを導くためのコード固有のキャリブレーションデータセットを含む異なるタイプのキャリブレーションデータセットを検討しました。我々の実証的評価によると、LLM量子化の新たなフロンティアは4ビット精度であり、これにより元のモデルと比較して平均70％のメモリフットプリント削減が達成され、性能の有意な低下は観察されませんでした。さらに、量子化がさらに極端（3ビットおよび2ビット）になると、コード固有のキャリブレーションデータセットが性能の低下を抑えるのに役立つことがわかりました。

大規模視覚言語モデルが大規模リモートセンシング画像に出会うとき：テキスト誘導型トークンプルーニングの粗から細へのアプローチ
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning

Mar 10

ByJunwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li

大規模なリモートセンシング画像（RSI）の効率的な視覚-言語理解は意義深いが、挑戦的な課題である。現在の大規模視覚-言語モデル（LVLM）は、通常、限定的な事前定義グリッドを使用して画像を処理するため、ギガピクセルRSIを扱う際に情報の損失が生じる。一方、無制限のグリッドを使用すると、計算コストが大幅に増加する。画像の詳細を保持しつつ計算複雑性を低減するために、我々はテキストガイド型トークンプルーニング手法をDynamic Image Pyramid（DIP）と統合して提案する。我々の手法は、(i) テキストを意識した領域位置特定能力を活用して重要な視覚トークンを識別するRegion Focus Module（RFM）と、(ii) DIPに基づく粗から細への画像タイル選択および視覚トークンプルーニング戦略を導入する。これにより、RFMの出力に基づいてガイドされ、大規模な画像全体を直接処理することを回避する。さらに、大規模RSIに対するLVLMの知覚能力を評価する既存のベンチマークは、質問の多様性が限られており、画像サイズも制約されている。我々は、8カテゴリにわたる7,333のQAペアを含み、画像の長さが最大27,328ピクセルに及ぶ新しいベンチマーク「LRS-VQA」を構築した。我々の手法は、同じデータを使用して4つのデータセットにおいて既存の高解像度戦略を上回る。さらに、既存のトークン削減手法と比較して、高解像度設定下でより高い効率性を示す。データセットとコードはhttps://github.com/VisionXLab/LRS-VQAに公開されている。

高精度単細胞トランスクリプトミクス解析と生成のためのマルチモーダル言語モデリング
Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation

Mar 12

ByYaorui Shi, Jiaqi Yang, Sihang Li, Junfeng Fang, Xiang Wang, Zhiyuan Liu, Yang Zhang

事前学習済み言語モデル（PLM）は科学研究に革命をもたらしましたが、単一細胞解析への応用はまだ限られています。テキストPLMは単一細胞RNAシーケンスデータを処理できず、細胞PLMは自由テキストを扱う能力を欠いており、マルチモーダルタスクでの使用が制限されています。これらのモダリティを橋渡しする既存の取り組みは、情報の損失や不十分な単一モーダル事前学習に悩まされ、最適なパフォーマンスが得られていません。これらの課題に対処するため、我々はSingle-Cell MultiModal Generative Pre-trained Transformer（scMMGPT）を提案します。これは細胞とテキストの共同モデリングのための統一されたPLMです。scMMGPTは最先端の細胞PLMとテキストPLMを効果的に統合し、クロスモーダルな知識共有を促進してパフォーマンスを向上させます。テキストと細胞のモダリティギャップを埋めるために、scMMGPTは専用のクロスモーダルプロジェクターを活用し、2,700万細胞というマルチモーダル細胞-テキストPLM向けの最大規模のデータセットで広範な事前学習を行います。この大規模な事前学習により、scMMGPTは細胞-テキスト共同タスクで優れた性能を発揮し、細胞記述生成におけるテキスト不一致の84%の相対的改善、細胞タイプアノテーションの20.5%の精度向上、テキスト条件付き疑似細胞生成におけるk-NN精度の4%の改善を達成し、ベースラインを上回りました。

エイリアスフリー潜在拡散モデル：拡散潜在空間の分数シフト等価性の改善
Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

Mar 12

ByYifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan

潜在拡散モデル（LDM）は、生成プロセスが不安定であることが知られており、入力ノイズのわずかな摂動やシフトが大きく異なる出力を引き起こす可能性があります。これは、一貫した結果を必要とするアプリケーションでの適用性を妨げています。本研究では、LDMをシフト等価性を持つように再設計し、一貫性を向上させます。アンチエイリアシング操作を導入することでシフト等価性が部分的に改善されるものの、LDM特有の課題により、依然として重大なエイリアシングと不整合が残ります。これらの課題には、1）VAEのトレーニング中および複数のU-Net推論におけるエイリアシングの増幅、および2）本質的にシフト等価性を欠くセルフアテンションモジュールが含まれます。これらの問題に対処するため、アテンションモジュールをシフト等価性を持つように再設計し、連続領域における特徴の周波数帯域幅を効果的に抑制する等価性損失を提案します。結果として得られるエイリアスフリーLDM（AF-LDM）は、強力なシフト等価性を達成し、不規則なワーピングに対しても頑健です。広範な実験により、AF-LDMがビデオ編集や画像間変換など様々なアプリケーションにおいて、従来のLDMよりも大幅に一貫した結果を生成することが実証されています。コードは以下で公開されています: https://github.com/SingleZombie/AFLDM

長文脈LLMのためのコスト最適化グループ化クエリアテンション
Cost-Optimal Grouped-Query Attention for Long-Context LLMs

Mar 12

ByYingfa Chen, Yutong Wu, Xu Han, Zhiyuan Liu, Maosong Sun

Transformerベースの大規模言語モデル（LLM）を効果的かつ効率的に構築することが最近の研究焦点となっており、モデルの言語能力を最大化しつつ、学習とデプロイのコストを最小化することが求められています。既存の研究では、主にモデルの性能、パラメータサイズ、データサイズの間の複雑な関係を説明し、LLMを学習するための最適な計算リソースの割り当てを探求してきました。しかし、これらの研究は、コンテキスト長とアテンションヘッドの構成（グループ化クエリアテンションにおけるクエリとキー・バリューヘッドの数）が学習と推論に与える影響を見落としています。本論文では、異なるパラメータサイズ、コンテキスト長、アテンションヘッド構成を持つモデルを、モデル性能、計算コスト、メモリコストの観点から系統的に比較します。そして、パラメータサイズと学習計算量のみに基づいた既存のスケーリング手法を拡張し、学習と推論の両方においてコスト最適なLLMを構築するための指針を提供します。私たちの定量的なスケーリング研究は、十分に長いシーケンスを処理する場合、より少ないアテンションヘッドを持つ大規模モデルが、より低い損失を達成しつつ、計算コストとメモリコストを低減できることを示しています。これらの発見は、特に長いコンテキストを処理するシナリオにおいて、実用的なLLMを開発するための貴重な洞察を提供します。私たちはコードとデータを公開する予定です。

MoC: 検索拡張生成システムのためのテキストチャンキング学習器の混合モデル
MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

Mar 12

ByJihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li

検索拡張生成（RAG）は、大規模言語モデル（LLM）の有効な補完として機能する一方で、そのパイプライン内におけるテキストチャンキングの重要な側面を見落としがちです。本論文ではまず、チャンキング品質を直接定量化するための二重評価指標、すなわち「境界の明確性」と「チャンクの粘着性」を導入します。この評価方法を活用し、従来の手法や意味的チャンキングが複雑な文脈のニュアンスを扱う際に持つ本質的な限界を指摘し、LLMをチャンキングプロセスに統合する必要性を実証します。LLMベースのアプローチにおける計算効率とチャンキング精度のトレードオフに対処するため、粒度を意識したMixture-of-Chunkers（MoC）フレームワークを考案します。これは3段階の処理メカニズムで構成されています。特に、我々の目的は、チャンカーが構造化されたチャンキング正規表現のリストを生成するよう導き、それを元のテキストからチャンクを抽出するために使用することです。大規模な実験により、提案した評価指標とMoCフレームワークがチャンキングタスクの課題を効果的に解決し、チャンキングの核心を明らかにするとともにRAGシステムの性能を向上させることが実証されました。

BIMBA: 長距離ビデオ質問応答のための選択的スキャン圧縮
BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

Mar 12

ByMd Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani

長尺動画におけるVideo Question Answering (VQA) の主要な課題は、多くの冗長なフレームから関連情報を抽出し、長距離依存関係をモデル化することです。自己注意機構はシーケンスモデリングの一般的な解決策を提供しますが、長尺動画における大量の時空間トークンに適用する場合、計算コストが非常に高くなります。これまでのほとんどの手法は、計算コストを削減するために圧縮戦略に依存しており、例えば疎なフレームサンプリングによって入力長を短縮したり、時空間プーリングによって大規模言語モデル (LLM) に渡される出力シーケンスを圧縮したりしています。しかし、これらの単純なアプローチは冗長な情報を過剰に表現し、重要なイベントや高速に発生する時空間パターンを見逃すことが多いです。本研究では、長尺動画を効率的に処理するための状態空間モデルであるBIMBAを提案します。我々のモデルは、選択的スキャンアルゴリズムを活用して、高次元の動画から重要な情報を効果的に選択し、それを効率的なLLM処理のための縮小されたトークンシーケンスに変換します。大規模な実験により、BIMBAがPerceptionTest、NExT-QA、EgoSchema、VNBench、LongVideoBench、Video-MMEを含む複数の長尺VQAベンチマークにおいて、最先端の精度を達成することが示されました。コードとモデルはhttps://sites.google.com/view/bimba-mllmで公開されています。

一般化可能な学習ベースRANSACのためのモンテカルロ拡散法
Monte Carlo Diffusion for Generalizable Learning-Based RANSAC

Mar 12

ByJiale Wang, Chen Zhao, Wei Ke, Tong Zhang

Random Sample Consensus (RANSAC) は、ノイズの多いデータからロバストにパラメトリックモデルを推定するための基本的なアプローチです。既存の学習ベースのRANSAC手法は、深層学習を活用してRANSACの外れ値に対するロバスト性を向上させています。しかし、これらの手法は同じアルゴリズムによって生成されたデータで訓練およびテストされるため、推論時に分布外データへの汎化能力が限られています。そこで本論文では、学習ベースのRANSACの訓練のために、ノイズの多い条件をシミュレートするために、グラウンドトゥルースデータに段階的にノイズを注入する新しい拡散ベースのパラダイムを提案します。データの多様性を高めるために、モンテカルロサンプリングを拡散パラダイムに組み込み、複数の段階で異なる種類のランダム性を導入することで多様なデータ分布を近似します。ScanNetおよびMegaDepthデータセットを用いた包括的な実験を通じて、特徴マッチングの文脈で本手法を評価します。実験結果は、モンテカルロ拡散メカニズムが学習ベースRANSACの汎化能力を大幅に向上させることを示しています。また、本フレームワークの主要なコンポーネントの有効性を強調する詳細なアブレーション研究も行いました。

機械学習のための分布シフトの理解と緩和フォースフィールド
Understanding and Mitigating Distribution Shifts For Machine Learning Force Fields

Mar 11

ByTobias Kreiman, Aditi S. Krishnapriyan

機械学習力場（MLFFs）は、高価なab initio量子力学的分子シミュレーションに代わる有望な手法です。関心のある化学空間の多様性と新たなデータ生成のコストを考慮すると、MLFFsがその訓練分布を超えてどのように一般化するかを理解することが重要です。MLFFsにおける分布シフトを特徴づけ、より深く理解するために、化学データセットに対して診断実験を行い、大規模なデータで訓練された基盤モデルであっても、重要な課題となる一般的なシフトを明らかにしました。これらの観察に基づき、現在の教師あり訓練方法ではMLFFsを適切に正則化できず、過剰適合や分布外システムの不適切な表現学習が生じていると仮説を立てました。そこで、MLFFsの分布シフトを軽減するための初期段階として、2つの新しい手法を提案します。私たちの手法は、計算コストを最小限に抑え、高価なab initio参照ラベルを使用しないテスト時改良戦略に焦点を当てています。最初の戦略は、スペクトルグラフ理論に基づいて、テストグラフのエッジを訓練中に見られたグラフ構造に合わせて修正します。2番目の戦略は、安価な物理的プライアなどの補助目的関数を使用して勾配ステップを取ることで、テスト時に分布外システムの表現を改善します。私たちのテスト時改良戦略は、分布外システムにおける誤差を大幅に減少させ、MLFFsが多様な化学空間をモデル化する能力を持ち、その方向に向かうことができるが、それを効果的に訓練されていないことを示唆しています。私たちの実験は、次世代のMLFFsの一般化能力を評価するための明確なベンチマークを確立します。コードはhttps://tkreiman.github.io/projects/mlff_distribution_shifts/で公開されています。