AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

VisionLLaMA: 視覚タスクのための統一LLaMAインターフェース
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

Mar 1

ByXiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen

大規模言語モデルは、テキスト入力を処理するためにトランスフォーマーベースのアーキテクチャを基盤として構築されています。例えば、LLaMAは多くのオープンソース実装の中で際立っています。同じトランスフォーマーを2D画像の処理に使用できるでしょうか？本論文では、この疑問に答えるため、LLaMAに似たビジョントランスフォーマーをプレーン形式とピラミッド形式で公開し、これをVisionLLaMAと名付けました。VisionLLaMAは、ほとんどの視覚タスクを解決するための統一された汎用的なモデリングフレームワークです。我々は、典型的な事前学習パラダイムを用いて、画像認識、特に画像生成の多くの下流タスクにおいてその有効性を広範に評価しました。多くのケースで、VisionLLaMAは従来の最先端ビジョントランスフォーマーを大幅に上回る成果を示しました。我々は、VisionLLaMAが視覚生成と理解のための強力な新しいベースラインモデルとして機能すると確信しています。コードはhttps://github.com/Meituan-AutoML/VisionLLaMAで公開予定です。

視覚表現学習における世界モデルの学習と活用
Learning and Leveraging World Models in Visual Representation Learning

Mar 1

ByQuentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun

共同埋め込み予測アーキテクチャ（JEPA）は、世界モデルを活用して学習する有望な自己教師ありアプローチとして登場しました。従来は入力の欠損部分を予測することに限定されていましたが、本研究ではJEPAの予測タスクをより広範な破損パターンに一般化する方法を探ります。我々は、マスク画像モデリングを超えて、潜在空間におけるグローバルな測光変換の効果を予測するアプローチである「画像世界モデル（Image World Models, IWM）」を提案します。高性能なIWMを学習するためのレシピを検討し、それが3つの重要な側面（条件付け、予測の難易度、容量）に依存することを示します。さらに、IWMによって学習された予測的世界モデルは、ファインチューニングを通じて多様なタスクを解決するために適応可能であり、ファインチューニングされたIWMの世界モデルは、従来の自己教師あり手法の性能を匹敵または凌駕することを示します。最後に、IWMを用いた学習により、学習された表現の抽象化レベルを制御できることを示し、対照的手法のような不変表現や、マスク画像モデリングのような等価表現を学習できることを明らかにします。

Resonance RoPE: 大規模言語モデルのコンテキスト長汎化性能の向上
Resonance RoPE: Improving Context Length Generalization of Large Language Models

Feb 29

BySuyuchen Wang, Ivan Kobyzev, Peng Lu, Mehdi Rezagholizadeh, Bang Liu

本論文は、Rotary Position Embedding (RoPE)を備えた大規模言語モデル(LLM)における「短い系列で訓練し長い系列でテストする」(TSTL)シナリオの課題に取り組む。このシナリオでは、短い系列で事前学習されたモデルが、長い系列における分布外(OOD)のトークン位置に適応するのに困難を抱える。我々は、Resonance RoPEという新しいアプローチを提案する。これは、OOD位置におけるRoPE特徴量の補間を改良することでTSTLシナリオにおける汎化ギャップを狭め、追加のオンライン計算コストなしにモデル性能を大幅に向上させるものである。さらに、PosGenという新しい合成ベンチマークを提示する。これは、TSTLシナリオにおける細粒度の動作分析のために特別に設計されたもので、長い文脈におけるトークン生成の難易度の継続的な増加と、新しいトークン位置を認識する課題とを分離することを目的としている。合成タスクにおける実験では、Resonance RoPEを適用した後、TransformerがOOD位置をより良く、より堅牢に認識することを示す。また、大規模なLLM実験においても、Resonance RoPEを現在の最先端のRoPEスケーリング手法であるYaRNに適用した後、上流の言語モデリングタスクと多様な下流の長文テキストアプリケーションの両方で優れた性能を示すことを確認した。

RealCustom: リアルタイムオープンドメインテキストから画像へのカスタマイズのためのリアルテキストワードの絞り込み
RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

Mar 1

ByMengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang

テキストから画像へのカスタマイズは、与えられた主題に対してテキスト駆動の画像を合成することを目的としており、最近ではコンテンツ作成に革命をもたらしています。既存の研究は、疑似単語パラダイムに従っており、与えられた主題を疑似単語として表現し、その後、与えられたテキストと組み合わせます。しかし、疑似単語と与えられたテキストの内在的な絡み合った影響範囲は、二重最適のパラドックスを引き起こします。つまり、与えられた主題の類似性と与えられたテキストの制御性を同時に最適化することができないという問題です。本研究では、RealCustomを提案し、初めて類似性と制御性を切り離すことに成功しました。これは、主題の影響を関連する部分のみに正確に限定し、一般的な意味から特定の主題へと実在のテキスト単語を徐々に狭め、そのクロスアテンションを使用して関連性を区別することによって達成されます。具体的には、RealCustomは新しい「訓練-推論」分離フレームワークを導入します：（1）訓練中、RealCustomは新しい適応スコアリングモジュールを使用して、視覚的条件と元のテキスト条件の間の一般的な整合性を学習し、影響量を適応的に調整します；（2）推論中、新しい適応マスクガイダンス戦略を提案し、与えられた主題の影響範囲と影響量を反復的に更新して、実在のテキスト単語の生成を徐々に狭めます。包括的な実験により、RealCustomがオープンドメインにおいて優れたリアルタイムカスタマイズ能力を発揮し、与えられた主題の類似性と与えられたテキストの制御性を初めて同時に達成することが実証されました。プロジェクトページはhttps://corleone-huang.github.io/realcustom/です。

AtP: LLMの振る舞いをコンポーネントに局所化するための効率的かつスケーラブルな手法
AtP: An efficient and scalable method for localizing LLM behaviour to components

Mar 1

ByJános Kramár, Tom Lieberum, Rohin Shah, Neel Nanda

活性化パッチング（Activation Patching）は、モデルの構成要素に対する行動の因果的帰属を直接計算する手法である。しかし、これを網羅的に適用するには、モデル構成要素の数に比例してコストが増加するスイープが必要であり、最新の大規模言語モデル（LLMs）では実用的でない場合がある。本研究では、活性化パッチングの高速な勾配ベースの近似手法である帰属パッチング（Attribution Patching, AtP）を調査し、AtPが重大な偽陰性を引き起こす2つの失敗モードを特定した。これらの失敗モードに対処しつつスケーラビリティを維持するため、AtPの変種であるAtP*を提案する。本論文では、AtPおよび高速な活性化パッチングのための代替手法に関する初の体系的な研究を提示し、AtPが他の調査対象手法を大幅に上回り、AtP*がさらに大幅な改善をもたらすことを示す。最後に、AtP*の推定値における残存偽陰性の確率を限定する手法を提供する。