ChatPaper.aiChatPaper

EVEv2: エンコーダー不使用のビジョン言語モデルの改良されたベースライン

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

February 10, 2025
著者: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang
cs.AI

要旨

既存のエンコーダーを使用しないビジョン言語モデル(VLM)は、エンコーダーを使用するモデルとの性能差を急速に縮めつつあり、構造的にシンプルで効率的な展開が可能な統合されたマルチモーダルシステムの有望な潜在能力が浮き彫りにされています。我々は、事前学習されたビジョンエンコーダー、離散トークナイザー、および最小限のビジュアルレイヤーをゼロから使用することで、エンコーダーを使用しないVLMの未検証の特性を深く掘り下げ、VLM間の性能差を体系的に明らかにします。我々は、主流のエンコーダーを使用するモデルに匹敵する効率的な戦略を開発します。詳細な調査の結果、新しく改良されたエンコーダーを使用しないVLMファミリーであるEVEv2.0を立ち上げます。我々は次のことを示します:(i) 統合モデル内でビジョンと言語を適切に分解し、階層的に関連付けることで、モダリティ間の干渉を減少させることができます。(ii) 良く設計されたトレーニング戦略により、エンコーダーを使用しないVLMの効果的な最適化が可能となります。幅広い評価を通じて、当社のEVEv2.0は、モダリティ間でデコーダーのみのアーキテクチャを開発するための包括的な研究を示し、優れたデータ効率性と強力なビジョン推論能力を実証しています。コードは以下のURLから公開されています:https://github.com/baaivision/EVE。
English
Existing encoder-free vision-language models (VLMs) are rapidly narrowing the performance gap with their encoder-based counterparts, highlighting the promising potential for unified multimodal systems with structural simplicity and efficient deployment. We systematically clarify the performance gap between VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist visual layers from scratch, deeply excavating the under-examined characteristics of encoder-free VLMs. We develop efficient strategies for encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth investigation, we launch EVEv2.0, a new and improved family of encoder-free VLMs. We show that: (i) Properly decomposing and hierarchically associating vision and language within a unified model reduces interference between modalities. (ii) A well-designed training strategy enables effective optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0 represents a thorough study for developing a decoder-only architecture across modalities, demonstrating superior data efficiency and strong vision-reasoning capability. Code is publicly available at: https://github.com/baaivision/EVE.

Summary

AI-Generated Summary

PDF122February 11, 2025