EVEv2: Verbesserte Ausgangspunkte für Encoder-freie Vision-Sprache-Modelle
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
February 10, 2025
Autoren: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang
cs.AI
Zusammenfassung
Bestehende Encoder-freie Vision-Sprache-Modelle (VLMs) verringern schnell den Leistungsunterschied zu ihren encoderbasierten Gegenstücken und betonen das vielversprechende Potenzial für vereinheitlichte multimodale Systeme mit struktureller Einfachheit und effizienter Bereitstellung. Wir klären systematisch den Leistungsunterschied zwischen VLMs, die vortrainierte Vision-Encoder, diskrete Tokenizer und minimalistische visuelle Schichten von Grund auf verwenden, und graben tief, um die bisher unerforschten Merkmale von encoderfreien VLMs zu untersuchen. Wir entwickeln effiziente Strategien für encoderfreie VLMs, die mit gängigen encoderbasierten Modellen konkurrieren. Nach einer gründlichen Untersuchung starten wir EVEv2.0, eine neue und verbesserte Familie von encoderfreien VLMs. Wir zeigen: (i) Durch eine ordnungsgemäße Zerlegung und hierarchische Verknüpfung von Vision und Sprache in einem vereinheitlichten Modell wird die Interferenz zwischen Modalitäten reduziert. (ii) Eine gut durchdachte Schulungsstrategie ermöglicht eine effektive Optimierung für encoderfreie VLMs. Durch umfangreiche Evaluation repräsentiert unser EVEv2.0 eine gründliche Studie zur Entwicklung einer reinen Decoder-Architektur über Modalitäten hinweg und zeigt eine überlegene Daten-Effizienz und starke Vision-Reasoning-Fähigkeiten. Der Code ist öffentlich verfügbar unter: https://github.com/baaivision/EVE.
English
Existing encoder-free vision-language models (VLMs) are rapidly narrowing the
performance gap with their encoder-based counterparts, highlighting the
promising potential for unified multimodal systems with structural simplicity
and efficient deployment. We systematically clarify the performance gap between
VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist
visual layers from scratch, deeply excavating the under-examined
characteristics of encoder-free VLMs. We develop efficient strategies for
encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth
investigation, we launch EVEv2.0, a new and improved family of encoder-free
VLMs. We show that: (i) Properly decomposing and hierarchically associating
vision and language within a unified model reduces interference between
modalities. (ii) A well-designed training strategy enables effective
optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0
represents a thorough study for developing a decoder-only architecture across
modalities, demonstrating superior data efficiency and strong vision-reasoning
capability. Code is publicly available at: https://github.com/baaivision/EVE.Summary
AI-Generated Summary