EVEv2: Verbeterde baselines voor visie-taalmodellen zonder encoder
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
February 10, 2025
Auteurs: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang
cs.AI
Samenvatting
Bestaande encoder-vrije visie-taalmodellen (VLM's) verkleinen snel de prestatiekloof met hun op encoder gebaseerde tegenhangers, waarbij het veelbelovende potentieel voor verenigde multimodale systemen met structurele eenvoud en efficiënte implementatie wordt benadrukt. We verduidelijken systematisch de prestatiekloof tussen VLM's die gebruikmaken van vooraf getrainde visuele encoders, discrete tokenizers en minimalistische visuele lagen vanaf nul, waarbij we diep ingaan op de onderbelichte kenmerken van encoder-vrije VLM's. We ontwikkelen efficiënte strategieën voor encoder-vrije VLM's die concurreren met gangbare op encoder gebaseerde modellen. Na een grondig onderzoek lanceren we EVEv2.0, een nieuwe en verbeterde familie van encoder-vrije VLM's. We tonen aan dat: (i) Het correct ontleden en hiërarchisch associëren van visie en taal binnen een verenigd model de interferentie tussen modaliteiten vermindert. (ii) Een goed ontworpen trainingsstrategie effectieve optimalisatie mogelijk maakt voor encoder-vrije VLM's. Via uitgebreide evaluatie vertegenwoordigt onze EVEv2.0 een grondige studie voor het ontwikkelen van een decoder-only architectuur over modaliteiten heen, met superieure data-efficiëntie en sterke visie-redeneervermogen. De code is openbaar beschikbaar op: https://github.com/baaivision/EVE.
English
Existing encoder-free vision-language models (VLMs) are rapidly narrowing the
performance gap with their encoder-based counterparts, highlighting the
promising potential for unified multimodal systems with structural simplicity
and efficient deployment. We systematically clarify the performance gap between
VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist
visual layers from scratch, deeply excavating the under-examined
characteristics of encoder-free VLMs. We develop efficient strategies for
encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth
investigation, we launch EVEv2.0, a new and improved family of encoder-free
VLMs. We show that: (i) Properly decomposing and hierarchically associating
vision and language within a unified model reduces interference between
modalities. (ii) A well-designed training strategy enables effective
optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0
represents a thorough study for developing a decoder-only architecture across
modalities, demonstrating superior data efficiency and strong vision-reasoning
capability. Code is publicly available at: https://github.com/baaivision/EVE.Summary
AI-Generated Summary