Enthüllung von Encoder-freien Vision-Sprach-Modellen
Unveiling Encoder-Free Vision-Language Models
June 17, 2024
Autoren: Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang
cs.AI
Zusammenfassung
Bestehende Vision-Sprach-Modelle (VLMs) stützen sich hauptsächlich auf Vision-Encoder, um visuelle Merkmale zu extrahieren, gefolgt von großen Sprachmodellen (LLMs) für visuell-sprachliche Aufgaben. Die Vision-Encoder setzen jedoch starke induktive Vorurteile bei der Abstraktion visueller Darstellungen, z.B. Auflösung, Seitenverhältnis und semantische Vorgaben, die die Flexibilität und Effizienz der VLMs beeinträchtigen könnten. Das Training reiner VLMs, die nahtlose Vision- und Spracheingaben akzeptieren, d.h. ohne Vision-Encoder, bleibt herausfordernd und wurde selten erforscht. Empirische Beobachtungen zeigen, dass ein direktes Training ohne Encoder zu langsamer Konvergenz und großen Leistungsunterschieden führt. In dieser Arbeit überbrücken wir die Kluft zwischen encoderbasierten und encoderfreien Modellen und präsentieren ein einfaches, aber effektives Schulungsrezept für reine VLMs. Insbesondere enthüllen wir die Schlüsselaspekte des effizienten Trainings von encoderfreien VLMs durch gründliche Experimente: (1) Verknüpfung der Vision-Sprach-Repräsentation in einem vereinheitlichten Decoder; (2) Verbesserung der visuellen Erkennungsfähigkeit durch zusätzliche Überwachung. Mit diesen Strategien starten wir EVE, ein encoderfreies Vision-Sprach-Modell, das effizient trainiert und weitergeleitet werden kann. Bemerkenswerterweise kann EVE allein mit 35M öffentlich zugänglichen Daten beeindruckend mit den encoderbasierten VLMs ähnlicher Kapazitäten in mehreren Vision-Sprach-Benchmarks konkurrieren. Es übertrifft signifikant das Gegenstück Fuyu-8B mit mysteriösen Trainingsverfahren und nicht offengelegten Trainingsdaten. Wir glauben, dass EVE einen transparenten und effizienten Weg zur Entwicklung einer reinen Decoder-Architektur über Modalitäten hinweg bietet. Unser Code und unsere Modelle sind öffentlich unter folgendem Link verfügbar: https://github.com/baaivision/EVE.
English
Existing vision-language models (VLMs) mostly rely on vision encoders to
extract visual features followed by large language models (LLMs) for
visual-language tasks. However, the vision encoders set a strong inductive bias
in abstracting visual representation, e.g., resolution, aspect ratio, and
semantic priors, which could impede the flexibility and efficiency of the VLMs.
Training pure VLMs that accept the seamless vision and language inputs, i.e.,
without vision encoders, remains challenging and rarely explored. Empirical
observations reveal that direct training without encoders results in slow
convergence and large performance gaps. In this work, we bridge the gap between
encoder-based and encoder-free models, and present a simple yet effective
training recipe towards pure VLMs. Specifically, we unveil the key aspects of
training encoder-free VLMs efficiently via thorough experiments: (1) Bridging
vision-language representation inside one unified decoder; (2) Enhancing visual
recognition capability via extra supervision. With these strategies, we launch
EVE, an encoder-free vision-language model that can be trained and forwarded
efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can
impressively rival the encoder-based VLMs of similar capacities across multiple
vision-language benchmarks. It significantly outperforms the counterpart
Fuyu-8B with mysterious training procedures and undisclosed training data. We
believe that EVE provides a transparent and efficient route for developing a
pure decoder-only architecture across modalities. Our code and models are
publicly available at: https://github.com/baaivision/EVE.Summary
AI-Generated Summary