ChatPaper.aiChatPaper

VILA: Über Pre-Training für visuelle Sprachmodelle

VILA: On Pre-training for Visual Language Models

December 12, 2023
Autoren: Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
cs.AI

Zusammenfassung

Visuelle Sprachmodelle (VLMs) haben mit dem jüngsten Erfolg großer Sprachmodelle rasante Fortschritte gemacht. Es gab zunehmende Bemühungen im Bereich des visuellen Instruction Tunings, um das LLM mit visuellen Eingaben zu erweitern, doch es fehlt eine eingehende Untersuchung des visuellen Sprach-Pre-Training-Prozesses, bei dem das Modell lernt, gemeinsame Modellierung für beide Modalitäten durchzuführen. In dieser Arbeit untersuchen wir die Designoptionen für das VLM-Pre-Training, indem wir das LLM schrittweise durch kontrollierte Vergleiche zu einem VLM erweitern. Wir präsentieren drei zentrale Erkenntnisse: (1) Das Einfrieren von LLMs während des Pre-Trainings kann eine akzeptable Zero-Shot-Leistung erzielen, jedoch fehlt die Fähigkeit zum In-Context-Learning, was das Auftauen des LLMs erfordert; (2) Interleaved Pre-Training-Daten sind vorteilhaft, während Bild-Text-Paare allein nicht optimal sind; (3) Das erneute Einbinden von textbasierten Instruktionsdaten in Bild-Text-Daten während des Instruction Fine-Tunings behebt nicht nur die Verschlechterung bei reinen Textaufgaben, sondern steigert auch die Genauigkeit bei VLM-Aufgaben. Mit einem verbesserten Pre-Training-Rezept entwickeln wir VILA, eine Familie von visuellen Sprachmodellen, die durchweg die State-of-the-Art-Modelle, z.B. LLaVA-1.5, in den wichtigsten Benchmarks ohne zusätzliche Raffinessen übertrifft. Multi-modales Pre-Training hilft auch dabei, ansprechende Eigenschaften von VILA zu enthüllen, darunter Multi-Bild-Schlussfolgerungen, verbessertes In-Context-Learning und besseres Weltwissen.
English
Visual language models (VLMs) rapidly progressed with the recent success of large language models. There have been growing efforts on visual instruction tuning to extend the LLM with visual inputs, but lacks an in-depth study of the visual language pre-training process, where the model learns to perform joint modeling on both modalities. In this work, we examine the design options for VLM pre-training by augmenting LLM towards VLM through step-by-step controllable comparisons. We introduce three main findings: (1) freezing LLMs during pre-training can achieve decent zero-shot performance, but lack in-context learning capability, which requires unfreezing the LLM; (2) interleaved pre-training data is beneficial whereas image-text pairs alone are not optimal; (3) re-blending text-only instruction data to image-text data during instruction fine-tuning not only remedies the degradation of text-only tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe we build VILA, a Visual Language model family that consistently outperforms the state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells and whistles. Multi-modal pre-training also helps unveil appealing properties of VILA, including multi-image reasoning, enhanced in-context learning, and better world knowledge.
PDF232December 15, 2024