ChatPaper.aiChatPaper

VILA: Sobre el preentrenamiento para modelos de lenguaje visual

VILA: On Pre-training for Visual Language Models

December 12, 2023
Autores: Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
cs.AI

Resumen

Los modelos de lenguaje visual (VLMs) han avanzado rápidamente con el reciente éxito de los modelos de lenguaje grandes (LLMs). Ha habido un creciente interés en la afinación de instrucciones visuales para extender los LLMs con entradas visuales, pero falta un estudio en profundidad del proceso de pre-entrenamiento de lenguaje visual, donde el modelo aprende a realizar un modelado conjunto en ambas modalidades. En este trabajo, examinamos las opciones de diseño para el pre-entrenamiento de VLMs al aumentar los LLMs hacia VLMs mediante comparaciones controladas paso a paso. Introducimos tres hallazgos principales: (1) congelar los LLMs durante el pre-entrenamiento puede lograr un rendimiento decente en zero-shot, pero carece de capacidad de aprendizaje en contexto, lo que requiere descongelar el LLM; (2) los datos de pre-entrenamiento intercalados son beneficiosos, mientras que los pares de imagen-texto por sí solos no son óptimos; (3) re-mezclar datos de instrucciones de solo texto con datos de imagen-texto durante la afinación de instrucciones no solo corrige la degradación de las tareas de solo texto, sino que también aumenta la precisión en las tareas de VLM. Con una receta mejorada de pre-entrenamiento, construimos VILA, una familia de modelos de lenguaje visual que supera consistentemente a los modelos más avanzados, como LLaVA-1.5, en los principales benchmarks sin elementos adicionales. El pre-entrenamiento multimodal también ayuda a revelar propiedades atractivas de VILA, incluyendo razonamiento con múltiples imágenes, aprendizaje en contexto mejorado y un mayor conocimiento del mundo.
English
Visual language models (VLMs) rapidly progressed with the recent success of large language models. There have been growing efforts on visual instruction tuning to extend the LLM with visual inputs, but lacks an in-depth study of the visual language pre-training process, where the model learns to perform joint modeling on both modalities. In this work, we examine the design options for VLM pre-training by augmenting LLM towards VLM through step-by-step controllable comparisons. We introduce three main findings: (1) freezing LLMs during pre-training can achieve decent zero-shot performance, but lack in-context learning capability, which requires unfreezing the LLM; (2) interleaved pre-training data is beneficial whereas image-text pairs alone are not optimal; (3) re-blending text-only instruction data to image-text data during instruction fine-tuning not only remedies the degradation of text-only tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe we build VILA, a Visual Language model family that consistently outperforms the state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells and whistles. Multi-modal pre-training also helps unveil appealing properties of VILA, including multi-image reasoning, enhanced in-context learning, and better world knowledge.
PDF232December 15, 2024