Injerto de Codificador Visual de Cero Disparos mediante Sustitutos de Modelos de Lenguaje Grande
Zero-Shot Vision Encoder Grafting via LLM Surrogates
May 28, 2025
Autores: Kaiyu Yue, Vasu Singla, Menglin Jia, John Kirchenbauer, Rifaa Qadri, Zikui Cai, Abhinav Bhatele, Furong Huang, Tom Goldstein
cs.AI
Resumen
Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) suelen combinar un codificador visual de tamaño moderado con un modelo de lenguaje grande (LLM, por sus siglas en inglés), como Llama-70B, lo que convierte al decodificador en la principal carga computacional durante el entrenamiento. Para reducir costos, una estrategia potencialmente prometedora es entrenar primero el codificador visual utilizando un modelo de lenguaje pequeño antes de transferirlo al modelo grande. Construimos pequeños "modelos sustitutos" que comparten el mismo espacio de incrustación y lenguaje de representación que el LLM objetivo grande heredando directamente sus capas superficiales. Los codificadores visuales entrenados en el sustituto pueden transferirse directamente al modelo más grande, un proceso que denominamos injerto de transferencia cero (zero-shot grafting): cuando se conectan directamente al LLM objetivo de tamaño completo, el par injertado supera al par codificador-sustituto y, en algunos benchmarks, incluso iguala el rendimiento del entrenamiento completo del decodificador con el LLM objetivo. Además, nuestro enfoque de entrenamiento con sustitutos reduce los costos totales de entrenamiento de VLM en aproximadamente un 45% cuando se utiliza Llama-70B como decodificador.
English
Vision language models (VLMs) typically pair a modestly sized vision encoder
with a large language model (LLM), e.g., Llama-70B, making the decoder the
primary computational burden during training. To reduce costs, a potential
promising strategy is to first train the vision encoder using a small language
model before transferring it to the large one. We construct small "surrogate
models" that share the same embedding space and representation language as the
large target LLM by directly inheriting its shallow layers. Vision encoders
trained on the surrogate can then be directly transferred to the larger model,
a process we call zero-shot grafting -- when plugged directly into the
full-size target LLM, the grafted pair surpasses the encoder-surrogate pair
and, on some benchmarks, even performs on par with full decoder training with
the target LLM. Furthermore, our surrogate training approach reduces overall
VLM training costs by ~45% when using Llama-70B as the decoder.Summary
AI-Generated Summary