Enxerto de Codificador de Visão Zero-Shot via Surrogates de LLM
Zero-Shot Vision Encoder Grafting via LLM Surrogates
May 28, 2025
Autores: Kaiyu Yue, Vasu Singla, Menglin Jia, John Kirchenbauer, Rifaa Qadri, Zikui Cai, Abhinav Bhatele, Furong Huang, Tom Goldstein
cs.AI
Resumo
Modelos de linguagem visual (VLMs) normalmente emparelham um codificador visual de tamanho modesto com um grande modelo de linguagem (LLM), por exemplo, Llama-70B, tornando o decodificador o principal fardo computacional durante o treinamento. Para reduzir custos, uma estratégia potencialmente promissora é primeiro treinar o codificador visual usando um pequeno modelo de linguagem antes de transferi-lo para o modelo maior. Construímos pequenos "modelos substitutos" que compartilham o mesmo espaço de incorporação e linguagem de representação do grande LLM alvo, herdando diretamente suas camadas superficiais. Codificadores visuais treinados no substituto podem então ser transferidos diretamente para o modelo maior, um processo que chamamos de enxerto zero-shot — quando conectado diretamente ao LLM alvo de tamanho completo, o par enxertado supera o par codificador-substituto e, em alguns benchmarks, chega a performar em paridade com o treinamento completo do decodificador com o LLM alvo. Além disso, nossa abordagem de treinamento com substitutos reduz os custos gerais de treinamento de VLMs em ~45% ao usar Llama-70B como decodificador.
English
Vision language models (VLMs) typically pair a modestly sized vision encoder
with a large language model (LLM), e.g., Llama-70B, making the decoder the
primary computational burden during training. To reduce costs, a potential
promising strategy is to first train the vision encoder using a small language
model before transferring it to the large one. We construct small "surrogate
models" that share the same embedding space and representation language as the
large target LLM by directly inheriting its shallow layers. Vision encoders
trained on the surrogate can then be directly transferred to the larger model,
a process we call zero-shot grafting -- when plugged directly into the
full-size target LLM, the grafted pair surpasses the encoder-surrogate pair
and, on some benchmarks, even performs on par with full decoder training with
the target LLM. Furthermore, our surrogate training approach reduces overall
VLM training costs by ~45% when using Llama-70B as the decoder.