ChatPaper.aiChatPaper

Enxerto de Codificador de Visão Zero-Shot via Surrogates de LLM

Zero-Shot Vision Encoder Grafting via LLM Surrogates

May 28, 2025
Autores: Kaiyu Yue, Vasu Singla, Menglin Jia, John Kirchenbauer, Rifaa Qadri, Zikui Cai, Abhinav Bhatele, Furong Huang, Tom Goldstein
cs.AI

Resumo

Modelos de linguagem visual (VLMs) normalmente emparelham um codificador visual de tamanho modesto com um grande modelo de linguagem (LLM), por exemplo, Llama-70B, tornando o decodificador o principal fardo computacional durante o treinamento. Para reduzir custos, uma estratégia potencialmente promissora é primeiro treinar o codificador visual usando um pequeno modelo de linguagem antes de transferi-lo para o modelo maior. Construímos pequenos "modelos substitutos" que compartilham o mesmo espaço de incorporação e linguagem de representação do grande LLM alvo, herdando diretamente suas camadas superficiais. Codificadores visuais treinados no substituto podem então ser transferidos diretamente para o modelo maior, um processo que chamamos de enxerto zero-shot — quando conectado diretamente ao LLM alvo de tamanho completo, o par enxertado supera o par codificador-substituto e, em alguns benchmarks, chega a performar em paridade com o treinamento completo do decodificador com o LLM alvo. Além disso, nossa abordagem de treinamento com substitutos reduz os custos gerais de treinamento de VLMs em ~45% ao usar Llama-70B como decodificador.
English
Vision language models (VLMs) typically pair a modestly sized vision encoder with a large language model (LLM), e.g., Llama-70B, making the decoder the primary computational burden during training. To reduce costs, a potential promising strategy is to first train the vision encoder using a small language model before transferring it to the large one. We construct small "surrogate models" that share the same embedding space and representation language as the large target LLM by directly inheriting its shallow layers. Vision encoders trained on the surrogate can then be directly transferred to the larger model, a process we call zero-shot grafting -- when plugged directly into the full-size target LLM, the grafted pair surpasses the encoder-surrogate pair and, on some benchmarks, even performs on par with full decoder training with the target LLM. Furthermore, our surrogate training approach reduces overall VLM training costs by ~45% when using Llama-70B as the decoder.
PDF72May 29, 2025