A Reconstrução Semântica Visual Autoregressiva Ajuda os VLMs a Compreenderem Melhor
Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better
June 10, 2025
Autores: Dianyi Wang, Wei Song, Yikun Wang, Siyuan Wang, Kaicheng Yu, Zhongyu Wei, Jiaqi Wang
cs.AI
Resumo
Modelos grandes típicos de visão e linguagem (LVLMs) aplicam supervisão autoregressiva
apenas a sequências textuais, sem incorporar plenamente a modalidade visual
no processo de aprendizagem. Isso resulta em três limitações principais: (1) a
incapacidade de utilizar imagens sem legendas acompanhantes, (2) o risco de que
as legendas omitam detalhes visuais críticos, e (3) o desafio de que certos
conteúdos centrados na visão não possam ser adequadamente transmitidos por texto. Como resultado,
os LVLMs atuais frequentemente priorizam o alinhamento visão-linguagem, enquanto potencialmente
negligenciam informações visuais detalhadas. Embora alguns trabalhos anteriores tenham
explorado a geração autoregressiva de imagens, o uso eficaz da supervisão visual autoregressiva
para melhorar a compreensão de imagens continua sendo um desafio em aberto. Neste
artigo, introduzimos a Reconstrução Visual Semântica Autoregressiva (ASVR),
que permite o aprendizado conjunto das modalidades visual e textual dentro de uma estrutura
autoregressiva unificada. Mostramos que a reconstrução autoregressiva da aparência visual bruta
das imagens não melhora e pode até prejudicar a compreensão multimodal. Em
contraste, a reconstrução autoregressiva da representação semântica das imagens melhora consistentemente
a compreensão. Notavelmente, descobrimos que mesmo quando os modelos recebem características
contínuas de imagem como entrada, eles podem reconstruir efetivamente tokens semânticos discretos,
resultando em melhorias estáveis e consistentes em uma ampla gama de benchmarks de compreensão
multimodal. Nossa abordagem proporciona ganhos significativos de desempenho em diferentes escalas
de dados (556k-2M) e tipos de backbones de LLM. Especificamente, a ASVR melhora
o LLaVA-1.5 em 5% nas pontuações médias em 14 benchmarks multimodais. O código está
disponível em https://github.com/AlenjandroWang/ASVR.
English
Typical large vision-language models (LVLMs) apply autoregressive supervision
solely to textual sequences, without fully incorporating the visual modality
into the learning process. This results in three key limitations: (1) an
inability to utilize images without accompanying captions, (2) the risk that
captions omit critical visual details, and (3) the challenge that certain
vision-centric content cannot be adequately conveyed through text. As a result,
current LVLMs often prioritize vision-to-language alignment while potentially
overlooking fine-grained visual information. While some prior works have
explored autoregressive image generation, effectively leveraging autoregressive
visual supervision to enhance image understanding remains an open challenge. In
this paper, we introduce Autoregressive Semantic Visual Reconstruction (ASVR),
which enables joint learning of visual and textual modalities within a unified
autoregressive framework. We show that autoregressively reconstructing the raw
visual appearance of images does not enhance and may even impair multimodal
understanding. In contrast, autoregressively reconstructing the semantic
representation of images consistently improves comprehension. Notably, we find
that even when models are given continuous image features as input, they can
effectively reconstruct discrete semantic tokens, resulting in stable and
consistent improvements across a wide range of multimodal understanding
benchmarks. Our approach delivers significant performance gains across varying
data scales (556k-2M) and types of LLM bacbones. Specifically, ASVR improves
LLaVA-1.5 by 5% in average scores across 14 multimodal benchmarks. The code is
available at https://github.com/AlenjandroWang/ASVR.