Plantando uma SEMENTE de Visão em Modelos de Linguagem de Grande Escala
Planting a SEED of Vision in Large Language Model
July 16, 2023
Autores: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, Ying Shan
cs.AI
Resumo
Apresentamos o SEED, um elaborado tokenizador de imagens que capacita Modelos de Linguagem de Grande Escala (LLMs) com a habilidade emergente de VER e Desenhar simultaneamente. Pesquisas anteriores sobre tokenizadores de imagens atingiram um impasse, uma vez que frameworks que empregam tokens visuais quantizados perderam destaque devido ao desempenho e convergência insatisfatórios na compreensão multimodal (em comparação com BLIP-2, etc.) ou na geração (em comparação com Stable Diffusion, etc.). Apesar das limitações, mantemos a confiança em sua capacidade natural de unificar representações visuais e textuais, facilitando o treinamento multimodal escalável com a receita original dos LLMs. Neste estudo, identificamos dois princípios cruciais para a arquitetura e o treinamento do SEED que efetivamente facilitam o alinhamento subsequente com LLMs. (1) Os tokens de imagem devem ser independentes das posições físicas 2D dos patches e, em vez disso, serem produzidos com uma dependência causal 1D, exibindo interdependência intrínseca que se alinha com o mecanismo de previsão autoregressiva da esquerda para a direita nos LLMs. (2) Os tokens de imagem devem capturar semânticas de alto nível consistentes com o grau de abstração semântica das palavras e serem otimizados tanto para discriminatividade quanto para reconstrução durante a fase de treinamento do tokenizador. Como resultado, o LLM de prateleira é capaz de realizar tanto a geração de imagem-para-texto quanto de texto-para-imagem ao incorporar nosso SEED por meio de ajuste eficiente com LoRA. O pré-treinamento multimodal abrangente e o ajuste por instrução, que podem produzir resultados aprimorados, são reservados para investigações futuras. Esta versão do SEED foi treinada em 5,7 dias utilizando apenas 64 GPUs V100 e 5 milhões de pares de imagem-texto disponíveis publicamente. Nosso estudo preliminar enfatiza o grande potencial dos tokens visuais discretos em LLMs multimodais versáteis e a importância de tokenizadores de imagem adequados em pesquisas mais amplas.
English
We present SEED, an elaborate image tokenizer that empowers Large Language
Models (LLMs) with the emergent ability to SEE and Draw at the same time.
Research on image tokenizers has previously reached an impasse, as frameworks
employing quantized visual tokens have lost prominence due to subpar
performance and convergence in multimodal comprehension (compared to BLIP-2,
etc.) or generation (compared to Stable Diffusion, etc.). Despite the
limitations, we remain confident in its natural capacity to unify visual and
textual representations, facilitating scalable multimodal training with LLM's
original recipe. In this study, we identify two crucial principles for the
architecture and training of SEED that effectively ease subsequent alignment
with LLMs. (1) Image tokens should be independent of 2D physical patch
positions and instead be produced with a 1D causal dependency, exhibiting
intrinsic interdependence that aligns with the left-to-right autoregressive
prediction mechanism in LLMs. (2) Image tokens should capture high-level
semantics consistent with the degree of semantic abstraction in words, and be
optimized for both discriminativeness and reconstruction during the tokenizer
training phase. As a result, the off-the-shelf LLM is able to perform both
image-to-text and text-to-image generation by incorporating our SEED through
efficient LoRA tuning. Comprehensive multimodal pretraining and instruction
tuning, which may yield improved results, are reserved for future
investigation. This version of SEED was trained in 5.7 days using only 64 V100
GPUs and 5M publicly available image-text pairs. Our preliminary study
emphasizes the great potential of discrete visual tokens in versatile
multimodal LLMs and the importance of proper image tokenizers in broader
research.