Sembrando una SEMILLA de Visión en Modelos de Lenguaje a Gran Escala
Planting a SEED of Vision in Large Language Model
July 16, 2023
Autores: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, Ying Shan
cs.AI
Resumen
Presentamos SEED, un elaborado tokenizador de imágenes que dota a los Modelos de Lenguaje de Gran Escala (LLMs) con la capacidad emergente de VER y DIBUJAR simultáneamente. La investigación sobre tokenizadores de imágenes había alcanzado previamente un punto muerto, ya que los marcos que emplean tokens visuales cuantizados han perdido relevancia debido a un rendimiento y convergencia subóptimos en la comprensión multimodal (en comparación con BLIP-2, etc.) o en la generación (en comparación con Stable Diffusion, etc.). A pesar de estas limitaciones, mantenemos la confianza en su capacidad natural para unificar representaciones visuales y textuales, facilitando un entrenamiento multimodal escalable con la receta original de los LLMs. En este estudio, identificamos dos principios cruciales para la arquitectura y el entrenamiento de SEED que efectivamente facilitan la alineación posterior con los LLMs. (1) Los tokens de imagen deben ser independientes de las posiciones físicas 2D de los parches y, en su lugar, generarse con una dependencia causal 1D, exhibiendo una interdependencia intrínseca que se alinea con el mecanismo de predicción autoregresivo de izquierda a derecha en los LLMs. (2) Los tokens de imagen deben capturar semántica de alto nivel consistente con el grado de abstracción semántica de las palabras, y estar optimizados tanto para la discriminación como para la reconstrucción durante la fase de entrenamiento del tokenizador. Como resultado, un LLM estándar es capaz de realizar tanto generación de imagen a texto como de texto a imagen al incorporar nuestro SEED mediante un ajuste eficiente con LoRA. Un preentrenamiento multimodal exhaustivo y un ajuste por instrucción, que podrían mejorar los resultados, se reservan para futuras investigaciones. Esta versión de SEED se entrenó en 5.7 días utilizando solo 64 GPUs V100 y 5 millones de pares de imagen-texto disponibles públicamente. Nuestro estudio preliminar enfatiza el gran potencial de los tokens visuales discretos en LLMs multimodales versátiles y la importancia de los tokenizadores de imágenes adecuados en investigaciones más amplias.
English
We present SEED, an elaborate image tokenizer that empowers Large Language
Models (LLMs) with the emergent ability to SEE and Draw at the same time.
Research on image tokenizers has previously reached an impasse, as frameworks
employing quantized visual tokens have lost prominence due to subpar
performance and convergence in multimodal comprehension (compared to BLIP-2,
etc.) or generation (compared to Stable Diffusion, etc.). Despite the
limitations, we remain confident in its natural capacity to unify visual and
textual representations, facilitating scalable multimodal training with LLM's
original recipe. In this study, we identify two crucial principles for the
architecture and training of SEED that effectively ease subsequent alignment
with LLMs. (1) Image tokens should be independent of 2D physical patch
positions and instead be produced with a 1D causal dependency, exhibiting
intrinsic interdependence that aligns with the left-to-right autoregressive
prediction mechanism in LLMs. (2) Image tokens should capture high-level
semantics consistent with the degree of semantic abstraction in words, and be
optimized for both discriminativeness and reconstruction during the tokenizer
training phase. As a result, the off-the-shelf LLM is able to perform both
image-to-text and text-to-image generation by incorporating our SEED through
efficient LoRA tuning. Comprehensive multimodal pretraining and instruction
tuning, which may yield improved results, are reserved for future
investigation. This version of SEED was trained in 5.7 days using only 64 V100
GPUs and 5M publicly available image-text pairs. Our preliminary study
emphasizes the great potential of discrete visual tokens in versatile
multimodal LLMs and the importance of proper image tokenizers in broader
research.