ChatPaper.aiChatPaper

X-Prompt: Hacia la Generación Universal de Imágenes en Contexto en Modelos Fundamentales de Lenguaje Visual Auto-Regresivos

X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

December 2, 2024
Autores: Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI

Resumen

La generación en contexto es un componente clave de la capacidad de generalización de tareas abiertas de los modelos de lenguaje grandes (LLMs). Al aprovechar unos pocos ejemplos como contexto, los LLMs pueden realizar tareas tanto dentro como fuera del dominio. Los avances recientes en modelos visión-lenguaje auto-regresivos (VLMs) construidos sobre LLMs han demostrado un rendimiento impresionante en la generación de texto a imagen. Sin embargo, el potencial del aprendizaje en contexto para tareas generales de generación de imágenes sigue siendo en gran medida inexplorado. Para abordar esto, presentamos X-Prompt, un modelo de lenguaje grande de visión puramente auto-regresivo diseñado para ofrecer un rendimiento competitivo en una amplia gama de tareas de generación de imágenes tanto vistas como no vistas, todo dentro de un marco unificado de aprendizaje en contexto. X-Prompt incorpora un diseño especializado que comprime eficientemente características valiosas de ejemplos en contexto, admitiendo secuencias de tokens en contexto más largas y mejorando su capacidad para generalizar a tareas no vistas. Una tarea de entrenamiento unificada para la predicción de texto e imagen permite a X-Prompt manejar la generación de imágenes generales con una mayor conciencia de la tarea a partir de ejemplos en contexto. Experimentos extensos validan el rendimiento del modelo en diversas tareas de generación de imágenes vistas y su capacidad para generalizar a tareas previamente no vistas.
English
In-context generation is a key component of large language models' (LLMs) open-task generalization capability. By leveraging a few examples as context, LLMs can perform both in-domain and out-of-domain tasks. Recent advancements in auto-regressive vision-language models (VLMs) built upon LLMs have showcased impressive performance in text-to-image generation. However, the potential of in-context learning for general image generation tasks remains largely unexplored. To address this, we introduce X-Prompt, a purely auto-regressive large-vision language model designed to deliver competitive performance across a wide range of both seen and unseen image generation tasks, all within a unified in-context learning framework. X-Prompt incorporates a specialized design that efficiently compresses valuable features from in-context examples, supporting longer in-context token sequences and improving its ability to generalize to unseen tasks. A unified training task for both text and image prediction enables X-Prompt to handle general image generation with enhanced task awareness from in-context examples. Extensive experiments validate the model's performance across diverse seen image generation tasks and its capacity to generalize to previously unseen tasks.

Summary

AI-Generated Summary

PDF662December 3, 2024