ChatPaper.aiChatPaper

X-Prompt: Rumo à Geração Universal de Imagens em Contexto nos Modelos Fundamentais de Linguagem Visual Auto-Regressivos

X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

December 2, 2024
Autores: Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI

Resumo

A geração em contexto é um componente chave da capacidade de generalização de tarefas abertas de grandes modelos de linguagem (LLMs). Ao aproveitar alguns exemplos como contexto, os LLMs podem realizar tarefas tanto dentro quanto fora do domínio. Avanços recentes em modelos visão-linguagem auto-regressivos (VLMs) construídos sobre LLMs têm demonstrado um desempenho impressionante na geração de texto para imagem. No entanto, o potencial da aprendizagem em contexto para tarefas gerais de geração de imagem permanece amplamente inexplorado. Para abordar isso, apresentamos o X-Prompt, um modelo de linguagem de visão grande puramente auto-regressivo projetado para fornecer um desempenho competitivo em uma ampla gama de tarefas de geração de imagem tanto vistas quanto não vistas, tudo dentro de um framework unificado de aprendizagem em contexto. O X-Prompt incorpora um design especializado que comprime eficientemente características valiosas de exemplos em contexto, suportando sequências de tokens em contexto mais longas e melhorando sua capacidade de generalizar para tarefas não vistas. Uma tarefa de treinamento unificada para previsão de texto e imagem permite que o X-Prompt lide com a geração de imagem geral com uma consciência aprimorada da tarefa a partir de exemplos em contexto. Experimentos extensivos validam o desempenho do modelo em diversas tarefas de geração de imagem vistas e sua capacidade de generalizar para tarefas previamente não vistas.
English
In-context generation is a key component of large language models' (LLMs) open-task generalization capability. By leveraging a few examples as context, LLMs can perform both in-domain and out-of-domain tasks. Recent advancements in auto-regressive vision-language models (VLMs) built upon LLMs have showcased impressive performance in text-to-image generation. However, the potential of in-context learning for general image generation tasks remains largely unexplored. To address this, we introduce X-Prompt, a purely auto-regressive large-vision language model designed to deliver competitive performance across a wide range of both seen and unseen image generation tasks, all within a unified in-context learning framework. X-Prompt incorporates a specialized design that efficiently compresses valuable features from in-context examples, supporting longer in-context token sequences and improving its ability to generalize to unseen tasks. A unified training task for both text and image prediction enables X-Prompt to handle general image generation with enhanced task awareness from in-context examples. Extensive experiments validate the model's performance across diverse seen image generation tasks and its capacity to generalize to previously unseen tasks.

Summary

AI-Generated Summary

PDF662December 3, 2024