X-Prompt : Vers une génération d'images universelle en contexte dans les modèles fondamentaux de vision et de langage auto-régressifs
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models
December 2, 2024
Auteurs: Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Résumé
La génération en contexte est un composant clé de la capacité de généralisation des modèles de langage volumineux (LLM) aux tâches ouvertes. En exploitant quelques exemples en tant que contexte, les LLM peuvent effectuer des tâches à la fois dans et hors du domaine. Les récentes avancées dans les modèles vision-langage auto-régressifs (VLM) construits sur les LLM ont démontré des performances impressionnantes dans la génération texte-image. Cependant, le potentiel de l'apprentissage en contexte pour les tâches générales de génération d'images reste largement inexploré. Pour remédier à cela, nous présentons X-Prompt, un modèle de langage visionnel volumineux entièrement auto-régressif conçu pour offrir des performances compétitives sur un large éventail de tâches de génération d'images, vues ou non, le tout dans un cadre unifié d'apprentissage en contexte. X-Prompt intègre une conception spécialisée qui compresse efficacement les caractéristiques précieuses des exemples en contexte, soutenant des séquences de jetons en contexte plus longues et améliorant sa capacité à généraliser à des tâches non vues. Une tâche d'entraînement unifiée pour la prédiction de texte et d'image permet à X-Prompt de gérer la génération d'images générales avec une conscience de tâche améliorée à partir des exemples en contexte. Des expériences approfondies valident les performances du modèle sur diverses tâches de génération d'images vues et sa capacité à généraliser à des tâches précédemment non vues.
English
In-context generation is a key component of large language models' (LLMs)
open-task generalization capability. By leveraging a few examples as context,
LLMs can perform both in-domain and out-of-domain tasks. Recent advancements in
auto-regressive vision-language models (VLMs) built upon LLMs have showcased
impressive performance in text-to-image generation. However, the potential of
in-context learning for general image generation tasks remains largely
unexplored. To address this, we introduce X-Prompt, a purely auto-regressive
large-vision language model designed to deliver competitive performance across
a wide range of both seen and unseen image generation tasks, all within a
unified in-context learning framework. X-Prompt incorporates a specialized
design that efficiently compresses valuable features from in-context examples,
supporting longer in-context token sequences and improving its ability to
generalize to unseen tasks. A unified training task for both text and image
prediction enables X-Prompt to handle general image generation with enhanced
task awareness from in-context examples. Extensive experiments validate the
model's performance across diverse seen image generation tasks and its capacity
to generalize to previously unseen tasks.Summary
AI-Generated Summary