X-Prompt: Naar Universele In-Context Beeldgeneratie in Auto-Regressieve Vision Language Foundation Modellen
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models
December 2, 2024
Auteurs: Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
In-context generatie is een essentieel onderdeel van de open-taak generalisatiecapaciteit van grote taalmodellen (LLM's). Door gebruik te maken van een paar voorbeelden als context, kunnen LLM's zowel taken binnen het domein als taken buiten het domein uitvoeren. Recente ontwikkelingen in auto-regressieve visie-taalmodellen (VLM's) gebouwd op LLM's hebben indrukwekkende prestaties laten zien in tekst-naar-afbeelding generatie. Echter, het potentieel van in-context leren voor algemene afbeeldingsgeneratietaken blijft grotendeels onbenut. Om dit aan te pakken, introduceren we X-Prompt, een puur auto-regressief groot-visie taalmodel dat is ontworpen om concurrerende prestaties te leveren over een breed scala van zowel bekende als onbekende afbeeldingsgeneratietaken, allemaal binnen een verenigd in-context leerframework. X-Prompt bevat een gespecialiseerd ontwerp dat waardevolle kenmerken efficiënt comprimeert uit in-context voorbeelden, waardoor langere in-context tokenreeksen worden ondersteund en de mogelijkheid om te generaliseren naar onbekende taken wordt verbeterd. Een verenigde trainingsopdracht voor zowel tekst- als afbeeldingsvoorspelling stelt X-Prompt in staat om algemene afbeeldingsgeneratie te behandelen met verbeterd taakbewustzijn vanuit in-context voorbeelden. Uitgebreide experimenten valideren de prestaties van het model over diverse bekende afbeeldingsgeneratietaken en zijn capaciteit om te generaliseren naar eerder ongeziene taken.
English
In-context generation is a key component of large language models' (LLMs)
open-task generalization capability. By leveraging a few examples as context,
LLMs can perform both in-domain and out-of-domain tasks. Recent advancements in
auto-regressive vision-language models (VLMs) built upon LLMs have showcased
impressive performance in text-to-image generation. However, the potential of
in-context learning for general image generation tasks remains largely
unexplored. To address this, we introduce X-Prompt, a purely auto-regressive
large-vision language model designed to deliver competitive performance across
a wide range of both seen and unseen image generation tasks, all within a
unified in-context learning framework. X-Prompt incorporates a specialized
design that efficiently compresses valuable features from in-context examples,
supporting longer in-context token sequences and improving its ability to
generalize to unseen tasks. A unified training task for both text and image
prediction enables X-Prompt to handle general image generation with enhanced
task awareness from in-context examples. Extensive experiments validate the
model's performance across diverse seen image generation tasks and its capacity
to generalize to previously unseen tasks.Summary
AI-Generated Summary