ChatPaper.aiChatPaper

X-Prompt: Auf dem Weg zur universellen kontextbezogenen Bildgenerierung in auto-regressiven Vision-Sprach-Grundlagenmodellen

X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

December 2, 2024
Autoren: Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI

Zusammenfassung

Die Generierung im Kontext ist eine Schlüsselkomponente der Fähigkeit großer Sprachmodelle (LLMs) zur offenen Aufgabenverallgemeinerung. Durch die Nutzung einiger Beispiele als Kontext können LLMs sowohl in-domain als auch out-of-domain Aufgaben ausführen. Die jüngsten Fortschritte bei auto-regressiven Bild-Sprach-Modellen (VLMs), die auf LLMs aufbauen, haben beeindruckende Leistungen bei der Text-zu-Bild-Generierung gezeigt. Das Potenzial des Lernens im Kontext für allgemeine Bildgenerierungsaufgaben bleibt jedoch weitgehend unerforscht. Um dies anzugehen, stellen wir X-Prompt vor, ein rein auto-regressives großes Bild-Sprach-Modell, das darauf ausgelegt ist, eine wettbewerbsfähige Leistung bei einer breiten Palette von sowohl bekannten als auch unbekannten Bildgenerierungsaufgaben innerhalb eines vereinheitlichten in-Kontext-Lernrahmens zu erbringen. X-Prompt integriert ein spezialisiertes Design, das wertvolle Merkmale aus Kontextbeispielen effizient komprimiert, unterstützt längere in-Kontext-Token-Sequenzen und verbessert seine Fähigkeit zur Verallgemeinerung auf unbekannte Aufgaben. Eine vereinheitlichte Trainingsaufgabe für sowohl Text- als auch Bildvorhersage ermöglicht es X-Prompt, die allgemeine Bildgenerierung mit verbesserter Aufgabenbewusstheit aus Kontextbeispielen zu handhaben. Umfangreiche Experimente validieren die Leistung des Modells bei verschiedenen bekannten Bildgenerierungsaufgaben und seine Fähigkeit, sich auf zuvor unbekannte Aufgaben zu verallgemeinern.
English
In-context generation is a key component of large language models' (LLMs) open-task generalization capability. By leveraging a few examples as context, LLMs can perform both in-domain and out-of-domain tasks. Recent advancements in auto-regressive vision-language models (VLMs) built upon LLMs have showcased impressive performance in text-to-image generation. However, the potential of in-context learning for general image generation tasks remains largely unexplored. To address this, we introduce X-Prompt, a purely auto-regressive large-vision language model designed to deliver competitive performance across a wide range of both seen and unseen image generation tasks, all within a unified in-context learning framework. X-Prompt incorporates a specialized design that efficiently compresses valuable features from in-context examples, supporting longer in-context token sequences and improving its ability to generalize to unseen tasks. A unified training task for both text and image prediction enables X-Prompt to handle general image generation with enhanced task awareness from in-context examples. Extensive experiments validate the model's performance across diverse seen image generation tasks and its capacity to generalize to previously unseen tasks.

Summary

AI-Generated Summary

PDF662December 3, 2024