ChatPaper.aiChatPaper

PixWizard: Vielseitiger Bild-zu-Bild-Visueller Assistent mit Open-Language-Anweisungen

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

September 23, 2024
Autoren: Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li
cs.AI

Zusammenfassung

Dieses Paper präsentiert einen vielseitigen Bild-zu-Bild-Visual-Assistenten, PixWizard, der für die Bildgenerierung, -manipulation und -übersetzung basierend auf freiformen Sprachanweisungen entwickelt wurde. Zu diesem Zweck behandeln wir eine Vielzahl von Visionstasks in einem vereinheitlichten Bild-Text-zu-Bild-Generierungsrahmen und kuratieren einen Omni Pixel-zu-Pixel-Anweisungsabstimmungsdatensatz. Durch die Erstellung detaillierter Anweisungsvorlagen in natürlicher Sprache schließen wir umfassend eine große Anzahl verschiedener Visionstasks ein, wie z.B. Text-zu-Bild-Generierung, Bildrestauration, Bildverankerung, dichte Bildvorhersage, Bildbearbeitung, kontrollierte Generierung, Inpainting/Outpainting und mehr. Darüber hinaus übernehmen wir Diffusion Transformers (DiT) als unser Grundlagenmodell und erweitern seine Fähigkeiten mit einem flexiblen Mechanismus für jede Auflösung, der es dem Modell ermöglicht, Bilder dynamisch basierend auf dem Seitenverhältnis des Eingabebildes zu verarbeiten, was eng mit menschlichen Wahrnehmungsprozessen übereinstimmt. Das Modell integriert auch strukturbewusste und semantikbewusste Anleitungen, um eine effektive Fusion von Informationen aus dem Eingabebild zu erleichtern. Unsere Experimente zeigen, dass PixWizard nicht nur beeindruckende generative und Verständnisfähigkeiten für Bilder mit verschiedenen Auflösungen zeigt, sondern auch vielversprechende Verallgemeinerungsfähigkeiten mit unbekannten Aufgaben und menschlichen Anweisungen aufweist. Der Code und die zugehörigen Ressourcen sind verfügbar unter https://github.com/AFeng-x/PixWizard.
English
This paper presents a versatile image-to-image visual assistant, PixWizard, designed for image generation, manipulation, and translation based on free-from language instructions. To this end, we tackle a variety of vision tasks into a unified image-text-to-image generation framework and curate an Omni Pixel-to-Pixel Instruction-Tuning Dataset. By constructing detailed instruction templates in natural language, we comprehensively include a large set of diverse vision tasks such as text-to-image generation, image restoration, image grounding, dense image prediction, image editing, controllable generation, inpainting/outpainting, and more. Furthermore, we adopt Diffusion Transformers (DiT) as our foundation model and extend its capabilities with a flexible any resolution mechanism, enabling the model to dynamically process images based on the aspect ratio of the input, closely aligning with human perceptual processes. The model also incorporates structure-aware and semantic-aware guidance to facilitate effective fusion of information from the input image. Our experiments demonstrate that PixWizard not only shows impressive generative and understanding abilities for images with diverse resolutions but also exhibits promising generalization capabilities with unseen tasks and human instructions. The code and related resources are available at https://github.com/AFeng-x/PixWizard

Summary

AI-Generated Summary

PDF262November 16, 2024