Generierung von Multi-Bild-Synthetikdaten für die Anpassung von Text zu Bildern
Generating Multi-Image Synthetic Data for Text-to-Image Customization
February 3, 2025
Autoren: Nupur Kumari, Xi Yin, Jun-Yan Zhu, Ishan Misra, Samaneh Azadi
cs.AI
Zusammenfassung
Die Anpassung von Text-zu-Bild-Modellen ermöglicht es Benutzern, benutzerdefinierte Konzepte einzufügen und die Konzepte in unbekannten Umgebungen zu generieren. Bestehende Methoden stützen sich entweder auf kostspielige Optimierung zur Testzeit oder trainieren Encoder auf Einzelbild-Trainingsdatensätzen ohne Multi-Bild-Überwachung, was zu einer schlechteren Bildqualität führt. Wir schlagen einen einfachen Ansatz vor, der beide Einschränkungen angeht. Zunächst nutzen wir bestehende Text-zu-Bild-Modelle und 3D-Datensätze, um einen hochwertigen Synthetischen Anpassungsdatensatz (SynCD) zu erstellen, der aus mehreren Bildern des gleichen Objekts in unterschiedlicher Beleuchtung, Umgebung und Pose besteht. Anschließend schlagen wir eine neue Encoder-Architektur auf Basis von gemeinsamen Aufmerksamkeitsmechanismen vor, die feinere visuelle Details aus Eingangsbildern besser integrieren. Schließlich schlagen wir eine neue Inferenztechnik vor, die Überbelichtungsprobleme während der Inferenz durch Normalisierung der Text- und Bildführungsvektoren mildert. Durch umfangreiche Experimente zeigen wir, dass unser Modell, das auf dem synthetischen Datensatz mit dem vorgeschlagenen Encoder und Inferenzalgorithmus trainiert wurde, bestehende abstimmmittelfreie Methoden auf Standard-Anpassungsbenchmarks übertrifft.
English
Customization of text-to-image models enables users to insert custom concepts
and generate the concepts in unseen settings. Existing methods either rely on
costly test-time optimization or train encoders on single-image training
datasets without multi-image supervision, leading to worse image quality. We
propose a simple approach that addresses both limitations. We first leverage
existing text-to-image models and 3D datasets to create a high-quality
Synthetic Customization Dataset (SynCD) consisting of multiple images of the
same object in different lighting, backgrounds, and poses. We then propose a
new encoder architecture based on shared attention mechanisms that better
incorporate fine-grained visual details from input images. Finally, we propose
a new inference technique that mitigates overexposure issues during inference
by normalizing the text and image guidance vectors. Through extensive
experiments, we show that our model, trained on the synthetic dataset with the
proposed encoder and inference algorithm, outperforms existing tuning-free
methods on standard customization benchmarks.Summary
AI-Generated Summary