Generierung von Multi-Bild-Synthetikdaten für die Anpassung von Text zu Bildern

papers.abstract

Die Anpassung von Text-zu-Bild-Modellen ermöglicht es Benutzern, benutzerdefinierte Konzepte einzufügen und die Konzepte in unbekannten Umgebungen zu generieren. Bestehende Methoden stützen sich entweder auf kostspielige Optimierung zur Testzeit oder trainieren Encoder auf Einzelbild-Trainingsdatensätzen ohne Multi-Bild-Überwachung, was zu einer schlechteren Bildqualität führt. Wir schlagen einen einfachen Ansatz vor, der beide Einschränkungen angeht. Zunächst nutzen wir bestehende Text-zu-Bild-Modelle und 3D-Datensätze, um einen hochwertigen Synthetischen Anpassungsdatensatz (SynCD) zu erstellen, der aus mehreren Bildern des gleichen Objekts in unterschiedlicher Beleuchtung, Umgebung und Pose besteht. Anschließend schlagen wir eine neue Encoder-Architektur auf Basis von gemeinsamen Aufmerksamkeitsmechanismen vor, die feinere visuelle Details aus Eingangsbildern besser integrieren. Schließlich schlagen wir eine neue Inferenztechnik vor, die Überbelichtungsprobleme während der Inferenz durch Normalisierung der Text- und Bildführungsvektoren mildert. Durch umfangreiche Experimente zeigen wir, dass unser Modell, das auf dem synthetischen Datensatz mit dem vorgeschlagenen Encoder und Inferenzalgorithmus trainiert wurde, bestehende abstimmmittelfreie Methoden auf Standard-Anpassungsbenchmarks übertrifft.

English

Customization of text-to-image models enables users to insert custom concepts and generate the concepts in unseen settings. Existing methods either rely on costly test-time optimization or train encoders on single-image training datasets without multi-image supervision, leading to worse image quality. We propose a simple approach that addresses both limitations. We first leverage existing text-to-image models and 3D datasets to create a high-quality Synthetic Customization Dataset (SynCD) consisting of multiple images of the same object in different lighting, backgrounds, and poses. We then propose a new encoder architecture based on shared attention mechanisms that better incorporate fine-grained visual details from input images. Finally, we propose a new inference technique that mitigates overexposure issues during inference by normalizing the text and image guidance vectors. Through extensive experiments, we show that our model, trained on the synthetic dataset with the proposed encoder and inference algorithm, outperforms existing tuning-free methods on standard customization benchmarks.

Generierung von Multi-Bild-Synthetikdaten für die Anpassung von Text zu Bildern

Generating Multi-Image Synthetic Data for Text-to-Image Customization

papers.abstract

Support