Bootstrapping Ihres Generators: Ungepaarte visuelle Bearbeitung mittels Flow Matching

Zusammenfassung

Moderne generative Modelle besitzen ein tiefes Verständnis visueller Inhalte, doch ihr Training für die Bildbearbeitung erfordert typischerweise massive Datensätze mit paarweisen Beispielen. Dies schränkt die Skalierbarkeit ein, insbesondere bei der Videobearbeitung, bei der die Erhebung paarweiser Daten unverhältnismäßig teuer ist. Wir schlagen Bootstrap Your Generator (ByG) vor, ein allgemeines Framework für ungepaartes Training von Flow-Matching-Bearbeitungsmodellen. Es nutzt das Wissen des Basismodells ohne externes Signal. Unser Ansatz kombiniert aus dem eingefrorenen Modell extrahierte, anweisungsbefolgende Hinweise mit Zykluskonsistenz zur Strukturerhaltung. Um dies handhabbar zu machen, schlagen wir vor, Gradienten aus nachgelagerten Verlusten über saubere Vorhersagen auf verrauschte Trainingszustände zu leiten. Wir demonstrieren hochmoderne Ergebnisse in anspruchsvollen Szenarien der Bild- und Videobearbeitung mit geringer Datenverfügbarkeit. Umfangreiche Evaluierungen und Nutzerstudien zeigen, dass unsere Methode effektiv auf unbekannte Bereiche generalisiert und überwachte Basislinien übertrifft, die mit Millionen von Stichproben trainiert wurden. Die Analyse zeigt, dass unsere Gradientenweiterleitung die Trainings-Inferenz-Lücke überbrückt und die Extraktion semantischer Hinweise aus einem Basismodell ein robustes Trainingssignal liefert, das die Notwendigkeit externer Belohnungsmodelle überflüssig macht.

English

Modern generative models possess a deep understanding of visual content, yet training them for image editing typically requires massive datasets of paired examples. This limits scalability, especially for video editing where collecting paired data is prohibitively expensive. We propose Bootstrap Your Generator (ByG), a general framework for unpaired training of flow matching editing models. It leverages the base model's knowledge without any external signal. Our approach pairs instruction-following cues extracted from the frozen model with cycle-consistency for structure preservation. To make this tractable, we propose to route gradients from downstream losses over clean predictions to noisy training states. We demonstrate state-of-the-art results on challenging data-scarce image and video editing scenarios. Extensive evaluations and user studies show that our method effectively generalizes to unseen domains and outperforms supervised baselines trained on millions of samples. Analysis reveals that our gradient routing bridges the train-inference gap, and extracting semantic cues from a base model provides a robust training signal that obviates the need for external reward models.