Amorcez votre générateur : Édition visuelle non appariée avec Flow Matching

Résumé

Les modèles génératifs modernes possèdent une compréhension profonde du contenu visuel, mais leur entraînement pour l'édition d'images nécessite généralement des ensembles de données massifs d'exemples appariés. Cela limite la scalabilité, en particulier pour l'édition vidéo où la collecte de données appariées est excessivement coûteuse. Nous proposons Bootstrap Your Generator (ByG), un cadre général pour l'entraînement non apparié de modèles d'édition par appariement de flots. Il exploite les connaissances du modèle de base sans aucun signal externe. Notre approche associe des indices de suivi d'instructions extraits du modèle gelé avec une cohérence cyclique pour la préservation de la structure. Pour rendre cela réalisable, nous proposons d'acheminer les gradients des pertes en aval sur les prédictions propres vers les états d'entraînement bruités. Nous démontrons des résultats de pointe sur des scénarios difficiles d'édition d'images et de vidéos avec des données rares. Des évaluations approfondies et des études utilisateurs montrent que notre méthode généralise efficacement à des domaines non vus et surpasse les références supervisées entraînées sur des millions d'échantillons. L'analyse révèle que notre acheminement de gradients comble l'écart entre l'entraînement et l'inférence, et que l'extraction d'indices sémantiques d'un modèle de base fournit un signal d'entraînement robuste qui évite le besoin de modèles de récompense externes.

English

Modern generative models possess a deep understanding of visual content, yet training them for image editing typically requires massive datasets of paired examples. This limits scalability, especially for video editing where collecting paired data is prohibitively expensive. We propose Bootstrap Your Generator (ByG), a general framework for unpaired training of flow matching editing models. It leverages the base model's knowledge without any external signal. Our approach pairs instruction-following cues extracted from the frozen model with cycle-consistency for structure preservation. To make this tractable, we propose to route gradients from downstream losses over clean predictions to noisy training states. We demonstrate state-of-the-art results on challenging data-scarce image and video editing scenarios. Extensive evaluations and user studies show that our method effectively generalizes to unseen domains and outperforms supervised baselines trained on millions of samples. Analysis reveals that our gradient routing bridges the train-inference gap, and extracting semantic cues from a base model provides a robust training signal that obviates the need for external reward models.