Inicializa tu generador: edición visual no apareada mediante ajuste de flujo

Resumen

Los modelos generativos modernos poseen una comprensión profunda del contenido visual, pero entrenarlos para la edición de imágenes suele requerir conjuntos masivos de datos con ejemplos apareados. Esto limita la escalabilidad, especialmente en la edición de video, donde la recolección de datos apareados resulta prohibitivamente costosa. Proponemos Bootstrap Your Generator (ByG), un marco general para el entrenamiento no apareado de modelos de edición basados en emparejamiento de flujo. Este enfoque aprovecha el conocimiento del modelo base sin ninguna señal externa. Nuestro método combina claves de seguimiento de instrucciones extraídas del modelo congelado con consistencia cíclica para preservar la estructura. Para hacer esto manejable, proponemos direccionar los gradientes de las pérdidas descendentes sobre predicciones limpias hacia los estados de entrenamiento ruidosos. Demostramos resultados de vanguardia en escenarios desafiantes de edición de imágenes y video con escasez de datos. Evaluaciones exhaustivas y estudios de usuarios muestran que nuestro método se generaliza eficazmente a dominios no vistos y supera a las líneas base supervisadas entrenadas con millones de muestras. El análisis revela que nuestro direccionamiento de gradientes reduce la brecha entre el entrenamiento y la inferencia, y que la extracción de señales semánticas de un modelo base proporciona una señal de entrenamiento robusta que elimina la necesidad de modelos de recompensa externos.

English

Modern generative models possess a deep understanding of visual content, yet training them for image editing typically requires massive datasets of paired examples. This limits scalability, especially for video editing where collecting paired data is prohibitively expensive. We propose Bootstrap Your Generator (ByG), a general framework for unpaired training of flow matching editing models. It leverages the base model's knowledge without any external signal. Our approach pairs instruction-following cues extracted from the frozen model with cycle-consistency for structure preservation. To make this tractable, we propose to route gradients from downstream losses over clean predictions to noisy training states. We demonstrate state-of-the-art results on challenging data-scarce image and video editing scenarios. Extensive evaluations and user studies show that our method effectively generalizes to unseen domains and outperforms supervised baselines trained on millions of samples. Analysis reveals that our gradient routing bridges the train-inference gap, and extracting semantic cues from a base model provides a robust training signal that obviates the need for external reward models.