FlowBender : Formation guidée par la rétroaction pour les flots conditionnels auto-correctifs

Résumé

Les modèles de diffusion et de flux conditionnels échouent systématiquement à satisfaire les contraintes mêmes qui définissent leur tâche. Par exemple, un modèle conditionné par la profondeur produit souvent des images dont la profondeur extraite à nouveau ne correspond pas à l'entrée, alors même que l'opérateur direct – le prédicteur de profondeur qui définit la contrainte – est disponible à la fois lors de l'entraînement et de l'inférence. Les approches existantes se répartissent généralement en deux catégories : les modèles supervisés qui traitent le signal de conditionnement comme un indice statique et ignorent l'information d'alignement lors de l'inférence, et les méthodes basées sur le guidage qui le consultent via des mises à jour linéaires réglées manuellement, sacrifiant généralement la fidélité à la condition au profit de la plausibilité de l'échantillon généré. Nous soutenons que le fossé fondamental dans les deux paradigmes est que le modèle n'est jamais entraîné à utiliser sa propre erreur d'alignement. Nous introduisons FlowBender, un cadre en boucle fermée qui traite cette erreur comme une entrée de première classe, entraînant le réseau à apprendre une politique de correction conditionnée par le retour d'information au moment de l'inférence. À chaque étape, un passage prospectif non guidé estime le signal propre, un écart spécifique à la tâche est calculé via l'opérateur direct, et un passage de raffinement consomme ce signal pour produire une vélocité corrigée. Nous proposons plusieurs variantes de FlowBender, notamment une formulation basée sur le gradient pour les opérateurs différentiables et une variante d'ordre zéro pour les contextes non différentiables tels que la compression JPEG. Pour un échantillonnage efficace, nous introduisons un raccourci de pas antérieur qui permet une correction en boucle fermée à un coût de calcul supplémentaire minimal. Dans la traduction d'image à image, la restauration et la texturation de maillage 3D, FlowBender surpasse systématiquement les lignes de base supervisées standard, l'entraînement augmenté par perte d'alignement et le guidage au moment de l'inférence de pointe, améliorant simultanément la fidélité et la plausibilité plutôt que de les opposer l'une à l'autre. Page du projet : https://flow-bender.github.io/

English

Conditional diffusion and flow models routinely fail to satisfy the very constraints that define their task. For instance, a depth-conditioned model often produces images whose re-extracted depth disagrees with the input, even though the forward operator--the depth predictor defining the constraint--is available during both training and inference. Existing approaches generally fall into two categories: supervised models that treat the conditioning signal as a static cue and ignore alignment information at inference, and guidance-based methods that consult it through hand-tuned linear updates, typically trading fidelity to the condition against the plausibility of the generated sample. We argue that the fundamental gap in both paradigms is that the model is never trained to utilize its own alignment error. We introduce FlowBender, a closed-loop framework that treats this error as a first-class input, training the network to learn a correction policy conditioned on inference-time feedback. At each step, an unguided look-ahead pass estimates the clean signal, a task-specific deviation is computed via the forward operator, and a refinement pass consumes this signal to produce a corrected velocity. We propose several variants of FlowBender, including a gradient-based formulation for differentiable operators and a zero-order variant for non-differentiable settings such as JPEG compression. For efficient sampling, we introduce a prior-step shortcut that enables closed-loop correction at a minimal additional computational cost. Across image-to-image translation, restoration, and 3D mesh texturing, FlowBender consistently outperforms standard supervised baselines, alignment-loss-augmented training, and state-of-the-art inference-time guidance, improving fidelity and plausibility simultaneously rather than trading them against each other. Project page: https://flow-bender.github.io/