FlowBender: Feedbackbewuste Training voor Zelfcorrigerende Conditionele Stromen

Samenvatting

Conditionele diffusie- en stromingsmodellen schieten routinematig tekort in het voldoen aan de exacte restricties die hun taak definiëren. Een diepte-geconditioneerd model produceert bijvoorbeeld vaak afbeeldingen waarvan de opnieuw geëxtraheerde diepte niet overeenkomt met de invoer, zelfs wanneer de voorwaartse operator – de dieptepredictor die de restrictie definieert – beschikbaar is tijdens zowel training als inferentie. Bestaande benaderingen vallen over het algemeen in twee categorieën: gesuperviseerde modellen die het conditionering signaal als een statische aanwijzing behandelen en aligneringsinformatie tijdens inferentie negeren, en sturingsgebaseerde methoden die het raadplegen via handmatig afgestelde lineaire updates, doorgaans getrouwheid aan de conditie inruilen tegen de plausibiliteit van het gegenereerde monster. Wij stellen dat de fundamentele kloof in beide paradigma's is dat het model nooit wordt getraind om zijn eigen aligneringsfout te benutten. We introduceren FlowBender, een gesloten-lus raamwerk dat deze fout als een eersteklas invoer behandelt, het netwerk traint om een correctiebeleid te leren dat is geconditioneerd op feedback tijdens inferentie. Bij elke stap schat een ongecontroleerde vooruitblikpas het schone signaal, wordt een taakspecifieke afwijking berekend via de voorwaartse operator, en verbruikt een verfijningspas dit signaal om een gecorrigeerde snelheid te produceren. We stellen verschillende varianten van FlowBender voor, waaronder een gradiëntgebaseerde formulering voor differentieerbare operatoren en een nulde-orde variant voor niet-differentieerbare omgevingen zoals JPEG-compressie. Voor efficiënte sampling introduceren we een eerdere-stap shortcut die gesloten-lus correctie mogelijk maakt tegen minimale extra computationele kosten. Bij beeld-naar-beeld translatie, restauratie en 3D-mesh texturering presteert FlowBender consequent beter dan standaard gesuperviseerde basislijnen, aligneringsverlies-vergrote training en state-of-the-art inferentie-tijd sturing, en verbetert getrouwheid en plausibiliteit gelijktijdig in plaats van ze tegen elkaar uit te ruilen. Projectpagina: https://flow-bender.github.io/

English

Conditional diffusion and flow models routinely fail to satisfy the very constraints that define their task. For instance, a depth-conditioned model often produces images whose re-extracted depth disagrees with the input, even though the forward operator--the depth predictor defining the constraint--is available during both training and inference. Existing approaches generally fall into two categories: supervised models that treat the conditioning signal as a static cue and ignore alignment information at inference, and guidance-based methods that consult it through hand-tuned linear updates, typically trading fidelity to the condition against the plausibility of the generated sample. We argue that the fundamental gap in both paradigms is that the model is never trained to utilize its own alignment error. We introduce FlowBender, a closed-loop framework that treats this error as a first-class input, training the network to learn a correction policy conditioned on inference-time feedback. At each step, an unguided look-ahead pass estimates the clean signal, a task-specific deviation is computed via the forward operator, and a refinement pass consumes this signal to produce a corrected velocity. We propose several variants of FlowBender, including a gradient-based formulation for differentiable operators and a zero-order variant for non-differentiable settings such as JPEG compression. For efficient sampling, we introduce a prior-step shortcut that enables closed-loop correction at a minimal additional computational cost. Across image-to-image translation, restoration, and 3D mesh texturing, FlowBender consistently outperforms standard supervised baselines, alignment-loss-augmented training, and state-of-the-art inference-time guidance, improving fidelity and plausibility simultaneously rather than trading them against each other. Project page: https://flow-bender.github.io/