FlowBender: Entrenamiento Consciente de la Retroalimentación para Flujos Condicionales Autocorrectivos

Resumen

Los modelos de difusión y flujo condicionales fallan rutinariamente en cumplir las mismas restricciones que definen su tarea. Por ejemplo, un modelo condicionado por profundidad a menudo produce imágenes cuya profundidad re-extraída no coincide con la entrada, aunque el operador directo—el predictor de profundidad que define la restricción—esté disponible tanto durante el entrenamiento como en la inferencia. Los enfoques existentes generalmente se dividen en dos categorías: modelos supervisados que tratan la señal de condicionamiento como una pista estática e ignoran la información de alineación durante la inferencia, y métodos basados en guía que la consultan mediante actualizaciones lineales ajustadas manualmente, típicamente intercambiando fidelidad a la condición contra plausibilidad de la muestra generada. Argumentamos que la brecha fundamental en ambos paradigmas es que el modelo nunca es entrenado para utilizar su propio error de alineación. Presentamos FlowBender, un marco de circuito cerrado que trata este error como una entrada de primera clase, entrenando la red para aprender una política de corrección condicionada a la retroalimentación en tiempo de inferencia. En cada paso, un paso de anticipación no guiado estima la señal limpia, se calcula una desviación específica de la tarea a través del operador directo, y un paso de refinamiento consume esta señal para producir una velocidad corregida. Proponemos varias variantes de FlowBender, incluyendo una formulación basada en gradientes para operadores diferenciables y una variante de orden cero para entornos no diferenciables como la compresión JPEG. Para un muestreo eficiente, introducimos un atajo de paso previo que permite la corrección en circuito cerrado con un costo computacional adicional mínimo. En traducción de imagen a imagen, restauración y texturizado de mallas 3D, FlowBender supera consistentemente a las líneas base supervisadas estándar, al entrenamiento aumentado con pérdida de alineación y a las guías de inferencia de última generación, mejorando simultáneamente la fidelidad y la plausibilidad en lugar de intercambiarlas entre sí. Página del proyecto: https://flow-bender.github.io/

English

Conditional diffusion and flow models routinely fail to satisfy the very constraints that define their task. For instance, a depth-conditioned model often produces images whose re-extracted depth disagrees with the input, even though the forward operator--the depth predictor defining the constraint--is available during both training and inference. Existing approaches generally fall into two categories: supervised models that treat the conditioning signal as a static cue and ignore alignment information at inference, and guidance-based methods that consult it through hand-tuned linear updates, typically trading fidelity to the condition against the plausibility of the generated sample. We argue that the fundamental gap in both paradigms is that the model is never trained to utilize its own alignment error. We introduce FlowBender, a closed-loop framework that treats this error as a first-class input, training the network to learn a correction policy conditioned on inference-time feedback. At each step, an unguided look-ahead pass estimates the clean signal, a task-specific deviation is computed via the forward operator, and a refinement pass consumes this signal to produce a corrected velocity. We propose several variants of FlowBender, including a gradient-based formulation for differentiable operators and a zero-order variant for non-differentiable settings such as JPEG compression. For efficient sampling, we introduce a prior-step shortcut that enables closed-loop correction at a minimal additional computational cost. Across image-to-image translation, restoration, and 3D mesh texturing, FlowBender consistently outperforms standard supervised baselines, alignment-loss-augmented training, and state-of-the-art inference-time guidance, improving fidelity and plausibility simultaneously rather than trading them against each other. Project page: https://flow-bender.github.io/