FlowBender: обучение с учетом обратной связи для самокорректирующихся условных потоков

Аннотация

Условные диффузионные модели и модели потоков регулярно не выполняют те самые ограничения, которые определяют их задачу. Например, модель, обученная с условием по глубине, часто генерирует изображения, повторно извлеченная глубина которых не соответствует входной, несмотря на то, что прямой оператор — предиктор глубины, определяющий ограничение, — доступен как на этапе обучения, так и на этапе вывода. Существующие подходы обычно делятся на две категории: контролируемые модели, которые рассматривают сигнал условия как статическую подсказку и игнорируют информацию о согласованности на этапе вывода, и методы, основанные на направляющей информации, которые обращаются к ней через настраиваемые вручную линейные обновления, как правило, жертвуя точностью соблюдения условия ради правдоподобия генерируемого образца. Мы утверждаем, что фундаментальный пробел в обеих парадигмах заключается в том, что модель никогда не обучается использовать свою собственную ошибку согласованности. Мы представляем FlowBender — замкнутую среду, которая рассматривает эту ошибку как входные данные первого класса, обучая сеть усваивать политику коррекции, обусловленную обратной связью на этапе вывода. На каждом шаге проход предварительного просмотра без направляющей информации оценивает чистый сигнал, через прямой оператор вычисляется отклонение, специфичное для задачи, и проход уточнения потребляет этот сигнал для получения скорректированной скорости. Мы предлагаем несколько вариантов FlowBender, включая формулировку на основе градиента для дифференцируемых операторов и вариант нулевого порядка для недифференцируемых сценариев, таких как сжатие JPEG. Для эффективной выборки мы вводим ярлык предыдущего шага, который позволяет выполнять замкнутую коррекцию с минимальными дополнительными вычислительными затратами. В задачах перевода изображение-в-изображение, восстановления и текстурирования 3D-сеток FlowBender последовательно превосходит стандартные контролируемые базовые модели, обучение с дополнением функции потерь на согласованность и современные методы направляющей информации на этапе вывода, одновременно улучшая точность и правдоподобие, а не жертвуя одним ради другого. Страница проекта: https://flow-bender.github.io/

English

Conditional diffusion and flow models routinely fail to satisfy the very constraints that define their task. For instance, a depth-conditioned model often produces images whose re-extracted depth disagrees with the input, even though the forward operator--the depth predictor defining the constraint--is available during both training and inference. Existing approaches generally fall into two categories: supervised models that treat the conditioning signal as a static cue and ignore alignment information at inference, and guidance-based methods that consult it through hand-tuned linear updates, typically trading fidelity to the condition against the plausibility of the generated sample. We argue that the fundamental gap in both paradigms is that the model is never trained to utilize its own alignment error. We introduce FlowBender, a closed-loop framework that treats this error as a first-class input, training the network to learn a correction policy conditioned on inference-time feedback. At each step, an unguided look-ahead pass estimates the clean signal, a task-specific deviation is computed via the forward operator, and a refinement pass consumes this signal to produce a corrected velocity. We propose several variants of FlowBender, including a gradient-based formulation for differentiable operators and a zero-order variant for non-differentiable settings such as JPEG compression. For efficient sampling, we introduce a prior-step shortcut that enables closed-loop correction at a minimal additional computational cost. Across image-to-image translation, restoration, and 3D mesh texturing, FlowBender consistently outperforms standard supervised baselines, alignment-loss-augmented training, and state-of-the-art inference-time guidance, improving fidelity and plausibility simultaneously rather than trading them against each other. Project page: https://flow-bender.github.io/