FlowBender: Feedback-bewusstes Training für selbstkorrigierende bedingte Flüsse

Zusammenfassung

Bedingte Diffusions- und Flussmodelle erfüllen oft nicht die genau jenen Einschränkungen, die ihre Aufgabe definieren. Beispielsweise erzeugt ein tiefenbedingtes Modell häufig Bilder, deren erneut extrahierte Tiefe nicht mit der Eingabe übereinstimmt, obwohl der Vorwärtsoperator – der die Einschränkung definierende Tiefenschätzer – sowohl während des Trainings als auch der Inferenz verfügbar ist. Bisherige Ansätze fallen im Allgemeinen in zwei Kategorien: überwachte Modelle, die das Bedingungssignal als statischen Hinweis behandeln und Ausrichtungsinformationen während der Inferenz ignorieren, sowie leitungsbasierte Methoden, die es durch manuell abgestimmte lineare Aktualisierungen einbeziehen, üblicherweise um den Preis der Treue zur Bedingung gegen die Plausibilität der erzeugten Stichprobe. Wir argumentieren, dass die grundlegende Lücke in beiden Paradigmen darin besteht, dass das Modell niemals dafür trainiert wird, seinen eigenen Ausrichtungsfehler zu nutzen. Wir stellen FlowBender vor, ein geschlossenes Regelungssystem, das diesen Fehler als erstklassigen Input behandelt, das Netzwerk darauf trainiert, eine Korrekturrichtlinie zu lernen, die von Rückkopplungen zur Inferenzzeit abhängt. In jedem Schritt schätzt ein ungeführter Vorausschau-Durchlauf das saubere Signal, eine aufgabenspezifische Abweichung wird über den Vorwärtsoperator berechnet, und ein Verfeinerungsdurchlauf verarbeitet dieses Signal, um eine korrigierte Geschwindigkeit zu erzeugen. Wir schlagen mehrere Varianten von FlowBender vor, darunter eine gradientenbasierte Formulierung für differenzierbare Operatoren und eine Null-Ordnung-Variante für nicht differenzierbare Umgebungen wie JPEG-Kompression. Für effizientes Sampling führen wir eine Abkürzung über vorherige Schritte ein, die eine Korrektur im geschlossenen Regelkreis zu minimalen zusätzlichen Rechenkosten ermöglicht. In der Bild-zu-Bild-Übersetzung, Bildwiederherstellung und 3D-Mesh-Texturierung übertrifft FlowBender durchweg standardmäßige überwachte Baselines, trainingsunterstützte Ausrichtungsverlustverfahren und modernste leitungsbasierte Methoden zur Inferenzzeit, indem es gleichzeitig die Treue und Plausibilität verbessert, anstatt sie gegeneinander abzuwägen. Projektseite: https://flow-bender.github.io/

English

Conditional diffusion and flow models routinely fail to satisfy the very constraints that define their task. For instance, a depth-conditioned model often produces images whose re-extracted depth disagrees with the input, even though the forward operator--the depth predictor defining the constraint--is available during both training and inference. Existing approaches generally fall into two categories: supervised models that treat the conditioning signal as a static cue and ignore alignment information at inference, and guidance-based methods that consult it through hand-tuned linear updates, typically trading fidelity to the condition against the plausibility of the generated sample. We argue that the fundamental gap in both paradigms is that the model is never trained to utilize its own alignment error. We introduce FlowBender, a closed-loop framework that treats this error as a first-class input, training the network to learn a correction policy conditioned on inference-time feedback. At each step, an unguided look-ahead pass estimates the clean signal, a task-specific deviation is computed via the forward operator, and a refinement pass consumes this signal to produce a corrected velocity. We propose several variants of FlowBender, including a gradient-based formulation for differentiable operators and a zero-order variant for non-differentiable settings such as JPEG compression. For efficient sampling, we introduce a prior-step shortcut that enables closed-loop correction at a minimal additional computational cost. Across image-to-image translation, restoration, and 3D mesh texturing, FlowBender consistently outperforms standard supervised baselines, alignment-loss-augmented training, and state-of-the-art inference-time guidance, improving fidelity and plausibility simultaneously rather than trading them against each other. Project page: https://flow-bender.github.io/