RewardFlow: Bilder generieren durch Optimierung dessen, was Sie belohnen
RewardFlow: Generate Images by Optimizing What You Reward
April 9, 2026
Autoren: Onkar Susladkar, Dong-Hwan Jang, Tushar Prakash, Adheesh Juvekar, Vedant Shah, Ayush Barik, Nabeel Bashir, Muntasir Wahed, Ritish Shrirao, Ismini Lourentzou
cs.AI
Zusammenfassung
Wir stellen RewardFlow vor, ein inversionsfreies Framework, das vortrainierte Diffusions- und Flow-Matching-Modelle zur Inferenzzeit durch Multi-Reward-Langevin-Dynamik steuert. RewardFlow vereint komplementäre differenzierbare Rewards für semantische Ausrichtung, perzeptuelle Treue, lokale Verankerung, Objektkonsistenz und menschliche Präferenzen und führt zudem einen differenzierbaren, VQA-basierten Reward ein, der feinkörnige semantische Überwachung durch Sprach-Vision-Reasoning bereitstellt. Um diese heterogenen Ziele zu koordinieren, entwickeln wir eine prompt-sensitive adaptive Strategie, die semantische Primitive aus der Anweisung extrahiert, Bearbeitungsabsichten inferiert und Reward-Gewichte sowie Schrittgrößen während des gesamten Sampling-Prozesses dynamisch moduliert. In mehreren Benchmarks für Bildbearbeitung und kompositionelle Generierung erreicht RewardFlow state-of-the-art Bearbeitungstreue und kompositionelle Übereinstimmung.
English
We introduce RewardFlow, an inversion-free framework that steers pretrained diffusion and flow-matching models at inference time through multi-reward Langevin dynamics. RewardFlow unifies complementary differentiable rewards for semantic alignment, perceptual fidelity, localized grounding, object consistency, and human preference, and further introduces a differentiable VQA-based reward that provides fine-grained semantic supervision through language-vision reasoning. To coordinate these heterogeneous objectives, we design a prompt-aware adaptive policy that extracts semantic primitives from the instruction, infers edit intent, and dynamically modulates reward weights and step sizes throughout sampling. Across several image editing and compositional generation benchmarks, RewardFlow delivers state-of-the-art edit fidelity and compositional alignment.