RewardFlow: Генерация изображений через оптимизацию вознаграждения

Аннотация

Мы представляем RewardFlow — безинверсионную структуру, которая направляет предобученные диффузионные модели и модели flow-matching во время вывода с помощью многопоощрительной динамики Ланжевена. RewardFlow объединяет взаимодополняющие дифференцируемые функции поощрения для семантического соответствия, перцептивного качества, локализованного позиционирования, согласованности объектов и человеческих предпочтений, а также вводит дифференцируемое VQA-поощрение, обеспечивающее детальный семантический контроль через языково-визуальные рассуждения. Для координации этих разнородных целей мы разрабатываем адаптивную политику, учитывающую промпт: она извлекает семантические примитивы из инструкции, выявляет намерение редактирования и динамически регулирует веса поощрений и размеры шагов в процессе сэмплирования. В ходе тестирования на нескольких бенчмарках редактирования изображений и композиционного генерирования RewardFlow демонстрирует передовые показатели точности редактирования и композиционного соответствия.

English

We introduce RewardFlow, an inversion-free framework that steers pretrained diffusion and flow-matching models at inference time through multi-reward Langevin dynamics. RewardFlow unifies complementary differentiable rewards for semantic alignment, perceptual fidelity, localized grounding, object consistency, and human preference, and further introduces a differentiable VQA-based reward that provides fine-grained semantic supervision through language-vision reasoning. To coordinate these heterogeneous objectives, we design a prompt-aware adaptive policy that extracts semantic primitives from the instruction, infers edit intent, and dynamically modulates reward weights and step sizes throughout sampling. Across several image editing and compositional generation benchmarks, RewardFlow delivers state-of-the-art edit fidelity and compositional alignment.

RewardFlow: Генерация изображений через оптимизацию вознаграждения

RewardFlow: Generate Images by Optimizing What You Reward

Аннотация

Support