ChatPaper.aiChatPaper

Доверяйте своему критику: Надежное моделирование вознаграждений и обучение с подкреплением для достоверного редактирования и генерации изображений

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

March 12, 2026
Авторы: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
cs.AI

Аннотация

Обучение с подкреплением (RL) стало перспективной парадигмой для улучшения редактирования изображений и генерации изображений по тексту (T2I). Однако современные модели вознаграждения, которые выступают в роли критиков в процессе RL, часто страдают от галлюцинаций и присваивают зашумленные оценки, что по своей сути вводит процесс оптимизации в заблуждение. В данной статье мы представляем FIRM (Faithful Image Reward Modeling) — комплексную структуру, которая разрабатывает надежные модели вознаграждения для обеспечения точного и достоверного руководства при генерации и редактировании изображений, следующих исходному заданию. Во-первых, мы разрабатываем специализированные конвейеры курации данных для создания высококачественных наборов данных с оценками. В частности, мы оцениваем редактирование, используя как исполнение, так и согласованность, в то время как генерация оценивается в основном через следование инструкции. Используя эти конвейеры, мы собираем наборы данных FIRM-Edit-370K и FIRM-Gen-293K и обучаем специализированные модели вознаграждения (FIRM-Edit-8B и FIRM-Gen-8B), которые точно отражают эти критерии. Во-вторых, мы представляем FIRM-Bench — комплексный бенчмарк, специально разработанный для критиков редактирования и генерации. Оценки показывают, что наши модели достигают превосходного соответствия человеческим суждениям по сравнению с существующими метриками. Кроме того, для бесшовной интеграции этих критиков в конвейер RL мы формулируем новую стратегию вознаграждения «База-и-Бонус», которая балансирует конкурирующие цели: Согласованно-Модулированное Исполнение (CME) для редактирования и Качественно-Модулированное Соответствие (QMA) для генерации. Благодаря этой структуре наши итоговые модели FIRM-Qwen-Edit и FIRM-SD3.5 достигают значительных прорывов в производительности. Комплексные эксперименты демонстрируют, что FIRM смягчает галлюцинации, устанавливая новый стандарт достоверности и следования инструкциям по сравнению с существующими общими моделями. Все наши наборы данных, модели и код находятся в открытом доступе по адресу https://firm-reward.github.io.
English
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.
PDF222March 15, 2026