ChatPaper.aiChatPaper

Vertraue deinem Kritiker: Robuste Belohnungsmodellierung und bestärkendes Lernen für zuverlässige Bildbearbeitung und -generierung

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

March 12, 2026
Autoren: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
cs.AI

Zusammenfassung

Reinforcement Learning (RL) hat sich als vielversprechendes Paradigma zur Verbesserung der Bildbearbeitung und Text-zu-Bild (T2I)-Generierung erwiesen. Allerdings leiden aktuelle Belohnungsmodelle, die während des RL als Kritiker fungieren, oft unter Halluzinationen und weisen verrauschte Scores zu, was den Optimierungsprozess inherent fehlleitet. In diesem Artikel stellen wir FIRM (Faithful Image Reward Modeling) vor, einen umfassenden Rahmen, der robuste Belohnungsmodelle entwickelt, um genaue und zuverlässige Anleitung für treue Bildgenerierung und -bearbeitung zu bieten. Erstens entwerfen wir maßgeschneiderte Datenkuratierungspipelines, um hochwertige Bewertungsdatensätze zu konstruieren. Konkret bewerten wir Bearbeitung anhand von Ausführung und Konsistenz, während Generierung primär über die Befolgung von Anweisungen bewertet wird. Mithilfe dieser Pipelines sammeln wir die FIRM-Edit-370K- und FIRM-Gen-293K-Datensätze und trainieren spezialisierte Belohnungsmodelle (FIRM-Edit-8B und FIRM-Gen-8B), die diese Kriterien genau widerspiegeln. Zweitens führen wir FIRM-Bench ein, einen umfassenden Benchmark, der speziell für Bearbeitungs- und Generierungskritiker entwickelt wurde. Evaluationen zeigen, dass unsere Modelle im Vergleich zu bestehenden Metriken eine überlegene Übereinstimmung mit menschlichen Urteilen erreichen. Darüber hinaus formulieren wir, um diese Kritiker nahtlos in die RL-Pipeline zu integrieren, eine neuartige "Base-and-Bonus"-Belohnungsstrategie, die konkurrierende Ziele ausbalanciert: Konsistenz-modulierte Ausführung (CME) für die Bearbeitung und Qualitäts-modulierte Ausrichtung (QMA) für die Generierung. Durch diesen Rahmen gestärkt, erreichen unsere resultierenden Modelle FIRM-Qwen-Edit und FIRM-SD3.5 erhebliche Leistungsdurchbrüche. Umfassende Experimente demonstrieren, dass FIRM Halluzinationen mindert und einen neuen Standard für Treue und Anweisungsbefolgung gegenüber bestehenden allgemeinen Modellen setzt. Alle unsere Datensätze, Modelle und Code sind öffentlich unter https://firm-reward.github.io verfügbar.
English
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.
PDF222March 15, 2026