ChatPaper.aiChatPaper

ThinkRL-Edit: Denkansätze aus dem Reinforcement Learning für reasoning-zentrierte Bildbearbeitung

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

January 6, 2026
papers.authors: Hengjia Li, Liming Jiang, Qing Yan, Yizhi Song, Hao Kang, Zichuan Liu, Xin Lu, Boxi Wu, Deng Cai
cs.AI

papers.abstract

Instruktionsgesteuerte Bildbearbeitung mit einheitlichen multimodalen generativen Modellen hat rasante Fortschritte gemacht, doch deren zugrunde liegendes visuelles Reasoning bleibt begrenzt, was zu suboptimalen Leistungen bei reasoning-zentrierten Bearbeitungen führt. Reinforcement Learning (RL) wurde zur Verbesserung der Bildbearbeitungsqualität untersucht, steht jedoch vor drei zentralen Herausforderungen: (1) begrenzte Reasoning-Exploration, die auf die Stochastizität der Entrauschung beschränkt ist, (2) verzerrte Reward-Fusion und (3) instabile, VLM-basierte Instruktions-Rewards. In dieser Arbeit schlagen wir ThinkRL-Edit vor, ein reasoning-zentriertes RL-Framework, das visuelles Reasoning von der Bildsynthese entkoppelt und die Reasoning-Exploration über die Entrauschung hinaus erweitert. Hierfür führen wir ein Chain-of-Thought (CoT)-basiertes Reasoning-Sampling mit Planungs- und Reflexionsphasen vor der Generierung im Online-Sampling ein, das das Modell zwingt, mehrere semantische Hypothesen zu explorieren und deren Plausibilität zu validieren, bevor es sich für ein visuelles Ergebnis entscheidet. Um die Fehler gewichteter Aggregation zu vermeiden, schlagen wir eine verzerrungsfreie Chain-Präferenz-Gruppierungsstrategie über mehrere Reward-Dimensionen hinweg vor. Darüber hinaus ersetzen wir intervallbasierte VLM-Scores durch eine binäre Checkliste, die präzisere, varianzärmere und interpretierbarere Rewards für komplexes Reasoning liefert. Experimente zeigen, dass unsere Methode frühere Arbeiten bei reasoning-zentrierter Bildbearbeitung signifikant übertrifft und instruktionstreue, visuell kohärente sowie semantisch fundierte Bearbeitungen erzeugt.
English
Instruction-driven image editing with unified multimodal generative models has advanced rapidly, yet their underlying visual reasoning remains limited, leading to suboptimal performance on reasoning-centric edits. Reinforcement learning (RL) has been investigated for improving the quality of image editing, but it faces three key challenges: (1) limited reasoning exploration confined to denoising stochasticity, (2) biased reward fusion, and (3) unstable VLM-based instruction rewards. In this work, we propose ThinkRL-Edit, a reasoning-centric RL framework that decouples visual reasoning from image synthesis and expands reasoning exploration beyond denoising. To the end, we introduce Chain-of-Thought (CoT)-based reasoning sampling with planning and reflection stages prior to generation in online sampling, compelling the model to explore multiple semantic hypotheses and validate their plausibility before committing to a visual outcome. To avoid the failures of weighted aggregation, we propose an unbiased chain preference grouping strategy across multiple reward dimensions. Moreover, we replace interval-based VLM scores with a binary checklist, yielding more precise, lower-variance, and interpretable rewards for complex reasoning. Experiments show our method significantly outperforms prior work on reasoning-centric image editing, producing instruction-faithful, visually coherent, and semantically grounded edits.
PDF30January 9, 2026