Das Potenzial von Reinforcement Learning für autoregressives Bildbearbeiten
The Promise of RL for Autoregressive Image Editing
August 1, 2025
papers.authors: Saba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal
cs.AI
papers.abstract
Wir untersuchen drei Strategien zur Verbesserung der Leistung bei einer Vielzahl von Bildbearbeitungsaufgaben: überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT), Verstärkungslernen (Reinforcement Learning, RL) und Chain-of-Thought (CoT)-Argumentation. Um all diese Komponenten in einem konsistenten Rahmen zu untersuchen, verwenden wir ein autoregressives multimodales Modell, das textuelle und visuelle Token auf einheitliche Weise verarbeitet. Wir stellen fest, dass RL in Kombination mit einem großen multimodalen LLM-Verifizierer die effektivste dieser Strategien ist. Als Ergebnis präsentieren wir EARL: Editing with Autoregression and RL, ein leistungsstarkes RL-basiertes Bildbearbeitungsmodell, das bei einer Vielzahl von Bearbeitungen im Vergleich zu starken Baselines wettbewerbsfähig abschneidet, obwohl es deutlich weniger Trainingsdaten verwendet. Somit erweitert EARL die Grenzen autoregressiver multimodaler Modelle in der Bildbearbeitung. Wir veröffentlichen unseren Code, die Trainingsdaten und die trainierten Modelle unter https://github.com/mair-lab/EARL.
English
We explore three strategies to enhance performance on a wide range of image
editing tasks: supervised fine-tuning (SFT), reinforcement learning (RL), and
Chain-of-Thought (CoT) reasoning. In order to study all these components in one
consistent framework, we adopt an autoregressive multimodal model that
processes textual and visual tokens in a unified manner. We find RL combined
with a large multi-modal LLM verifier to be the most effective of these
strategies. As a result, we release EARL: Editing with Autoregression and RL, a
strong RL-based image editing model that performs competitively on a diverse
range of edits compared to strong baselines, despite using much less training
data. Thus, EARL pushes the frontier of autoregressive multimodal models on
image editing. We release our code, training data, and trained models at
https://github.com/mair-lab/EARL.