De Belofte van RL voor Autoregressieve Bewerking van Afbeeldingen
The Promise of RL for Autoregressive Image Editing
August 1, 2025
Auteurs: Saba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal
cs.AI
Samenvatting
We onderzoeken drie strategieën om de prestaties te verbeteren op een breed scala aan beeldbewerkingstaken: supervised fine-tuning (SFT), reinforcement learning (RL), en Chain-of-Thought (CoT) redenering. Om al deze componenten in één consistent raamwerk te bestuderen, gebruiken we een autoregressief multimodaal model dat tekstuele en visuele tokens op een uniforme manier verwerkt. We ontdekken dat RL in combinatie met een grote multimodale LLM-verifier de meest effectieve van deze strategieën is. Als resultaat lanceren we EARL: Editing with Autoregression and RL, een krachtig RL-gebaseerd beeldbewerkingsmodel dat competitief presteert op een diverse reeks bewerkingen in vergelijking met sterke baselines, ondanks het gebruik van veel minder trainingsdata. EARL verlegt hiermee de grenzen van autoregressieve multimodale modellen op het gebied van beeldbewerking. We maken onze code, trainingsdata en getrainde modellen beschikbaar op https://github.com/mair-lab/EARL.
English
We explore three strategies to enhance performance on a wide range of image
editing tasks: supervised fine-tuning (SFT), reinforcement learning (RL), and
Chain-of-Thought (CoT) reasoning. In order to study all these components in one
consistent framework, we adopt an autoregressive multimodal model that
processes textual and visual tokens in a unified manner. We find RL combined
with a large multi-modal LLM verifier to be the most effective of these
strategies. As a result, we release EARL: Editing with Autoregression and RL, a
strong RL-based image editing model that performs competitively on a diverse
range of edits compared to strong baselines, despite using much less training
data. Thus, EARL pushes the frontier of autoregressive multimodal models on
image editing. We release our code, training data, and trained models at
https://github.com/mair-lab/EARL.