La Promessa del RL per l'Editing Autoregressivo di Immagini
The Promise of RL for Autoregressive Image Editing
August 1, 2025
Autori: Saba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal
cs.AI
Abstract
Esploriamo tre strategie per migliorare le prestazioni su un'ampia gamma di attività di editing di immagini: fine-tuning supervisionato (SFT), apprendimento per rinforzo (RL) e ragionamento a catena di pensiero (CoT). Per studiare tutti questi componenti in un unico framework coerente, adottiamo un modello multimodale autoregressivo che elabora token testuali e visivi in modo unificato. Troviamo che l'RL combinato con un verificatore LLM multimodale di grandi dimensioni sia la strategia più efficace. Di conseguenza, rilasciamo EARL: Editing with Autoregression and RL, un robusto modello di editing di immagini basato su RL che si comporta in modo competitivo su una vasta gamma di modifiche rispetto a baseline solide, nonostante utilizzi molti meno dati di addestramento. Pertanto, EARL spinge avanti le frontiere dei modelli multimodali autoregressivi nell'editing di immagini. Rilasciamo il nostro codice, i dati di addestramento e i modelli addestrati su https://github.com/mair-lab/EARL.
English
We explore three strategies to enhance performance on a wide range of image
editing tasks: supervised fine-tuning (SFT), reinforcement learning (RL), and
Chain-of-Thought (CoT) reasoning. In order to study all these components in one
consistent framework, we adopt an autoregressive multimodal model that
processes textual and visual tokens in a unified manner. We find RL combined
with a large multi-modal LLM verifier to be the most effective of these
strategies. As a result, we release EARL: Editing with Autoregression and RL, a
strong RL-based image editing model that performs competitively on a diverse
range of edits compared to strong baselines, despite using much less training
data. Thus, EARL pushes the frontier of autoregressive multimodal models on
image editing. We release our code, training data, and trained models at
https://github.com/mair-lab/EARL.