ChatPaper.aiChatPaper

La Promessa del RL per l'Editing Autoregressivo di Immagini

The Promise of RL for Autoregressive Image Editing

August 1, 2025
Autori: Saba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal
cs.AI

Abstract

Esploriamo tre strategie per migliorare le prestazioni su un'ampia gamma di attività di editing di immagini: fine-tuning supervisionato (SFT), apprendimento per rinforzo (RL) e ragionamento a catena di pensiero (CoT). Per studiare tutti questi componenti in un unico framework coerente, adottiamo un modello multimodale autoregressivo che elabora token testuali e visivi in modo unificato. Troviamo che l'RL combinato con un verificatore LLM multimodale di grandi dimensioni sia la strategia più efficace. Di conseguenza, rilasciamo EARL: Editing with Autoregression and RL, un robusto modello di editing di immagini basato su RL che si comporta in modo competitivo su una vasta gamma di modifiche rispetto a baseline solide, nonostante utilizzi molti meno dati di addestramento. Pertanto, EARL spinge avanti le frontiere dei modelli multimodali autoregressivi nell'editing di immagini. Rilasciamo il nostro codice, i dati di addestramento e i modelli addestrati su https://github.com/mair-lab/EARL.
English
We explore three strategies to enhance performance on a wide range of image editing tasks: supervised fine-tuning (SFT), reinforcement learning (RL), and Chain-of-Thought (CoT) reasoning. In order to study all these components in one consistent framework, we adopt an autoregressive multimodal model that processes textual and visual tokens in a unified manner. We find RL combined with a large multi-modal LLM verifier to be the most effective of these strategies. As a result, we release EARL: Editing with Autoregression and RL, a strong RL-based image editing model that performs competitively on a diverse range of edits compared to strong baselines, despite using much less training data. Thus, EARL pushes the frontier of autoregressive multimodal models on image editing. We release our code, training data, and trained models at https://github.com/mair-lab/EARL.
PDF113August 6, 2025