ChatPaper.aiChatPaper

De Belofte van RL voor Autoregressieve Bewerking van Afbeeldingen

The Promise of RL for Autoregressive Image Editing

August 1, 2025
Auteurs: Saba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal
cs.AI

Samenvatting

We onderzoeken drie strategieën om de prestaties te verbeteren op een breed scala aan beeldbewerkingstaken: supervised fine-tuning (SFT), reinforcement learning (RL), en Chain-of-Thought (CoT) redenering. Om al deze componenten in één consistent raamwerk te bestuderen, gebruiken we een autoregressief multimodaal model dat tekstuele en visuele tokens op een uniforme manier verwerkt. We ontdekken dat RL in combinatie met een grote multimodale LLM-verifier de meest effectieve van deze strategieën is. Als resultaat lanceren we EARL: Editing with Autoregression and RL, een krachtig RL-gebaseerd beeldbewerkingsmodel dat competitief presteert op een diverse reeks bewerkingen in vergelijking met sterke baselines, ondanks het gebruik van veel minder trainingsdata. EARL verlegt hiermee de grenzen van autoregressieve multimodale modellen op het gebied van beeldbewerking. We maken onze code, trainingsdata en getrainde modellen beschikbaar op https://github.com/mair-lab/EARL.
English
We explore three strategies to enhance performance on a wide range of image editing tasks: supervised fine-tuning (SFT), reinforcement learning (RL), and Chain-of-Thought (CoT) reasoning. In order to study all these components in one consistent framework, we adopt an autoregressive multimodal model that processes textual and visual tokens in a unified manner. We find RL combined with a large multi-modal LLM verifier to be the most effective of these strategies. As a result, we release EARL: Editing with Autoregression and RL, a strong RL-based image editing model that performs competitively on a diverse range of edits compared to strong baselines, despite using much less training data. Thus, EARL pushes the frontier of autoregressive multimodal models on image editing. We release our code, training data, and trained models at https://github.com/mair-lab/EARL.
PDF103August 6, 2025