ChatPaper.aiChatPaper

La Promesse de l'Apprentissage par Renforcement pour l'Édition Autoregressive d'Images

The Promise of RL for Autoregressive Image Editing

August 1, 2025
papers.authors: Saba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal
cs.AI

papers.abstract

Nous explorons trois stratégies pour améliorer les performances sur un large éventail de tâches de retouche d'images : le fine-tuning supervisé (SFT), l'apprentissage par renforcement (RL) et le raisonnement en chaîne de pensée (CoT). Afin d'étudier tous ces composants dans un cadre cohérent, nous adoptons un modèle multimodal autorégressif qui traite les tokens textuels et visuels de manière unifiée. Nous constatons que l'apprentissage par renforcement combiné à un vérificateur LLM multimodal de grande taille est la stratégie la plus efficace. En conséquence, nous proposons EARL : Editing with Autoregression and RL, un modèle de retouche d'images basé sur l'apprentissage par renforcement qui rivalise avec des modèles de référence sur une diversité de retouches, malgré l'utilisation de beaucoup moins de données d'entraînement. Ainsi, EARL repousse les limites des modèles multimodaux autorégressifs dans le domaine de la retouche d'images. Nous mettons à disposition notre code, nos données d'entraînement et nos modèles entraînés à l'adresse suivante : https://github.com/mair-lab/EARL.
English
We explore three strategies to enhance performance on a wide range of image editing tasks: supervised fine-tuning (SFT), reinforcement learning (RL), and Chain-of-Thought (CoT) reasoning. In order to study all these components in one consistent framework, we adopt an autoregressive multimodal model that processes textual and visual tokens in a unified manner. We find RL combined with a large multi-modal LLM verifier to be the most effective of these strategies. As a result, we release EARL: Editing with Autoregression and RL, a strong RL-based image editing model that performs competitively on a diverse range of edits compared to strong baselines, despite using much less training data. Thus, EARL pushes the frontier of autoregressive multimodal models on image editing. We release our code, training data, and trained models at https://github.com/mair-lab/EARL.
PDF93August 6, 2025