Потенциал обучения с подкреплением для авторегрессивного редактирования изображений
The Promise of RL for Autoregressive Image Editing
August 1, 2025
Авторы: Saba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal
cs.AI
Аннотация
Мы исследуем три стратегии для повышения производительности в широком спектре задач редактирования изображений: контролируемое тонкое настройка (SFT), обучение с подкреплением (RL) и рассуждения по цепочке мыслей (CoT). Чтобы изучить все эти компоненты в единой согласованной структуре, мы используем авторегрессивную мультимодальную модель, которая обрабатывает текстовые и визуальные токены унифицированным образом. Мы обнаруживаем, что RL в сочетании с крупным мультимодальным верификатором LLM является наиболее эффективной из этих стратегий. В результате мы представляем EARL: Editing with Autoregression and RL — мощную модель редактирования изображений на основе RL, которая демонстрирует конкурентоспособные результаты на разнообразных задачах редактирования по сравнению с сильными базовыми моделями, несмотря на использование значительно меньшего объема обучающих данных. Таким образом, EARL расширяет границы возможностей авторегрессивных мультимодальных моделей в области редактирования изображений. Мы публикуем наш код, обучающие данные и обученные модели по адресу https://github.com/mair-lab/EARL.
English
We explore three strategies to enhance performance on a wide range of image
editing tasks: supervised fine-tuning (SFT), reinforcement learning (RL), and
Chain-of-Thought (CoT) reasoning. In order to study all these components in one
consistent framework, we adopt an autoregressive multimodal model that
processes textual and visual tokens in a unified manner. We find RL combined
with a large multi-modal LLM verifier to be the most effective of these
strategies. As a result, we release EARL: Editing with Autoregression and RL, a
strong RL-based image editing model that performs competitively on a diverse
range of edits compared to strong baselines, despite using much less training
data. Thus, EARL pushes the frontier of autoregressive multimodal models on
image editing. We release our code, training data, and trained models at
https://github.com/mair-lab/EARL.