Агентное планирование с рассуждением для стилизации изображений с помощью офлайн-обучения с подкреплением
Agentic Planning with Reasoning for Image Styling via Offline RL
March 7, 2026
Авторы: Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee
cs.AI
Аннотация
Прямое редактирование на основе промптов часто терпит неудачу при сложных преобразованиях, поскольку расплывчатые и субъективные промпты требуют тонкого понимания того, что именно следует изменить в изображении. Наша ключевая идея заключается в том, что использование композиционных инструментов редактирования изображений вместо прямых промптов выигрывает от структурированного планирования на уровне агента с явными рассуждениями, что приводит к лучшим результатам. Этот структурированный фреймворк планирования позволяет эффективно проводить пост-обучение с подкреплением (RL) на оффлайн-траекториях с оценкой качества для повышения производительности. Мы представляем инструментальный агентный фреймворк пост-обучения RL, который решает эту задачу через структурированное планирование с цепочкой рассуждений (chain-of-thought). Наши ключевые вклады включают: (1) Методологию агентного планирования на основе инструментов, которая объединяет композиционную библиотеку ортогональных примитивных преобразований, структурированное представление контекста и явные пошаговые рассуждения для декомпозиции сложного стилистического редактирования на интерпретируемые последовательности инструментов. (2) Пайплайн генерации синтетических данных, производящий три крупномасштабных набора данных (каждый моделирует ~10K траекторий) с цепочками рассуждений, планами и оценками качества, поскольку существующие наборы данных не предоставляют такого уровня контроля. Наши наборы данных и код общедоступны в репозитории HuggingFace. (3) Методы оффлайн-обучения с подкреплением для обучения планировщиков с рассуждениями как наши основные алгоритмические вклады, которые стабильно превосходят базовый уровень Edit-Only по визуальному качеству и следованию инструкциям. (4) Всесторонняя оценка на моделях Qwen3-VL с 4B и 8B параметрами, показывающая, что наши методы превосходят другие базовые подходы в большинстве композиционных задач, что подтверждено человеческой оценкой.
English
Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each sim10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.