Agentische Planung mit Argumentation für Bildstilisierung mittels Offline Reinforcement Learning
Agentic Planning with Reasoning for Image Styling via Offline RL
March 7, 2026
Autoren: Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee
cs.AI
Zusammenfassung
Direkte promptbasierte Bearbeitung scheitert häufig an komplexen Transformationen, da vage und subjektive Prompts oft ein nuanciertes Verständnis der erforderlichen Bildänderungen voraussetzen. Unser grundlegender Ansatz ist, dass die Nutzung kompositioneller Bildbearbeitungswerkzeuge anstelle direkter Prompts von strukturierter, agentenbasierter Planung mit expliziter Begründung profitiert, was zu besseren Ergebnissen führt. Dieser strukturierte Planungsrahmen ermöglicht ein effizientes Offline-Reinforcement-Learning (RL) nach dem Training anhand qualitätsbewerteter Trajektorien zur Leistungsverbesserung. Wir stellen ein werkzeugbasiertes agentisches RL-Nachtrainierungsframework vor, das dies durch strukturierte Planung mit Chain-of-Thought-Begründung adressiert. Unsere wichtigsten Beiträge umfassen: (1) Eine werkzeugbasierte agentische Planungsmethodik, die eine kompositionelle Bibliothek orthogonaler primitiver Transformationen, strukturierte Kontextdarstellung und explizite schrittweise Begründung kombiniert, um komplexe Stilisierung in interpretierbare Werkzeugsequenzen zu zerlegen. (2) Eine Pipeline zur synthetischen Datengenerierung, die drei umfangreiche Datensätze (jeweils ∼10.000 Trajektorien) mit Begründungsketten, Plänen und Qualitätsbewertungen erzeugt, da keine bestehenden Datensätze eine solche Aufsicht bieten. Unsere Datensätze und Code sind öffentlich im HuggingFace-Repository verfügbar. (3) Offline-RL-Trainingsmethoden zum Erlernen von Planern mit Begründung als unsere zentralen algorithmischen Beiträge, die durchgängig die Edit-Only-Baseline in visueller Qualität und Befolgungsgenauigkeit der Anweisungen verbessern. (4) Umfassende Evaluation an 4B- und 8B-Parameter Qwen3-VL-Modellen, die zeigt, dass unsere Methoden andere Baselines bei den meisten kompositionellen Aufgaben übertreffen, was durch humanevaluationen validiert wurde.
English
Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each sim10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.