Planification Agentique avec Raisonnement pour le Stylisme d'Image via l'Apprentissage par Renforcement Hors Ligne
Agentic Planning with Reasoning for Image Styling via Offline RL
March 7, 2026
Auteurs: Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee
cs.AI
Résumé
L'édition par prompt direct échoue souvent sur les transformations complexes car des instructions vagues et subjectives nécessitent une compréhension nuancée des modifications à apporter à l'image. Notre intuition fondamentale est qu'exploiter des outils d'édition compositionnelle plutôt que des prompts directs bénéficie d'une planification structurée au niveau agent avec un raisonnement explicite, conduisant à de meilleurs résultats. Ce cadre de planification structuré permet un post-entraînement RL hors ligne efficace sur des trajectoires notées pour améliorer les performances. Nous présentons un framework agentique de post-entraînement RL basé sur des outils qui résout ce problème via une planification structurée avec un raisonnement en chaîne de pensée. Nos contributions principales incluent : (1) Une méthodologie de planification agentique outillée combinant une bibliothèque compositionnelle de transformations primitives orthogonales, une représentation structurée du contexte et un raisonnement explicite par étape pour décomposer le stylisme complexe en séquences d'outils interprétables. (2) Un pipeline de génération de données synthétiques produisant trois jeux de données à grande échelle (chacun simulant 10K trajectoires) avec chaînes de raisonnement, plans et scores de qualité, aucun jeu de données existant ne fournissant une telle supervision. Nos jeux de données et notre code sont publics sur le dépôt HuggingFace. (3) Des méthodes d'entraînement RL hors ligne pour apprendre des planificateurs avec raisonnement comme contributions algorithmiques principales, qui améliorent constamment la baseline Edit-Only en qualité visuelle et respect des instructions. (4) Une évaluation exhaustive sur des modèles Qwen3-VL de 4B et 8B paramètres montrant que nos méthodes surpassent les autres baselines sur la majorité des tâches compositionnelles, validée par des évaluations humaines.
English
Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each sim10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.