Planificación Agéntica con Razonamiento para Estilización de Imágenes mediante RL Sin Conexión

Resumen

La edición basada directamente en prompts a menudo falla en transformaciones complejas porque las instrucciones vagas y subjetivas requieren una comprensión matizada de lo que se debe cambiar en la imagen. Nuestra intuición central es que aprovechar herramientas de edición composicional de imágenes, en lugar de prompts directos, se beneficia de una planificación estructurada a nivel de agente con razonamiento explícito, lo que conduce a mejores resultados. Este marco de planificación estructurada permite un eficiente post-entrenamiento por RL offline en trayectorias evaluadas por calidad para mejorar el rendimiento. Presentamos un marco de post-entrenamiento RL agentico basado en herramientas que aborda esto mediante una planificación estructurada con razonamiento en cadena (chain-of-thought). Nuestras contribuciones clave incluyen: (1) Una metodología de planificación agentica basada en herramientas que combina una librería composicional de transformaciones primitivas ortogonales, una representación de contexto estructurada y un razonamiento explícito por paso para descomponer estilizaciones complejas en secuencias de herramientas interpretables. (2) Un pipeline de generación de datos sintéticos que produce tres conjuntos de datos a gran escala (cada uno simula 10K trayectorias) con cadenas de razonamiento, planes y puntuaciones de calidad, ya que no existen conjuntos de datos que proporcionen dicha supervisión. Nuestros conjuntos de datos y código están disponibles públicamente en el repositorio de HuggingFace. (3) Métodos de entrenamiento RL offline para aprender planificadores con razonamiento como nuestras principales contribuciones algorítmicas, que mejoran consistentemente la línea base de Solo-Editar en calidad visual y seguimiento de instrucciones. (4) Una evaluación exhaustiva en modelos Qwen3-VL de 4B y 8B parámetros que muestra que nuestros métodos superan a otras líneas base en la mayoría de las tareas composicionales, validado por evaluaciones humanas.

English

Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each sim10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.

Planificación Agéntica con Razonamiento para Estilización de Imágenes mediante RL Sin Conexión

Agentic Planning with Reasoning for Image Styling via Offline RL

Resumen

Support