Planejamento Agêntico com Raciocínio para Estilização de Imagens via RL Offline

Resumo

A edição baseada em prompts diretos frequentemente falha em transformações complexas, pois prompts vagos e subjetivos exigem uma compreensão matizada do que deve ser alterado na imagem. Nossa intuição central é que alavancar ferramentas de edição de imagem composicionais, em vez de prompts diretos, beneficia-se de um planejamento estruturado em nível de agente com raciocínio explícito, levando a melhores resultados. Esta estrutura de planejamento estruturado permite um treinamento posterior eficiente de RL offline em trajetórias com pontuação de qualidade para melhorar o desempenho. Apresentamos uma estrutura de treinamento posterior de RL agentico baseada em ferramentas que aborda isso através de planejamento estruturado com raciocínio em cadeia. Nossas principais contribuições incluem: (1) Uma metodologia de planejamento agentico baseada em ferramentas que combina uma biblioteca composicional de transformações primitivas ortogonais, representação de contexto estruturada e raciocínio explícito por etapa para decompor estilizações complexas em sequências de ferramentas interpretáveis. (2) Um pipeline de geração de dados sintéticos que produz três conjuntos de dados em larga escala (cada um com ~10K trajetórias simuladas) com cadeias de raciocínio, planos e pontuações de qualidade, uma vez que nenhum conjunto de dados existente fornece tal supervisão. Nossos conjuntos de dados e código estão publicamente disponíveis no repositório HuggingFace. (3) Métodos de treinamento de RL offline para aprender planejadores com raciocínio como nossas principais contribuições algorítmicas, que melhoram consistentemente a linha de base de apenas edição em qualidade visual e seguimento de instruções. (4) Avaliação abrangente em modelos Qwen3-VL de 4B e 8B de parâmetros, mostrando que nossos métodos superam outras linhas de base na maioria das tarefas composicionais, validado por avaliações humanas.

English

Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each sim10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.

Planejamento Agêntico com Raciocínio para Estilização de Imagens via RL Offline

Agentic Planning with Reasoning for Image Styling via Offline RL

Resumo

Support