Pianificazione Agente con Ragionamento per lo Styling di Immagini tramite RL Offline

Abstract

La modifica basata su prompt diretti fallisce spesso su trasformazioni complesse, poiché prompt vaghi e soggettivi richiedono una comprensione sfumata di ciò che dovrebbe essere modificato nell'immagine. La nostra intuizione fondamentale è che sfruttare strumenti di modifica composizionale dell'immagine, piuttosto che prompt diretti, trae vantaggio da una pianificazione strutturata a livello di agente con ragionamento esplicito, portando a risultati migliori. Questo quadro di pianificazione strutturata consente un efficiente post-addestramento RL offline su traiettorie con punteggio di qualità per migliorare le prestazioni. Presentiamo un framework di post-addestramento RL agentico basato su strumenti che affronta questo problema attraverso una pianificazione strutturata con ragionamento a catena di pensieri. I nostri contributi chiave includono: (1) Una metodologia di pianificazione agentica basata su strumenti che combina una libreria composizionale di trasformazioni primitive ortogonali, una rappresentazione contestuale strutturata e un ragionamento esplicito per passo per scomporre lo styling complesso in sequenze di strumenti interpretabili. (2) Una pipeline di generazione di dati sintetici che produce tre dataset su larga scala (ciascuno con ~10K traiettorie simulate) contenenti catene di ragionamento, piani e punteggi di qualità, poiché nessun dataset esistente fornisce tale supervisione. I nostri dataset e il codice sono pubblicamente disponibili sul repository HuggingFace. (3) Metodi di addestramento RL offline per apprendere pianificatori con ragionamento come nostro contributo algoritmico principale, che migliorano costantemente rispetto al baseline Edit-Only nella qualità visiva e nell'aderenza alle istruzioni. (4) Una valutazione completa su modelli Qwen3-VL da 4B e 8B parametri che dimostra come i nostri metodi superino altri baseline nella maggior parte dei task composizionali, convalidato da valutazioni umane.

English

Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each sim10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.

Pianificazione Agente con Ragionamento per lo Styling di Immagini tramite RL Offline

Agentic Planning with Reasoning for Image Styling via Offline RL

Abstract

Support