Agentisch Plannen met Redeneren voor Beeldstylering via Offline RL

Samenvatting

Directe prompt-gebaseerde beeldbewerking faalt vaak bij complexe transformaties omdat vage en subjectieve prompts een genuanceerd begrip vereisen van wat er in de afbeelding moet worden gewijzigd. Onze kernintuïtie is dat het gebruik van compositionele beeldbewerkingsinstrumenten in plaats van directe prompting profiteert van gestructureerde planning op agentniveau met expliciete redenering, wat tot betere resultaten leidt. Dit gestructureerde planningsraamwerk maakt efficiënte offline RL-natraining mogelijk op kwaliteit-gescoorde trajecten om de prestaties te verbeteren. Wij presenteren een op instrumenten gebaseerd agentief RL-natrainingsraamwerk dat dit aanpakt via gestructureerde planning met chain-of-thought redenering. Onze belangrijkste bijdragen omvatten: (1) Een op instrumenten gebaseerde agentieve planningsmethodologie die een compositionele bibliotheek van orthogonale primitieve transformaties, gestructureerde contextrepresentatie en expliciete redenering per stap combineert om complexe stijling te decomponeren in interpreteerbare instrumentensequenties. (2) Een pijplijn voor synthetische datageneratie die drie grootschalige datasets produceert (elk simuleert 10K trajecten) met redeneerketens, plannen en kwaliteitsscores, aangezien bestaande datasets dergelijke supervisie niet bieden. Onze datasets en code zijn openbaar beschikbaar in de HuggingFace-repository. (3) Offline RL-trainingsmethoden voor het aanleren van planners met redenering als onze kern algoritmische bijdragen, die consistent verbeteren ten opzichte van de Edit-Only-basislijn in visuele kwaliteit en instructievolging. (4) Uitgebreide evaluatie over Qwen3-VL-modellen met 4B en 8B parameters, die aantoont dat onze methoden de meeste andere basislijnen overtreffen bij de meerderheid van de compositionele taken, gevalideerd door humane evaluaties.

English

Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each sim10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.

Agentisch Plannen met Redeneren voor Beeldstylering via Offline RL

Agentic Planning with Reasoning for Image Styling via Offline RL

Samenvatting

Support