Des plans aux pixels : Apprendre à planifier et orchestrer pour l'édition d'images ouverte

Résumé

Les modèles modernes d'édition d'images produisent des résultats réalistes mais peinent avec des instructions abstraites et multi-étapes (par exemple, « rendre cette publicité plus végétarienne »). Les méthodes antérieures basées sur des agents décomposent de telles tâches mais reposent sur des pipelines artisanaux ou une imitation d'enseignant, limitant la flexibilité et dissociant l'apprentissage des résultats réels d'édition. Nous proposons un cadre expérientiel pour l'édition d'images à long horizon, dans lequel un planificateur génère des décompositions atomiques structurées et un orchestrateur sélectionne les outils et les régions pour exécuter chaque étape. Un juge de langage visuel fournit des récompenses basées sur les résultats, tenant compte du respect des instructions et de la qualité visuelle. L'orchestrateur est entraîné à maximiser ces récompenses, et les trajectoires réussies sont utilisées pour affiner le planificateur. En couplant étroitement la planification avec une exécution basée sur les récompenses, notre approche produit des éditions plus cohérentes et fiables que les références mono-étape ou multi-étapes basées sur des règles.

English

Modern image editing models produce realistic results but struggle with abstract, multi step instructions (e.g., ``make this advertisement more vegetarian-friendly''). Prior agent based methods decompose such tasks but rely on handcrafted pipelines or teacher imitation, limiting flexibility and decoupling learning from actual editing outcomes. We propose an experiential framework for long-horizon image editing, where a planner generates structured atomic decompositions and an orchestrator selects tools and regions to execute each step. A vision language judge provides outcome-based rewards for instruction adherence and visual quality. The orchestrator is trained to maximize these rewards, and successful trajectories are used to refine the planner. By tightly coupling planning with reward driven execution, our approach yields more coherent and reliable edits than single-step or rule-based multistep baselines.