De los planes a los píxeles: Aprender a planificar y orquestar para la edición de imágenes de final abierto

Resumen

Los modelos modernos de edición de imágenes producen resultados realistas, pero tienen dificultades con instrucciones abstractas y de múltiples pasos (por ejemplo, ``haz este anuncio más amigable para vegetarianos''). Los métodos previos basados en agentes descomponen dichas tareas, pero dependen de pipelines artesanales o de la imitación del profesor, lo que limita la flexibilidad y desvincula el aprendizaje de los resultados reales de edición. Proponemos un marco experiencial para la edición de imágenes a largo plazo, donde un planificador genera descomposiciones atómicas estructuradas y un orquestador selecciona herramientas y regiones para ejecutar cada paso. Un juez de visión y lenguaje proporciona recompensas basadas en los resultados por la adherencia a las instrucciones y la calidad visual. El orquestador se entrena para maximizar estas recompensas, y las trayectorias exitosas se utilizan para refinar el planificador. Al acoplar estrechamente la planificación con la ejecución impulsada por recompensas, nuestro enfoque produce ediciones más coherentes y fiables que las líneas base de un solo paso o de múltiples pasos basadas en reglas.

English

Modern image editing models produce realistic results but struggle with abstract, multi step instructions (e.g., ``make this advertisement more vegetarian-friendly''). Prior agent based methods decompose such tasks but rely on handcrafted pipelines or teacher imitation, limiting flexibility and decoupling learning from actual editing outcomes. We propose an experiential framework for long-horizon image editing, where a planner generates structured atomic decompositions and an orchestrator selects tools and regions to execute each step. A vision language judge provides outcome-based rewards for instruction adherence and visual quality. The orchestrator is trained to maximize these rewards, and successful trajectories are used to refine the planner. By tightly coupling planning with reward driven execution, our approach yields more coherent and reliable edits than single-step or rule-based multistep baselines.