Von Plänen zu Pixeln: Lernen, zu planen und zu orchestrieren für ergebnisoffene Bildbearbeitung

Zusammenfassung

Moderne Bildbearbeitungsmodelle erzeugen realistische Ergebnisse, haben jedoch Schwierigkeiten mit abstrakten, mehrschrittigen Anweisungen (z. B. „Machen Sie diese Werbung vegetarischer“). Bisherige agentenbasierte Methoden zerlegen solche Aufgaben, sind jedoch auf handgefertigte Pipelines oder Lehrerimitation angewiesen, was die Flexibilität einschränkt und das Lernen von den tatsächlichen Bearbeitungsergebnissen entkoppelt. Wir schlagen ein erfahrungsbasiertes Framework für langfristige Bildbearbeitung vor, bei dem ein Planer strukturierte atomare Zerlegungen generiert und ein Orchestrator Werkzeuge und Regionen für die Ausführung jedes Schritts auswählt. Ein visuell-sprachlicher Richter liefert ergebnisbasierte Belohnungen für die Anweisungstreue und die visuelle Qualität. Der Orchestrator wird trainiert, diese Belohnungen zu maximieren, und erfolgreiche Trajektorien werden verwendet, um den Planer zu verfeinern. Durch die enge Kopplung von Planung mit belohnungsgesteuerter Ausführung erzielt unser Ansatz kohärentere und zuverlässigere Bearbeitungen als einschrittige oder regelbasierte mehrschrittige Basislinien.

English

Modern image editing models produce realistic results but struggle with abstract, multi step instructions (e.g., ``make this advertisement more vegetarian-friendly''). Prior agent based methods decompose such tasks but rely on handcrafted pipelines or teacher imitation, limiting flexibility and decoupling learning from actual editing outcomes. We propose an experiential framework for long-horizon image editing, where a planner generates structured atomic decompositions and an orchestrator selects tools and regions to execute each step. A vision language judge provides outcome-based rewards for instruction adherence and visual quality. The orchestrator is trained to maximize these rewards, and successful trajectories are used to refine the planner. By tightly coupling planning with reward driven execution, our approach yields more coherent and reliable edits than single-step or rule-based multistep baselines.