От планов к пикселям: обучение планированию и оркестрации для произвольного редактирования изображений

Аннотация

Современные модели редактирования изображений дают реалистичные результаты, но испытывают трудности с абстрактными многошаговыми инструкциями (например, «сделайте эту рекламу более вегетарианской»). Существующие агентные методы разбивают такие задачи на части, но опираются на ручные конвейеры или подражание учителю, что ограничивает гибкость и отделяет обучение от реальных результатов редактирования. Мы предлагаем эмпирический фреймворк для долгосрочного редактирования изображений, в котором планировщик генерирует структурированные атомарные декомпозиции, а оркестратор выбирает инструменты и области для выполнения каждого шага. Визуально-языковой судья предоставляет вознаграждения на основе результатов за следование инструкциям и визуальное качество. Оркестратор обучается максимизировать эти вознаграждения, а успешные траектории используются для доработки планировщика. Благодаря тесной связи планирования с выполнением, управляемым вознаграждением, наш подход даёт более согласованные и надёжные правки по сравнению с одношаговыми или основанными на правилах многошаговыми базовыми моделями.

English

Modern image editing models produce realistic results but struggle with abstract, multi step instructions (e.g., ``make this advertisement more vegetarian-friendly''). Prior agent based methods decompose such tasks but rely on handcrafted pipelines or teacher imitation, limiting flexibility and decoupling learning from actual editing outcomes. We propose an experiential framework for long-horizon image editing, where a planner generates structured atomic decompositions and an orchestrator selects tools and regions to execute each step. A vision language judge provides outcome-based rewards for instruction adherence and visual quality. The orchestrator is trained to maximize these rewards, and successful trajectories are used to refine the planner. By tightly coupling planning with reward driven execution, our approach yields more coherent and reliable edits than single-step or rule-based multistep baselines.