GenEvolve: Самоэволюционирующие агенты генерации изображений посредством оркестрованной инструментами дистилляции визуального опыта

Аннотация

Генерация изображений в открытом виде больше не является простой задачей преобразования запроса в изображение. Для получения высококачественных результатов часто требуется агент, сочетающий внутренние генеративные способности модели с внешними ресурсами. По мере того как запросы становятся более разнообразными и требовательными, мы стремимся разработать универсального агента генерации изображений, способного к самоэволюции через траектории и более эффективному использованию инструментов в различных задачах генерации. С этой целью мы предлагаем GenEvolve — самоэволюционирующую структуру на основе дистилляции визуального опыта с оркестровкой инструментов (Tool-Orchestrated Visual Experience Distillation). В GenEvolve каждая попытка генерации моделируется как траектория с оркестровкой инструментов, где агент собирает доказательства, выбирает референсы, вызывает навыки генерации и составляет их в программу запроса-референса. В отличие от существующих методов агентной генерации, которые в основном полагаются на скалярные вознаграждения на уровне изображений, GenEvolve сравнивает несколько траекторий для одного и того же запроса и абстрагирует различия между лучшими и худшими в структурированный визуальный опыт, предоставляемый только привилегированной ветви учителя. Вдохновленная само-дистилляцией на политике (on-policy self-distillation), дистилляция визуального опыта обеспечивает плотную супервизию на уровне токенов, помогая ученику интернализировать улучшенный поиск, активацию знаний, выбор референсов и построение запросов. Кроме того, мы создаем GenEvolve-Data и GenEvolve-Bench. Эксперименты на публичных бенчмарках и GenEvolve-Bench показывают значительные улучшения по сравнению с сильными базовыми линиями, достигая передовой производительности среди современных фреймворков генерации изображений. Наш веб-сайт: https://ephemeral182.github.io/GenEvolve/

English

Open-ended image generation is no longer a simple prompt-to-image problem. High-quality generation often requires an agent to combine a model's internal generative ability with external resources. As requests become more diverse and demanding, we aim to develop a general image-generation agent that can self-evolve through trajectories and use tools more effectively across varied generation challenges. To this end, we propose GenEvolve, a self-evolving framework based on Tool-Orchestrated Visual Experience Distillation. In GenEvolve, each generation attempt is modeled as a tool-orchestrated trajectory, where the agent gathers evidence, selects references, invokes generation skills, and composes them into a prompt-reference program. Unlike existing agentic generation methods that mainly rely on image-level scalar rewards, GenEvolve compares multiple trajectories for the same request and abstracts best-worst differences into structured visual experience, provided only to a privileged teacher branch. Inspired by on-policy self-distillation, Visual Experience Distillation provides dense token-level supervision, helping the student internalize better search, knowledge activation, reference selection, and prompt construction. We further construct GenEvolve-Data and GenEvolve-Bench. Experiments on public benchmarks and GenEvolve-Bench show substantial gains over strong baselines, achieving state-of-the-art performance among current image-generation frameworks. Our website is as follows: https://ephemeral182.github.io/GenEvolve/