GenEvolve: Agentes de Geração de Imagens Auto-Evolutivos via Destilação de Experiência Visual Orquestrada por Ferramentas
GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
May 20, 2026
Autores: Sixiang Chen, Zhaohu Xing, Tian Ye, Xinyu Geng, Yunlong Lin, Jianyu Lai, Xuanhua He, Fuxiang Zhai, Jialin Gao, Lei Zhu
cs.AI
Resumo
A geração de imagens aberta não é mais um simples problema de prompt para imagem. A geração de alta qualidade frequentemente exige que um agente combine a capacidade generativa interna de um modelo com recursos externos. À medida que as solicitações se tornam mais diversas e exigentes, nosso objetivo é desenvolver um agente geral de geração de imagens que possa se auto-evoluir por meio de trajetórias e usar ferramentas de forma mais eficaz em diversos desafios de geração. Para esse fim, propomos o GenEvolve, uma estrutura auto-evolutiva baseada em Destilação de Experiência Visual Orquestrada por Ferramentas. No GenEvolve, cada tentativa de geração é modelada como uma trajetória orquestrada por ferramentas, onde o agente coleta evidências, seleciona referências, invoca habilidades de geração e as compõe em um programa de prompt-referência. Diferentemente dos métodos existentes de geração agentiva que dependem principalmente de recompensas escalares ao nível da imagem, o GenEvolve compara múltiplas trajetórias para a mesma solicitação e abstrai diferenças melhor-pior em experiência visual estruturada, fornecida apenas a um ramo de professor privilegiado. Inspirada pela autodestilação on-policy, a Destilação de Experiência Visual fornece supervisão densa ao nível de token, ajudando o aluno a internalizar melhor busca, ativação de conhecimento, seleção de referência e construção de prompt. Além disso, construímos o GenEvolve-Data e o GenEvolve-Bench. Experimentos em benchmarks públicos e no GenEvolve-Bench mostram ganhos substanciais em relação a linhas de base fortes, alcançando desempenho de ponta entre as estruturas atuais de geração de imagens. Nosso site é: https://ephemeral182.github.io/GenEvolve/
English
Open-ended image generation is no longer a simple prompt-to-image problem. High-quality generation often requires an agent to combine a model's internal generative ability with external resources. As requests become more diverse and demanding, we aim to develop a general image-generation agent that can self-evolve through trajectories and use tools more effectively across varied generation challenges. To this end, we propose GenEvolve, a self-evolving framework based on Tool-Orchestrated Visual Experience Distillation. In GenEvolve, each generation attempt is modeled as a tool-orchestrated trajectory, where the agent gathers evidence, selects references, invokes generation skills, and composes them into a prompt-reference program. Unlike existing agentic generation methods that mainly rely on image-level scalar rewards, GenEvolve compares multiple trajectories for the same request and abstracts best-worst differences into structured visual experience, provided only to a privileged teacher branch. Inspired by on-policy self-distillation, Visual Experience Distillation provides dense token-level supervision, helping the student internalize better search, knowledge activation, reference selection, and prompt construction. We further construct GenEvolve-Data and GenEvolve-Bench. Experiments on public benchmarks and GenEvolve-Bench show substantial gains over strong baselines, achieving state-of-the-art performance among current image-generation frameworks. Our website is as follows: https://ephemeral182.github.io/GenEvolve/