GenEvolve: Agentes de generación de imágenes auto-evolutivos mediante destilación de experiencia visual orquestada con herramientas

Resumen

La generación de imágenes abierta ya no es un simple problema de conversión de instrucción a imagen. La generación de alta calidad a menudo requiere que un agente combine la capacidad generativa interna de un modelo con recursos externos. A medida que las solicitudes se vuelven más diversas y exigentes, nuestro objetivo es desarrollar un agente general de generación de imágenes que pueda auto-evolucionar a través de trayectorias y utilizar herramientas de manera más efectiva en diversos desafíos de generación. Con este fin, proponemos GenEvolve, un marco de auto-evolución basado en la Destilación de Experiencia Visual Orquestada por Herramientas. En GenEvolve, cada intento de generación se modela como una trayectoria orquestada por herramientas, donde el agente recopila evidencia, selecciona referencias, invoca habilidades de generación y las compone en un programa de instrucciones y referencias. A diferencia de los métodos de generación basados en agentes existentes que se basan principalmente en recompensas escalares a nivel de imagen, GenEvolve compara múltiples trayectorias para la misma solicitud y abstrae las diferencias entre las mejores y las peores en una experiencia visual estructurada, proporcionada solo a una rama de profesor privilegiada. Inspirado en la autodestilación en política, la Destilación de Experiencia Visual proporciona una supervisión densa a nivel de token, ayudando al estudiante a internalizar una mejor búsqueda, activación de conocimiento, selección de referencias y construcción de instrucciones. Además, construimos GenEvolve-Data y GenEvolve-Bench. Los experimentos en puntos de referencia públicos y en GenEvolve-Bench muestran mejoras sustanciales sobre líneas base sólidas, logrando un rendimiento de última generación entre los marcos actuales de generación de imágenes. Nuestro sitio web es el siguiente: https://ephemeral182.github.io/GenEvolve/

English

Open-ended image generation is no longer a simple prompt-to-image problem. High-quality generation often requires an agent to combine a model's internal generative ability with external resources. As requests become more diverse and demanding, we aim to develop a general image-generation agent that can self-evolve through trajectories and use tools more effectively across varied generation challenges. To this end, we propose GenEvolve, a self-evolving framework based on Tool-Orchestrated Visual Experience Distillation. In GenEvolve, each generation attempt is modeled as a tool-orchestrated trajectory, where the agent gathers evidence, selects references, invokes generation skills, and composes them into a prompt-reference program. Unlike existing agentic generation methods that mainly rely on image-level scalar rewards, GenEvolve compares multiple trajectories for the same request and abstracts best-worst differences into structured visual experience, provided only to a privileged teacher branch. Inspired by on-policy self-distillation, Visual Experience Distillation provides dense token-level supervision, helping the student internalize better search, knowledge activation, reference selection, and prompt construction. We further construct GenEvolve-Data and GenEvolve-Bench. Experiments on public benchmarks and GenEvolve-Bench show substantial gains over strong baselines, achieving state-of-the-art performance among current image-generation frameworks. Our website is as follows: https://ephemeral182.github.io/GenEvolve/