GenEvolve : Agents de génération d’images auto-évolutifs via distillation d’expérience visuelle orchestrée par outils
GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
May 20, 2026
Auteurs: Sixiang Chen, Zhaohu Xing, Tian Ye, Xinyu Geng, Yunlong Lin, Jianyu Lai, Xuanhua He, Fuxiang Zhai, Jialin Gao, Lei Zhu
cs.AI
Résumé
La génération d'images ouvertes n'est plus un simple problème de passage d'une consigne à une image. Une génération de haute qualité nécessite souvent qu'un agent combine la capacité générative interne d'un modèle avec des ressources externes. Face à des demandes de plus en plus diversifiées et exigeantes, nous visons à développer un agent général de génération d'images capable d'auto-évolution à travers des trajectoires et d'utiliser les outils plus efficacement face à divers défis de génération. À cette fin, nous proposons GenEvolve, un cadre auto-évolutif fondé sur la distillation d'expérience visuelle orchestrée par outils. Dans GenEvolve, chaque tentative de génération est modélisée comme une trajectoire orchestrée par outils, où l'agent rassemble des preuves, sélectionne des références, invoque des compétences de génération et les compose en un programme de consignes et de références. Contrairement aux méthodes de génération agentiques existantes qui reposent principalement sur des récompenses scalaires au niveau de l'image, GenEvolve compare plusieurs trajectoires pour une même requête et abstrait les différences meilleur-pire en une expérience visuelle structurée, fournie uniquement à une branche d'enseignant privilégiée. Inspirée par l'auto-distillation sur politique, la distillation d'expérience visuelle offre une supervision dense au niveau des tokens, aidant l'étudiant à internaliser une meilleure recherche, activation des connaissances, sélection de références et construction de consignes. Nous construisons en outre GenEvolve-Data et GenEvolve-Bench. Les expériences sur des bancs d'essai publics et GenEvolve-Bench montrent des gains substantiels par rapport à des bases de référence solides, atteignant des performances de pointe parmi les cadres actuels de génération d'images. Notre site web est le suivant : https://ephemeral182.github.io/GenEvolve/
English
Open-ended image generation is no longer a simple prompt-to-image problem. High-quality generation often requires an agent to combine a model's internal generative ability with external resources. As requests become more diverse and demanding, we aim to develop a general image-generation agent that can self-evolve through trajectories and use tools more effectively across varied generation challenges. To this end, we propose GenEvolve, a self-evolving framework based on Tool-Orchestrated Visual Experience Distillation. In GenEvolve, each generation attempt is modeled as a tool-orchestrated trajectory, where the agent gathers evidence, selects references, invokes generation skills, and composes them into a prompt-reference program. Unlike existing agentic generation methods that mainly rely on image-level scalar rewards, GenEvolve compares multiple trajectories for the same request and abstracts best-worst differences into structured visual experience, provided only to a privileged teacher branch. Inspired by on-policy self-distillation, Visual Experience Distillation provides dense token-level supervision, helping the student internalize better search, knowledge activation, reference selection, and prompt construction. We further construct GenEvolve-Data and GenEvolve-Bench. Experiments on public benchmarks and GenEvolve-Bench show substantial gains over strong baselines, achieving state-of-the-art performance among current image-generation frameworks. Our website is as follows: https://ephemeral182.github.io/GenEvolve/