ChatPaper.aiChatPaper

GenEvolve: Zelf-evoluerende beeldgeneratieagenten via door tools georkestreerde distillatie van visuele ervaring

GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

May 20, 2026
Auteurs: Sixiang Chen, Zhaohu Xing, Tian Ye, Xinyu Geng, Yunlong Lin, Jianyu Lai, Xuanhua He, Fuxiang Zhai, Jialin Gao, Lei Zhu
cs.AI

Samenvatting

Open-einde beeldgeneratie is niet langer een eenvoudig prompt-naar-afbeelding probleem. Hoogwaardige generatie vereist vaak een agent die de interne generatieve vermogens van een model combineert met externe bronnen. Naarmate verzoeken diverser en veeleisender worden, streven we naar de ontwikkeling van een algemene beeldgeneratieagent die zichzelf kan laten evolueren via trajecten en die tools effectiever kan gebruiken bij uiteenlopende generatie-uitdagingen. Daartoe stellen we GenEvolve voor, een zelf-evoluerend raamwerk gebaseerd op Tool-georkestreerde Visuele Ervaringsdestillatie. In GenEvolve wordt elke generatiepoging gemodelleerd als een tool-georkestreerd traject, waarbij de agent bewijs verzamelt, referenties selecteert, generatievaardigheden aanroept en deze samenstelt tot een prompt-referentieprogramma. In tegenstelling tot bestaande agentische generatiemethoden die voornamelijk afhankelijk zijn van scalaire beloningen op afbeeldingsniveau, vergelijkt GenEvolve meerdere trajecten voor hetzelfde verzoek en abstraheert het beste-slechtste verschillen tot gestructureerde visuele ervaring, die alleen wordt verstrekt aan een bevoorrechte leraarstak. Geïnspireerd door on-policy zelfdestillatie biedt Visuele Ervaringsdestillatie dichte supervisie op tokenniveau, waardoor de student beter leert zoeken, kennis activeren, referenties selecteren en prompts construeren. We bouwen verder GenEvolve-Data en GenEvolve-Bench. Experimenten op openbare benchmarks en GenEvolve-Bench tonen aanzienlijke verbeteringen ten opzichte van sterke baselines en behalen state-of-the-art prestaties onder de huidige beeldgeneratieraamwerken. Onze website is als volgt: https://ephemeral182.github.io/GenEvolve/
English
Open-ended image generation is no longer a simple prompt-to-image problem. High-quality generation often requires an agent to combine a model's internal generative ability with external resources. As requests become more diverse and demanding, we aim to develop a general image-generation agent that can self-evolve through trajectories and use tools more effectively across varied generation challenges. To this end, we propose GenEvolve, a self-evolving framework based on Tool-Orchestrated Visual Experience Distillation. In GenEvolve, each generation attempt is modeled as a tool-orchestrated trajectory, where the agent gathers evidence, selects references, invokes generation skills, and composes them into a prompt-reference program. Unlike existing agentic generation methods that mainly rely on image-level scalar rewards, GenEvolve compares multiple trajectories for the same request and abstracts best-worst differences into structured visual experience, provided only to a privileged teacher branch. Inspired by on-policy self-distillation, Visual Experience Distillation provides dense token-level supervision, helping the student internalize better search, knowledge activation, reference selection, and prompt construction. We further construct GenEvolve-Data and GenEvolve-Bench. Experiments on public benchmarks and GenEvolve-Bench show substantial gains over strong baselines, achieving state-of-the-art performance among current image-generation frameworks. Our website is as follows: https://ephemeral182.github.io/GenEvolve/