GenEvolve: Selbstentwickelnde Bildgenerierungsagenten durch werkzeugorchestrierte Destillation visueller Erfahrung
GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
May 20, 2026
Autoren: Sixiang Chen, Zhaohu Xing, Tian Ye, Xinyu Geng, Yunlong Lin, Jianyu Lai, Xuanhua He, Fuxiang Zhai, Jialin Gao, Lei Zhu
cs.AI
Zusammenfassung
Offene Bildgenerierung ist kein reines Prompt-zu-Bild-Problem mehr. Hochwertige Generierung erfordert oft einen Agenten, der die internen Generierungsfähigkeiten eines Modells mit externen Ressourcen kombiniert. Da die Anforderungen vielfältiger und anspruchsvoller werden, streben wir die Entwicklung eines allgemeinen Bildgenerierungsagenten an, der sich durch Trajektorien selbst weiterentwickeln und Werkzeuge über verschiedene Generierungsherausforderungen hinweg effektiver einsetzen kann. Zu diesem Zweck schlagen wir GenEvolve vor, ein selbstentwickelndes Framework auf Basis der Werkzeug-orchestrierten Destillation visueller Erfahrungen. In GenEvolve wird jeder Generierungsversuch als eine werkzeug-orchestrierte Trajektorie modelliert, bei der der Agent Beweise sammelt, Referenzen auswählt, Generierungsfähigkeiten aufruft und sie zu einem Prompt-Referenz-Programm zusammenstellt. Im Gegensatz zu bestehenden agentenbasierten Generierungsmethoden, die hauptsächlich auf skalaren Belohnungen auf Bildebene basieren, vergleicht GenEvolve mehrere Trajektorien für dieselbe Anfrage und abstrahiert die besten-schlechtesten Unterschiede in strukturierte visuelle Erfahrungen, die nur einem privilegierten Lehrerzweig bereitgestellt werden. Inspiriert von der On-Policy-Selbstdestillation bietet die Destillation visueller Erfahrungen eine dichte Überwachung auf Token-Ebene, die dem Schüler hilft, bessere Suche, Wissensaktivierung, Referenzauswahl und Prompt-Konstruktion zu verinnerlichen. Wir erstellen außerdem GenEvolve-Data und GenEvolve-Bench. Experimente auf öffentlichen Benchmarks und GenEvolve-Bench zeigen erhebliche Verbesserungen gegenüber starken Baselines und erzielen eine Spitzenleistung unter den aktuellen Bildgenerierungsframeworks. Unsere Website lautet wie folgt: https://ephemeral182.github.io/GenEvolve/
English
Open-ended image generation is no longer a simple prompt-to-image problem. High-quality generation often requires an agent to combine a model's internal generative ability with external resources. As requests become more diverse and demanding, we aim to develop a general image-generation agent that can self-evolve through trajectories and use tools more effectively across varied generation challenges. To this end, we propose GenEvolve, a self-evolving framework based on Tool-Orchestrated Visual Experience Distillation. In GenEvolve, each generation attempt is modeled as a tool-orchestrated trajectory, where the agent gathers evidence, selects references, invokes generation skills, and composes them into a prompt-reference program. Unlike existing agentic generation methods that mainly rely on image-level scalar rewards, GenEvolve compares multiple trajectories for the same request and abstracts best-worst differences into structured visual experience, provided only to a privileged teacher branch. Inspired by on-policy self-distillation, Visual Experience Distillation provides dense token-level supervision, helping the student internalize better search, knowledge activation, reference selection, and prompt construction. We further construct GenEvolve-Data and GenEvolve-Bench. Experiments on public benchmarks and GenEvolve-Bench show substantial gains over strong baselines, achieving state-of-the-art performance among current image-generation frameworks. Our website is as follows: https://ephemeral182.github.io/GenEvolve/