GenEvolve: 도구 조율된 시각 경험 증류를 통한 자기 진화 이미지 생성 에이전트
GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
May 20, 2026
저자: Sixiang Chen, Zhaohu Xing, Tian Ye, Xinyu Geng, Yunlong Lin, Jianyu Lai, Xuanhua He, Fuxiang Zhai, Jialin Gao, Lei Zhu
cs.AI
초록
개방형 이미지 생성은 더 이상 단순한 프롬프트-이미지 문제가 아니다. 고품질 생성을 위해서는 에이전트가 모델의 내부 생성 능력과 외부 자원을 결합하는 경우가 많다. 요청이 더욱 다양하고 까다로워짐에 따라, 우리는 다양한 생성 과제에서 궤적을 통해 스스로 진화하고 도구를 더 효과적으로 활용할 수 있는 범용 이미지 생성 에이전트를 개발하는 것을 목표로 한다. 이를 위해 본 논문에서는 도구 기반 시각 경험 증류(Tool-Orchestrated Visual Experience Distillation)를 활용한 자기 진화 프레임워크인 GenEvolve를 제안한다. GenEvolve에서 각 생성 시도는 도구 조율 궤적으로 모델링되며, 에이전트는 증거를 수집하고, 참조를 선택하며, 생성 기술을 호출하고, 이들을 프롬프트-참조 프로그램으로 구성한다. 주로 이미지 수준의 스칼라 보상에 의존하는 기존 에이전트 기반 생성 방법과 달리, GenEvolve는 동일한 요청에 대한 여러 궤적을 비교하고 최적-최악의 차이를 구조화된 시각 경험으로 추상화하며, 이 경험은 오직 특권 교사 분기에만 제공된다. 온-정책 자기 증류에서 영감을 받은 시각 경험 증류는 조밀한 토큰 수준의 감독을 제공하여 학생 모델이 더 나은 검색, 지식 활성화, 참조 선택 및 프롬프트 구성을 내재화하도록 돕는다. 또한 GenEvolve-Data와 GenEvolve-Bench를 구축하였다. 공개 벤치마크와 GenEvolve-Bench에 대한 실험 결과, 강력한 기준선 대비 상당한 성능 향상을 보였으며, 현재 이미지 생성 프레임워크 중 최고 수준의 성능을 달성하였다. 웹사이트는 다음과 같다: https://ephemeral182.github.io/GenEvolve/
English
Open-ended image generation is no longer a simple prompt-to-image problem. High-quality generation often requires an agent to combine a model's internal generative ability with external resources. As requests become more diverse and demanding, we aim to develop a general image-generation agent that can self-evolve through trajectories and use tools more effectively across varied generation challenges. To this end, we propose GenEvolve, a self-evolving framework based on Tool-Orchestrated Visual Experience Distillation. In GenEvolve, each generation attempt is modeled as a tool-orchestrated trajectory, where the agent gathers evidence, selects references, invokes generation skills, and composes them into a prompt-reference program. Unlike existing agentic generation methods that mainly rely on image-level scalar rewards, GenEvolve compares multiple trajectories for the same request and abstracts best-worst differences into structured visual experience, provided only to a privileged teacher branch. Inspired by on-policy self-distillation, Visual Experience Distillation provides dense token-level supervision, helping the student internalize better search, knowledge activation, reference selection, and prompt construction. We further construct GenEvolve-Data and GenEvolve-Bench. Experiments on public benchmarks and GenEvolve-Bench show substantial gains over strong baselines, achieving state-of-the-art performance among current image-generation frameworks. Our website is as follows: https://ephemeral182.github.io/GenEvolve/