GEMS: 에이전트 고유의 메모리와 기술을 통한 멀티모달 생성
GEMS: Agent-Native Multimodal Generation with Memory and Skills
March 30, 2026
저자: Zefeng He, Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Yu Cheng, Yang Yang
cs.AI
초록
최근 멀티모달 생성 모델은 일반적인 생성 과제에서 놀라운 발전을 이루었으나, 여전히 복잡한 지시와 전문적인 하위 과제에서는 어려움을 겪고 있습니다. Claude Code와 같은 고급 에이전트 프레임워크의 성공에서 영감을 받아, 우리는 일반 및 하위 과제 모두에서 기초 모델의 본질적 한계를 넘어서는 프레임워크인 GEMS(에이전트 네이티브 메모리 및 기술 기반 멀티모달 생성)를 제안합니다. GEMS는 세 가지 핵심 구성 요소로 구축되었습니다. 에이전트 루프는 구조화된 다중 에이전트 프레임워크를 도입하여 폐쇄형 루프 최적화를 통해 생성 품질을 반복적으로 향상시킵니다. 에이전트 메모리는 사실적 상태와 압축된 경험적 요약을 계층적으로 저장하는 지속적이고 궤적 수준의 메모리를 제공하여 중복성을 줄이면서 최적화 과정에 대한 글로벌 뷰를 가능하게 합니다. 에이전트 기술은 온디맨드 로딩을 통한 도메인 특화 전문 지식의 확장 가능한 컬렉션을 제공하여 시스템이 다양한 하위 애플리케이션을 효과적으로 처리할 수 있도록 합니다. 5개의 주요 과제와 4개의 하위 과제에 걸쳐 여러 생성 백엔드에서 평가한 결과, GEMS는 지속적으로 상당한 성능 향상을 달성했습니다. 특히, 이는 경량 6B 모델인 Z-Image-Turbo가 GenEval2에서 최첨단 모델인 Nano Banana 2를 능가하도록 하여, 에이전트 활용이 모델의 원래 한계를 넘어 성능을 확장하는 데 효과적임을 입증했습니다.
English
Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose GEMS (Agent-Native Multimodal GEneration with Memory and Skills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.