GEMS: Агентно-ориентированная мультимодальная генерация с памятью и навыками
GEMS: Agent-Native Multimodal Generation with Memory and Skills
March 30, 2026
Авторы: Zefeng He, Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Yu Cheng, Yang Yang
cs.AI
Аннотация
Современные мультимодальные генеративные модели демонстрируют значительный прогресс в решении универсальных задач генерации, однако по-прежнему испытывают трудности со сложными инструкциями и специализированными прикладными задачами. Вдохновленные успехом передовых агентских фреймворков, таких как Claude Code, мы предлагаем GEMS (Agent-Native Multimodal Generation with Memory and Skills) — фреймворк, преодолевающий inherent limitations базовых моделей как в общих, так и в прикладных задачах. GEMS построен на трех ключевых компонентах. **Agent Loop** представляет структурированную мультиагентную архитектуру, которая итеративно улучшает качество генерации за счет оптимизации по замкнутому циклу. **Agent Memory** обеспечивает постоянную память на уровне траекторий, которая иерархически хранит как фактические состояния, так и сжатые опытные сводки, предоставляя глобальное представление о процессе оптимизации и снижая избыточность. **Agent Skill** предлагает расширяемый набор предметных экспертиз с возможностью загрузки по требованию, позволяя системе эффективно работать с разнообразными прикладными приложениями. На пяти основных и четырех прикладных задачах, оцененных на нескольких генеративных бэкендах, GEMS стабильно демонстрирует значительный прирост производительности. Особенно показательно, что он позволяет облегченной 6B модели Z-Image-Turbo превзойти state-of-the-art модель Nano Banana 2 на тесте GenEval2, что доказывает эффективность агентского подхода в расширении возможностей моделей за их исходные пределы.
English
Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose GEMS (Agent-Native Multimodal GEneration with Memory and Skills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.