GEMS: Geração Multimodal Nativa de Agentes com Memória e Habilidades

Resumo

Os modelos recentes de geração multimodal alcançaram progressos notáveis em tarefas de geração de propósito geral, mas continuam com dificuldades em instruções complexas e tarefas especializadas downstream. Inspirados pelo sucesso de frameworks avançados de agentes como o Claude Code, propomos o GEMS (Agente-Nativo de Geração Multimodal com Memória e Habilidades), um framework que supera as limitações inerentes dos modelos fundamentais tanto em tarefas gerais quanto downstream. O GEMS é construído sobre três componentes principais. O Loop do Agente introduz uma estrutura multiagente estruturada que melhora iterativamente a qualidade da geração por meio de otimização em loop fechado. A Memória do Agente fornece uma memória persistente em nível de trajetória que armazena hierarquicamente estados factuais e resumos experienciais comprimidos, permitindo uma visão global do processo de otimização enquanto reduz a redundância. A Habilidade do Agente oferece uma coleção extensível de conhecimentos especializados por domínio com carregamento sob demanda, permitindo que o sistema lide efetivamente com diversas aplicações downstream. Em cinco tarefas principais e quatro tarefas downstream, avaliadas em múltiplos backends generativos, o GEMS alcança consistentemente ganhos significativos de desempenho. Mais notavelmente, permite que o modelo leve Z-Image-Turbo de 6B supere o state-of-the-art Nano Banana 2 no GenEval2, demonstrando a eficácia do aproveitamento de agentes para estender as capacidades dos modelos além de seus limites originais.

English

Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose GEMS (Agent-Native Multimodal GEneration with Memory and Skills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.

GEMS: Geração Multimodal Nativa de Agentes com Memória e Habilidades

GEMS: Agent-Native Multimodal Generation with Memory and Skills

Resumo

Support