GEMS: Generación Multimodal Nativa de Agentes con Memoria y Habilidades

Resumen

Los modelos de generación multimodal recientes han logrado avances notables en tareas de generación de propósito general, pero continúan enfrentando dificultades con instrucciones complejas y tareas especializadas de aplicación específica. Inspirados por el éxito de frameworks de agentes avanzados como Claude Code, proponemos GEMS (Generación Multimodal Nativa de Agentes con Memoria y Habilidades), un marco que supera las limitaciones inherentes de los modelos fundacionales tanto en tareas generales como específicas. GEMS se construye sobre tres componentes principales. El Bucle del Agente introduce un marco multiagente estructurado que mejora iterativamente la calidad de la generación mediante optimización de bucle cerrado. La Memoria del Agente proporciona una memoria persistente a nivel de trayectoria que almacena jerárquicamente tanto estados factuales como resúmenes experienciales comprimidos, permitiendo una visión global del proceso de optimización mientras reduce la redundancia. La Habilidad del Agente ofrece una colección extensible de experiencia específica de dominio con carga bajo demanda, permitiendo al sistema manejar eficazmente diversas aplicaciones específicas. A lo largo de cinco tareas principales y cuatro tareas específicas, evaluadas en múltiples backends generativos, GEMS logra consistentemente mejoras significativas de rendimiento. Más notablemente, permite que el modelo ligero de 6B Z-Image-Turbo supere al estado del arte Nano Banana 2 en GenEval2, demostrando la efectividad del aprovechamiento de agentes para extender las capacidades del modelo más allá de sus límites originales.

English

Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose GEMS (Agent-Native Multimodal GEneration with Memory and Skills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.

GEMS: Generación Multimodal Nativa de Agentes con Memoria y Habilidades

GEMS: Agent-Native Multimodal Generation with Memory and Skills

Resumen

Support