GEMS: Generazione Multimodale Nativa degli Agenti con Memoria e Abilità

Abstract

I recenti modelli multimodali di generazione hanno compiuto progressi notevoli in compiti generici, ma continuano a mostrare difficoltà con istruzioni complesse e task specialistici downstream. Ispirati dal successo di framework avanzati come Claude Code, proponiamo GEMS (Agent-Native Multimodal GEneration with Memory and Skills), un'architettura che supera i limiti intrinseci dei modelli fondazionali sia su compiti generali che downstream. GEMS si basa su tre componenti fondamentali. L'Agent Loop introduce un framework multi-agente strutturato che migliora iterativamente la qualità della generazione attraverso ottimizzazione a ciclo chiuso. L'Agent Memory fornisce una memoria persistente a livello di traiettoria che archivia gerarchicamente sia stati fattuali che sintesi esperienziali compresse, consentendo una visione globale del processo di ottimizzazione riducendo la ridondanza. L'Agent Skill offre una collezione estensibile di competenze specialistiche con caricamento on-demand, permettendo al sistema di gestire efficacemente applicazioni downstream diversificate. Su cinque task mainstream e quattro task downstream, valutati su molteplici backend generativi, GEMS ottiene costantemente miglioramenti prestazionali significativi. Notevolmente, consente al modello leggero Z-Image-Turbo da 6B di superare lo state-of-the-art Nano Banana 2 su GenEval2, dimostrando l'efficacia dell'approccio agent-based nell'estendere le capacità dei modelli oltre i loro limiti originari.

English

Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose GEMS (Agent-Native Multimodal GEneration with Memory and Skills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.

GEMS: Generazione Multimodale Nativa degli Agenti con Memoria e Abilità

GEMS: Agent-Native Multimodal Generation with Memory and Skills

Abstract

Support