GEMS : Génération Multimodale Native Agent avec Mémoire et Compétences
GEMS: Agent-Native Multimodal Generation with Memory and Skills
March 30, 2026
Auteurs: Zefeng He, Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Yu Cheng, Yang Yang
cs.AI
Résumé
Les modèles de génération multimodaux récents ont réalisé des progrès remarquables sur les tâches de génération généralistes, mais continuent de rencontrer des difficultés avec les instructions complexes et les tâches spécialisées en aval. Inspiré par le succès de cadres agentiques avancés comme Claude Code, nous proposons GEMS (Agent-Native Multimodal GEneration with Memory and Skills), un cadre qui repousse les limitations inhérentes des modèles de base sur les tâches générales et spécialisées. GEMS repose sur trois composants centraux. La Boucle Agent introduit un cadre multi-agent structuré qui améliore itérativement la qualité de la génération via une optimisation en boucle fermée. La Mémoire Agent fournit une mémoire persistante au niveau trajectoire qui stocke hiérarchiquement à la fois des états factuels et des résumés expérientiels compressés, permettant une vue globale du processus d'optimisation tout en réduisant la redondance. La Compétence Agent offre une collection extensible d'expertises métier avec chargement à la demande, permettant au système de traiter efficacement diverses applications en aval. Sur cinq tâches grand public et quatre tâches spécialisées, évalué sur plusieurs backends génératifs, GEMS obtient systématiquement des gains de performance significatifs. Plus notablement, il permet au modèle léger Z-Image-Turbo (6B) de surpasser l'état de l'art Nano Banana 2 sur GenEval2, démontrant l'efficacité du harnais agentique pour étendre les capacités des modèles au-delà de leurs limites originelles.
English
Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose GEMS (Agent-Native Multimodal GEneration with Memory and Skills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.