GEMS: Agent-Native Multimodale Generatie met Geheugen en Vaardigheden
GEMS: Agent-Native Multimodal Generation with Memory and Skills
March 30, 2026
Auteurs: Zefeng He, Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Yu Cheng, Yang Yang
cs.AI
Samenvatting
Recente multimodale generatiemodellen hebben opmerkelijke vooruitgang geboekt op algemene generatietaken, maar blijven moeite houden met complexe instructies en gespecialiseerde downstreamtaken. Geïnspireerd door het succes van geavanceerde agentframeworks zoals Claude Code, stellen we GEMS voor (Agent-Native Multimodal GEneration with Memory and Skills), een framework dat de inherente beperkingen van foundationmodellen overstijgt voor zowel algemene als downstreamtaken. GEMS is gebouwd op drie kerncomponenten. De Agent Loop introduceert een gestructureerd multi-agentframework dat de generatiekwaliteit iteratief verbetert door middel van closed-loop-optimalisatie. Agent Memory biedt een persistent, trajectniveau-geheugen dat zowel feitelijke statussen als gecomprimeerde ervaringssamenvattingen hiërarchisch opslaat, waardoor een globaal overzicht van het optimalisatieproces mogelijk is terwijl redundantie wordt verminderd. Agent Skill biedt een uitbreidbare verzameling domeinspecifieke expertise met on-demand laden, waardoor het systeem diverse downstreamtoepassingen effectief kan verwerken. Over vijf hoofdstromingtaken en vier downstreamtaken, geëvalueerd op meerdere generatieve backends, behaalt GEMS consistente significante prestatieverbeteringen. Opmerkelijk is dat het het lichtgewicht 6B-model Z-Image-Turbo in staat stelt de state-of-the-art Nano Banana 2 te overtreffen op GenEval2, wat de effectiviteit aantoont van agentsturing bij het uitbreiden van modelcapaciteiten voorbij hun oorspronkelijke limieten.
English
Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose GEMS (Agent-Native Multimodal GEneration with Memory and Skills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.