GEMS: Agenten-basierte multimodale Generierung mit Gedächtnis und Fähigkeiten

Zusammenfassung

Aktuelle multimodale Generierungsmodelle haben bemerkenswerte Fortschritte bei allgemeinen Generierungsaufgaben erzielt, kämpfen aber nach wie vor mit komplexen Instruktionen und spezialisierten Downstream-Aufgaben. Inspiriert durch den Erfolg fortschrittlicher Agenten-Frameworks wie Claude Code schlagen wir GEMS (Agent-Native Multimodal GEneration with Memory and Skills) vor, ein Framework, das die inhärenten Grenzen von Foundation-Modellen bei sowohl allgemeinen als auch Downstream-Aufgaben überwindet. GEMS basiert auf drei Kernkomponenten. Die Agentenschleife führt ein strukturiertes Multi-Agenten-Framework ein, das die Generierungsqualität durch Closed-Loop-Optimierung iterativ verbessert. Der Agentenspeicher bietet einen persistenten, trajectorienbasierten Speicher, der faktische Zustände und komprimierte Erfahrungszusammenfassungen hierarchisch ablegt und so eine globale Sicht auf den Optimierungsprozess ermöglicht, während Redundanzen reduziert werden. Die Agentenfähigkeiten bieten eine erweiterbare Sammlung domainspezifischer Expertise mit bedarfsgerechtem Laden, die es dem System ermöglicht, verschiedene Downstream-Anwendungen effektiv zu bewältigen. Über fünf Hauptaufgaben und vier Downstream-Aufgaben hinweg, die auf mehreren generativen Backends evaluiert wurden, erzielt GEMS durchgängig signifikante Leistungssteigerungen. Besonders bemerkenswert ist, dass es dem leichten 6B-Modell Z-Image-Turbo ermöglicht, den state-of-the-art Nano Banana 2 auf GenEval2 zu übertreffen, was die Wirksamkeit des Agenten-Ansatzes zur Erweiterung der Modellfähigkeiten über ihre ursprünglichen Grenzen hinaus demonstriert.

English

Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose GEMS (Agent-Native Multimodal GEneration with Memory and Skills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.

GEMS: Agenten-basierte multimodale Generierung mit Gedächtnis und Fähigkeiten

GEMS: Agent-Native Multimodal Generation with Memory and Skills

Zusammenfassung

Support