JoyAgent-JDGenie: Technischer Bericht über GAIA
JoyAgent-JDGenie: Technical Report on the GAIA
October 1, 2025
papers.authors: Jiarun Liu, Shiyue Xu, Shangkun Liu, Yang Li, Wen Liu, Min Liu, Xiaoqing Zhou, Hanmin Wang, Shilin Jia, zhen Wang, Shaohua Tian, Hanhao Li, Junbo Zhang, Yongli Yu, Peng Cao, Haofen Wang
cs.AI
papers.abstract
Große Sprachmodelle werden zunehmend als autonome Agenten für komplexe reale Aufgaben eingesetzt, doch bestehende Systeme konzentrieren sich oft auf isolierte Verbesserungen ohne ein einheitliches Design für Robustheit und Anpassungsfähigkeit. Wir schlagen eine generalistische Agentenarchitektur vor, die drei Kernkomponenten integriert: ein kollektives Multi-Agenten-Framework, das Planungs- und Ausführungsagenten mit Abstimmungen durch Kritikermodelle kombiniert, ein hierarchisches Speichersystem, das Arbeits-, Semantik- und Verfahrensebenen umfasst, sowie ein verfeinertes Werkzeugsatz für Suche, Code-Ausführung und multimodale Analyse. Auf einem umfassenden Benchmark bewertet, übertrifft unser Framework durchweg Open-Source-Baselines und nähert sich der Leistung proprietärer Systeme an. Diese Ergebnisse unterstreichen die Bedeutung der systemweiten Integration und zeigen einen Weg zu skalierbaren, widerstandsfähigen und adaptiven KI-Assistenten auf, die in der Lage sind, über verschiedene Domänen und Aufgaben hinweg zu operieren.
English
Large Language Models are increasingly deployed as autonomous agents for
complex real-world tasks, yet existing systems often focus on isolated
improvements without a unifying design for robustness and adaptability. We
propose a generalist agent architecture that integrates three core components:
a collective multi-agent framework combining planning and execution agents with
critic model voting, a hierarchical memory system spanning working, semantic,
and procedural layers, and a refined tool suite for search, code execution, and
multimodal parsing. Evaluated on a comprehensive benchmark, our framework
consistently outperforms open-source baselines and approaches the performance
of proprietary systems. These results demonstrate the importance of
system-level integration and highlight a path toward scalable, resilient, and
adaptive AI assistants capable of operating across diverse domains and tasks.