JoyAgent-JDGenie: Rapporto Tecnico sul GAIA
JoyAgent-JDGenie: Technical Report on the GAIA
October 1, 2025
Autori: Jiarun Liu, Shiyue Xu, Shangkun Liu, Yang Li, Wen Liu, Min Liu, Xiaoqing Zhou, Hanmin Wang, Shilin Jia, zhen Wang, Shaohua Tian, Hanhao Li, Junbo Zhang, Yongli Yu, Peng Cao, Haofen Wang
cs.AI
Abstract
I Modelli Linguistici di Grande Scala sono sempre più impiegati come agenti autonomi per compiti complessi nel mondo reale, tuttavia i sistemi esistenti spesso si concentrano su miglioramenti isolati senza un disegno unificato per robustezza e adattabilità. Proponiamo un'architettura di agente generalista che integra tre componenti fondamentali: un framework multi-agente collettivo che combina agenti di pianificazione ed esecuzione con un sistema di voto di modelli critici, un sistema di memoria gerarchico che abbraccia livelli operativi, semantici e procedurali, e una suite di strumenti raffinata per la ricerca, l'esecuzione di codice e l'analisi multimodale. Valutato su un benchmark completo, il nostro framework supera costantemente i benchmark open-source e si avvicina alle prestazioni dei sistemi proprietari. Questi risultati dimostrano l'importanza dell'integrazione a livello di sistema e delineano un percorso verso assistenti AI scalabili, resilienti e adattivi, capaci di operare in diversi domini e compiti.
English
Large Language Models are increasingly deployed as autonomous agents for
complex real-world tasks, yet existing systems often focus on isolated
improvements without a unifying design for robustness and adaptability. We
propose a generalist agent architecture that integrates three core components:
a collective multi-agent framework combining planning and execution agents with
critic model voting, a hierarchical memory system spanning working, semantic,
and procedural layers, and a refined tool suite for search, code execution, and
multimodal parsing. Evaluated on a comprehensive benchmark, our framework
consistently outperforms open-source baselines and approaches the performance
of proprietary systems. These results demonstrate the importance of
system-level integration and highlight a path toward scalable, resilient, and
adaptive AI assistants capable of operating across diverse domains and tasks.