JoyAgent-JDGenie : Rapport technique sur GAIA
JoyAgent-JDGenie: Technical Report on the GAIA
October 1, 2025
papers.authors: Jiarun Liu, Shiyue Xu, Shangkun Liu, Yang Li, Wen Liu, Min Liu, Xiaoqing Zhou, Hanmin Wang, Shilin Jia, zhen Wang, Shaohua Tian, Hanhao Li, Junbo Zhang, Yongli Yu, Peng Cao, Haofen Wang
cs.AI
papers.abstract
Les modèles de langage de grande taille sont de plus en plus déployés comme agents autonomes pour des tâches complexes du monde réel, mais les systèmes existants se concentrent souvent sur des améliorations isolées sans conception unificatrice pour la robustesse et l'adaptabilité. Nous proposons une architecture d'agent généraliste qui intègre trois composants clés : un cadre multi-agent collectif combinant des agents de planification et d'exécution avec un vote de modèles critiques, un système de mémoire hiérarchique couvrant les couches de travail, sémantique et procédurale, et une suite d'outils affinée pour la recherche, l'exécution de code et l'analyse multimodale. Évalué sur un benchmark complet, notre cadre surpasse systématiquement les bases de référence open-source et approche les performances des systèmes propriétaires. Ces résultats démontrent l'importance de l'intégration au niveau du système et mettent en lumière une voie vers des assistants IA évolutifs, résilients et adaptatifs, capables d'opérer dans divers domaines et tâches.
English
Large Language Models are increasingly deployed as autonomous agents for
complex real-world tasks, yet existing systems often focus on isolated
improvements without a unifying design for robustness and adaptability. We
propose a generalist agent architecture that integrates three core components:
a collective multi-agent framework combining planning and execution agents with
critic model voting, a hierarchical memory system spanning working, semantic,
and procedural layers, and a refined tool suite for search, code execution, and
multimodal parsing. Evaluated on a comprehensive benchmark, our framework
consistently outperforms open-source baselines and approaches the performance
of proprietary systems. These results demonstrate the importance of
system-level integration and highlight a path toward scalable, resilient, and
adaptive AI assistants capable of operating across diverse domains and tasks.