ChatPaper.aiChatPaper

Nex-N1: Modelos Agênicos Treinados por meio de um Ecossistema Unificado para Construção de Ambientes em Larga Escala

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

December 4, 2025
Autores: Nex-AGI Team, Yuxuan Cai, Lu Chen, Qiaoling Chen, Yuyang Ding, Liwen Fan, Wenjie Fu, Yufei Gao, Honglin Guo, Pinxue Guo, Zhenhua Han, Zhengfu He, Hanglei Hu, Kai Hu, Shengjia Hua, Tianyu Huai, Baodai Huang, Li Ji, Zhen Jiang, Zhikai Lei, Bufan Li, Jiahang Lin, Lizhi Lin, Jinxiu Liu, Shichun Liu, Ziming Liu, Yuchen Ni, Pengfang Qian, Yujiong Shen, Qingyun Shi, Wentao Shu, Peng Sun, Yiran Suo, Tian Tang, Boyu Tian, Guoteng Wang, Junzhe Wang, Peixin Wang, Zhiheng Xi, Hang Yan, Jie Yang, Zhixiong Yang, Tianchu Yao, Guangze Ye, Qianxi Yu, Shuo Zhang, Xinyue Zhang, Yiqi Zhang, Jiarong Zhao, Miao Zheng, Rui Zheng, Enyu Zhou, Jiazheng Zhou, Maosen Zhou, Yuhao Zhou, Tao Gui, Yining Zheng, Xinchi Chen, Jie Zhou, Siyuan Feng, Qin Chen, Liang He, Qi Zhang, Xuanjing Huang, Xipeng Qiu
cs.AI

Resumo

A evolução dos Modelos de Linguagem de Grande Porte (LLMs) de respondedores passivos para agentes autónomos exige uma mudança fundamental nos paradigmas de aprendizagem — da imitação estática para a tomada de decisão orientada por incentivos. No entanto, esta transição é significativamente dificultada pela falta de infraestruturas escaláveis capazes de construir sinais de interação de alta qualidade para uma aprendizagem de políticas eficaz. Para resolver esta questão, introduzimos um método abrangente concebido para escalar sistematicamente a diversidade e complexidade de ambientes interativos. O nosso método concretiza esta escalabilidade ao abordar três dimensões ortogonais: (1) Complexidade: NexAU, uma estrutura de agente flexível que suporta a construção de hierarquias complexas de agentes através de configurações simples; (2) Diversidade: NexA4A gera automaticamente hierarquias diversificadas de agentes a partir de linguagem natural para abranger domínios infinitos; e (3) Fidelidade: NexGAP reduz o fosso simulação-realidade ao integrar um ambiente dinâmico do mundo real para a síntese de trajetórias fundamentadas. Treinámos o Nex-N1 com base nos ambientes interativos diversificados e complexos estabelecidos pela nossa infraestrutura. Resultados empíricos em benchmarks como o SWE-bench e o tau2 demonstram que o Nex-N1 supera consistentemente os modelos de código aberto estado da arte e alcança um desempenho competitivo face aos modelos proprietários de ponta em tarefas complexas de agência. Disponibilizamos o ecossistema Nex e os pesos do modelo em código aberto para facilitar investigações futuras.
English
The evolution of Large Language Models (LLMs) from passive responders to autonomous agents necessitates a fundamental shift in learning paradigms -- from static imitation to incentive-driven decision making. However, this transition is significantly impeded by the lack of scalable infrastructure capable of constructing high-quality interaction signals for effective policy learning. To address this, we introduce a comprehensive method designed to systematically scale the diversity and complexity of interactive environments. Our method realizes this scaling by addressing three orthogonal dimensions: (1) Complexity: NexAU, a flexible agent framework that supports building complex agent hierarchies via simple configurations; (2) Diversity: NexA4A automatically generates diverse agent hierarchies from natural language to cover infinite domains; and (3) Fidelity: NexGAP bridges the simulation-reality gap by integrating dynamic real-world environment for grounded trajectories synthesis. We train Nex-N1 upon the diverse and complex interactive environments established by our infrastructure. Empirical results on benchmarks such as SWE-bench and tau2 demonstrate that Nex-N1 consistently outperforms SOTA open-source models and achieves competitive performance against frontier proprietary models on complex agentic tasks. We open-source the Nex ecosystem and model weights to facilitate further research.
PDF813April 2, 2026