ChatPaper.aiChatPaper

Déjalo Fluir: La Elaboración Agéntica en el Rock and Roll, Construyendo el Modelo ROME dentro de un Ecosistema Abierto de Aprendizaje Agéntico

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

December 31, 2025
Autores: Weixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, Yang Li, Zhongwen Li, Shirong Lin, Jiashun Liu, Zenan Liu, Tao Luo, Dilxat Muhtar, Yuanbin Qu, Jiaqiang Shi, Qinghui Sun, Yingshui Tan, Hao Tang, Runze Wang, Yi Wang, Zhaoguo Wang, Yanan Wu, Shaopan Xiong, Binchen Xu, Xander Xu, Yuchi Xu, Qipeng Zhang, Xixia Zhang, Haizhou Zhao, Jie Zhao, Shuaibing Zhao, Baihui Zheng, Jianhui Zheng, Suhang Zheng, Yanni Zhu, Mengze Cai, Kerui Cao, Xitong Chen, Yue Dai, Lifan Du, Tao Feng, Tao He, Jin Hu, Yijie Hu, Ziyu Jiang, Cheng Li, Xiang Li, Jing Liang, Chonghuan Liu, ZhenDong Liu, Haodong Mi, Yanhu Mo, Junjia Ni, Shixin Pei, Jingyu Shen, XiaoShuai Song, Cecilia Wang, Chaofan Wang, Kangyu Wang, Pei Wang, Tao Wang, Wei Wang, Ke Xiao, Mingyu Xu, Tiange Xu, Nan Ya, Siran Yang, Jianan Ye, Yaxing Zang, Duo Zhang, Junbo Zhang, Boren Zheng, Wanxi Deng, Ling Pan, Lin Qu, Wenbo Su, Jiamang Wang, Wei Wang, Hu Wei, Minggang Wu, Cheng Yu, Bing Zhao, Zhicheng Zheng, Bo Zheng
cs.AI

Resumen

La elaboración de agentes requiere que los LLM operen en entornos del mundo real a lo largo de múltiples turnos, tomando acciones, observando resultados y refinando iterativamente los artefactos. A pesar de su importancia, la comunidad de código abierto carece de un ecosistema integral y basado en principios para agilizar el desarrollo de agentes. Presentamos el Ecosistema de Aprendizaje Agéntico (ALE), una infraestructura fundamental que optimiza la cadena de producción para los LLM agentes. ALE consta de tres componentes: ROLL, un marco de post-entrenamiento para la optimización de pesos; ROCK, un gestor de entornos de pruebas para la generación de trayectorias; e iFlow CLI, un marco de trabajo para agentes que permite una ingeniería de contexto eficiente. Lanzamos ROME (ROME es Obviamente un Modelo Agéntico), un agente de código abierto fundamentado en ALE y entrenado con más de un millón de trayectorias. Nuestro enfoque incluye protocolos de composición de datos para sintetizar comportamientos complejos y un novedoso algoritmo de optimización de políticas, la Alineación de Políticas Basada en Interacciones (IPA), que asigna crédito sobre fragmentos semánticos de interacción en lugar de tokens individuales para mejorar la estabilidad del entrenamiento en horizontes largos. Empíricamente, evaluamos a ROME en un entorno estructurado y presentamos Terminal Bench Pro, un punto de referencia con una escala mejorada y un control de contaminación. ROME demuestra un rendimiento sólido en benchmarks como SWE-bench Verified y Terminal Bench, lo que prueba la efectividad de la infraestructura ALE.
English
Agentic crafting requires LLMs to operate in real-world environments over multiple turns by taking actions, observing outcomes, and iteratively refining artifacts. Despite its importance, the open-source community lacks a principled, end-to-end ecosystem to streamline agent development. We introduce the Agentic Learning Ecosystem (ALE), a foundational infrastructure that optimizes the production pipeline for agent LLMs. ALE consists of three components: ROLL, a post-training framework for weight optimization; ROCK, a sandbox environment manager for trajectory generation; and iFlow CLI, an agent framework for efficient context engineering. We release ROME (ROME is Obviously an Agentic Model), an open-source agent grounded by ALE and trained on over one million trajectories. Our approach includes data composition protocols for synthesizing complex behaviors and a novel policy optimization algorithm, Interaction-based Policy Alignment (IPA), which assigns credit over semantic interaction chunks rather than individual tokens to improve long-horizon training stability. Empirically, we evaluate ROME within a structured setting and introduce Terminal Bench Pro, a benchmark with improved scale and contamination control. ROME demonstrates strong performance across benchmarks like SWE-bench Verified and Terminal Bench, proving the effectiveness of the ALE infrastructure.
PDF331January 2, 2026