ChatPaper.aiChatPaper

흐름을 허하라: 록앤롤 위에서의 주체적 설계, 개방형 주체적 학습 생태계 내 ROME 모델 구축

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

December 31, 2025
저자: Weixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, Yang Li, Zhongwen Li, Shirong Lin, Jiashun Liu, Zenan Liu, Tao Luo, Dilxat Muhtar, Yuanbin Qu, Jiaqiang Shi, Qinghui Sun, Yingshui Tan, Hao Tang, Runze Wang, Yi Wang, Zhaoguo Wang, Yanan Wu, Shaopan Xiong, Binchen Xu, Xander Xu, Yuchi Xu, Qipeng Zhang, Xixia Zhang, Haizhou Zhao, Jie Zhao, Shuaibing Zhao, Baihui Zheng, Jianhui Zheng, Suhang Zheng, Yanni Zhu, Mengze Cai, Kerui Cao, Xitong Chen, Yue Dai, Lifan Du, Tao Feng, Tao He, Jin Hu, Yijie Hu, Ziyu Jiang, Cheng Li, Xiang Li, Jing Liang, Chonghuan Liu, ZhenDong Liu, Haodong Mi, Yanhu Mo, Junjia Ni, Shixin Pei, Jingyu Shen, XiaoShuai Song, Cecilia Wang, Chaofan Wang, Kangyu Wang, Pei Wang, Tao Wang, Wei Wang, Ke Xiao, Mingyu Xu, Tiange Xu, Nan Ya, Siran Yang, Jianan Ye, Yaxing Zang, Duo Zhang, Junbo Zhang, Boren Zheng, Wanxi Deng, Ling Pan, Lin Qu, Wenbo Su, Jiamang Wang, Wei Wang, Hu Wei, Minggang Wu, Cheng Yu, Bing Zhao, Zhicheng Zheng, Bo Zheng
cs.AI

초록

에이전트형 크래프팅은 LLM이 행동을 취하고 결과를 관찰하며 산출물을 반복적으로 개선함으로써 다중 턴에 걸쳐 실제 환경에서 작동하도록 요구합니다. 그 중요성에도 불구하고 오픈소스 커뮤니티에는 에이전트 개발을 효율화할 원칙적이고 종단간(end-to-end) 생태계가 부족합니다. 본 논문은 에이전트 LLM의 생산 파이프라인을 최적화하는 기반 인프라인 Agentic Learning Ecosystem(ALE)을 소개합니다. ALE는 세 가지 구성 요소로 이루어집니다: 가중치 최적화를 위한 사후 훈련 프레임워크인 ROLL, 궤적 생성을 위한 샌드박스 환경 관리자 ROCK, 효율적인 컨텍스트 엔지니어링을 위한 에이전트 프레임워크 iFlow CLI입니다. 우리는 ALE에 기반을 두고 백만 개 이상의 궤적으로 훈련된 오픈소스 에이전트 ROME(ROME is Obviously an Agentic Model)을 공개합니다. 우리의 접근 방식에는 복잡한 행동을 합성하기 위한 데이터 구성 프로토콜과, 개별 토큰이 아닌 의미적 상호작용 덩어리 단위로 신용을 할당하여 장기적 훈련 안정성을 향상시키는 새로운 정책 최적화 알고리즘인 Interaction-based Policy Alignment(IPA)가 포함됩니다. 실증적으로, 우리는 구조화된 환경 내에서 ROME을 평가하고 규모와 오염 통제가 개선된 벤치마크인 Terminal Bench Pro를 소개합니다. ROME은 SWE-bench Verified 및 Terminal Bench와 같은 벤치마크에서 강력한 성능을 보여주며 ALE 인프라의 효과성을 입증합니다.
English
Agentic crafting requires LLMs to operate in real-world environments over multiple turns by taking actions, observing outcomes, and iteratively refining artifacts. Despite its importance, the open-source community lacks a principled, end-to-end ecosystem to streamline agent development. We introduce the Agentic Learning Ecosystem (ALE), a foundational infrastructure that optimizes the production pipeline for agent LLMs. ALE consists of three components: ROLL, a post-training framework for weight optimization; ROCK, a sandbox environment manager for trajectory generation; and iFlow CLI, an agent framework for efficient context engineering. We release ROME (ROME is Obviously an Agentic Model), an open-source agent grounded by ALE and trained on over one million trajectories. Our approach includes data composition protocols for synthesizing complex behaviors and a novel policy optimization algorithm, Interaction-based Policy Alignment (IPA), which assigns credit over semantic interaction chunks rather than individual tokens to improve long-horizon training stability. Empirically, we evaluate ROME within a structured setting and introduce Terminal Bench Pro, a benchmark with improved scale and contamination control. ROME demonstrates strong performance across benchmarks like SWE-bench Verified and Terminal Bench, proving the effectiveness of the ALE infrastructure.
PDF331January 2, 2026