ChatPaper.aiChatPaper

流れに任せて:ロックンロールにおけるエージェント的創造、オープンなエージェント学習エコシステム内でのROMEモデルの構築

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

December 31, 2025
著者: Weixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, Yang Li, Zhongwen Li, Shirong Lin, Jiashun Liu, Zenan Liu, Tao Luo, Dilxat Muhtar, Yuanbin Qu, Jiaqiang Shi, Qinghui Sun, Yingshui Tan, Hao Tang, Runze Wang, Yi Wang, Zhaoguo Wang, Yanan Wu, Shaopan Xiong, Binchen Xu, Xander Xu, Yuchi Xu, Qipeng Zhang, Xixia Zhang, Haizhou Zhao, Jie Zhao, Shuaibing Zhao, Baihui Zheng, Jianhui Zheng, Suhang Zheng, Yanni Zhu, Mengze Cai, Kerui Cao, Xitong Chen, Yue Dai, Lifan Du, Tao Feng, Tao He, Jin Hu, Yijie Hu, Ziyu Jiang, Cheng Li, Xiang Li, Jing Liang, Chonghuan Liu, ZhenDong Liu, Haodong Mi, Yanhu Mo, Junjia Ni, Shixin Pei, Jingyu Shen, XiaoShuai Song, Cecilia Wang, Chaofan Wang, Kangyu Wang, Pei Wang, Tao Wang, Wei Wang, Ke Xiao, Mingyu Xu, Tiange Xu, Nan Ya, Siran Yang, Jianan Ye, Yaxing Zang, Duo Zhang, Junbo Zhang, Boren Zheng, Wanxi Deng, Ling Pan, Lin Qu, Wenbo Su, Jiamang Wang, Wei Wang, Hu Wei, Minggang Wu, Cheng Yu, Bing Zhao, Zhicheng Zheng, Bo Zheng
cs.AI

要旨

エージェント的創作には、LLMが現実世界環境で複数ターンにわたり行動を起こし、結果を観察し、成果物を反復的に洗練させる能力が求められます。この重要性にもかかわらず、オープンソースコミュニティにはエージェント開発を効率化する体系的なエンドツーエンドのエコシステムが不足しています。本稿では、エージェントLLMの生産パイプラインを最適化する基盤インフラ「Agentic Learning Ecosystem(ALE)」を提案します。ALEは3つのコンポーネントで構成されます:重み最適化のためのポストトレーニングフレームワーク「ROLL」、軌道生成のためのサンドボックス環境マネージャー「ROCK」、効率的なコンテキストエンジニアリングのためのエージェントフレームワーク「iFlow CLI」です。ALEに基づいて構築し、100万以上の軌道で学習したオープンソースエージェント「ROME(ROME is Obviously an Agentic Model)」を公開します。私たちのアプローチには、複雑な行動を合成するためのデータ構成プロトコルと、個々のトークンではなく意味的相互作用の塊に対して信用割り当てを行うことで長期訓練の安定性を向上させる新規政策最適化アルゴリズム「Interaction-based Policy Alignment(IPA)」が含まれます。実証実験では、構造化環境でROMEを評価し、規模と混入制御を改善したベンチマーク「Terminal Bench Pro」を導入しました。ROMEはSWE-bench VerifiedやTerminal Benchなどのベンチマークで強力な性能を示し、ALEインフラの有効性を実証しています。
English
Agentic crafting requires LLMs to operate in real-world environments over multiple turns by taking actions, observing outcomes, and iteratively refining artifacts. Despite its importance, the open-source community lacks a principled, end-to-end ecosystem to streamline agent development. We introduce the Agentic Learning Ecosystem (ALE), a foundational infrastructure that optimizes the production pipeline for agent LLMs. ALE consists of three components: ROLL, a post-training framework for weight optimization; ROCK, a sandbox environment manager for trajectory generation; and iFlow CLI, an agent framework for efficient context engineering. We release ROME (ROME is Obviously an Agentic Model), an open-source agent grounded by ALE and trained on over one million trajectories. Our approach includes data composition protocols for synthesizing complex behaviors and a novel policy optimization algorithm, Interaction-based Policy Alignment (IPA), which assigns credit over semantic interaction chunks rather than individual tokens to improve long-horizon training stability. Empirically, we evaluate ROME within a structured setting and introduce Terminal Bench Pro, a benchmark with improved scale and contamination control. ROME demonstrates strong performance across benchmarks like SWE-bench Verified and Terminal Bench, proving the effectiveness of the ALE infrastructure.
PDF331January 2, 2026