Deixe Fluir: Criação Agêntica no Rock and Roll, Construindo o Modelo ROME em um Ecossistema Aberto de Aprendizagem Agêntica

Resumo

A modelagem agentica exige que os LLMs operem em ambientes do mundo real ao longo de múltiplos turnos, realizando ações, observando resultados e refinando iterativamente os artefactos. Apesar da sua importância, a comunidade de código aberto carece de um ecossistema principiado e de ponta a ponta para simplificar o desenvolvimento de agentes. Apresentamos o Ecossistema de Aprendizagem Agentica (ALE), uma infraestrutura fundamental que otimiza o pipeline de produção para LLMs agentes. O ALE consiste em três componentes: ROLL, uma estrutura de pós-treinamento para otimização de pesos; ROCK, um gestor de ambiente sandbox para geração de trajetórias; e o iFlow CLI, uma estrutura de agente para engenharia de contexto eficiente. Lançamos a ROME (ROME é Obviamente um Modelo Agentico), um agente de código aberto fundamentado pelo ALE e treinado em mais de um milhão de trajetórias. A nossa abordagem inclui protocolos de composição de dados para sintetizar comportamentos complexos e um novo algoritmo de otimização de políticas, o Alinhamento de Políticas Baseado na Interação (IPA), que atribui crédito a blocos de interação semântica em vez de a tokens individuais para melhorar a estabilidade do treino de longo horizonte. Empiricamente, avaliamos a ROME num ambiente estruturado e introduzimos o Terminal Bench Pro, um benchmark com escala melhorada e controlo de contaminação. A ROME demonstra um desempenho sólido em benchmarks como o SWE-bench Verified e o Terminal Bench, comprovando a eficácia da infraestrutura ALE.

English

Agentic crafting requires LLMs to operate in real-world environments over multiple turns by taking actions, observing outcomes, and iteratively refining artifacts. Despite its importance, the open-source community lacks a principled, end-to-end ecosystem to streamline agent development. We introduce the Agentic Learning Ecosystem (ALE), a foundational infrastructure that optimizes the production pipeline for agent LLMs. ALE consists of three components: ROLL, a post-training framework for weight optimization; ROCK, a sandbox environment manager for trajectory generation; and iFlow CLI, an agent framework for efficient context engineering. We release ROME (ROME is Obviously an Agentic Model), an open-source agent grounded by ALE and trained on over one million trajectories. Our approach includes data composition protocols for synthesizing complex behaviors and a novel policy optimization algorithm, Interaction-based Policy Alignment (IPA), which assigns credit over semantic interaction chunks rather than individual tokens to improve long-horizon training stability. Empirically, we evaluate ROME within a structured setting and introduce Terminal Bench Pro, a benchmark with improved scale and contamination control. ROME demonstrates strong performance across benchmarks like SWE-bench Verified and Terminal Bench, proving the effectiveness of the ALE infrastructure.

Deixe Fluir: Criação Agêntica no Rock and Roll, Construindo o Modelo ROME em um Ecossistema Aberto de Aprendizagem Agêntica

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

Resumo

Support