Lascia che Scorra: L'Artigianato Agente sul Rock and Roll, Costruendo il Modello ROME all'interno di un Ecosistema di Apprendimento Agente Aperto

Abstract

La creazione agentica richiede che i LLM operino in ambienti reali attraverso più turni, compiendo azioni, osservando i risultati e perfezionando iterativamente gli artefatti. Nonostante la sua importanza, la comunità open-source manca di un ecosistema principiato e end-to-end per semplificare lo sviluppo degli agenti. Introduciamo l'Ecosistema di Apprendimento Agentico (ALE), un'infrastruttura fondamentale che ottimizza la pipeline di produzione per i LLM agentici. ALE è composto da tre componenti: ROLL, un framework di post-addestramento per l'ottimizzazione dei pesi; ROCK, un gestore di ambienti sandbox per la generazione di traiettorie; e iFlow CLI, un framework per agenti per un'efficiente ingegneria del contesto. Rilasciamo ROME (ROME è Ovviamente un Modello Agentico), un agente open-source basato su ALE e addestrato su oltre un milione di traiettorie. Il nostro approccio include protocolli di composizione dei dati per sintetizzare comportamenti complessi e un nuovo algoritmo di ottimizzazione delle policy, l'Allineamento delle Policy basato sull'Interazione (IPA), che assegna il merito su blocchi di interazione semantica anziché su singoli token per migliorare la stabilità dell'addestramento a lungo termine. Empiricamente, valutiamo ROME in un ambiente strutturato e introduciamo Terminal Bench Pro, un benchmark con una scala migliorata e un controllo della contaminazione. ROME dimostra prestazioni solide in benchmark come SWE-bench Verified e Terminal Bench, dimostrando l'efficacia dell'infrastruttura ALE.

English

Agentic crafting requires LLMs to operate in real-world environments over multiple turns by taking actions, observing outcomes, and iteratively refining artifacts. Despite its importance, the open-source community lacks a principled, end-to-end ecosystem to streamline agent development. We introduce the Agentic Learning Ecosystem (ALE), a foundational infrastructure that optimizes the production pipeline for agent LLMs. ALE consists of three components: ROLL, a post-training framework for weight optimization; ROCK, a sandbox environment manager for trajectory generation; and iFlow CLI, an agent framework for efficient context engineering. We release ROME (ROME is Obviously an Agentic Model), an open-source agent grounded by ALE and trained on over one million trajectories. Our approach includes data composition protocols for synthesizing complex behaviors and a novel policy optimization algorithm, Interaction-based Policy Alignment (IPA), which assigns credit over semantic interaction chunks rather than individual tokens to improve long-horizon training stability. Empirically, we evaluate ROME within a structured setting and introduce Terminal Bench Pro, a benchmark with improved scale and contamination control. ROME demonstrates strong performance across benchmarks like SWE-bench Verified and Terminal Bench, proving the effectiveness of the ALE infrastructure.

Lascia che Scorra: L'Artigianato Agente sul Rock and Roll, Costruendo il Modello ROME all'interno di un Ecosistema di Apprendimento Agente Aperto

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

Abstract

Support