Loong: Sintetizzare Catene di Ragionamento Lunghe su Scala attraverso Verificatori

Abstract

I recenti progressi nei Large Language Models (LLM) hanno dimostrato che le loro capacità di ragionamento possono essere significativamente migliorate attraverso il Reinforcement Learning con Ricompensa Verificabile (RLVR), in particolare in domini come la matematica e la programmazione, dove la correttezza rispetto alla verità di base può essere valutata automaticamente. Tuttavia, estendere questo successo ad altri domini ad alta intensità di ragionamento rimane una sfida a causa della scarsità di dataset di alta qualità e verificabili e dell'elevato costo della supervisione umana. In questo lavoro, presentiamo il Progetto Loong: un framework open-source per la generazione e verifica scalabile di dati sintetici in un'ampia gamma di domini ad alta intensità di ragionamento. Il framework è composto da due componenti chiave: (1) LoongBench, un dataset seed curato contenente 8.729 esempi verificati da esseri umani in 12 domini (ad esempio, Matematica Avanzata, Chimica, Logica), ciascuno associato a codice eseguibile e metadati ricchi; e (2) LoongEnv, un ambiente modulare per la generazione di dati sintetici che supporta molteplici strategie di prompting per produrre nuove triple domanda-risposta-codice. Insieme, questi componenti formano un ciclo agente-ambiente che abilita il reinforcement learning, in cui un agente basato su LLM viene premiato per generare soluzioni Chain-of-Thought (CoT) che si allineano con le risposte eseguite dal codice. Empiricamente, valutiamo LoongBench su un'ampia suite di LLM sia open-source che proprietari per valutare la copertura dei domini e rivelare i colli di bottiglia delle prestazioni. Inoltre, conduciamo un'analisi completa dei dati sintetici generati da LoongEnv, esaminando correttezza, difficoltà e diversità. Il codice e la documentazione sono disponibili all'indirizzo https://github.com/camel-ai/loong.

English

Recent advances in Large Language Models (LLMs) have shown that their reasoning capabilities can be significantly improved through Reinforcement Learning with Verifiable Reward (RLVR), particularly in domains like mathematics and programming, where ground-truth correctness can be automatically evaluated. However, extending this success to other reasoning-intensive domains remains challenging due to the scarcity of high-quality, verifiable datasets and the high cost of human supervision. In this work, we introduce the Loong Project: an open-source framework for scalable synthetic data generation and verification across a diverse range of reasoning-intensive domains. The framework consists of two key components: (1) LoongBench, a curated seed dataset containing 8,729 human-vetted examples across 12 domains (e.g., Advanced Mathematics, Chemistry, Logic), each paired with executable code and rich metadata; and (2) LoongEnv, a modular synthetic data generation environment that supports multiple prompting strategies to produce new question-answer-code triples. Together, these components form an agent-environment loop that enables reinforcement learning, where an LLM-based agent is rewarded for generating Chain-of-Thought (CoT) solutions that align with code-executed answers. Empirically, we benchmark LoongBench on a broad suite of both open-source and proprietary LLMs to evaluate domain coverage and reveal performance bottlenecks. In addition, we conduct a comprehensive analysis of synthetic data generated by LoongEnv, examining correctness, difficulty, and diversity. Code and documentation are available at https://github.com/camel-ai/loong.

Loong: Sintetizzare Catene di Ragionamento Lunghe su Scala attraverso Verificatori

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

Abstract

Support