Loong: Sintetizando Cadeias Longas de Pensamento em Escala por meio de Verificadores

Resumo

Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) demonstraram que suas capacidades de raciocínio podem ser significativamente aprimoradas por meio de Aprendizado por Reforço com Recompensa Verificável (RLVR), particularmente em domínios como matemática e programação, onde a correção da verdade fundamental pode ser automaticamente avaliada. No entanto, estender esse sucesso para outros domínios intensivos em raciocínio permanece desafiador devido à escassez de conjuntos de dados de alta qualidade e verificáveis e ao alto custo da supervisão humana. Neste trabalho, apresentamos o Projeto Loong: uma estrutura de código aberto para geração e verificação escalável de dados sintéticos em uma ampla gama de domínios intensivos em raciocínio. A estrutura consiste em dois componentes principais: (1) LoongBench, um conjunto de dados semente curado contendo 8.729 exemplos revisados por humanos em 12 domínios (por exemplo, Matemática Avançada, Química, Lógica), cada um emparelhado com código executável e metadados ricos; e (2) LoongEnv, um ambiente modular de geração de dados sintéticos que suporta múltiplas estratégias de prompt para produzir novas triplas de pergunta-resposta-código. Juntos, esses componentes formam um loop agente-ambiente que permite o aprendizado por reforço, onde um agente baseado em LLM é recompensado por gerar soluções de Cadeia de Pensamento (CoT) que estejam alinhadas com respostas executadas por código. Empiricamente, avaliamos o LoongBench em uma ampla gama de LLMs tanto de código aberto quanto proprietários para avaliar a cobertura de domínios e revelar gargalos de desempenho. Além disso, realizamos uma análise abrangente dos dados sintéticos gerados pelo LoongEnv, examinando correção, dificuldade e diversidade. O código e a documentação estão disponíveis em https://github.com/camel-ai/loong.

English

Recent advances in Large Language Models (LLMs) have shown that their reasoning capabilities can be significantly improved through Reinforcement Learning with Verifiable Reward (RLVR), particularly in domains like mathematics and programming, where ground-truth correctness can be automatically evaluated. However, extending this success to other reasoning-intensive domains remains challenging due to the scarcity of high-quality, verifiable datasets and the high cost of human supervision. In this work, we introduce the Loong Project: an open-source framework for scalable synthetic data generation and verification across a diverse range of reasoning-intensive domains. The framework consists of two key components: (1) LoongBench, a curated seed dataset containing 8,729 human-vetted examples across 12 domains (e.g., Advanced Mathematics, Chemistry, Logic), each paired with executable code and rich metadata; and (2) LoongEnv, a modular synthetic data generation environment that supports multiple prompting strategies to produce new question-answer-code triples. Together, these components form an agent-environment loop that enables reinforcement learning, where an LLM-based agent is rewarded for generating Chain-of-Thought (CoT) solutions that align with code-executed answers. Empirically, we benchmark LoongBench on a broad suite of both open-source and proprietary LLMs to evaluate domain coverage and reveal performance bottlenecks. In addition, we conduct a comprehensive analysis of synthetic data generated by LoongEnv, examining correctness, difficulty, and diversity. Code and documentation are available at https://github.com/camel-ai/loong.

Loong: Sintetizando Cadeias Longas de Pensamento em Escala por meio de Verificadores

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

Resumo

Support