Loong: Síntesis de Cadenas de Razonamiento Largas a Escala mediante Verificadores
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
September 3, 2025
Autores: Xingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li
cs.AI
Resumen
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado que sus capacidades de razonamiento pueden mejorarse significativamente mediante el Aprendizaje por Refuerzo con Recompensa Verificable (RLVR, por sus siglas en inglés), particularmente en dominios como las matemáticas y la programación, donde la corrección basada en la verdad fundamental puede evaluarse automáticamente. Sin embargo, extender este éxito a otros dominios intensivos en razonamiento sigue siendo un desafío debido a la escasez de conjuntos de datos verificables de alta calidad y al alto costo de la supervisión humana. En este trabajo, presentamos el Proyecto Loong: un marco de código abierto para la generación y verificación escalable de datos sintéticos en una amplia gama de dominios intensivos en razonamiento. El marco consta de dos componentes clave: (1) LoongBench, un conjunto de datos semilla curado que contiene 8,729 ejemplos revisados por humanos en 12 dominios (por ejemplo, Matemáticas Avanzadas, Química, Lógica), cada uno acompañado de código ejecutable y metadatos detallados; y (2) LoongEnv, un entorno modular de generación de datos sintéticos que admite múltiples estrategias de *prompting* para producir nuevos triples de pregunta-respuesta-código. Juntos, estos componentes forman un bucle agente-entorno que permite el aprendizaje por refuerzo, donde un agente basado en un LLM es recompensado por generar soluciones de Cadena de Pensamiento (CoT, por sus siglas en inglés) que se alinean con respuestas ejecutadas mediante código. Empíricamente, evaluamos LoongBench en una amplia suite de LLMs tanto de código abierto como propietarios para evaluar la cobertura de dominios y revelar cuellos de botella en el rendimiento. Además, realizamos un análisis exhaustivo de los datos sintéticos generados por LoongEnv, examinando su corrección, dificultad y diversidad. El código y la documentación están disponibles en https://github.com/camel-ai/loong.
English
Recent advances in Large Language Models (LLMs) have shown that their
reasoning capabilities can be significantly improved through Reinforcement
Learning with Verifiable Reward (RLVR), particularly in domains like
mathematics and programming, where ground-truth correctness can be
automatically evaluated. However, extending this success to other
reasoning-intensive domains remains challenging due to the scarcity of
high-quality, verifiable datasets and the high cost of human supervision. In
this work, we introduce the Loong Project: an open-source framework for
scalable synthetic data generation and verification across a diverse range of
reasoning-intensive domains. The framework consists of two key components: (1)
LoongBench, a curated seed dataset containing 8,729 human-vetted examples
across 12 domains (e.g., Advanced Mathematics, Chemistry, Logic), each paired
with executable code and rich metadata; and (2) LoongEnv, a modular synthetic
data generation environment that supports multiple prompting strategies to
produce new question-answer-code triples. Together, these components form an
agent-environment loop that enables reinforcement learning, where an LLM-based
agent is rewarded for generating Chain-of-Thought (CoT) solutions that align
with code-executed answers. Empirically, we benchmark LoongBench on a broad
suite of both open-source and proprietary LLMs to evaluate domain coverage and
reveal performance bottlenecks. In addition, we conduct a comprehensive
analysis of synthetic data generated by LoongEnv, examining correctness,
difficulty, and diversity. Code and documentation are available at
https://github.com/camel-ai/loong.