Loong : Synthétiser des chaînes de raisonnement longues à grande échelle grâce à des vérificateurs

papers.abstract

Les récents progrès des modèles de langage à grande échelle (LLMs) ont démontré que leurs capacités de raisonnement peuvent être significativement améliorées grâce à l'apprentissage par renforcement avec récompense vérifiable (RLVR), en particulier dans des domaines comme les mathématiques et la programmation, où la justesse des réponses peut être automatiquement évaluée. Cependant, étendre ce succès à d'autres domaines nécessitant un raisonnement approfondi reste un défi en raison de la rareté de jeux de données de haute qualité et vérifiables, ainsi que du coût élevé de la supervision humaine. Dans ce travail, nous présentons le projet Loong : un cadre open-source pour la génération et la vérification de données synthétiques à grande échelle, applicable à une diversité de domaines intensifs en raisonnement. Ce cadre se compose de deux éléments clés : (1) LoongBench, un jeu de données de départ soigneusement sélectionné contenant 8 729 exemples validés par des humains dans 12 domaines (par exemple, Mathématiques Avancées, Chimie, Logique), chacun accompagné de code exécutable et de métadonnées riches ; et (2) LoongEnv, un environnement modulaire de génération de données synthétiques qui prend en charge plusieurs stratégies d'invite pour produire de nouveaux triplets question-réponse-code. Ensemble, ces composants forment une boucle agent-environnement qui permet l'apprentissage par renforcement, où un agent basé sur un LLM est récompensé pour générer des solutions en chaîne de pensée (CoT) qui correspondent aux réponses exécutées par le code. Empiriquement, nous évaluons LoongBench sur un large éventail de LLMs, à la fois open-source et propriétaires, pour mesurer la couverture des domaines et identifier les goulots d'étranglement en termes de performance. De plus, nous menons une analyse approfondie des données synthétiques générées par LoongEnv, en examinant leur exactitude, leur difficulté et leur diversité. Le code et la documentation sont disponibles à l'adresse https://github.com/camel-ai/loong.

English

Recent advances in Large Language Models (LLMs) have shown that their reasoning capabilities can be significantly improved through Reinforcement Learning with Verifiable Reward (RLVR), particularly in domains like mathematics and programming, where ground-truth correctness can be automatically evaluated. However, extending this success to other reasoning-intensive domains remains challenging due to the scarcity of high-quality, verifiable datasets and the high cost of human supervision. In this work, we introduce the Loong Project: an open-source framework for scalable synthetic data generation and verification across a diverse range of reasoning-intensive domains. The framework consists of two key components: (1) LoongBench, a curated seed dataset containing 8,729 human-vetted examples across 12 domains (e.g., Advanced Mathematics, Chemistry, Logic), each paired with executable code and rich metadata; and (2) LoongEnv, a modular synthetic data generation environment that supports multiple prompting strategies to produce new question-answer-code triples. Together, these components form an agent-environment loop that enables reinforcement learning, where an LLM-based agent is rewarded for generating Chain-of-Thought (CoT) solutions that align with code-executed answers. Empirically, we benchmark LoongBench on a broad suite of both open-source and proprietary LLMs to evaluate domain coverage and reveal performance bottlenecks. In addition, we conduct a comprehensive analysis of synthetic data generated by LoongEnv, examining correctness, difficulty, and diversity. Code and documentation are available at https://github.com/camel-ai/loong.

Loong : Synthétiser des chaînes de raisonnement longues à grande échelle grâce à des vérificateurs

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

papers.abstract

Support