Loong: Synthese langer Gedankenketten im großen Maßstab durch Verifizierer

papers.abstract

Jüngste Fortschritte bei Large Language Models (LLMs) haben gezeigt, dass ihre Fähigkeiten zur logischen Schlussfolgerung durch Reinforcement Learning mit verifizierbarer Belohnung (RLVR) erheblich verbessert werden können, insbesondere in Bereichen wie Mathematik und Programmierung, in denen die Korrektheit automatisch überprüft werden kann. Die Übertragung dieses Erfolgs auf andere domains, die intensives logisches Denken erfordern, bleibt jedoch aufgrund des Mangels an hochwertigen, verifizierbaren Datensätzen und der hohen Kosten für menschliche Überwachung eine Herausforderung. In dieser Arbeit stellen wir das Loong-Projekt vor: ein Open-Source-Framework für die skalierbare Erzeugung und Verifizierung synthetischer Daten über eine Vielzahl von domains, die intensives logisches Denken erfordern. Das Framework besteht aus zwei Schlüsselkomponenten: (1) LoongBench, einem kuratierten Ausgangsdatensatz mit 8.729 von Menschen geprüften Beispielen aus 12 Domänen (z. B. Höhere Mathematik, Chemie, Logik), die jeweils mit ausführbarem Code und umfangreichen Metadaten versehen sind; und (2) LoongEnv, einer modularen Umgebung zur Erzeugung synthetischer Daten, die mehrere Prompting-Strategien unterstützt, um neue Frage-Antwort-Code-Tripel zu erzeugen. Zusammen bilden diese Komponenten eine Agent-Umgebung-Schleife, die Reinforcement Learning ermöglicht, bei dem ein LLM-basierter Agent dafür belohnt wird, Chain-of-Thought (CoT)-Lösungen zu generieren, die mit den durch Code ausgeführten Antworten übereinstimmen. Empirisch bewerten wir LoongBench anhand einer breiten Palette von Open-Source- und proprietären LLMs, um die Domain-Abdeckung zu bewerten und Leistungsengpässe aufzudecken. Darüber hinaus führen wir eine umfassende Analyse der von LoongEnv erzeugten synthetischen Daten durch, bei der wir Korrektheit, Schwierigkeitsgrad und Vielfalt untersuchen. Code und Dokumentation sind unter https://github.com/camel-ai/loong verfügbar.

English

Recent advances in Large Language Models (LLMs) have shown that their reasoning capabilities can be significantly improved through Reinforcement Learning with Verifiable Reward (RLVR), particularly in domains like mathematics and programming, where ground-truth correctness can be automatically evaluated. However, extending this success to other reasoning-intensive domains remains challenging due to the scarcity of high-quality, verifiable datasets and the high cost of human supervision. In this work, we introduce the Loong Project: an open-source framework for scalable synthetic data generation and verification across a diverse range of reasoning-intensive domains. The framework consists of two key components: (1) LoongBench, a curated seed dataset containing 8,729 human-vetted examples across 12 domains (e.g., Advanced Mathematics, Chemistry, Logic), each paired with executable code and rich metadata; and (2) LoongEnv, a modular synthetic data generation environment that supports multiple prompting strategies to produce new question-answer-code triples. Together, these components form an agent-environment loop that enables reinforcement learning, where an LLM-based agent is rewarded for generating Chain-of-Thought (CoT) solutions that align with code-executed answers. Empirically, we benchmark LoongBench on a broad suite of both open-source and proprietary LLMs to evaluate domain coverage and reveal performance bottlenecks. In addition, we conduct a comprehensive analysis of synthetic data generated by LoongEnv, examining correctness, difficulty, and diversity. Code and documentation are available at https://github.com/camel-ai/loong.

Loong: Synthese langer Gedankenketten im großen Maßstab durch Verifizierer

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

papers.abstract

Support