Loong: Synthese langer Gedankenketten im großen Maßstab durch Verifizierer
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
September 3, 2025
papers.authors: Xingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li
cs.AI
papers.abstract
Jüngste Fortschritte bei Large Language Models (LLMs) haben gezeigt, dass ihre Fähigkeiten zur logischen Schlussfolgerung durch Reinforcement Learning mit verifizierbarer Belohnung (RLVR) erheblich verbessert werden können, insbesondere in Bereichen wie Mathematik und Programmierung, in denen die Korrektheit automatisch überprüft werden kann. Die Übertragung dieses Erfolgs auf andere domains, die intensives logisches Denken erfordern, bleibt jedoch aufgrund des Mangels an hochwertigen, verifizierbaren Datensätzen und der hohen Kosten für menschliche Überwachung eine Herausforderung. In dieser Arbeit stellen wir das Loong-Projekt vor: ein Open-Source-Framework für die skalierbare Erzeugung und Verifizierung synthetischer Daten über eine Vielzahl von domains, die intensives logisches Denken erfordern. Das Framework besteht aus zwei Schlüsselkomponenten: (1) LoongBench, einem kuratierten Ausgangsdatensatz mit 8.729 von Menschen geprüften Beispielen aus 12 Domänen (z. B. Höhere Mathematik, Chemie, Logik), die jeweils mit ausführbarem Code und umfangreichen Metadaten versehen sind; und (2) LoongEnv, einer modularen Umgebung zur Erzeugung synthetischer Daten, die mehrere Prompting-Strategien unterstützt, um neue Frage-Antwort-Code-Tripel zu erzeugen. Zusammen bilden diese Komponenten eine Agent-Umgebung-Schleife, die Reinforcement Learning ermöglicht, bei dem ein LLM-basierter Agent dafür belohnt wird, Chain-of-Thought (CoT)-Lösungen zu generieren, die mit den durch Code ausgeführten Antworten übereinstimmen. Empirisch bewerten wir LoongBench anhand einer breiten Palette von Open-Source- und proprietären LLMs, um die Domain-Abdeckung zu bewerten und Leistungsengpässe aufzudecken. Darüber hinaus führen wir eine umfassende Analyse der von LoongEnv erzeugten synthetischen Daten durch, bei der wir Korrektheit, Schwierigkeitsgrad und Vielfalt untersuchen. Code und Dokumentation sind unter https://github.com/camel-ai/loong verfügbar.
English
Recent advances in Large Language Models (LLMs) have shown that their
reasoning capabilities can be significantly improved through Reinforcement
Learning with Verifiable Reward (RLVR), particularly in domains like
mathematics and programming, where ground-truth correctness can be
automatically evaluated. However, extending this success to other
reasoning-intensive domains remains challenging due to the scarcity of
high-quality, verifiable datasets and the high cost of human supervision. In
this work, we introduce the Loong Project: an open-source framework for
scalable synthetic data generation and verification across a diverse range of
reasoning-intensive domains. The framework consists of two key components: (1)
LoongBench, a curated seed dataset containing 8,729 human-vetted examples
across 12 domains (e.g., Advanced Mathematics, Chemistry, Logic), each paired
with executable code and rich metadata; and (2) LoongEnv, a modular synthetic
data generation environment that supports multiple prompting strategies to
produce new question-answer-code triples. Together, these components form an
agent-environment loop that enables reinforcement learning, where an LLM-based
agent is rewarded for generating Chain-of-Thought (CoT) solutions that align
with code-executed answers. Empirically, we benchmark LoongBench on a broad
suite of both open-source and proprietary LLMs to evaluate domain coverage and
reveal performance bottlenecks. In addition, we conduct a comprehensive
analysis of synthetic data generated by LoongEnv, examining correctness,
difficulty, and diversity. Code and documentation are available at
https://github.com/camel-ai/loong.