ChatPaper.aiChatPaper

Loong: Synthetiseer Lange Ketens van Gedachten op Schaal via Verifiers

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

September 3, 2025
Auteurs: Xingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li
cs.AI

Samenvatting

Recente ontwikkelingen in Large Language Models (LLMs) hebben aangetoond dat hun redeneervermogen aanzienlijk kan worden verbeterd door Reinforcement Learning met Verifieerbare Beloning (RLVR), met name in domeinen zoals wiskunde en programmeren, waar de juistheid automatisch kan worden geëvalueerd. Het uitbreiden van dit succes naar andere redeneerintensieve domeinen blijft echter een uitdaging vanwege het gebrek aan hoogwaardige, verifieerbare datasets en de hoge kosten van menselijke begeleiding. In dit werk introduceren we het Loong Project: een open-source raamwerk voor schaalbare synthetische datageneratie en verificatie over een breed scala aan redeneerintensieve domeinen. Het raamwerk bestaat uit twee belangrijke componenten: (1) LoongBench, een gecureerde seeddataset met 8.729 door mensen gecontroleerde voorbeelden uit 12 domeinen (bijvoorbeeld Geavanceerde Wiskunde, Scheikunde, Logica), elk gekoppeld aan uitvoerbare code en rijke metadata; en (2) LoongEnv, een modulaire omgeving voor synthetische datageneratie die meerdere promptingstrategieën ondersteunt om nieuwe vraag-antwoord-code-triples te produceren. Samen vormen deze componenten een agent-omgeving-lus die reinforcement learning mogelijk maakt, waarbij een LLM-gebaseerde agent wordt beloond voor het genereren van Chain-of-Thought (CoT)-oplossingen die overeenkomen met code-uitgevoerde antwoorden. Empirisch benchmarken we LoongBench op een breed scala aan zowel open-source als propriëtaire LLMs om de domeindekking te evalueren en prestatieknelpunten bloot te leggen. Daarnaast voeren we een uitgebreide analyse uit van synthetische data gegenereerd door LoongEnv, waarbij we de juistheid, moeilijkheidsgraad en diversiteit onderzoeken. Code en documentatie zijn beschikbaar op https://github.com/camel-ai/loong.
English
Recent advances in Large Language Models (LLMs) have shown that their reasoning capabilities can be significantly improved through Reinforcement Learning with Verifiable Reward (RLVR), particularly in domains like mathematics and programming, where ground-truth correctness can be automatically evaluated. However, extending this success to other reasoning-intensive domains remains challenging due to the scarcity of high-quality, verifiable datasets and the high cost of human supervision. In this work, we introduce the Loong Project: an open-source framework for scalable synthetic data generation and verification across a diverse range of reasoning-intensive domains. The framework consists of two key components: (1) LoongBench, a curated seed dataset containing 8,729 human-vetted examples across 12 domains (e.g., Advanced Mathematics, Chemistry, Logic), each paired with executable code and rich metadata; and (2) LoongEnv, a modular synthetic data generation environment that supports multiple prompting strategies to produce new question-answer-code triples. Together, these components form an agent-environment loop that enables reinforcement learning, where an LLM-based agent is rewarded for generating Chain-of-Thought (CoT) solutions that align with code-executed answers. Empirically, we benchmark LoongBench on a broad suite of both open-source and proprietary LLMs to evaluate domain coverage and reveal performance bottlenecks. In addition, we conduct a comprehensive analysis of synthetic data generated by LoongEnv, examining correctness, difficulty, and diversity. Code and documentation are available at https://github.com/camel-ai/loong.
PDF242September 5, 2025