ChatPaper.aiChatPaper

Loong: Синтез длинных цепочек рассуждений в масштабе с использованием верификаторов

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

September 3, 2025
Авторы: Xingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li
cs.AI

Аннотация

Последние достижения в области больших языковых моделей (LLMs) показали, что их способности к рассуждению могут быть значительно улучшены с помощью обучения с подкреплением с верифицируемой наградой (RLVR), особенно в таких областях, как математика и программирование, где правильность может быть автоматически оценена. Однако распространение этого успеха на другие области, требующие интенсивного рассуждения, остается сложной задачей из-за недостатка высококачественных, верифицируемых наборов данных и высокой стоимости человеческого контроля. В данной работе мы представляем проект Loong: открытую платформу для масштабируемой генерации и проверки синтетических данных в широком спектре областей, требующих интенсивного рассуждения. Платформа состоит из двух ключевых компонентов: (1) LoongBench, курируемого набора данных, содержащего 8 729 примеров, проверенных людьми, в 12 областях (например, высшая математика, химия, логика), каждый из которых сопровождается исполняемым кодом и богатыми метаданными; и (2) LoongEnv, модульной среды генерации синтетических данных, которая поддерживает множество стратегий запросов для создания новых триплетов "вопрос-ответ-код". Вместе эти компоненты образуют цикл "агент-среда", который позволяет проводить обучение с подкреплением, где агент на основе LLM получает награду за генерацию решений с использованием цепочки рассуждений (CoT), которые соответствуют ответам, полученным в результате выполнения кода. Эмпирически мы тестируем LoongBench на широком наборе как открытых, так и проприетарных LLM, чтобы оценить охват областей и выявить узкие места в производительности. Кроме того, мы проводим всесторонний анализ синтетических данных, сгенерированных LoongEnv, изучая их правильность, сложность и разнообразие. Код и документация доступны по адресу https://github.com/camel-ai/loong.
English
Recent advances in Large Language Models (LLMs) have shown that their reasoning capabilities can be significantly improved through Reinforcement Learning with Verifiable Reward (RLVR), particularly in domains like mathematics and programming, where ground-truth correctness can be automatically evaluated. However, extending this success to other reasoning-intensive domains remains challenging due to the scarcity of high-quality, verifiable datasets and the high cost of human supervision. In this work, we introduce the Loong Project: an open-source framework for scalable synthetic data generation and verification across a diverse range of reasoning-intensive domains. The framework consists of two key components: (1) LoongBench, a curated seed dataset containing 8,729 human-vetted examples across 12 domains (e.g., Advanced Mathematics, Chemistry, Logic), each paired with executable code and rich metadata; and (2) LoongEnv, a modular synthetic data generation environment that supports multiple prompting strategies to produce new question-answer-code triples. Together, these components form an agent-environment loop that enables reinforcement learning, where an LLM-based agent is rewarded for generating Chain-of-Thought (CoT) solutions that align with code-executed answers. Empirically, we benchmark LoongBench on a broad suite of both open-source and proprietary LLMs to evaluate domain coverage and reveal performance bottlenecks. In addition, we conduct a comprehensive analysis of synthetic data generated by LoongEnv, examining correctness, difficulty, and diversity. Code and documentation are available at https://github.com/camel-ai/loong.
PDF41September 5, 2025