ChatPaper.aiChatPaper

Núcleo de Razonamiento: Un Entorno Escalable de Aprendizaje por Refuerzo para el Razonamiento Simbólico en Modelos de Lenguaje

Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

September 22, 2025
Autores: Valentin Lacombe, Valentin Quesnel, Damien Sileo
cs.AI

Resumen

Presentamos Reasoning Core, un nuevo entorno escalable para Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), diseñado para avanzar en el razonamiento simbólico fundamental en Modelos de Lenguaje a Gran Escala (LLMs). A diferencia de los puntos de referencia existentes que se centran en juegos o acertijos aislados, Reasoning Core genera de manera procedimental problemas en dominios formales clave, incluyendo planificación PDDL, lógica de primer orden, análisis gramatical libre de contexto, razonamiento causal y resolución de ecuaciones de sistemas. El entorno se basa en principios de diseño fundamentales como distribuciones de problemas de alta generalidad, verificación mediante herramientas externas y control continuo de la dificultad, lo que en conjunto proporciona un suministro prácticamente infinito de instancias de entrenamiento novedosas. Las evaluaciones iniciales zero-shot con LLMs de vanguardia confirman la dificultad de las tareas de Reasoning Core, posicionándolo como un recurso prometedor para mejorar las capacidades de razonamiento de futuros modelos.
English
We introduce Reasoning Core, a new scalable environment for Reinforcement Learning with Verifiable Rewards (RLVR), designed to advance foundational symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks that focus on games or isolated puzzles, Reasoning Core procedurally generates problems across core formal domains, including PDDL planning, first-order logic, context-free grammar parsing, causal reasoning, and system equation solving. The environment is built on key design principles of high-generality problem distributions, verification via external tools, and continuous difficulty control, which together provide a virtually infinite supply of novel training instances. Initial zero-shot evaluations with frontier LLMs confirm the difficulty of Reasoning Core's tasks, positioning it as a promising resource to improve the reasoning capabilities of future models.
PDF42September 23, 2025