Núcleo de Razonamiento: Un Entorno Escalable de Aprendizaje por Refuerzo para el Razonamiento Simbólico en Modelos de Lenguaje
Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning
September 22, 2025
Autores: Valentin Lacombe, Valentin Quesnel, Damien Sileo
cs.AI
Resumen
Presentamos Reasoning Core, un nuevo entorno escalable para Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), diseñado para avanzar en el razonamiento simbólico fundamental en Modelos de Lenguaje a Gran Escala (LLMs). A diferencia de los puntos de referencia existentes que se centran en juegos o acertijos aislados, Reasoning Core genera de manera procedimental problemas en dominios formales clave, incluyendo planificación PDDL, lógica de primer orden, análisis gramatical libre de contexto, razonamiento causal y resolución de ecuaciones de sistemas. El entorno se basa en principios de diseño fundamentales como distribuciones de problemas de alta generalidad, verificación mediante herramientas externas y control continuo de la dificultad, lo que en conjunto proporciona un suministro prácticamente infinito de instancias de entrenamiento novedosas. Las evaluaciones iniciales zero-shot con LLMs de vanguardia confirman la dificultad de las tareas de Reasoning Core, posicionándolo como un recurso prometedor para mejorar las capacidades de razonamiento de futuros modelos.
English
We introduce Reasoning Core, a new scalable environment for Reinforcement
Learning with Verifiable Rewards (RLVR), designed to advance foundational
symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks
that focus on games or isolated puzzles, Reasoning Core procedurally generates
problems across core formal domains, including PDDL planning, first-order
logic, context-free grammar parsing, causal reasoning, and system equation
solving. The environment is built on key design principles of high-generality
problem distributions, verification via external tools, and continuous
difficulty control, which together provide a virtually infinite supply of novel
training instances. Initial zero-shot evaluations with frontier LLMs confirm
the difficulty of Reasoning Core's tasks, positioning it as a promising
resource to improve the reasoning capabilities of future models.