ChatPaper.aiChatPaper

Reasoning Core: Un Ambiente RL Scalabile per il Ragionamento Simbolico nei Modelli Linguistici

Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

September 22, 2025
Autori: Valentin Lacombe, Valentin Quesnel, Damien Sileo
cs.AI

Abstract

Presentiamo Reasoning Core, un nuovo ambiente scalabile per il Reinforcement Learning con Ricompense Verificabili (RLVR), progettato per promuovere il ragionamento simbolico di base nei Modelli Linguistici di Grande Scala (LLMs). A differenza dei benchmark esistenti che si concentrano su giochi o enigmi isolati, Reasoning Core genera proceduralmente problemi in domini formali fondamentali, tra cui la pianificazione PDDL, la logica del primo ordine, il parsing di grammatiche libere dal contesto, il ragionamento causale e la risoluzione di equazioni di sistema. L'ambiente è costruito su principi chiave di progettazione che includono distribuzioni di problemi ad alta generalità, verifica tramite strumenti esterni e controllo continuo della difficoltà, che insieme forniscono una fornitura virtualmente infinita di istanze di addestramento nuove. Le valutazioni iniziali zero-shot con LLMs all'avanguardia confermano la difficoltà dei compiti di Reasoning Core, posizionandolo come una risorsa promettente per migliorare le capacità di ragionamento dei modelli futuri.
English
We introduce Reasoning Core, a new scalable environment for Reinforcement Learning with Verifiable Rewards (RLVR), designed to advance foundational symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks that focus on games or isolated puzzles, Reasoning Core procedurally generates problems across core formal domains, including PDDL planning, first-order logic, context-free grammar parsing, causal reasoning, and system equation solving. The environment is built on key design principles of high-generality problem distributions, verification via external tools, and continuous difficulty control, which together provide a virtually infinite supply of novel training instances. Initial zero-shot evaluations with frontier LLMs confirm the difficulty of Reasoning Core's tasks, positioning it as a promising resource to improve the reasoning capabilities of future models.
PDF52September 23, 2025