RuleReasoner: Razonamiento Basado en Reglas Reforzado mediante Muestreo Dinámico Consciente del Dominio
RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling
June 10, 2025
Autores: Yang Liu, Jiaqi Li, Zilong Zheng
cs.AI
Resumen
El razonamiento basado en reglas ha sido reconocido como uno de los problemas fundamentales en el razonamiento, mientras que las desviaciones en los formatos, tipos y complejidad de las reglas en aplicaciones del mundo real plantean desafíos significativos. Estudios recientes han demostrado que los modelos de razonamiento de gran escala (LRMs, por sus siglas en inglés) poseen capacidades de razonamiento notables, y su rendimiento se ve sustancialmente mejorado mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés). Sin embargo, sigue siendo una pregunta abierta si los modelos de razonamiento de pequeña escala (SRMs, por sus siglas en inglés) pueden aprender el razonamiento basado en reglas de manera efectiva con una generalización robusta en diversas tareas y dominios. Para abordar esto, presentamos el Razonamiento Basado en Reglas Reforzado, también conocido como RuleReasoner, un método simple pero efectivo para llevar a cabo el razonamiento basado en reglas mediante una amplia colección de tareas curadas y un novedoso enfoque de muestreo dinámico consciente del dominio. Específicamente, RuleReasoner remuestrea cada lote de entrenamiento actualizando los pesos de muestreo de diferentes dominios en función de las recompensas históricas. Esto facilita la ampliación de dominios y la implementación de horarios de aprendizaje en línea flexibles para RL, eliminando la necesidad de recetas de entrenamiento mixto predefinidas por humanos utilizadas en métodos existentes. Las evaluaciones empíricas en puntos de referencia de distribución interna (ID) y distribución externa (OOD) revelan que RuleReasoner supera a los LRMs de vanguardia por un margen significativo (Delta4.1% puntos promedio en ocho tareas ID y Delta10.4% puntos promedio en tres tareas OOD sobre OpenAI-o1). Notablemente, nuestro enfoque también exhibe una mayor eficiencia computacional en comparación con métodos de muestreo dinámico previos para RL.
English
Rule-based reasoning has been acknowledged as one of the fundamental problems
in reasoning, while deviations in rule formats, types, and complexity in
real-world applications pose severe challenges. Recent studies have shown that
large reasoning models (LRMs) have remarkable reasoning capabilities, and their
performance is substantially enhanced by reinforcement learning (RL). However,
it remains an open question whether small reasoning models (SRMs) can learn
rule-based reasoning effectively with robust generalization across diverse
tasks and domains. To address this, we introduce Reinforced Rule-based
Reasoning, a.k.a. RuleReasoner, a simple yet effective method to conduct
rule-based reasoning via a wide collection of curated tasks and a novel
domain-aware dynamic sampling approach. Specifically, RuleReasoner resamples
each training batch by updating the sampling weights of different domains based
on historical rewards. This facilitates domain augmentation and flexible online
learning schedules for RL, obviating the need for pre-hoc human-engineered
mix-training recipes used in existing methods. Empirical evaluations on
in-distribution (ID) and out-of-distribution (OOD) benchmarks reveal that
RuleReasoner outperforms frontier LRMs by a significant margin (Delta4.1%
average points on eight ID tasks and Delta10.4% average points on three OOD
tasks over OpenAI-o1). Notably, our approach also exhibits higher computational
efficiency compared to prior dynamic sampling methods for RL.