RuleReasoner: Razonamiento Basado en Reglas Reforzado mediante Muestreo Dinámico Consciente del Dominio

Resumen

El razonamiento basado en reglas ha sido reconocido como uno de los problemas fundamentales en el razonamiento, mientras que las desviaciones en los formatos, tipos y complejidad de las reglas en aplicaciones del mundo real plantean desafíos significativos. Estudios recientes han demostrado que los modelos de razonamiento de gran escala (LRMs, por sus siglas en inglés) poseen capacidades de razonamiento notables, y su rendimiento se ve sustancialmente mejorado mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés). Sin embargo, sigue siendo una pregunta abierta si los modelos de razonamiento de pequeña escala (SRMs, por sus siglas en inglés) pueden aprender el razonamiento basado en reglas de manera efectiva con una generalización robusta en diversas tareas y dominios. Para abordar esto, presentamos el Razonamiento Basado en Reglas Reforzado, también conocido como RuleReasoner, un método simple pero efectivo para llevar a cabo el razonamiento basado en reglas mediante una amplia colección de tareas curadas y un novedoso enfoque de muestreo dinámico consciente del dominio. Específicamente, RuleReasoner remuestrea cada lote de entrenamiento actualizando los pesos de muestreo de diferentes dominios en función de las recompensas históricas. Esto facilita la ampliación de dominios y la implementación de horarios de aprendizaje en línea flexibles para RL, eliminando la necesidad de recetas de entrenamiento mixto predefinidas por humanos utilizadas en métodos existentes. Las evaluaciones empíricas en puntos de referencia de distribución interna (ID) y distribución externa (OOD) revelan que RuleReasoner supera a los LRMs de vanguardia por un margen significativo (Delta4.1% puntos promedio en ocho tareas ID y Delta10.4% puntos promedio en tres tareas OOD sobre OpenAI-o1). Notablemente, nuestro enfoque también exhibe una mayor eficiencia computacional en comparación con métodos de muestreo dinámico previos para RL.

English

Rule-based reasoning has been acknowledged as one of the fundamental problems in reasoning, while deviations in rule formats, types, and complexity in real-world applications pose severe challenges. Recent studies have shown that large reasoning models (LRMs) have remarkable reasoning capabilities, and their performance is substantially enhanced by reinforcement learning (RL). However, it remains an open question whether small reasoning models (SRMs) can learn rule-based reasoning effectively with robust generalization across diverse tasks and domains. To address this, we introduce Reinforced Rule-based Reasoning, a.k.a. RuleReasoner, a simple yet effective method to conduct rule-based reasoning via a wide collection of curated tasks and a novel domain-aware dynamic sampling approach. Specifically, RuleReasoner resamples each training batch by updating the sampling weights of different domains based on historical rewards. This facilitates domain augmentation and flexible online learning schedules for RL, obviating the need for pre-hoc human-engineered mix-training recipes used in existing methods. Empirical evaluations on in-distribution (ID) and out-of-distribution (OOD) benchmarks reveal that RuleReasoner outperforms frontier LRMs by a significant margin (Delta4.1% average points on eight ID tasks and Delta10.4% average points on three OOD tasks over OpenAI-o1). Notably, our approach also exhibits higher computational efficiency compared to prior dynamic sampling methods for RL.

RuleReasoner: Razonamiento Basado en Reglas Reforzado mediante Muestreo Dinámico Consciente del Dominio

RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling

Resumen

Support