Ley de Escalado Paralelo: Revelando la Generalización del Razonamiento a través de una Perspectiva Translingüística

Resumen

Los recientes avances en el Post-Entrenamiento por Refuerzo (RPT) han mejorado significativamente las capacidades de los Modelos de Razonamiento a Gran Escala (LRMs), generando un mayor interés en la generalización del razonamiento basado en RL. Si bien el trabajo existente se ha centrado principalmente en investigar su generalización a través de tareas o modalidades, este estudio propone una novedosa perspectiva translingüística para explorar la generalización del razonamiento. Esto plantea una pregunta crucial: ¿La capacidad de razonamiento lograda a través del RPT en inglés se transfiere efectivamente a otros idiomas? Abordamos esta cuestión evaluando sistemáticamente los LRMs centrados en inglés en benchmarks de razonamiento multilingüe e introduciendo una métrica para cuantificar la transferibilidad translingüística. Nuestros hallazgos revelan que la transferibilidad translingüística varía significativamente según el modelo inicial, el idioma objetivo y el paradigma de entrenamiento. A través de estudios de intervención, descubrimos que los modelos con capacidades iniciales más fuertes en inglés tienden a depender en exceso de patrones específicos del inglés, lo que reduce la generalización translingüística. Para abordar esto, realizamos un estudio exhaustivo de entrenamiento paralelo. Los resultados experimentales arrojan tres hallazgos clave: el Primer Salto Paralelo, un avance sustancial en el rendimiento al pasar de un solo idioma a un solo idioma paralelo, y una Ley de Escalado Paralelo predecible, que revela que la transferencia de razonamiento translingüístico sigue una ley de potencia con el número de idiomas paralelos de entrenamiento. Además, identificamos la discrepancia entre el rendimiento monolingüe real y la predicción de la ley de potencia como la Brecha de Generalización Monolingüe, lo que indica que los LRMs centrados en inglés no logran generalizarse completamente entre idiomas. Nuestro estudio desafía la suposición de que el razonamiento de los LRMs refleja la cognición humana, proporcionando insights críticos para el desarrollo de LRMs más agnósticos al idioma.

English

Recent advancements in Reinforcement Post-Training (RPT) have significantly enhanced the capabilities of Large Reasoning Models (LRMs), sparking increased interest in the generalization of RL-based reasoning. While existing work has primarily focused on investigating its generalization across tasks or modalities, this study proposes a novel cross-linguistic perspective to investigate reasoning generalization. This raises a crucial question: Does the reasoning capability achieved from English RPT effectively transfer to other languages? We address this by systematically evaluating English-centric LRMs on multilingual reasoning benchmarks and introducing a metric to quantify cross-lingual transferability. Our findings reveal that cross-lingual transferability varies significantly across initial model, target language, and training paradigm. Through interventional studies, we find that models with stronger initial English capabilities tend to over-rely on English-specific patterns, leading to diminished cross-lingual generalization. To address this, we conduct a thorough parallel training study. Experimental results yield three key findings: First-Parallel Leap, a substantial leap in performance when transitioning from monolingual to just a single parallel language, and a predictable Parallel Scaling Law, revealing that cross-lingual reasoning transfer follows a power-law with the number of training parallel languages. Moreover, we identify the discrepancy between actual monolingual performance and the power-law prediction as Monolingual Generalization Gap, indicating that English-centric LRMs fail to fully generalize across languages. Our study challenges the assumption that LRM reasoning mirrors human cognition, providing critical insights for the development of more language-agnostic LRMs.

Ley de Escalado Paralelo: Revelando la Generalización del Razonamiento a través de una Perspectiva Translingüística

Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective

Resumen

Support