Ley de Escalado Paralelo: Revelando la Generalización del Razonamiento a través de una Perspectiva Translingüística
Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective
October 2, 2025
Autores: Wen Yang, Junhong Wu, Chong Li, Chengqing Zong, Jiajun Zhang
cs.AI
Resumen
Los recientes avances en el Post-Entrenamiento por Refuerzo (RPT) han mejorado significativamente las capacidades de los Modelos de Razonamiento a Gran Escala (LRMs), generando un mayor interés en la generalización del razonamiento basado en RL. Si bien el trabajo existente se ha centrado principalmente en investigar su generalización a través de tareas o modalidades, este estudio propone una novedosa perspectiva translingüística para explorar la generalización del razonamiento. Esto plantea una pregunta crucial: ¿La capacidad de razonamiento lograda a través del RPT en inglés se transfiere efectivamente a otros idiomas? Abordamos esta cuestión evaluando sistemáticamente los LRMs centrados en inglés en benchmarks de razonamiento multilingüe e introduciendo una métrica para cuantificar la transferibilidad translingüística. Nuestros hallazgos revelan que la transferibilidad translingüística varía significativamente según el modelo inicial, el idioma objetivo y el paradigma de entrenamiento. A través de estudios de intervención, descubrimos que los modelos con capacidades iniciales más fuertes en inglés tienden a depender en exceso de patrones específicos del inglés, lo que reduce la generalización translingüística. Para abordar esto, realizamos un estudio exhaustivo de entrenamiento paralelo. Los resultados experimentales arrojan tres hallazgos clave: el Primer Salto Paralelo, un avance sustancial en el rendimiento al pasar de un solo idioma a un solo idioma paralelo, y una Ley de Escalado Paralelo predecible, que revela que la transferencia de razonamiento translingüístico sigue una ley de potencia con el número de idiomas paralelos de entrenamiento. Además, identificamos la discrepancia entre el rendimiento monolingüe real y la predicción de la ley de potencia como la Brecha de Generalización Monolingüe, lo que indica que los LRMs centrados en inglés no logran generalizarse completamente entre idiomas. Nuestro estudio desafía la suposición de que el razonamiento de los LRMs refleja la cognición humana, proporcionando insights críticos para el desarrollo de LRMs más agnósticos al idioma.
English
Recent advancements in Reinforcement Post-Training (RPT) have significantly
enhanced the capabilities of Large Reasoning Models (LRMs), sparking increased
interest in the generalization of RL-based reasoning. While existing work has
primarily focused on investigating its generalization across tasks or
modalities, this study proposes a novel cross-linguistic perspective to
investigate reasoning generalization. This raises a crucial question:
Does the reasoning capability achieved from English RPT effectively
transfer to other languages? We address this by systematically evaluating
English-centric LRMs on multilingual reasoning benchmarks and introducing a
metric to quantify cross-lingual transferability. Our findings reveal that
cross-lingual transferability varies significantly across initial model, target
language, and training paradigm. Through interventional studies, we find that
models with stronger initial English capabilities tend to over-rely on
English-specific patterns, leading to diminished cross-lingual generalization.
To address this, we conduct a thorough parallel training study. Experimental
results yield three key findings: First-Parallel Leap, a substantial
leap in performance when transitioning from monolingual to just a single
parallel language, and a predictable Parallel Scaling Law, revealing
that cross-lingual reasoning transfer follows a power-law with the number of
training parallel languages. Moreover, we identify the discrepancy between
actual monolingual performance and the power-law prediction as
Monolingual Generalization Gap, indicating that English-centric LRMs
fail to fully generalize across languages. Our study challenges the assumption
that LRM reasoning mirrors human cognition, providing critical insights for the
development of more language-agnostic LRMs.