Lei de Escalabilidade Paralela: Revelando a Generalização do Raciocínio através de uma Perspectiva Translinguística
Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective
October 2, 2025
Autores: Wen Yang, Junhong Wu, Chong Li, Chengqing Zong, Jiajun Zhang
cs.AI
Resumo
Avanços recentes no Pós-Treinamento por Reforço (RPT) têm aprimorado significativamente as capacidades dos Modelos de Raciocínio de Grande Escala (LRMs), despertando um interesse crescente na generalização do raciocínio baseado em RL. Embora os trabalhos existentes tenham se concentrado principalmente em investigar sua generalização entre tarefas ou modalidades, este estudo propõe uma nova perspectiva translinguística para investigar a generalização do raciocínio. Isso levanta uma questão crucial: A capacidade de raciocínio alcançada a partir do RPT em inglês é efetivamente transferida para outros idiomas? Abordamos isso avaliando sistematicamente LRMs centrados no inglês em benchmarks de raciocínio multilíngue e introduzindo uma métrica para quantificar a transferibilidade translinguística. Nossas descobertas revelam que a transferibilidade translinguística varia significativamente entre o modelo inicial, o idioma alvo e o paradigma de treinamento. Por meio de estudos intervencionistas, descobrimos que modelos com capacidades iniciais mais fortes em inglês tendem a depender excessivamente de padrões específicos do inglês, levando a uma generalização translinguística reduzida. Para resolver isso, conduzimos um estudo detalhado de treinamento paralelo. Os resultados experimentais revelam três descobertas principais: o Primeiro Salto Paralelo, um salto substancial no desempenho ao transitar de um idioma monolíngue para apenas um idioma paralelo, e uma Lei de Escalonamento Paralelo previsível, revelando que a transferência de raciocínio translinguístico segue uma lei de potência com o número de idiomas paralelos de treinamento. Além disso, identificamos a discrepância entre o desempenho monolíngue real e a previsão da lei de potência como a Lacuna de Generalização Monolíngue, indicando que os LRMs centrados no inglês não conseguem generalizar completamente entre idiomas. Nosso estudo desafia a suposição de que o raciocínio dos LRMs espelha a cognição humana, fornecendo insights críticos para o desenvolvimento de LRMs mais agnósticos em relação ao idioma.
English
Recent advancements in Reinforcement Post-Training (RPT) have significantly
enhanced the capabilities of Large Reasoning Models (LRMs), sparking increased
interest in the generalization of RL-based reasoning. While existing work has
primarily focused on investigating its generalization across tasks or
modalities, this study proposes a novel cross-linguistic perspective to
investigate reasoning generalization. This raises a crucial question:
Does the reasoning capability achieved from English RPT effectively
transfer to other languages? We address this by systematically evaluating
English-centric LRMs on multilingual reasoning benchmarks and introducing a
metric to quantify cross-lingual transferability. Our findings reveal that
cross-lingual transferability varies significantly across initial model, target
language, and training paradigm. Through interventional studies, we find that
models with stronger initial English capabilities tend to over-rely on
English-specific patterns, leading to diminished cross-lingual generalization.
To address this, we conduct a thorough parallel training study. Experimental
results yield three key findings: First-Parallel Leap, a substantial
leap in performance when transitioning from monolingual to just a single
parallel language, and a predictable Parallel Scaling Law, revealing
that cross-lingual reasoning transfer follows a power-law with the number of
training parallel languages. Moreover, we identify the discrepancy between
actual monolingual performance and the power-law prediction as
Monolingual Generalization Gap, indicating that English-centric LRMs
fail to fully generalize across languages. Our study challenges the assumption
that LRM reasoning mirrors human cognition, providing critical insights for the
development of more language-agnostic LRMs.