ChatPaper.aiChatPaper

Parallelle Schaalwet: Het Ontrafelen van Redeneergeneralizatie door een Cross-Linguïstisch Perspectief

Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective

October 2, 2025
Auteurs: Wen Yang, Junhong Wu, Chong Li, Chengqing Zong, Jiajun Zhang
cs.AI

Samenvatting

Recente vooruitgang in Reinforcement Post-Training (RPT) heeft de mogelijkheden van Large Reasoning Models (LRMs) aanzienlijk verbeterd, wat een groeiende interesse heeft gewekt in de generalisatie van RL-gebaseerd redeneren. Hoewel bestaand onderzoek zich voornamelijk heeft gericht op het onderzoeken van generalisatie over taken of modaliteiten, stelt deze studie een nieuw cross-linguïstisch perspectief voor om redeneergeneralisatie te onderzoeken. Dit roept een cruciale vraag op: Wordt de redeneervaardigheid die is bereikt met Engelse RPT effectief overgedragen naar andere talen? We benaderen dit door Engelse LRMs systematisch te evalueren op meertalige redeneerbenchmarks en een metriek te introduceren om cross-linguale overdraagbaarheid te kwantificeren. Onze bevindingen laten zien dat cross-linguale overdraagbaarheid aanzienlijk varieert afhankelijk van het initiële model, de doeltaal en het trainingsparadigma. Door interventiestudies ontdekken we dat modellen met sterkere initiële Engelse vaardigheden de neiging hebben om te veel te vertrouwen op Engels-specifieke patronen, wat leidt tot verminderde cross-linguale generalisatie. Om dit aan te pakken, voeren we een grondige parallelle trainingsstudie uit. Experimentele resultaten leveren drie belangrijke bevindingen op: First-Parallel Leap, een aanzienlijke sprong in prestaties bij de overgang van eentalig naar slechts één parallelle taal, en een voorspelbare Parallel Scaling Law, die onthult dat cross-lingueel redeneertransfer een machtswet volgt met het aantal trainingsparallelle talen. Bovendien identificeren we het verschil tussen de werkelijke eentalige prestaties en de machtswetvoorspelling als de Monolingual Generalization Gap, wat aangeeft dat Engelse LRMs niet volledig generaliseren over talen. Onze studie daagt de aanname uit dat LRM-redenering menselijke cognitie weerspiegelt, en biedt cruciale inzichten voor de ontwikkeling van meer taal-agnostische LRMs.
English
Recent advancements in Reinforcement Post-Training (RPT) have significantly enhanced the capabilities of Large Reasoning Models (LRMs), sparking increased interest in the generalization of RL-based reasoning. While existing work has primarily focused on investigating its generalization across tasks or modalities, this study proposes a novel cross-linguistic perspective to investigate reasoning generalization. This raises a crucial question: Does the reasoning capability achieved from English RPT effectively transfer to other languages? We address this by systematically evaluating English-centric LRMs on multilingual reasoning benchmarks and introducing a metric to quantify cross-lingual transferability. Our findings reveal that cross-lingual transferability varies significantly across initial model, target language, and training paradigm. Through interventional studies, we find that models with stronger initial English capabilities tend to over-rely on English-specific patterns, leading to diminished cross-lingual generalization. To address this, we conduct a thorough parallel training study. Experimental results yield three key findings: First-Parallel Leap, a substantial leap in performance when transitioning from monolingual to just a single parallel language, and a predictable Parallel Scaling Law, revealing that cross-lingual reasoning transfer follows a power-law with the number of training parallel languages. Moreover, we identify the discrepancy between actual monolingual performance and the power-law prediction as Monolingual Generalization Gap, indicating that English-centric LRMs fail to fully generalize across languages. Our study challenges the assumption that LRM reasoning mirrors human cognition, providing critical insights for the development of more language-agnostic LRMs.
PDF32October 3, 2025