Закон параллельного масштабирования: раскрытие обобщения рассуждений через кросс-лингвистическую перспективу
Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective
October 2, 2025
Авторы: Wen Yang, Junhong Wu, Chong Li, Chengqing Zong, Jiajun Zhang
cs.AI
Аннотация
Недавние достижения в области обучения с подкреплением после предварительного обучения (Reinforcement Post-Training, RPT) значительно расширили возможности крупных моделей рассуждений (Large Reasoning Models, LRMs), что вызвало повышенный интерес к обобщению рассуждений на основе обучения с подкреплением (RL). Хотя существующие работы в основном сосредоточены на исследовании обобщения между задачами или модальностями, в данном исследовании предлагается новый кросс-лингвистический подход к изучению обобщения рассуждений. Это поднимает важный вопрос: эффективно ли переносятся способности к рассуждению, достигнутые с помощью RPT на английском языке, на другие языки? Мы исследуем этот вопрос, систематически оценивая англоцентричные LRMs на мультиязычных бенчмарках для рассуждений и вводя метрику для количественной оценки кросс-лингвистической переносимости. Наши результаты показывают, что кросс-лингвистическая переносимость значительно варьируется в зависимости от исходной модели, целевого языка и парадигмы обучения. В ходе интервенционных исследований мы обнаруживаем, что модели с более сильными исходными способностями на английском языке склонны чрезмерно полагаться на англо-специфичные паттерны, что приводит к снижению кросс-лингвистического обобщения. Для решения этой проблемы мы проводим тщательное исследование параллельного обучения. Экспериментальные результаты дают три ключевых вывода: "Первый параллельный скачок" — значительное улучшение производительности при переходе от одноязычного обучения к обучению всего на одном параллельном языке, а также предсказуемый "Закон масштабирования параллельности", который показывает, что перенос кросс-лингвистических рассуждений следует степенному закону в зависимости от количества обучающих параллельных языков. Кроме того, мы выявляем расхождение между фактической одноязычной производительностью и предсказанием по степенному закону как "Разрыв в одноязычном обобщении", что указывает на то, что англоцентричные LRMs не полностью обобщаются на другие языки. Наше исследование ставит под сомнение предположение, что рассуждения LRMs отражают человеческое познание, и предоставляет важные инсайты для разработки более языково-независимых LRMs.
English
Recent advancements in Reinforcement Post-Training (RPT) have significantly
enhanced the capabilities of Large Reasoning Models (LRMs), sparking increased
interest in the generalization of RL-based reasoning. While existing work has
primarily focused on investigating its generalization across tasks or
modalities, this study proposes a novel cross-linguistic perspective to
investigate reasoning generalization. This raises a crucial question:
Does the reasoning capability achieved from English RPT effectively
transfer to other languages? We address this by systematically evaluating
English-centric LRMs on multilingual reasoning benchmarks and introducing a
metric to quantify cross-lingual transferability. Our findings reveal that
cross-lingual transferability varies significantly across initial model, target
language, and training paradigm. Through interventional studies, we find that
models with stronger initial English capabilities tend to over-rely on
English-specific patterns, leading to diminished cross-lingual generalization.
To address this, we conduct a thorough parallel training study. Experimental
results yield three key findings: First-Parallel Leap, a substantial
leap in performance when transitioning from monolingual to just a single
parallel language, and a predictable Parallel Scaling Law, revealing
that cross-lingual reasoning transfer follows a power-law with the number of
training parallel languages. Moreover, we identify the discrepancy between
actual monolingual performance and the power-law prediction as
Monolingual Generalization Gap, indicating that English-centric LRMs
fail to fully generalize across languages. Our study challenges the assumption
that LRM reasoning mirrors human cognition, providing critical insights for the
development of more language-agnostic LRMs.