ChatPaper.aiChatPaper

Закон параллельного масштабирования: раскрытие обобщения рассуждений через кросс-лингвистическую перспективу

Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective

October 2, 2025
Авторы: Wen Yang, Junhong Wu, Chong Li, Chengqing Zong, Jiajun Zhang
cs.AI

Аннотация

Недавние достижения в области обучения с подкреплением после предварительного обучения (Reinforcement Post-Training, RPT) значительно расширили возможности крупных моделей рассуждений (Large Reasoning Models, LRMs), что вызвало повышенный интерес к обобщению рассуждений на основе обучения с подкреплением (RL). Хотя существующие работы в основном сосредоточены на исследовании обобщения между задачами или модальностями, в данном исследовании предлагается новый кросс-лингвистический подход к изучению обобщения рассуждений. Это поднимает важный вопрос: эффективно ли переносятся способности к рассуждению, достигнутые с помощью RPT на английском языке, на другие языки? Мы исследуем этот вопрос, систематически оценивая англоцентричные LRMs на мультиязычных бенчмарках для рассуждений и вводя метрику для количественной оценки кросс-лингвистической переносимости. Наши результаты показывают, что кросс-лингвистическая переносимость значительно варьируется в зависимости от исходной модели, целевого языка и парадигмы обучения. В ходе интервенционных исследований мы обнаруживаем, что модели с более сильными исходными способностями на английском языке склонны чрезмерно полагаться на англо-специфичные паттерны, что приводит к снижению кросс-лингвистического обобщения. Для решения этой проблемы мы проводим тщательное исследование параллельного обучения. Экспериментальные результаты дают три ключевых вывода: "Первый параллельный скачок" — значительное улучшение производительности при переходе от одноязычного обучения к обучению всего на одном параллельном языке, а также предсказуемый "Закон масштабирования параллельности", который показывает, что перенос кросс-лингвистических рассуждений следует степенному закону в зависимости от количества обучающих параллельных языков. Кроме того, мы выявляем расхождение между фактической одноязычной производительностью и предсказанием по степенному закону как "Разрыв в одноязычном обобщении", что указывает на то, что англоцентричные LRMs не полностью обобщаются на другие языки. Наше исследование ставит под сомнение предположение, что рассуждения LRMs отражают человеческое познание, и предоставляет важные инсайты для разработки более языково-независимых LRMs.
English
Recent advancements in Reinforcement Post-Training (RPT) have significantly enhanced the capabilities of Large Reasoning Models (LRMs), sparking increased interest in the generalization of RL-based reasoning. While existing work has primarily focused on investigating its generalization across tasks or modalities, this study proposes a novel cross-linguistic perspective to investigate reasoning generalization. This raises a crucial question: Does the reasoning capability achieved from English RPT effectively transfer to other languages? We address this by systematically evaluating English-centric LRMs on multilingual reasoning benchmarks and introducing a metric to quantify cross-lingual transferability. Our findings reveal that cross-lingual transferability varies significantly across initial model, target language, and training paradigm. Through interventional studies, we find that models with stronger initial English capabilities tend to over-rely on English-specific patterns, leading to diminished cross-lingual generalization. To address this, we conduct a thorough parallel training study. Experimental results yield three key findings: First-Parallel Leap, a substantial leap in performance when transitioning from monolingual to just a single parallel language, and a predictable Parallel Scaling Law, revealing that cross-lingual reasoning transfer follows a power-law with the number of training parallel languages. Moreover, we identify the discrepancy between actual monolingual performance and the power-law prediction as Monolingual Generalization Gap, indicating that English-centric LRMs fail to fully generalize across languages. Our study challenges the assumption that LRM reasoning mirrors human cognition, providing critical insights for the development of more language-agnostic LRMs.
PDF32October 3, 2025