Kann eine Domäne anderen helfen? Eine datenzentrierte Studie zum Multi-Domain-Reasoning mittels Reinforcement Learning
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning
July 23, 2025
papers.authors: Yu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als ein leistungsstarkes Paradigma zur Verbesserung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens etabliert. Bisherige Forschung konzentrierte sich hauptsächlich auf isolierte Anwendungsbereiche wie mathematische Problemlösung, Programmieraufgaben oder logisches Denken. Allerdings erfordern reale Denkszenarien eine integrierte Anwendung multipler kognitiver Fähigkeiten. Dennoch ist das Zusammenspiel dieser Denkfähigkeiten unter Reinforcement Learning noch weitgehend unverstanden. Um diese Lücke zu schließen, präsentieren wir eine systematische Untersuchung von Multi-Domain-Denken innerhalb des RLVR-Frameworks, mit einem expliziten Fokus auf drei primäre Domänen: mathematisches Denken, Code-Generierung und das Lösen logischer Rätsel. Wir führen eine umfassende Studie durch, die vier Schlüsselkomponenten umfasst: (1) Unter Nutzung des GRPO-Algorithmus und der Qwen-2.5-7B-Modellfamilie evaluiert unsere Studie gründlich die domänenspezifischen Verbesserungen und die domänenübergreifenden Generalisierungsfähigkeiten der Modelle, wenn sie auf Single-Domain-Datensätzen trainiert werden. (2) Zusätzlich untersuchen wir die komplexen Interaktionen, einschließlich gegenseitiger Verbesserungen und Konflikte, die während des kombinierten domänenübergreifenden Trainings auftreten. (3) Um den Einfluss von Supervised Fine-Tuning (SFT) auf RL besser zu verstehen, analysieren und vergleichen wir auch Leistungsunterschiede zwischen Basis- und Instruktionsmodellen unter identischen RL-Konfigurationen. (4) Darüber hinaus gehen wir auf kritische Details des RL-Trainings ein und untersuchen systematisch die Auswirkungen von Curriculum-Learning-Strategien, Variationen im Belohnungsdesign und sprachspezifischen Faktoren. Durch umfangreiche Experimente bieten unsere Ergebnisse bedeutende Einblicke in die Dynamik der Domäneninteraktionen und enthüllen Schlüsselfaktoren, die sowohl spezialisierte als auch generalisierbare Denkleistungen beeinflussen. Diese Erkenntnisse liefern wertvolle Leitlinien für die Optimierung von RL-Methoden, um umfassende, multi-domänenübergreifende Denkfähigkeiten in LLMs zu fördern.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
powerful paradigm for enhancing the reasoning capabilities of LLMs. Existing
research has predominantly concentrated on isolated reasoning domains such as
mathematical problem-solving, coding tasks, or logical reasoning. However, real
world reasoning scenarios inherently demand an integrated application of
multiple cognitive skills. Despite this, the interplay among these reasoning
skills under reinforcement learning remains poorly understood. To bridge this
gap, we present a systematic investigation of multi-domain reasoning within the
RLVR framework, explicitly focusing on three primary domains: mathematical
reasoning, code generation, and logical puzzle solving. We conduct a
comprehensive study comprising four key components: (1) Leveraging the GRPO
algorithm and the Qwen-2.5-7B model family, our study thoroughly evaluates the
models' in-domain improvements and cross-domain generalization capabilities
when trained on single-domain datasets. (2) Additionally, we examine the
intricate interactions including mutual enhancements and conflicts that emerge
during combined cross-domain training. (3) To further understand the influence
of SFT on RL, we also analyze and compare performance differences between base
and instruct models under identical RL configurations. (4) Furthermore, we
delve into critical RL training details, systematically exploring the impacts
of curriculum learning strategies, variations in reward design, and
language-specific factors. Through extensive experiments, our results offer
significant insights into the dynamics governing domain interactions, revealing
key factors influencing both specialized and generalizable reasoning
performance. These findings provide valuable guidance for optimizing RL
methodologies to foster comprehensive, multi-domain reasoning capabilities in
LLMs.