X-Coder: Förderung des kompetitiven Programmierens durch vollständig synthetische Aufgaben, Lösungen und Tests

papers.abstract

Competitive Programming stellt aufgrund seines hohen Anspruchs an schlussfolgerndes Denken und seiner hohen logischen Komplexität eine große Herausforderung für Code-LLMs dar. Allerdings sind aktuelle Code-LLMs nach wie vor stark auf reale Daten angewiesen, was ihre Skalierbarkeit einschränkt. In diesem Beitrag untersuchen wir einen vollständig synthetischen Ansatz: das Trainieren von Code-LLMs mit vollständig generierten Aufgaben, Lösungen und Testfällen, um Modelle für das Code-Verständnis zu stärken, ohne auf reale Daten zurückgreifen zu müssen. Um dies zu ermöglichen, nutzen wir feature-basierte Synthese und schlagen eine neuartige Daten-Synthese-Pipeline namens SynthSmith vor. SynthSmith zeigt ein starkes Potenzial, vielfältige und anspruchsvolle Aufgaben zusammen mit verifizierten Lösungen und Tests zu erzeugen, und unterstützt sowohl überwachtes Fein-Tuning als auch Reinforcement Learning. Basierend auf den vorgeschlagenen synthetischen SFT- und RL-Datensätzen führen wir die X-Coder-Modellreihe ein, die eine bemerkenswerte Pass-Rate von 62,9 avg@8 auf LiveCodeBench v5 und 55,8 auf v6 erreicht und damit DeepCoder-14B-Preview und AReal-boba2-14B übertrifft, obwohl sie nur 7B Parameter hat. Eine eingehende Analyse zeigt, dass Skalierungsgesetze auf unserem synthetischen Datensatz gelten, und wir untersuchen, welche Dimensionen effektiver zu skalieren sind. Wir liefern weiterhin Einblicke in code-zentriertes Reinforcement Learning und heben die Schlüsselfaktoren hervor, die die Leistung durch detaillierte Ablationen und Analysen prägen. Unsere Ergebnisse zeigen, dass die Skalierung hochwertiger synthetischer Daten und die Einführung eines gestaffelten Trainings das Code-Verständnis erheblich voranbringen können, während die Abhängigkeit von realen Programmierdaten verringert wird.

English

Competitive programming presents great challenges for Code LLMs due to its intensive reasoning demands and high logical complexity. However, current Code LLMs still rely heavily on real-world data, which limits their scalability. In this paper, we explore a fully synthetic approach: training Code LLMs with entirely generated tasks, solutions, and test cases, to empower code reasoning models without relying on real-world data. To support this, we leverage feature-based synthesis to propose a novel data synthesis pipeline called SynthSmith. SynthSmith shows strong potential in producing diverse and challenging tasks, along with verified solutions and tests, supporting both supervised fine-tuning and reinforcement learning. Based on the proposed synthetic SFT and RL datasets, we introduce the X-Coder model series, which achieves a notable pass rate of 62.9 avg@8 on LiveCodeBench v5 and 55.8 on v6, outperforming DeepCoder-14B-Preview and AReal-boba2-14B despite having only 7B parameters. In-depth analysis reveals that scaling laws hold on our synthetic dataset, and we explore which dimensions are more effective to scale. We further provide insights into code-centric reinforcement learning and highlight the key factors that shape performance through detailed ablations and analysis. Our findings demonstrate that scaling high-quality synthetic data and adopting staged training can greatly advance code reasoning, while mitigating reliance on real-world coding data.

X-Coder: Förderung des kompetitiven Programmierens durch vollständig synthetische Aufgaben, Lösungen und Tests

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

papers.abstract

Support