X-Coder: Vooruitgang in Competitief Programmeren met Volledig Synthetische Taken, Oplossingen en Tests

Samenvatting

Competitive programming stelt Code LLM's voor grote uitdagingen vanwege de hoge eisen aan redeneervermogen en de complexe logica. Huidige Code LLM's zijn echter nog sterk afhankelijk van real-world data, wat hun schaalbaarheid beperkt. In dit artikel onderzoeken we een volledig synthetische aanpak: het trainen van Code LLM's met volledig gegenereerde taken, oplossingen en testgevallen, om modellen voor coderingsredenering te versterken zonder afhankelijkheid van real-world data. Om dit te ondersteunen, gebruiken we feature-gebaseerde synthese om een nieuwe data-synthesepijplijn genaamd SynthSmith voor te stellen. SynthSmith toont een sterk potentieel in het produceren van diverse en uitdagende taken, samen met geverifieerde oplossingen en tests, ter ondersteuning van zowel supervised fine-tuning als reinforcement learning. Gebaseerd op de voorgestelde synthetische SFT- en RL-datasets, introduceren we de X-Coder modelreeks, die een opmerkelijke slagingspercentage behaalt van 62.9 avg@8 op LiveCodeBench v5 en 55.8 op v6, en daarmee DeepCoder-14B-Preview en AReal-boba2-14B overtreft, ondanks het hebben van slechts 7B parameters. Diepgaande analyse toont aan dat schaalwetten gelden voor onze synthetische dataset, en we onderzoeken welke dimensies effectiever zijn om op te schalen. We geven verder inzichten in code-centrische reinforcement learning en belichten de belangrijkste factoren die de prestaties bepalen door gedetailleerde ablatieonderzoeken en analyse. Onze bevindingen tonen aan dat het opschalen van hoogwaardige synthetische data en het toepassen van gefaseerde training de coderingsredenering aanzienlijk kunnen bevorderen, terwijl de afhankelijkheid van real-world coderingsdata wordt verminderd.

English

Competitive programming presents great challenges for Code LLMs due to its intensive reasoning demands and high logical complexity. However, current Code LLMs still rely heavily on real-world data, which limits their scalability. In this paper, we explore a fully synthetic approach: training Code LLMs with entirely generated tasks, solutions, and test cases, to empower code reasoning models without relying on real-world data. To support this, we leverage feature-based synthesis to propose a novel data synthesis pipeline called SynthSmith. SynthSmith shows strong potential in producing diverse and challenging tasks, along with verified solutions and tests, supporting both supervised fine-tuning and reinforcement learning. Based on the proposed synthetic SFT and RL datasets, we introduce the X-Coder model series, which achieves a notable pass rate of 62.9 avg@8 on LiveCodeBench v5 and 55.8 on v6, outperforming DeepCoder-14B-Preview and AReal-boba2-14B despite having only 7B parameters. In-depth analysis reveals that scaling laws hold on our synthetic dataset, and we explore which dimensions are more effective to scale. We further provide insights into code-centric reinforcement learning and highlight the key factors that shape performance through detailed ablations and analysis. Our findings demonstrate that scaling high-quality synthetic data and adopting staged training can greatly advance code reasoning, while mitigating reliance on real-world coding data.

X-Coder: Vooruitgang in Competitief Programmeren met Volledig Synthetische Taken, Oplossingen en Tests

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

Samenvatting

Support