X-Coder: 完全合成タスク・解法・テストによる競技プログラミングの進展
X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests
January 11, 2026
著者: Jie Wu, Haoling Li, Xin Zhang, Jiani Guo, Jane Luo, Steven Liu, Yangyu Huang, Ruihang Chu, Scarlett Li, Yujiu Yang
cs.AI
要旨
競技プログラミングは、その高度な推論要求と論理的複雑さの高さから、コード大規模言語モデルにとって大きな課題となっている。しかし、現在のコードLLMは依然として実世界データへの依存度が高く、拡張性が制限されている。本論文では、実世界データに依存せずにコード推論モデルの能力を強化するため、生成されたタスク・解答・テストケースのみでコードLLMを訓練する完全合成アプローチを探求する。これを実現するため、特徴量ベース合成を活用し、SynthSmithという新しいデータ合成パイプラインを提案する。SynthSmithは、検証済みの解答とテストを伴う多様で挑戦的なタスクを生成する強力な可能性を示し、教師ありファインチューニングと強化学習の両方をサポートする。提案する合成SFTおよびRLデータセットに基づき、X-Coderモデルシリーズを導入する。このモデルは7Bパラメータのみにも関わらず、LiveCodeBench v5で62.9 avg@8、v6で55.8という顕著な合格率を達成し、DeepCoder-14B-PreviewおよびAReal-boba2-14Bを上回った。詳細な分析により、合成データセットにおいてスケーリング則が成立することを明らかにし、どの次元をスケールさせるのが効果的かを探求する。さらに、コード中心の強化学習に関する洞察を提供し、詳細なアブレーションと分析を通じて性能を形作る主要因を明らかにする。我々の発見は、高品質な合成データのスケーリングと段階的訓練の採用が、実世界のコーディングデータへの依存を軽減しつつ、コード推論を大幅に進歩させ得ることを実証している。
English
Competitive programming presents great challenges for Code LLMs due to its intensive reasoning demands and high logical complexity. However, current Code LLMs still rely heavily on real-world data, which limits their scalability. In this paper, we explore a fully synthetic approach: training Code LLMs with entirely generated tasks, solutions, and test cases, to empower code reasoning models without relying on real-world data. To support this, we leverage feature-based synthesis to propose a novel data synthesis pipeline called SynthSmith. SynthSmith shows strong potential in producing diverse and challenging tasks, along with verified solutions and tests, supporting both supervised fine-tuning and reinforcement learning. Based on the proposed synthetic SFT and RL datasets, we introduce the X-Coder model series, which achieves a notable pass rate of 62.9 avg@8 on LiveCodeBench v5 and 55.8 on v6, outperforming DeepCoder-14B-Preview and AReal-boba2-14B despite having only 7B parameters. In-depth analysis reveals that scaling laws hold on our synthetic dataset, and we explore which dimensions are more effective to scale. We further provide insights into code-centric reinforcement learning and highlight the key factors that shape performance through detailed ablations and analysis. Our findings demonstrate that scaling high-quality synthetic data and adopting staged training can greatly advance code reasoning, while mitigating reliance on real-world coding data.