TAROT : Apprentissage par Renforcement de Curriculum Piloté par les Tests et Adaptatif aux Capacités pour la Génération de Code avec les Grands Modèles de Langage
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models
February 17, 2026
papers.authors: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLM) transforment le paradigme de programmation, connu sous le nom de "vibe coding", mais la synthèse de code algorithmiquement sophistiqué et robuste reste un défi critique. Stimuler les capacités de raisonnement profond des LLM est essentiel pour surmonter cet obstacle. Le Reinforcement Fine-Tuning (RFT) s'est imposé comme une stratégie prometteuse pour répondre à ce besoin. Cependant, la plupart des approches existantes négligent l'hétérogénéité de difficulté et de granularité inhérente aux cas de test, conduisant à une distribution déséquilibrée des signaux de récompense et par conséquent à des mises à jour de gradient biaisées durant l'entraînement. Pour résoudre ce problème, nous proposons le Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT construit systématiquement, pour chaque problème, une suite de tests à quatre niveaux (basique, intermédiaire, complexe, edge), offrant un paysage de difficulté contrôlé pour la conception de curriculum et l'évaluation. Crucialement, TAROT découple la progression du curriculum des scores de récompense bruts, permettant une évaluation conditionnée par les capacités et une sélection raisonnée parmi un portefeuille de politiques de curriculum plutôt qu'une composition fortuite de difficulté des cas de test. Cette conception favorise une optimisation stable et une acquisition de compétences plus efficace. Des résultats expérimentaux approfondis révèlent que le curriculum optimal pour le RFT en génération de code est étroitement lié aux capacités inhérentes du modèle : les modèles moins performants obtiennent de meilleurs gains avec une progression facile-difficile, tandis que les modèles plus compétents excellent avec un curriculum difficile-facile. TAROT fournit une méthode reproductible qui adapte la conception du curriculum aux capacités du modèle, améliorant ainsi constamment la correction fonctionnelle et la robustesse du code généré. Tout le code et les données sont publiés pour favoriser la reproductibilité et faire progresser la recherche communautaire sur https://github.com/deep-diver/TAROT.
English
Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.