TAROT: Testgetriebenes und fähigkeitsadaptives Curriculum Reinforcement Fine-Tuning für die Codegenerierung mit großen Sprachmodellen
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models
February 17, 2026
papers.authors: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) verändern das Programmierparadigma, bekannt als Vibe Coding, doch die Synthese algorithmisch anspruchsvoller und robuster Codes bleibt eine kritische Herausforderung. Die Förderung der tiefgreifenden Denkfähigkeiten von LLMs ist entscheidend, um diese Hürde zu überwinden. Reinforcement Fine-Tuning (RFT) hat sich als vielversprechende Strategie erwiesen, um diesem Bedarf gerecht zu werden. Die meisten bestehenden Ansätze berücksichtigen jedoch nicht die inhärente Heterogenität von Schwierigkeitsgrad und Granularität in Testfällen, was zu einer unausgewogenen Verteilung von Belohnungssignalen und folglich zu verzerrten Gradientenupdates während des Trainings führt. Um dieses Problem zu adressieren, schlagen wir Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT) vor. TAROT konstruiert systematisch für jedes Problem einen vierstufigen Testsatz (einfach, mittel, komplex, Grenzfälle) und bietet damit eine kontrollierte Schwierigkeitslandschaft für Curriculum-Design und Evaluation. Entscheidend ist, dass TAROT den Curriculum-Fortschritt von rohen Belohnungswerten entkoppelt, wodurch eine fähigkeitsabhängige Evaluation und eine prinzipiengeleitete Auswahl aus einem Portfolio von Curriculum-Policies anstelle einer zufälligen Testfall-Zusammensetzung ermöglicht wird. Dieses Design fördert eine stabile Optimierung und einen effizienteren Kompetenzerwerb. Umfangreiche experimentelle Ergebnisse zeigen, dass das optimale Curriculum für RFT in der Codegenerierung eng mit den inhärenten Fähigkeiten eines Modells verbunden ist: Weniger leistungsfähige Modelle erzielen größere Fortschritte mit einem leichte-zur-schweren Verlauf, während kompetentere Modelle unter einem schwer-zur-leichten Curriculum besser abschneiden. TAROT bietet eine reproduzierbare Methode, die das Curriculum-Design adaptiv an die Fähigkeiten eines Modells anpasst und dadurch konsequent die funktionale Korrektheit und Robustheit des generierten Codes verbessert. Alle Codes und Daten wurden zur Förderung der Reproduzierbarkeit und zur Weiterentwicklung der Gemeinschaftsforschung unter https://github.com/deep-diver/TAROT veröffentlicht.
English
Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.