TAROT: Fine-tuning Rinforzato del Curriculum Guidato da Test e Adattivo alle Capacità per la Generazione di Codice con Modelli Linguistici di Grande Scala
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models
February 17, 2026
Autori: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li
cs.AI
Abstract
I Large Language Model (LLM) stanno cambiando il paradigma della programmazione, noto come "vibe coding", ma la sintesi di codice algoritmicamente sofisticato e robusto rimane una sfida critica. Incentivare le capacità di ragionamento profondo degli LLM è essenziale per superare questo ostacolo. Il Reinforcement Fine-Tuning (RFT) è emerso come una strategia promettente per soddisfare questa esigenza. Tuttavia, la maggior parte degli approcci esistenti trascura l'eterogeneità della difficoltà e della granularità intrinseche dei casi di test, portando a una distribuzione squilibrata dei segnali di reward e, di conseguenza, a aggiornamenti del gradiente distorti durante l'addestramento.
Per affrontare questo problema, proponiamo il Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT costruisce sistematicamente, per ogni problema, una suite di test a quattro livelli (base, intermedio, complesso, edge), fornendo un panorama di difficoltà controllato per la progettazione del curriculum e la valutazione. Fondamentalmente, TAROT disaccoppia la progressione del curriculum dai punteggi di reward grezzi, consentendo una valutazione condizionata dalle capacità e una selezione principiata da un portafoglio di politiche di curriculum, piuttosto che una composizione accidentale della difficoltà dei casi di test. Questo design favorisce un'ottimizzazione stabile e un'acquisizione più efficiente delle competenze.
I risultati sperimentali su larga scala rivelano che il curriculum ottimale per l'RFT nella generazione di codice è strettamente legato alla capacità intrinseca di un modello: modelli meno capaci ottengono maggiori miglioramenti con una progressione facile-difficile, mentre modelli più competenti eccellono con un curriculum difficile-all'inizio. TAROT fornisce un metodo riproducibile che adatta dinamicamente la progettazione del curriculum alle capacità di un modello, migliorando così costantemente la correttezza funzionale e la robustezza del codice generato. Tutto il codice e i dati sono rilasciati per favorire la riproducibilità e far avanzare la ricerca della comunità all'indirizzo https://github.com/deep-diver/TAROT.
English
Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.