TAROT: Ajuste Fino por Reforço Curricular Orientado a Testes e Adaptativo à Capacidade para Geração de Código com Grandes Modelos de Linguagem

Resumo

Os Grandes Modelos de Linguagem (LLMs) estão a alterar o paradigma da programação, conhecido como "vibe coding", mas a síntese de código algoritmicamente sofisticado e robusto continua a ser um desafio crítico. Incentivar as capacidades de raciocínio profundo dos LLMs é essencial para superar este obstáculo. O Ajuste Fino por Reforço (RFT) emergiu como uma estratégia promissora para atender a esta necessidade. No entanto, a maioria das abordagens existentes ignora a dificuldade heterogénea e a granularidade inerentes aos casos de teste, levando a uma distribuição desequilibrada dos sinais de recompensa e, consequentemente, a atualizações de gradiente enviesadas durante o treino. Para resolver isto, propomos o Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). O TAROT constrói sistematicamente, para cada problema, uma suíte de testes de quatro níveis (básico, intermédio, complexo, extremo), fornecendo uma paisagem de dificuldade controlada para o desenho curricular e avaliação. Crucialmente, o TAROT desacopla a progressão curricular das pontuações brutas de recompensa, permitindo uma avaliação condicionada pela capacidade e uma seleção fundamentada a partir de um portfólio de políticas curriculares, em vez de uma composição incidental da dificuldade dos casos de teste. Este desenho promove uma otimização estável e uma aquisição de competência mais eficiente. Resultados experimentais extensivos revelam que o currículo ótimo para RFT na geração de código está intimamente ligado à capacidade inerente do modelo: modelos menos capazes alcançam ganhos maiores com uma progressão fácil-para-difícil, enquanto modelos mais competentes se destacam sob um currículo difícil-primeiro. O TAROT fornece um método reproduzível que adapta o desenho curricular à capacidade de um modelo, melhorando assim consistentemente a correção funcional e a robustez do código gerado. Todo o código e dados são disponibilizados para promover a reprodutibilidade e avançar a investigação comunitária em https://github.com/deep-diver/TAROT.

English

Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.

TAROT: Ajuste Fino por Reforço Curricular Orientado a Testes e Adaptativo à Capacidade para Geração de Código com Grandes Modelos de Linguagem

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Resumo

Support