ChatPaper.aiChatPaper

TAROT: Ajuste por Refuerzo Curricular Basado en Pruebas y Adaptativo a las Capacidades para la Generación de Código con Modelos de Lenguaje a Gran Escala

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

February 17, 2026
Autores: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li
cs.AI

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs) están cambiando el paradigma de la programación, conocido como *vibe coding*, pero la síntesis de código algorítmicamente sofisticado y robusto sigue siendo un desafío crítico. Incentivar las capacidades de razonamiento profundo de los LLMs es esencial para superar este obstáculo. El Ajuste Fino por Refuerzo (RFT) ha surgido como una estrategia prometedora para abordar esta necesidad. Sin embargo, la mayoría de los enfoques existentes pasan por alto la dificultad y granularidad heterogéneas inherentes a los casos de prueba, lo que conduce a una distribución desequilibrada de las señales de recompensa y, en consecuencia, a actualizaciones de gradiente sesgadas durante el entrenamiento. Para abordar esto, proponemos el Ajuste Fino por Refuerzo con Plan de Estudios impulsado por Pruebas y adaptativo a la Capacidad (TAROT). TAROT construye sistemáticamente, para cada problema, una suite de pruebas de cuatro niveles (básico, intermedio, complejo, casos límite), proporcionando un panorama de dificultad controlado para el diseño curricular y la evaluación. Crucialmente, TAROT desacopla la progresión del plan de estudios de las puntuaciones brutas de recompensa, permitiendo una evaluación condicionada por la capacidad y una selección fundamentada de un portafolio de políticas curriculares, en lugar de una composición incidental de la dificultad de los casos de prueba. Este diseño fomenta una optimización estable y una adquisición de competencia más eficiente. Resultados experimentales extensivos revelan que el plan de estudios óptimo para RFT en generación de código está estrechamente ligado a la capacidad inherente del modelo: los modelos menos capaces logran mayores ganancias con una progresión de fácil a difícil, mientras que los modelos más competentes sobresalen bajo un plan de estudios que prioriza la dificultad. TAROT proporciona un método reproducible que adapta el diseño curricular a la capacidad de un modelo, mejorando consistentemente la corrección funcional y la robustez del código generado. Todo el código y los datos se han publicado para fomentar la reproducibilidad y avanzar en la investigación comunitaria en https://github.com/deep-diver/TAROT.
English
Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.
PDF42February 19, 2026