ChatPaper.aiChatPaper

TAROT: Тест-ориентированная и способностно-адаптивная учебная программа для тонкой настройки с подкреплением при генерации кода с помощью больших языковых моделей

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

February 17, 2026
Авторы: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li
cs.AI

Аннотация

Крупные языковые модели (LLM) меняют парадигму программирования, известную как "виб-кодирование", однако синтез алгоритмически сложного и надежного кода по-прежнему остается критической проблемой. Стимулирование глубоких рассуждений LLM крайне важно для преодоления этого барьера. Подход под названием Reinforcement Fine-Tuning (RFT, тонкая настройка с подкреплением) стал перспективной стратегией для решения этой задачи. Однако большинство существующих методов игнорируют присущую тест-кейсам неоднородную сложность и гранулярность, что приводит к несбалансированному распределению сигналов вознаграждения и, как следствие, к смещенным градиентным обновлениям во время обучения. Для решения этой проблемы мы предлагаем Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT систематически строит для каждой задачи четырехуровневый тестовый набор (базовый, промежуточный, сложный, граничный), создавая контролируемый ландшафт сложности для проектирования учебного плана и оценки. Ключевым моментом является то, что TAROT отделяет прогрессию учебного плана от сырых оценок вознаграждения, позволяя проводить оценку с учетом возможностей модели и принципиальный выбор из портфеля политик учебного плана, а не зависеть от случайного состава сложности тест-кейсов. Такая конструкция способствует стабильной оптимизации и более эффективному приобретению компетенций. Результаты многочисленных экспериментов показывают, что оптимальный учебный план для RFT в генерации кода тесно связан с внутренними возможностями модели: менее способные модели достигают большего прогресса при движении от простого к сложному, тогда как более компетентные модели преуспевают при стратегии "сначала сложное". TAROT предоставляет воспроизводимый метод, который адаптивно настраивает учебный план в соответствии с возможностями модели, тем самым последовательно улучшая функциональную корректность и надежность генерируемого кода. Весь код и данные опубликованы для обеспечения воспроизводимости и развития исследований сообщества по адресу https://github.com/deep-diver/TAROT.
English
Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.
PDF42February 19, 2026