BatCoder: Двунаправленное самообучение кода и документации через обратный перевод
BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation
January 30, 2026
Авторы: Jingwen Xu, Yiyang Lu, Zisu Huang, Changze Lv, Xiaohua Wang, Shizheng Li, Zhibo Xu, Zhengkang Guo, Zhengyuan Wang, Muzhao Tian, Xuanjing Huang, Xiaoqing Zheng
cs.AI
Аннотация
Обучение больших языковых моделей (LLM) для задач, связанных с кодом, обычно зависит от пар "код-документация" высокого качества, создание которых требует больших затрат и которые часто являются дефицитом для узкоспециализированных языков программирования. Мы представляем BatCoder — самообучающуюся framework-систему с подкреплением, предназначенную для совместной оптимизации генерации кода и создания документации. BatCoder использует стратегию обратного перевода: сначала из кода генерируется документация, а затем сгенерированная документация используется для реконструкции исходного кода. Семантическое сходство между исходным и реконструированным кодом служит неявной наградой, что позволяет обучению с подкреплением улучшать производительность модели как в генерации кода из документации, так и наоборот. Такой подход позволяет обучать модели, используя только код, что существенно увеличивает количество доступных обучающих примеров. При оценке на наборах данных HumanEval и MBPP с моделью на 7 миллиардов параметров BatCoder достиг показателей pass@1 в 83,5% и 81,0% соответственно, превзойдя сильные модели с открытым исходным кодом. Более того, framework демонстрирует последовательное масштабирование как относительно размера обучающего корпуса, так и относительно емкости модели.
English
Training LLMs for code-related tasks typically depends on high-quality code-documentation pairs, which are costly to curate and often scarce for niche programming languages. We introduce BatCoder, a self-supervised reinforcement learning framework designed to jointly optimize code generation and documentation production. BatCoder employs a back-translation strategy: a documentation is first generated from code, and then the generated documentation is used to reconstruct the original code. The semantic similarity between the original and reconstructed code serves as an implicit reward, enabling reinforcement learning to improve the model's performance both in generating code from documentation and vice versa. This approach allows models to be trained using only code, substantially increasing the available training examples. Evaluated on HumanEval and MBPP with a 7B model, BatCoder achieved 83.5% and 81.0% pass@1, outperforming strong open-source baselines. Moreover, the framework demonstrates consistent scaling with respect to both training corpus size and model capacity.