ChatPaper.aiChatPaper

BatCoder: Apprendimento Autosupervisionato Bidirezionale Codice-Documentazione tramite Back-Translation

BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

January 30, 2026
Autori: Jingwen Xu, Yiyang Lu, Zisu Huang, Changze Lv, Xiaohua Wang, Shizheng Li, Zhibo Xu, Zhengkang Guo, Zhengyuan Wang, Muzhao Tian, Xuanjing Huang, Xiaoqing Zheng
cs.AI

Abstract

L'addestramento di LLM per compiti legati al codice si basa tipicamente su coppie codice-documentazione di alta qualità, che sono costose da curare e spesso scarse per linguaggi di programmazione di nicchia. Introduciamo BatCoder, un framework di apprendimento per rinforzo auto-supervisionato progettato per ottimizzare congiuntamente la generazione di codice e la produzione di documentazione. BatCoder utilizza una strategia di retro-traduzione: dalla documentazione generata dal codice, quest'ultima viene poi utilizzata per ricostruire il codice originale. La similarità semantica tra il codice originale e quello ricostruito funge da ricompensa implicita, permettendo all'apprendimento per rinforzo di migliorare le prestazioni del modello sia nella generazione di codice a partire dalla documentazione che viceversa. Questo approccio consente di addestrare i modelli utilizzando solo il codice, aumentando sostanzialmente gli esempi di addestramento disponibili. Valutato su HumanEval e MBPP con un modello da 7B, BatCoder ha raggiunto l'83,5% e l'81,0% in pass@1, superando solide baseline open-source. Inoltre, il framework dimostra una scalabilità coerente rispetto sia alla dimensione del corpus di addestramento che alla capacità del modello.
English
Training LLMs for code-related tasks typically depends on high-quality code-documentation pairs, which are costly to curate and often scarce for niche programming languages. We introduce BatCoder, a self-supervised reinforcement learning framework designed to jointly optimize code generation and documentation production. BatCoder employs a back-translation strategy: a documentation is first generated from code, and then the generated documentation is used to reconstruct the original code. The semantic similarity between the original and reconstructed code serves as an implicit reward, enabling reinforcement learning to improve the model's performance both in generating code from documentation and vice versa. This approach allows models to be trained using only code, substantially increasing the available training examples. Evaluated on HumanEval and MBPP with a 7B model, BatCoder achieved 83.5% and 81.0% pass@1, outperforming strong open-source baselines. Moreover, the framework demonstrates consistent scaling with respect to both training corpus size and model capacity.
PDF83February 8, 2026