BatCoder: Aprendizado Bidirectional Autossupervisionado de Código-Documentação via Retro-tradução
BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation
January 30, 2026
Autores: Jingwen Xu, Yiyang Lu, Zisu Huang, Changze Lv, Xiaohua Wang, Shizheng Li, Zhibo Xu, Zhengkang Guo, Zhengyuan Wang, Muzhao Tian, Xuanjing Huang, Xiaoqing Zheng
cs.AI
Resumo
O treinamento de LLMs para tarefas relacionadas a código geralmente depende de pares código-documentação de alta qualidade, que são dispendiosos de curar e frequentemente escassos para linguagens de programação de nicho. Apresentamos o BatCoder, uma estrutura de aprendizado por reforço autossupervisionada projetada para otimizar conjuntamente a geração de código e a produção de documentação. O BatCoder emprega uma estratégia de retro-tradução: uma documentação é primeiro gerada a partir do código e, em seguida, a documentação gerada é usada para reconstruir o código original. A similaridade semântica entre o código original e o reconstruído serve como uma recompensa implícita, permitindo que o aprendizado por reforço melhore o desempenho do modelo tanto na geração de código a partir da documentação quanto vice-versa. Essa abordagem permite que os modelos sejam treinados usando apenas código, aumentando substancialmente os exemplos de treinamento disponíveis. Avaliado no HumanEval e no MBPP com um modelo de 7B, o BatCoder alcançou 83,5% e 81,0% em pass@1, superando bases de código aberto robustas. Além disso, a estrutura demonstra escalabilidade consistente em relação ao tamanho do corpus de treinamento e à capacidade do modelo.
English
Training LLMs for code-related tasks typically depends on high-quality code-documentation pairs, which are costly to curate and often scarce for niche programming languages. We introduce BatCoder, a self-supervised reinforcement learning framework designed to jointly optimize code generation and documentation production. BatCoder employs a back-translation strategy: a documentation is first generated from code, and then the generated documentation is used to reconstruct the original code. The semantic similarity between the original and reconstructed code serves as an implicit reward, enabling reinforcement learning to improve the model's performance both in generating code from documentation and vice versa. This approach allows models to be trained using only code, substantially increasing the available training examples. Evaluated on HumanEval and MBPP with a 7B model, BatCoder achieved 83.5% and 81.0% pass@1, outperforming strong open-source baselines. Moreover, the framework demonstrates consistent scaling with respect to both training corpus size and model capacity.