BatCoder: Zelf-gesuperviseerd bidirectioneel code-documentatie leren via terugvertaling
BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation
January 30, 2026
Auteurs: Jingwen Xu, Yiyang Lu, Zisu Huang, Changze Lv, Xiaohua Wang, Shizheng Li, Zhibo Xu, Zhengkang Guo, Zhengyuan Wang, Muzhao Tian, Xuanjing Huang, Xiaoqing Zheng
cs.AI
Samenvatting
Het trainen van LLM's voor code-gerelateerde taken is doorgaans afhankelijk van hoogwaardige code-documentatieparen, die kostbaar zijn om samen te stellen en vaak schaars voor nicheprogrammeertalen. Wij introduceren BatCoder, een zelfgesuperviseerd reinforcement learning-raamwerk dat is ontworpen om codegeneratie en documentatieproductie gezamenlijk te optimaliseren. BatCoder gebruikt een back-translationstrategie: eerst wordt documentatie gegenereerd uit code, waarna de gegenereerde documentatie wordt gebruikt om de oorspronkelijke code te reconstrueren. De semantische gelijkenis tussen de oorspronkelijke en gereconstrueerde code dient als een impliciete beloning, waardoor reinforcement learning de prestaties van het model kan verbeteren, zowel bij het genereren van code uit documentatie als omgekeerd. Deze aanpak maakt het mogelijk modellen uitsluitend met code te trainen, waardoor het aantal beschikbare trainingsvoorbeelden aanzienlijk toeneemt. Geëvalueerd op HumanEval en MBPP met een 7B-model behaalde BatCoder 83,5% en 81,0% pass@1, waarmee het sterke open-source-baselines overtreft. Bovendien toont het raamwerk consistente schaalbaarheid met betrekking tot zowel de omvang van de traincorpus als de modelcapaciteit.
English
Training LLMs for code-related tasks typically depends on high-quality code-documentation pairs, which are costly to curate and often scarce for niche programming languages. We introduce BatCoder, a self-supervised reinforcement learning framework designed to jointly optimize code generation and documentation production. BatCoder employs a back-translation strategy: a documentation is first generated from code, and then the generated documentation is used to reconstruct the original code. The semantic similarity between the original and reconstructed code serves as an implicit reward, enabling reinforcement learning to improve the model's performance both in generating code from documentation and vice versa. This approach allows models to be trained using only code, substantially increasing the available training examples. Evaluated on HumanEval and MBPP with a 7B model, BatCoder achieved 83.5% and 81.0% pass@1, outperforming strong open-source baselines. Moreover, the framework demonstrates consistent scaling with respect to both training corpus size and model capacity.