BatCoder : Apprentissage Bidirectionnel Autosupervisé Code-Documentation par Rétro-traduction

papers.abstract

L'entraînement de modèles de langage de grande taille (LLM) pour des tâches liées au code repose généralement sur des paires code-documentation de haute qualité, qui sont coûteuses à constituer et souvent rares pour les langages de programmation de niche. Nous présentons BatCoder, un cadre d'apprentissage par renforcement auto-supervisé conçu pour optimiser conjointement la génération de code et la production de documentation. BatCoder utilise une stratégie de rétro-traduction : une documentation est d'abord générée à partir du code, puis cette documentation générée est utilisée pour reconstruire le code original. La similarité sémantique entre le code original et le code reconstruit sert de récompense implicite, permettant à l'apprentissage par renforcement d'améliorer les performances du modèle à la fois pour générer du code à partir de documentation et inversement. Cette approche permet d'entraîner les modèles en utilisant uniquement du code, augmentant ainsi considérablement le nombre d'exemples d'entraînement disponibles. Évalué sur HumanEval et MBPP avec un modèle de 7 milliards de paramètres, BatCoder a atteint des scores de 83,5 % et 81,0 % en pass@1, surpassant des bases de référence open-source solides. De plus, le cadre démontre une scalabilité constante à la fois par rapport à la taille du corpus d'entraînement et à la capacité du modèle.

English

Training LLMs for code-related tasks typically depends on high-quality code-documentation pairs, which are costly to curate and often scarce for niche programming languages. We introduce BatCoder, a self-supervised reinforcement learning framework designed to jointly optimize code generation and documentation production. BatCoder employs a back-translation strategy: a documentation is first generated from code, and then the generated documentation is used to reconstruct the original code. The semantic similarity between the original and reconstructed code serves as an implicit reward, enabling reinforcement learning to improve the model's performance both in generating code from documentation and vice versa. This approach allows models to be trained using only code, substantially increasing the available training examples. Evaluated on HumanEval and MBPP with a 7B model, BatCoder achieved 83.5% and 81.0% pass@1, outperforming strong open-source baselines. Moreover, the framework demonstrates consistent scaling with respect to both training corpus size and model capacity.

BatCoder : Apprentissage Bidirectionnel Autosupervisé Code-Documentation par Rétro-traduction

BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

papers.abstract

Support