BatCoder: Aprendizaje Bidireccional Autosupervisado de Código-Documentación mediante Traducción Inversa

Resumen

El entrenamiento de LLMs para tareas relacionadas con código generalmente depende de pares de código-documentación de alta calidad, los cuales son costosos de curar y a menudo escasos para lenguajes de programación especializados. Presentamos BatCoder, un marco de aprendizaje por refuerzo auto-supervisado diseñado para optimizar conjuntamente la generación de código y la producción de documentación. BatCoder emplea una estrategia de retro-traducción: primero se genera documentación a partir del código, y luego la documentación generada se utiliza para reconstruir el código original. La similitud semántica entre el código original y el reconstruido sirve como recompensa implícita, permitiendo que el aprendizaje por refuerzo mejore el rendimiento del modelo tanto en generar código a partir de documentación como viceversa. Este enfoque permite entrenar modelos utilizando solo código, aumentando sustancialmente los ejemplos de entrenamiento disponibles. Evaluado en HumanEval y MBPP con un modelo de 7B, BatCoder alcanzó un 83.5% y un 81.0% en pass@1, superando a sólidos baselines de código abierto. Además, el marco demuestra un escalado consistente con respecto tanto al tamaño del corpus de entrenamiento como a la capacidad del modelo.

English

Training LLMs for code-related tasks typically depends on high-quality code-documentation pairs, which are costly to curate and often scarce for niche programming languages. We introduce BatCoder, a self-supervised reinforcement learning framework designed to jointly optimize code generation and documentation production. BatCoder employs a back-translation strategy: a documentation is first generated from code, and then the generated documentation is used to reconstruct the original code. The semantic similarity between the original and reconstructed code serves as an implicit reward, enabling reinforcement learning to improve the model's performance both in generating code from documentation and vice versa. This approach allows models to be trained using only code, substantially increasing the available training examples. Evaluated on HumanEval and MBPP with a 7B model, BatCoder achieved 83.5% and 81.0% pass@1, outperforming strong open-source baselines. Moreover, the framework demonstrates consistent scaling with respect to both training corpus size and model capacity.

BatCoder: Aprendizaje Bidireccional Autosupervisado de Código-Documentación mediante Traducción Inversa

BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

Resumen

Support