BatCoder: Selbstüberwachtes bidirektionales Code-Dokumentationslernen durch Rückübersetzung

papers.abstract

Das Training von großen Sprachmodellen (LLMs) für codebezogene Aufgaben hängt typischerweise von hochwertigen Code-Dokumentations-Paaren ab, deren Erstellung kostspielig ist und die für Nischen-Programmiersprachen oft nur begrenzt verfügbar sind. Wir stellen BatCoder vor, einen selbstüberwachten Verstärkungslernrahmen, der darauf ausgelegt ist, Code-Generierung und Dokumentationserstellung gemeinsam zu optimieren. BatCoder verwendet eine Back-Translation-Strategie: Aus Code wird zunächst eine Dokumentation generiert, anschließend wird die generierte Dokumentation verwendet, um den ursprünglichen Code zu rekonstruieren. Die semantische Ähnlichkeit zwischen dem ursprünglichen und dem rekonstruierten Code dient als implizite Belohnung, die es dem Verstärkungslernen ermöglicht, die Leistung des Modells sowohl bei der Code-Generierung aus Dokumentation als auch umgekehrt zu verbessern. Dieser Ansatz ermöglicht es, Modelle nur mit Code zu trainieren, was die verfügbaren Trainingsbeispiele erheblich erhöht. Ausgewertet auf HumanEval und MBPP mit einem 7B-Modell, erzielte BatCoder 83,5 % bzw. 81,0 % pass@1 und übertraf damit starke Open-Source-Baselines. Darüber hinaus zeigt der Rahmen eine konsistente Skalierbarkeit in Bezug auf sowohl die Größe des Trainingskorpus als auch die Modellkapazität.

English

Training LLMs for code-related tasks typically depends on high-quality code-documentation pairs, which are costly to curate and often scarce for niche programming languages. We introduce BatCoder, a self-supervised reinforcement learning framework designed to jointly optimize code generation and documentation production. BatCoder employs a back-translation strategy: a documentation is first generated from code, and then the generated documentation is used to reconstruct the original code. The semantic similarity between the original and reconstructed code serves as an implicit reward, enabling reinforcement learning to improve the model's performance both in generating code from documentation and vice versa. This approach allows models to be trained using only code, substantially increasing the available training examples. Evaluated on HumanEval and MBPP with a 7B model, BatCoder achieved 83.5% and 81.0% pass@1, outperforming strong open-source baselines. Moreover, the framework demonstrates consistent scaling with respect to both training corpus size and model capacity.

BatCoder: Selbstüberwachtes bidirektionales Code-Dokumentationslernen durch Rückübersetzung

BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

papers.abstract

Support