BioCoder: Een Benchmark voor Bioinformatica Codegeneratie met Contextuele Pragmatische Kennis

Samenvatting

Voorgetrainde taalmodelen zoals ChatGPT hebben de codegeneratie aanzienlijk verbeterd. Naarmate deze modellen groter worden, is er een toenemende behoefte aan uitvoer die complexere taken aankan. Bovendien stelt het genereren van functionele programma's in de bioinformatica extra uitdagingen vanwege de hoeveelheid domeinkennis, de noodzaak voor ingewikkelde data-operaties en complexe functionele afhankelijkheden tussen de operaties. Hier presenteren we BioCoder, een benchmark ontwikkeld om bestaande voorgetrainde modellen te evalueren in het genereren van bioinformatica-code. Met betrekking tot functie-codegeneratie omvat BioCoder potentiële pakketafhankelijkheden, klasse-declaraties en globale variabelen. Het bevat 1026 functies en 1243 methoden in Python en Java van GitHub en 253 voorbeelden van het Rosalind Project. BioCoder bevat een fuzz-testing framework voor evaluatie, en we hebben het toegepast om vele modellen te evalueren, waaronder InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ en ChatGPT. Onze gedetailleerde analyse van deze modellen benadrukt het belang van domeinkennis, pragmatische codegeneratie en contextueel begrip. Onze dataset, benchmark, Docker-images en scripts die nodig zijn voor testen zijn allemaal beschikbaar op https://github.com/gersteinlab/biocoder.

English

Pre-trained language models like ChatGPT have significantly improved code generation. As these models scale up, there is an increasing need for the output to handle more intricate tasks. Moreover, in bioinformatics, generating functional programs poses additional notable challenges due to the amount of domain knowledge, the need for complicated data operations, and intricate functional dependencies between the operations. Here, we present BioCoder, a benchmark developed to evaluate existing pre-trained models in generating bioinformatics code. In relation to function-code generation, BioCoder covers potential package dependencies, class declarations, and global variables. It incorporates 1026 functions and 1243 methods in Python and Java from GitHub and 253 examples from the Rosalind Project. BioCoder incorporates a fuzz-testing framework for evaluation, and we have applied it to evaluate many models including InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+, and ChatGPT. Our detailed analysis of these models emphasizes the importance of domain knowledge, pragmatic code generation, and contextual understanding. Our dataset, benchmark, Docker images, and scripts required for testing are all available at https://github.com/gersteinlab/biocoder.

BioCoder: Een Benchmark voor Bioinformatica Codegeneratie met Contextuele Pragmatische Kennis

BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge

Samenvatting

Support