Programmeren met Data: Testgedreven Data-engineering voor Zelfverbeterende LLM's vanaf Ruwe Corpora

Samenvatting

Het betrouwbaar overbrengen van gespecialiseerde menselijke kennis uit tekst naar grote taalmodelen blijft een fundamentele uitdaging in de kunstmatige intelligentie. Fine-tuning op domeincorpora heeft aanzienlijke vooruitgang in capaciteiten mogelijk gemaakt, maar het proces verloopt zonder feedback: wanneer een model faalt bij een domeintaak, is er geen methode om te diagnosticeren wat er ontbreekt in de trainingsdata, en de enige oplossing is om ongericht meer data toe te voegen. Hier tonen we aan dat wanneer een gestructureerde kennisrepresentatie, geëxtraheerd uit het broncorpus, dient als de gedeelde basis voor zowel trainingsdata als evaluatie, de volledige data-engineering levenscyclus op een precieze en operationele manier wordt afgebeeld op de software-ontwikkelingslevenscyclus: trainingsdata wordt broncode die specificeert wat het model moet leren, modeltraining wordt compilatie, benchmarken wordt unittesten, en foutgedreven data-reparatie wordt debuggen. Onder deze correspondentie ontbinden modelfouten zich in conceptuele hiaten en redeneerketenbreuken die kunnen worden teruggeleid naar specifieke tekortkomingen in de data en gerepareerd kunnen worden via gerichte patches, waarbij elke reparatiecyclus consistente verbeteringen oplevert across modelschalen en -architecturen zonder afbreuk te doen aan algemene capaciteiten. Wij formaliseren dit principe als Programmeren met Data en implementeren het across zestien disciplines in de natuurwetenschappen, techniek, biomedische wetenschappen en sociale wetenschappen, waarbij we een gestructureerde kennisbank, een benchmark suite en een trainingscorpus als open bronnen vrijgeven. Door aan te tonen dat de relatie tussen trainingsdata en modelgedrag structureel traceerbaar en systematisch repareerbaar is, legt dit werk een principiële basis voor het betrouwbaar inbouwen van menselijke expertise in taalmodelen.

English

Reliably transferring specialized human knowledge from text into large language models remains a fundamental challenge in artificial intelligence. Fine-tuning on domain corpora has enabled substantial capability gains, but the process operates without feedback: when a model fails on a domain task, there is no method to diagnose what is deficient in the training data, and the only recourse is to add more data indiscriminately. Here we show that when a structured knowledge representation extracted from the source corpus serves as the shared foundation for both training data and evaluation, the complete data-engineering lifecycle maps onto the software development lifecycle in a precise and operative way: training data becomes source code specifying what the model should learn, model training becomes compilation, benchmarking becomes unit testing, and failure-driven data repair becomes debugging. Under this correspondence, model failures decompose into concept-level gaps and reasoning-chain breaks that can be traced back to specific deficiencies in the data and repaired through targeted patches, with each repair cycle producing consistent improvements across model scales and architectures without degrading general capabilities. We formalize this principle as Programming with Data and instantiate it across sixteen disciplines spanning the natural sciences, engineering, biomedicine, and the social sciences, releasing a structured knowledge base, benchmark suite, and training corpus as open resources. By demonstrating that the relationship between training data and model behaviour is structurally traceable and systematically repairable, this work establishes a principled foundation for the reliable engineering of human expertise into language models.

Programmeren met Data: Testgedreven Data-engineering voor Zelfverbeterende LLM's vanaf Ruwe Corpora

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Samenvatting

Support