Programmieren mit Daten: Testgetriebene Datenverarbeitung für selbstverbessernde LLMs aus Rohkorpora

Zusammenfassung

Die zuverlässige Übertragung spezialisierten menschlichen Wissens aus Text in große Sprachmodelle bleibt eine grundlegende Herausforderung der künstlichen Intelligenz. Feinabstimmung auf Fachkorpora hat zwar erhebliche Leistungssteigerungen ermöglicht, doch der Prozess erfolgt ohne Feedback: Wenn ein Modell bei einer Fachaufgabe versagt, gibt es keine Methode, um Mängel in den Trainingsdaten zu diagnostizieren, und der einzige Ausweg ist die wahllose Hinzufügung weiterer Daten. Hier zeigen wir, dass eine aus dem Quellkorpus extrahierte strukturierte Wissensrepräsentation als gemeinsame Grundlage für Trainingsdaten und Evaluation den vollständigen Data-Engineering-Lebenszyklus auf präzise und operative Weise auf den Software-Entwicklungslebenszyklus abbildet: Trainingsdaten werden zum Quellcode, der spezifiziert, was das Modell lernen soll, Modelltraining wird zur Kompilierung, Benchmarking wird zum Unit-Testing und fehlergetriebene Datenreparatur wird zum Debugging. Entsprechend dieser Analogie lassen sich Modellfehler auf konzeptuelle Lücken und Unterbrechungen in der Schlussfolgerungskette zurückführen, die sich auf spezifische Datenmängel zurückverfolgen und durch gezielte Patches beheben lassen. Jeder Reparaturzyklus führt dabei zu konsistenten Verbesserungen über verschiedene Modellgrößen und -architekturen hinweg, ohne allgemeine Fähigkeiten zu beeinträchtigen. Wir formalisieren dieses Prinzip als "Programmieren mit Daten" und implementieren es in sechzehn Disziplinen der Naturwissenschaften, Technik, Biomedizin und Sozialwissenschaften, wobei wir eine strukturierte Wissensbasis, einen Benchmark-Suite und einen Trainingskorpus als Open Resources veröffentlichen. Indem wir zeigen, dass die Beziehung zwischen Trainingsdaten und Modellverhalten strukturell nachvollziehbar und systematisch reparierbar ist, legt diese Arbeit eine prinzipiengeleitete Grundlage für die zuverlässige Integration menschlicher Expertise in Sprachmodelle.

English

Reliably transferring specialized human knowledge from text into large language models remains a fundamental challenge in artificial intelligence. Fine-tuning on domain corpora has enabled substantial capability gains, but the process operates without feedback: when a model fails on a domain task, there is no method to diagnose what is deficient in the training data, and the only recourse is to add more data indiscriminately. Here we show that when a structured knowledge representation extracted from the source corpus serves as the shared foundation for both training data and evaluation, the complete data-engineering lifecycle maps onto the software development lifecycle in a precise and operative way: training data becomes source code specifying what the model should learn, model training becomes compilation, benchmarking becomes unit testing, and failure-driven data repair becomes debugging. Under this correspondence, model failures decompose into concept-level gaps and reasoning-chain breaks that can be traced back to specific deficiencies in the data and repaired through targeted patches, with each repair cycle producing consistent improvements across model scales and architectures without degrading general capabilities. We formalize this principle as Programming with Data and instantiate it across sixteen disciplines spanning the natural sciences, engineering, biomedicine, and the social sciences, releasing a structured knowledge base, benchmark suite, and training corpus as open resources. By demonstrating that the relationship between training data and model behaviour is structurally traceable and systematically repairable, this work establishes a principled foundation for the reliable engineering of human expertise into language models.

Programmieren mit Daten: Testgetriebene Datenverarbeitung für selbstverbessernde LLMs aus Rohkorpora

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Zusammenfassung

Support