Programmation avec les données : Ingénierie des données pilotée par les tests pour des LLM auto-améliorants à partir de corpus bruts

Résumé

Le transfert fiable de connaissances humaines spécialisées depuis des textes vers les grands modèles de langage demeure un défi fondamental en intelligence artificielle. L'affinage sur des corpus spécialisés a permis des gains substantiels de capacités, mais le processus opère sans rétroaction : lorsqu'un modèle échoue sur une tâche du domaine, aucune méthode ne permet de diagnostiquer les déficiences des données d'entraînement, et le seul recours est d'ajouter davantage de données de manière indiscriminée. Nous démontrons ici que lorsqu'une représentation structurée des connaissances extraite du corpus source sert de fondation commune aux données d'entraînement et à l'évaluation, le cycle de vie complet de l'ingénierie des données se mappe sur le cycle de développement logiciel de manière précise et opérationnelle : les données d'entraînement deviennent du code source spécifiant ce que le modèle doit apprendre, l'entraînement du modèle devient une compilation, l'évaluation comparative devient du test unitaire, et la correction des données guidée par les échecs devient du débogage. Selon cette correspondance, les échecs du modèle se décomposent en lacunes conceptuelles et en ruptures de chaînes de raisonnement qui peuvent être retracées jusqu'à des déficiences spécifiques dans les données et corrigées par des correctifs ciblés, chaque cycle de correction produisant des améliorations cohérentes quelle que soit l'échelle ou l'architecture du modèle, sans dégrader les capacités générales. Nous formalisons ce principe sous le nom de Programmation avec les Données et le matérialisons à travers seize disciplines couvrant les sciences naturelles, l'ingénierie, la biomédecine et les sciences sociales, en publiant une base de connaissances structurée, une suite d'évaluation et un corpus d'entraînement comme ressources libres. En démontrant que la relation entre les données d'entraînement et le comportement du modèle est structurellement traçable et systématiquement réparable, ce travail établit un fondement méthodique pour l'ingénierie fiable de l'expertise humaine dans les modèles de langage.

English

Reliably transferring specialized human knowledge from text into large language models remains a fundamental challenge in artificial intelligence. Fine-tuning on domain corpora has enabled substantial capability gains, but the process operates without feedback: when a model fails on a domain task, there is no method to diagnose what is deficient in the training data, and the only recourse is to add more data indiscriminately. Here we show that when a structured knowledge representation extracted from the source corpus serves as the shared foundation for both training data and evaluation, the complete data-engineering lifecycle maps onto the software development lifecycle in a precise and operative way: training data becomes source code specifying what the model should learn, model training becomes compilation, benchmarking becomes unit testing, and failure-driven data repair becomes debugging. Under this correspondence, model failures decompose into concept-level gaps and reasoning-chain breaks that can be traced back to specific deficiencies in the data and repaired through targeted patches, with each repair cycle producing consistent improvements across model scales and architectures without degrading general capabilities. We formalize this principle as Programming with Data and instantiate it across sixteen disciplines spanning the natural sciences, engineering, biomedicine, and the social sciences, releasing a structured knowledge base, benchmark suite, and training corpus as open resources. By demonstrating that the relationship between training data and model behaviour is structurally traceable and systematically repairable, this work establishes a principled foundation for the reliable engineering of human expertise into language models.

Programmation avec les données : Ingénierie des données pilotée par les tests pour des LLM auto-améliorants à partir de corpus bruts

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Résumé

Support