Programación con Datos: Ingeniería de Datos Guiada por Pruebas para LLMs de Mejora Automática a partir de Corpus en Bruto

Resumen

La transferencia fiable de conocimiento humano especializado desde el texto a los modelos de lenguaje grandes sigue siendo un desafío fundamental en la inteligencia artificial. El ajuste fino en corpus de dominio ha permitido ganancias sustanciales de capacidad, pero el proceso opera sin retroalimentación: cuando un modelo falla en una tarea de dominio, no existe un método para diagnosticar qué es deficiente en los datos de entrenamiento, y el único recurso es añadir más datos de manera indiscriminada. Aquí demostramos que cuando una representación de conocimiento estructurado extraída del corpus fuente sirve como base compartida tanto para los datos de entrenamiento como para la evaluación, el ciclo de vida completo de la ingeniería de datos se asigna al ciclo de vida del desarrollo de software de una manera precisa y operativa: los datos de entrenamiento se convierten en código fuente que especifica lo que el modelo debe aprender, el entrenamiento del modelo se convierte en compilación, la evaluación comparativa se convierte en pruebas unitarias, y la reparación de datos impulsada por fallos se convierte en depuración. Bajo esta correspondencia, los fallos del modelo se descomponen en lagunas a nivel conceptual y rupturas en la cadena de razonamiento que pueden rastrearse hasta deficiencias específicas en los datos y repararse mediante parches específicos, con cada ciclo de reparación produciendo mejoras consistentes en todas las escalas y arquitecturas de modelos sin degradar las capacidades generales. Formalizamos este principio como Programación con Datos y lo instanciamos en dieciséis disciplinas que abarcan las ciencias naturales, la ingeniería, la biomedicina y las ciencias sociales, liberando una base de conocimiento estructurado, un conjunto de pruebas de evaluación y un corpus de entrenamiento como recursos abiertos. Al demostrar que la relación entre los datos de entrenamiento y el comportamiento del modelo es estructuralmente rastreable y sistemáticamente reparable, este trabajo establece una base fundamentada para la ingeniería fiable de la experiencia humana en los modelos de lenguaje.

English

Reliably transferring specialized human knowledge from text into large language models remains a fundamental challenge in artificial intelligence. Fine-tuning on domain corpora has enabled substantial capability gains, but the process operates without feedback: when a model fails on a domain task, there is no method to diagnose what is deficient in the training data, and the only recourse is to add more data indiscriminately. Here we show that when a structured knowledge representation extracted from the source corpus serves as the shared foundation for both training data and evaluation, the complete data-engineering lifecycle maps onto the software development lifecycle in a precise and operative way: training data becomes source code specifying what the model should learn, model training becomes compilation, benchmarking becomes unit testing, and failure-driven data repair becomes debugging. Under this correspondence, model failures decompose into concept-level gaps and reasoning-chain breaks that can be traced back to specific deficiencies in the data and repaired through targeted patches, with each repair cycle producing consistent improvements across model scales and architectures without degrading general capabilities. We formalize this principle as Programming with Data and instantiate it across sixteen disciplines spanning the natural sciences, engineering, biomedicine, and the social sciences, releasing a structured knowledge base, benchmark suite, and training corpus as open resources. By demonstrating that the relationship between training data and model behaviour is structurally traceable and systematically repairable, this work establishes a principled foundation for the reliable engineering of human expertise into language models.

Programación con Datos: Ingeniería de Datos Guiada por Pruebas para LLMs de Mejora Automática a partir de Corpus en Bruto

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Resumen

Support