Programação com Dados: Engenharia de Dados Orientada a Testes para LLMs de Autoaprimoramento a partir de Corpora Brutos

Resumo

A transferência confiável de conhecimento humano especializado a partir de texto para grandes modelos de linguagem continua sendo um desafio fundamental na inteligência artificial. O ajuste fino em corpora de domínio permitiu ganhos substanciais de capacidade, mas o processo opera sem feedback: quando um modelo falha em uma tarefa de domínio, não há um método para diagnosticar o que é deficiente nos dados de treinamento, e o único recurso é adicionar mais dados indiscriminadamente. Aqui demonstramos que, quando uma representação de conhecimento estruturada extraída do corpus fonte serve como base compartilhada para dados de treinamento e avaliação, o ciclo de vida completo da engenharia de dados mapeia-se no ciclo de vida de desenvolvimento de software de forma precisa e operativa: os dados de treinamento tornam-se código fonte especificando o que o modelo deve aprender, o treinamento do modelo torna-se compilação, a avaliação comparativa (benchmarking) torna-se teste unitário, e o reparo de dados orientado a falhas torna-se depuração (debugging). Sob esta correspondência, as falhas do modelo decompõem-se em lacunas a nível conceitual e quebras na cadeia de raciocínio que podem ser rastreadas até deficiências específicas nos dados e reparadas por meio de correções direcionadas, com cada ciclo de reparo produzindo melhorias consistentes em diferentes escalas e arquiteturas de modelos sem degradar capacidades gerais. Formalizamos este princípio como Programação com Dados e o instanciamos em dezesseis disciplinas abrangendo as ciências naturais, engenharia, biomedicina e as ciências sociais, disponibilizando uma base de conhecimento estruturado, um conjunto de testes de avaliação (benchmark suite) e um corpus de treinamento como recursos abertos. Ao demonstrar que a relação entre dados de treinamento e comportamento do modelo é estruturalmente rastreável e sistematicamente reparável, este trabalho estabelece uma base fundamentada para a engenharia confiável de expertise humana em modelos de linguagem.

English

Reliably transferring specialized human knowledge from text into large language models remains a fundamental challenge in artificial intelligence. Fine-tuning on domain corpora has enabled substantial capability gains, but the process operates without feedback: when a model fails on a domain task, there is no method to diagnose what is deficient in the training data, and the only recourse is to add more data indiscriminately. Here we show that when a structured knowledge representation extracted from the source corpus serves as the shared foundation for both training data and evaluation, the complete data-engineering lifecycle maps onto the software development lifecycle in a precise and operative way: training data becomes source code specifying what the model should learn, model training becomes compilation, benchmarking becomes unit testing, and failure-driven data repair becomes debugging. Under this correspondence, model failures decompose into concept-level gaps and reasoning-chain breaks that can be traced back to specific deficiencies in the data and repaired through targeted patches, with each repair cycle producing consistent improvements across model scales and architectures without degrading general capabilities. We formalize this principle as Programming with Data and instantiate it across sixteen disciplines spanning the natural sciences, engineering, biomedicine, and the social sciences, releasing a structured knowledge base, benchmark suite, and training corpus as open resources. By demonstrating that the relationship between training data and model behaviour is structurally traceable and systematically repairable, this work establishes a principled foundation for the reliable engineering of human expertise into language models.

Programação com Dados: Engenharia de Dados Orientada a Testes para LLMs de Autoaprimoramento a partir de Corpora Brutos

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Resumo

Support