Programmazione con i Dati: Ingegneria dei Dati Guidata dai Test per LLM Auto-Miglioranti a Partire da Corpora Grezzi

Abstract

Il trasferimento affidabile di conoscenze umane specializzate dal testo ai grandi modelli linguistici rimane una sfida fondamentale nell'intelligenza artificiale. Il fine-tuning su corpora di dominio ha consentito guadagni sostanziali nelle capacità, ma il processo opera senza feedback: quando un modello fallisce in un compito di dominio, non esiste un metodo per diagnosticare cosa sia carente nei dati di addestramento, e l'unica soluzione è aggiungere indiscriminatamente più dati. Qui dimostriamo che quando una rappresentazione strutturata della conoscenza estratta dal corpus sorgente funge da fondamento condiviso sia per i dati di addestramento che per la valutazione, l'intero ciclo di vita dell'ingegneria dei dati si mappa sul ciclo di vita dello sviluppo software in modo preciso e operativo: i dati di addestramento diventano codice sorgente che specifica cosa il modello dovrebbe apprendere, l'addestramento del modello diventa compilazione, il benchmarking diventa testing unitario, e la riparazione guidata dagli errori dei dati diventa debug. In base a questa corrispondenza, i fallimenti del modello si scompongono in lacune a livello concettuale e interruzioni della catena di ragionamento che possono essere ricondotte a carenze specifiche nei dati e riparate tramite patch mirate, con ogni ciclo di riparazione che produce miglioramenti consistenti attraverso scale e architetture di modello senza degradare le capacità generali. Formalizziamo questo principio come Programmazione con i Dati e lo istanziamo in sedici discipline che spaziano dalle scienze naturali, all'ingegneria, alla biomedicina e alle scienze sociali, rilasciando come risorse aperte una base di conoscenza strutturata, una suite di benchmark e un corpus di addestramento. Dimostrando che la relazione tra dati di addestramento e comportamento del modello è strutturalmente tracciabile e sistematicamente riparabile, questo lavoro stabilisce una base principiata per l'ingegnerizzazione affidabile dell'esperienza umana nei modelli linguistici.

English

Reliably transferring specialized human knowledge from text into large language models remains a fundamental challenge in artificial intelligence. Fine-tuning on domain corpora has enabled substantial capability gains, but the process operates without feedback: when a model fails on a domain task, there is no method to diagnose what is deficient in the training data, and the only recourse is to add more data indiscriminately. Here we show that when a structured knowledge representation extracted from the source corpus serves as the shared foundation for both training data and evaluation, the complete data-engineering lifecycle maps onto the software development lifecycle in a precise and operative way: training data becomes source code specifying what the model should learn, model training becomes compilation, benchmarking becomes unit testing, and failure-driven data repair becomes debugging. Under this correspondence, model failures decompose into concept-level gaps and reasoning-chain breaks that can be traced back to specific deficiencies in the data and repaired through targeted patches, with each repair cycle producing consistent improvements across model scales and architectures without degrading general capabilities. We formalize this principle as Programming with Data and instantiate it across sixteen disciplines spanning the natural sciences, engineering, biomedicine, and the social sciences, releasing a structured knowledge base, benchmark suite, and training corpus as open resources. By demonstrating that the relationship between training data and model behaviour is structurally traceable and systematically repairable, this work establishes a principled foundation for the reliable engineering of human expertise into language models.

Programmazione con i Dati: Ingegneria dei Dati Guidata dai Test per LLM Auto-Miglioranti a Partire da Corpora Grezzi

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Abstract

Support