Программирование с данными: Разработка инженерных решений для данных на основе тестирования для самообучающихся больших языковых моделей на основе необработанных корпусов
Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora
April 27, 2026
Авторы: Chenkai Pan, Xinglong Xu, Yuhang Xu, Yujun Wu, Siyuan Li, Jintao Chen, Conghui He, Jingxuan Wei, Cheng Tan
cs.AI
Аннотация
Надежная передача специализированных человеческих знаний из текста в большие языковые модели остается фундаментальной проблемой искусственного интеллекта. Дообучение на корпусах предметной области позволило достичь значительного прогресса в возможностях моделей, но этот процесс происходит без обратной связи: когда модель не справляется с задачей в предметной области, не существует метода диагностики недостатков в обучающих данных, и единственным решением является безразборное добавление большего объема данных. В данной работе мы показываем, что когда структурированное представление знаний, извлеченное из исходного корпуса, служит общей основой как для обучающих данных, так и для оценки, полный жизненный цикл работы с данными точно и оперативно отображается на жизненный цикл разработки программного обеспечения: обучающие данные становятся исходным кодом, определяющим, что должна изучить модель, обучение модели — компиляцией, тестирование — модульным тестированием, а исправление данных на основе ошибок — отладкой. В рамках этой аналогии сбои модели декомпозируются на пробелы на уровне концепций и разрывы в цепочках рассуждений, которые можно отследить до конкретных недостатков в данных и исправить с помощью целевых патчей. Каждый цикл исправления приводит к последовательному улучшению результатов across масштабам и архитектурам моделей без ухудшения общих способностей. Мы формализуем этот принцип как «Программирование с данными» и реализуем его на примере шестнадцати дисциплин, охватывающих естественные науки, инженерию, биомедицину и социальные науки, выпуская в качестве открытых ресурсов структурированную базу знаний, набор тестов и обучающий корпус. Продемонстрировав, что связь между обучающими данными и поведением модели является структурно отслеживаемой и систематически исправимой, данная работа закладывает принципиальную основу для надежного внедрения человеческого опыта в языковые модели.
English
Reliably transferring specialized human knowledge from text into large language models remains a fundamental challenge in artificial intelligence. Fine-tuning on domain corpora has enabled substantial capability gains, but the process operates without feedback: when a model fails on a domain task, there is no method to diagnose what is deficient in the training data, and the only recourse is to add more data indiscriminately. Here we show that when a structured knowledge representation extracted from the source corpus serves as the shared foundation for both training data and evaluation, the complete data-engineering lifecycle maps onto the software development lifecycle in a precise and operative way: training data becomes source code specifying what the model should learn, model training becomes compilation, benchmarking becomes unit testing, and failure-driven data repair becomes debugging. Under this correspondence, model failures decompose into concept-level gaps and reasoning-chain breaks that can be traced back to specific deficiencies in the data and repaired through targeted patches, with each repair cycle producing consistent improvements across model scales and architectures without degrading general capabilities. We formalize this principle as Programming with Data and instantiate it across sixteen disciplines spanning the natural sciences, engineering, biomedicine, and the social sciences, releasing a structured knowledge base, benchmark suite, and training corpus as open resources. By demonstrating that the relationship between training data and model behaviour is structurally traceable and systematically repairable, this work establishes a principled foundation for the reliable engineering of human expertise into language models.