データを用いたプログラミング:生コーパスからの自己改善型大規模言語モデルのためのテスト駆動データエンジニアリング
Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora
April 27, 2026
著者: Chenkai Pan, Xinglong Xu, Yuhang Xu, Yujun Wu, Siyuan Li, Jintao Chen, Conghui He, Jingxuan Wei, Cheng Tan
cs.AI
要旨
専門的な人間の知識をテキストから大規模言語モデルへ確実に移行することは、人工知能における根本的な課題であり続けている。ドメインコーパスによるファインチューニングは能力向上をもたらすが、このプロセスはフィードバックなく進行する:モデルがドメイン課題で失敗した際、学習データの何が不足しているかを診断する方法がなく、無差別にデータを追加することしか手段がない。本研究では、ソースコーパスから抽出された構造化知識表現が学習データと評価の共通基盤として機能する場合、データエンジニアリングの完全なライフサイクルがソフトウェア開発ライフサイクルに精密かつ実用的に対応することを示す:学習データはモデルが学ぶべき仕様を定義するソースコードとなり、モデル学習はコンパイルに、ベンチマーキングは単体テストに、失敗駆動型データ修正はデバッグに対応する。この対応関係の下では、モデルの失敗は概念レベルの欠落と推論連鎖の断絶に分解され、データの特定の欠陥まで遡って追跡可能となり、標的を絞った修正パッチによって修復できる。各修正サイクルは、一般的な能力を低下させることなく、モデル規模やアーキテクチャを超えた一貫した改善を生み出す。我々はこの原理を「データによるプログラミング」として形式化し、自然科学、工学、生物医学、社会科学にわたる16の分野で実証し、構造化知識ベース、ベンチマークスイート、学習コーパスをオープンリソースとして公開する。学習データとモデル挙動の関係が構造的に追跡可能で体系的に修復可能であることを実証することで、本研究成果は人間の専門知識を言語モデルに確実に組み込むための原理的な基盤を確立する。
English
Reliably transferring specialized human knowledge from text into large language models remains a fundamental challenge in artificial intelligence. Fine-tuning on domain corpora has enabled substantial capability gains, but the process operates without feedback: when a model fails on a domain task, there is no method to diagnose what is deficient in the training data, and the only recourse is to add more data indiscriminately. Here we show that when a structured knowledge representation extracted from the source corpus serves as the shared foundation for both training data and evaluation, the complete data-engineering lifecycle maps onto the software development lifecycle in a precise and operative way: training data becomes source code specifying what the model should learn, model training becomes compilation, benchmarking becomes unit testing, and failure-driven data repair becomes debugging. Under this correspondence, model failures decompose into concept-level gaps and reasoning-chain breaks that can be traced back to specific deficiencies in the data and repaired through targeted patches, with each repair cycle producing consistent improvements across model scales and architectures without degrading general capabilities. We formalize this principle as Programming with Data and instantiate it across sixteen disciplines spanning the natural sciences, engineering, biomedicine, and the social sciences, releasing a structured knowledge base, benchmark suite, and training corpus as open resources. By demonstrating that the relationship between training data and model behaviour is structurally traceable and systematically repairable, this work establishes a principled foundation for the reliable engineering of human expertise into language models.