arXiv: 2605.30353v1
Физика — это всё, что нужно? Пример разработки научного программного обеспечения с использованием ИИ под руководством физика
Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software
May 28, 2026
Авторы: Nhat-Minh Nguyen
cs.AIcs.AIastro-ph.COcs.HCcs.SEcs.AI
Аннотация
Являются ли ИИ-агенты инструментами, соавторами или исследователями? Мы представляем количественное тематическое исследование ($N=1$): физик, контролирующий ИИ-агента-кодировщика (Claude Code, модели Sonnet и Opus) в течение 12 рабочих дней и 57 сессий для создания CLAX-PT — модуля дифференцируемой однопетлевой теории возмущений в JAX. Мы задокументировали и классифицировали 15 событий контроля по уровню вмешательства. Агент автономно разрешил десять из них, выполняя итерации с использованием оракульных тестов. Еще два — благодаря предметным знаниям физика. Те три, с которыми он не справился (все они избежали обнаружения оракулом), обладают общим свойством: агент рассматривал уменьшение симптомов как устранение первопричины. Он потратил 33 из 57 сессий на подстройку коэффициентов в рамках архитектуры кода, которая не могла воспроизвести целевую физику, и не смог пересмотреть свой выбор ветви CLASS-PT даже после предложения пересмотреть его; только внедренная физическая концепция (анизотропное затухание BAO) вызвала редизайн. Кроме того, агент внес калиброванную поправку, которая прошла все оракульные тесты, но не соответствовала никакой величине в теории, предсказывая неверные значения для любой другой космологии. Подгоночный параметр был обнаружен и заменен в рамках той же сессии. Три практики контроля оказались критическими для выявления того, что пропускали оракульные тесты: тестирование в разнообразных точках параметров за пределами фидуциальной калибровки; общие журналы изменений, выявляющие застой в исследовании между сессиями; и явное правило против нефизических численных исправлений. В этом случае именно дизайн контроля, а не возможности модели, определял, заслуживает ли доверия результат работы агента. Для преодоления этого разрыва потребуются агенты, которые будут предлагать архитектурные альтернативы, а не оптимизировать в рамках заданной структуры, и различать предсказательную адекватность и объяснительную корректность — способности, не продемонстрированные здесь и явно не решаемые одним лишь масштабированием. [Сокращено.]
English
Are AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLAX-PT, a differentiable one-loop perturbation theory module in JAX. We documented and classified 15 supervision events by intervention level. The agent resolved ten autonomously by iterating against oracle tests. Two more by the physicist's domain knowledge. The three it could not -- all evaded oracle detection -- share a common property: the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics, and could not re-evaluate its CLASS-PT branch choice even when prompted to reconsider; only an injected physics concept (anisotropic BAO damping) triggered the redesign. Separately, the agent committed a calibrated correction that passed all oracle tests but corresponded to no quantity in the theory, predicting wrong values at any other cosmology. The fudge factor was caught and replaced within the same session. Three supervision practices proved critical for catching what oracle tests missed: testing at diverse parameter points beyond the fiducial calibration; shared changelogs that surfaced stalled exploration across sessions; and an explicit rule against unphysical numerical patches. In this case, supervision design, not model capability, determined whether the agent's output was trustworthy. Closing the gap would require agents that propose architectural alternatives rather than optimize within a given structure, and distinguish predictive adequacy from explanatory correctness -- capabilities not exhibited here, not obviously addressed by scaling alone. [Abridged.]