arXiv: 2605.30353v1

物理学だけで十分か?——物理学者監修のAIによる科学ソフトウェア開発の事例研究

Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software

May 28, 2026
著者: Nhat-Minh Nguyen
cs.AIcs.AIastro-ph.COcs.HCcs.SEcs.AI

要旨

AIエージェントは道具か、共著者か、それとも研究者か?本稿では、定量化された事例研究(N=1)を提示する:物理学者が12勤務日・57セッションにわたり、AIコーディングエージェント(Claude Code、SonnetおよびOpusモデル)を監督し、JAXにおける微分可能なワンループ摂動論モジュールであるCLAX-PTを構築した。我々は15件の監督イベントを介入レベル別に文書化・分類した。エージェントはそのうち10件を、オラクルテストに対する反復により自律的に解決した。さらに2件は物理学者のドメイン知識により解決した。解決できなかった3件(いずれもオラクル検出を回避したもの)には共通する特性があった:エージェントが症状の軽減を根本原因の解決とみなしたことである。対象物理を表現できないコードアーキテクチャ内で係数を調整することに57セッション中33セッションを費やし、再考を促されてもCLASS-PTブランチの選択を再評価できなかった。設計変更を引き起こしたのは、注入された物理概念(異方性BAO減衰)のみであった。別途、エージェントはすべてのオラクルテストに合格した補正を適用したが、それは理論上のいかなる量にも対応せず、他の宇宙論では誤った値を予測するものだった。この調整因子は、同一セッション内で発見・置き換えられた。オラクルテストが見逃すものを捕捉する上で決定的に重要だったのは、以下の3つの監督実践である:基準較正を超えた多様なパラメータ点でのテスト、セッション間での探索停滞を表面化する共有変更ログ、非物理的な数値パッチに対する明示的な禁止ルール。本ケースでは、モデル能力ではなく監督設計が、エージェントの出力の信頼性を決定した。このギャップを埋めるには、所与の構造内で最適化するのではなくアーキテクチャの代替案を提案するエージェントと、予測的妥当性と説明的正しさを区別するエージェントが必要となる。これらの能力は本稿では示されておらず、単なるスケーリングでは明らかに扱われない。[要約省略]
English
Are AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLAX-PT, a differentiable one-loop perturbation theory module in JAX. We documented and classified 15 supervision events by intervention level. The agent resolved ten autonomously by iterating against oracle tests. Two more by the physicist's domain knowledge. The three it could not -- all evaded oracle detection -- share a common property: the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics, and could not re-evaluate its CLASS-PT branch choice even when prompted to reconsider; only an injected physics concept (anisotropic BAO damping) triggered the redesign. Separately, the agent committed a calibrated correction that passed all oracle tests but corresponded to no quantity in the theory, predicting wrong values at any other cosmology. The fudge factor was caught and replaced within the same session. Three supervision practices proved critical for catching what oracle tests missed: testing at diverse parameter points beyond the fiducial calibration; shared changelogs that surfaced stalled exploration across sessions; and an explicit rule against unphysical numerical patches. In this case, supervision design, not model capability, determined whether the agent's output was trustworthy. Closing the gap would require agents that propose architectural alternatives rather than optimize within a given structure, and distinguish predictive adequacy from explanatory correctness -- capabilities not exhibited here, not obviously addressed by scaling alone. [Abridged.]
PDFMay 30, 2026