arXiv: 2605.30353v1

물리학만 있으면 되는가? 물리학자 감독 하의 과학 소프트웨어 AI 개발 사례 연구

Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software

May 28, 2026
저자: Nhat-Minh Nguyen
cs.AIcs.AIastro-ph.COcs.HCcs.SEcs.AI

초록

AI 에이전트는 도구인가, 공동 저자인가, 연구자인가? 본 연구는 정량적 사례 연구($N=1$)를 제시한다: 한 물리학자가 12일간의 작업과 57회의 세션 동안 AI 코딩 에이전트(Claude Code, Sonnet 및 Opus 모델)를 감독하여 미분 가능한 1-루프 섭동 이론 모듈인 CLAX-PT를 JAX로 구축했다. 감독 사건 15건을 개입 수준별로 문서화하고 분류했다. 에이전트는 오라클 테스트에 반복적으로 대응하여 10건을 자율적으로 해결했다. 추가로 2건은 물리학자의 도메인 지식으로 해결했다. 해결하지 못한 3건(모두 오라클 탐지를 회피함)은 공통된 특성을 공유했다: 에이전트가 증상 완화를 근본 원인 해결로 간주한 것이다. 에이전트는 목표 물리학을 표현할 수 없는 코드 아키텍처 내에서 계수를 조정하는 데 57회의 세션 중 33회를 소비했으며, 재고를 요청받았음에도 CLASS-PT 분기 선택을 재평가하지 못했다; 주입된 물리학 개념(이방성 BAO 감쇠)만이 재설계를 촉발했다. 별도로, 에이전트는 모든 오라클 테스트를 통과했지만 이론상의 어떤 양에도 해당하지 않는 보정을 적용했으며, 다른 우주론에서는 잘못된 값을 예측했다. 이 임시방편 보정 인자는 동일한 세션 내에서 발견되어 대체되었다. 오라클 테스트가 놓친 것을 발견하는 데 세 가지 감독 관행이 중요했다: 기준 교정을 넘어선 다양한 매개변수 지점에서의 테스트; 세션 간에 정체된 탐색을 드러내는 공유 변경 로그; 비물리적인 수치 패치에 대한 명시적 금지 규칙. 이 사례에서, 에이전트 출력의 신뢰성을 결정한 것은 모델 능력이 아닌 감독 설계였다. 이러한 격차를 해소하려면 에이전트가 주어진 구조 내에서 최적화하는 대신 아키텍처 대안을 제안하고, 예측적 적합성과 설명적 정확성을 구분할 수 있어야 한다. 이는 여기서 입증되지 않은 능력이며, 단순한 규모 확장만으로는 명확히 해결되지 않는다. [요약.]
English
Are AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLAX-PT, a differentiable one-loop perturbation theory module in JAX. We documented and classified 15 supervision events by intervention level. The agent resolved ten autonomously by iterating against oracle tests. Two more by the physicist's domain knowledge. The three it could not -- all evaded oracle detection -- share a common property: the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics, and could not re-evaluate its CLASS-PT branch choice even when prompted to reconsider; only an injected physics concept (anisotropic BAO damping) triggered the redesign. Separately, the agent committed a calibrated correction that passed all oracle tests but corresponded to no quantity in the theory, predicting wrong values at any other cosmology. The fudge factor was caught and replaced within the same session. Three supervision practices proved critical for catching what oracle tests missed: testing at diverse parameter points beyond the fiducial calibration; shared changelogs that surfaced stalled exploration across sessions; and an explicit rule against unphysical numerical patches. In this case, supervision design, not model capability, determined whether the agent's output was trustworthy. Closing the gap would require agents that propose architectural alternatives rather than optimize within a given structure, and distinguish predictive adequacy from explanatory correctness -- capabilities not exhibited here, not obviously addressed by scaling alone. [Abridged.]
PDFMay 30, 2026