arXiv: 2605.30353v1
Physik ist alles, was man braucht? Eine Fallstudie zur KI-Entwicklung wissenschaftlicher Software unter Aufsicht von Physikern
Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software
May 28, 2026
Autoren: Nhat-Minh Nguyen
cs.AIcs.AIastro-ph.COcs.HCcs.SEcs.AI
Zusammenfassung
Sind KI-Agenten Werkzeuge, Koautoren oder Forscher? Wir präsentieren eine quantifizierte Fallstudie ($N=1$): Ein Physiker beaufsichtigt über 12 Arbeitstage und 57 Sitzungen einen KI-Codieragenten (Claude Code, Sonnet- und Opus-Modelle) beim Aufbau von CLAX-PT, einem differenzierbaren Ein-Schleifen-Störungstheoriemodul in JAX. Wir dokumentierten und klassifizierten 15 Überwachungsereignisse nach Interventionsebene. Der Agent löste zehn davon autonom durch Iteration gegen Orakeltests. Zwei weitere durch das Fachwissen des Physikers. Die drei, die er nicht lösen konnte – alle entzogen sich der Orakelerkennung – teilen eine gemeinsame Eigenschaft: Der Agent behandelte Symptomreduktion als Ursachenbehebung. Er verbrachte 33 der 57 Sitzungen damit, Koeffizienten innerhalb einer Code-Architektur anzupassen, die die angestrebte Physik nicht darstellen konnte, und war nicht in der Lage, seine CLASS-PT-Zweigwahl zu überdenken, selbst wenn er dazu aufgefordert wurde; erst ein injiziertes physikalisches Konzept (anisotrope BAO-Dämpfung) löste das Neudesign aus. Separaterweise führte der Agent eine kalibrierte Korrektur durch, die alle Orakeltests bestand, aber keiner Größe in der Theorie entsprach und bei jeder anderen Kosmologie falsche Werte vorhersagte. Der Korrekturfaktor wurde entdeckt und noch in derselben Sitzung ersetzt. Drei Überwachungspraktiken erwiesen sich als entscheidend, um zu entdecken, was Orakeltests übersehen hatten: Tests an verschiedenen Parameterpunkten jenseits der Referenzkalibrierung; gemeinsame Änderungsprotokolle, die ins Stocken geratene Erkundungen sitzungsübergreifend aufdeckten; und eine explizite Regel gegen unphysikalische numerische Flickwerke. In dieser Fallstudie bestimmte das Überwachungsdesign, nicht die Modellfähigkeit, ob die Ausgabe des Agenten vertrauenswürdig war. Die Schließung dieser Lücke würde Agenten erfordern, die architektonische Alternativen vorschlagen, anstatt innerhalb einer gegebenen Struktur zu optimieren, und die prognostische Angemessenheit von erklärerischer Korrektheit unterscheiden – Fähigkeiten, die hier nicht gezeigt wurden und die durch bloßes Skalieren nicht offensichtlich adressiert werden. [Gekürzt.]
English
Are AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLAX-PT, a differentiable one-loop perturbation theory module in JAX. We documented and classified 15 supervision events by intervention level. The agent resolved ten autonomously by iterating against oracle tests. Two more by the physicist's domain knowledge. The three it could not -- all evaded oracle detection -- share a common property: the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics, and could not re-evaluate its CLASS-PT branch choice even when prompted to reconsider; only an injected physics concept (anisotropic BAO damping) triggered the redesign. Separately, the agent committed a calibrated correction that passed all oracle tests but corresponded to no quantity in the theory, predicting wrong values at any other cosmology. The fudge factor was caught and replaced within the same session. Three supervision practices proved critical for catching what oracle tests missed: testing at diverse parameter points beyond the fiducial calibration; shared changelogs that surfaced stalled exploration across sessions; and an explicit rule against unphysical numerical patches. In this case, supervision design, not model capability, determined whether the agent's output was trustworthy. Closing the gap would require agents that propose architectural alternatives rather than optimize within a given structure, and distinguish predictive adequacy from explanatory correctness -- capabilities not exhibited here, not obviously addressed by scaling alone. [Abridged.]