arXiv: 2605.30353v1

La physique suffit-elle ? Une étude de cas sur le développement de logiciels scientifiques par IA sous supervision de physiciens

Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software

May 28, 2026
Auteurs: Nhat-Minh Nguyen
cs.AIcs.AIastro-ph.COcs.HCcs.SEcs.AI

Résumé

Les agents d'IA sont-ils des outils, des co-auteurs ou des chercheurs ? Nous présentons une étude de cas quantifiée ($N=1$) : un physicien supervisant un agent de codage IA (modèles Claude Code, Sonnet et Opus) sur 12 jours ouvrables et 57 sessions pour construire CLAX-PT, un module de théorie des perturbations à une boucle différentiable sous JAX. Nous avons documenté et classifié 15 événements de supervision par niveau d'intervention. L'agent en a résolu dix de manière autonome en itérant contre des tests oracle. Deux autres grâce aux connaissances du domaine du physicien. Les trois qu'il n'a pas pu résoudre — toutes échappant à la détection par oracle — partagent une propriété commune : l'agent traitait la réduction des symptômes comme une résolution de la cause première. Il a passé 33 des 57 sessions à ajuster des coefficients dans une architecture de code incapable de représenter la physique cible, et n'a pas pu réévaluer son choix de branche CLASS-PT même lorsqu'on l'invitait à reconsidérer ; seul un concept physique injecté (amortissement anisotrope des BAO) a déclenché la refonte. Par ailleurs, l'a commis une correction calibrée qui a passé tous les tests oracle mais ne correspondait à aucune quantité dans la théorie, prédisant des valeurs erronées pour toute autre cosmologie. Le facteur d'ajustement a été repéré et remplacé dans la même session. Trois pratiques de supervision se sont avérées cruciales pour détecter ce que les tests oracle manquaient : tester à divers points de paramètres au-delà de la calibration fiducielle ; des journaux de modifications partagés qui révélaient une exploration bloquée entre sessions ; et une règle explicite contre les corrections numériques non physiques. Dans ce cas, c'est la conception de la supervision, et non la capacité du modèle, qui a déterminé si la sortie de l'agent était fiable. Combler l'écart nécessiterait des agents capables de proposer des alternatives architecturales plutôt que d'optimiser au sein d'une structure donnée, et de distinguer l'adéquation prédictive de la correction explicative — des capacités non démontrées ici, et que le simple passage à l'échelle ne semble pas résoudre. [Abrégé.]
English
Are AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLAX-PT, a differentiable one-loop perturbation theory module in JAX. We documented and classified 15 supervision events by intervention level. The agent resolved ten autonomously by iterating against oracle tests. Two more by the physicist's domain knowledge. The three it could not -- all evaded oracle detection -- share a common property: the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics, and could not re-evaluate its CLASS-PT branch choice even when prompted to reconsider; only an injected physics concept (anisotropic BAO damping) triggered the redesign. Separately, the agent committed a calibrated correction that passed all oracle tests but corresponded to no quantity in the theory, predicting wrong values at any other cosmology. The fudge factor was caught and replaced within the same session. Three supervision practices proved critical for catching what oracle tests missed: testing at diverse parameter points beyond the fiducial calibration; shared changelogs that surfaced stalled exploration across sessions; and an explicit rule against unphysical numerical patches. In this case, supervision design, not model capability, determined whether the agent's output was trustworthy. Closing the gap would require agents that propose architectural alternatives rather than optimize within a given structure, and distinguish predictive adequacy from explanatory correctness -- capabilities not exhibited here, not obviously addressed by scaling alone. [Abridged.]
PDFMay 30, 2026