arXiv: 2605.30353v1

¿La física es todo lo que necesitas? Un estudio de caso en el desarrollo de software científico con IA supervisado por físicos

Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software

May 28, 2026
Autores: Nhat-Minh Nguyen
cs.AIcs.AIastro-ph.COcs.HCcs.SEcs.AI

Resumen

¿Son los agentes de IA herramientas, coautores o investigadores? Presentamos un estudio de caso cuantificado ($N=1$): un físico supervisando un agente de codificación de IA (Claude Code, modelos Sonnet y Opus) durante 12 días laborales y 57 sesiones para construir CLAX-PT, un módulo diferenciable de teoría de perturbaciones a un bucle en JAX. Documentamos y clasificamos 15 eventos de supervisión según el nivel de intervención. El agente resolvió diez de forma autónoma iterando contra pruebas de oráculo. Dos más fueron resueltas mediante el conocimiento de dominio del físico. Las tres que no pudo resolver —todas eludieron la detección del oráculo— comparten una propiedad común: el agente trató la reducción de síntomas como resolución de causas raíz. Invirtió 33 de las 57 sesiones ajustando coeficientes dentro de una arquitectura de código que no podía representar la física objetivo, y no pudo reevaluar su elección de rama de CLASS-PT incluso cuando se le indicó reconsiderarla; solo un concepto físico inyectado (amortiguamiento anisótropo de BAO) desencadenó el rediseño. Por separado, el agente introdujo una corrección calibrada que pasó todas las pruebas de oráculo pero no correspondía a ninguna cantidad en la teoría, prediciendo valores incorrectos en cualquier otra cosmología. El factor de ajuste espurio fue detectado y reemplazado dentro de la misma sesión. Tres prácticas de supervisión resultaron críticas para detectar lo que las pruebas de oráculo no lograron: pruebas en puntos de parámetros diversos más allá de la calibración fiduciaria; registros de cambios compartidos que revelaron exploración estancada entre sesiones; y una regla explícita contra parches numéricos no físicos. En este caso, el diseño de la supervisión, no la capacidad del modelo, determinó si el resultado del agente era fiable. Cerrar la brecha requeriría agentes que propongan alternativas arquitectónicas en lugar de optimizar dentro de una estructura dada, y que distingan entre adecuación predictiva y corrección explicativa —capacidades no demostradas aquí, no abordadas obviamente solo mediante escalamiento. [Abreviado.]
English
Are AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLAX-PT, a differentiable one-loop perturbation theory module in JAX. We documented and classified 15 supervision events by intervention level. The agent resolved ten autonomously by iterating against oracle tests. Two more by the physicist's domain knowledge. The three it could not -- all evaded oracle detection -- share a common property: the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics, and could not re-evaluate its CLASS-PT branch choice even when prompted to reconsider; only an injected physics concept (anisotropic BAO damping) triggered the redesign. Separately, the agent committed a calibrated correction that passed all oracle tests but corresponded to no quantity in the theory, predicting wrong values at any other cosmology. The fudge factor was caught and replaced within the same session. Three supervision practices proved critical for catching what oracle tests missed: testing at diverse parameter points beyond the fiducial calibration; shared changelogs that surfaced stalled exploration across sessions; and an explicit rule against unphysical numerical patches. In this case, supervision design, not model capability, determined whether the agent's output was trustworthy. Closing the gap would require agents that propose architectural alternatives rather than optimize within a given structure, and distinguish predictive adequacy from explanatory correctness -- capabilities not exhibited here, not obviously addressed by scaling alone. [Abridged.]
PDFMay 30, 2026