ArtifactNet: Rilevamento di musica generata da IA tramite fisica forense dei residui
ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics
April 17, 2026
Autori: Heewon Oh
cs.AI
Abstract
Presentiamo ArtifactNet, un framework leggero che rileva la musica generata da IA riformulando il problema come fisica forense, estraendo e analizzando gli artefatti fisici che i codec neurali audio imprimono inevitabilmente sull'audio generato. Una UNet con maschera limitata (ArtifactUNet, 3,6 milioni di parametri) estrae i residui del codec dagli spettrogrammi di magnitudine, che vengono poi scomposti tramite HPSS in caratteristiche forensi a 7 canali per la classificazione da parte di una CNN compatta (0,4 milioni di parametri; 4,0 milioni totali). Introduciamo ArtifactBench, un benchmark di valutazione multi-generatore che comprende 6.183 brani (4.383 generati da IA da 22 generatori e 1.800 reali da 6 fonti diverse). Ogni brano è etichettato con `bench_origin` per una valutazione zero-shot equa. Sulla partizione di test non vista (n=2.263), ArtifactNet raggiunge un F1 = 0,9829 con FPR = 1,49%, rispetto a CLAM (F1 = 0,7576, FPR = 69,26%) e SpecTTTra (F1 = 0,7713, FPR = 19,43%) valutati in condizioni identiche con checkpoint pubblicati. L'addestramento codec-aware (aumento dati 4-vie WAV/MP3/AAC/Opus) riduce ulteriormente la deriva probabilistica cross-codec dell'83% (Delta = 0,95 -> 0,16), risolvendo la principale modalità di fallimento dell'invarianza al codec. Questi risultati stabiliscono la fisica forense – l'estrazione diretta di artefatti a livello di codec – come un paradigma più generalizzabile ed efficiente in termini di parametri per il rilevamento della musica AI rispetto all'apprendimento di rappresentazioni, utilizzando 49x parametri in meno rispetto a CLAM e 4,8x in meno rispetto a SpecTTTra.
English
We present ArtifactNet, a lightweight framework that detects AI-generated music by reframing the problem as forensic physics -- extracting and analyzing the physical artifacts that neural audio codecs inevitably imprint on generated audio. A bounded-mask UNet (ArtifactUNet, 3.6M parameters) extracts codec residuals from magnitude spectrograms, which are then decomposed via HPSS into 7-channel forensic features for classification by a compact CNN (0.4M parameters; 4.0M total). We introduce ArtifactBench, a multi-generator evaluation benchmark comprising 6,183 tracks (4,383 AI from 22 generators and 1,800 real from 6 diverse sources). Each track is tagged with bench_origin for fair zero-shot evaluation. On the unseen test partition (n=2,263), ArtifactNet achieves F1 = 0.9829 with FPR = 1.49%, compared to CLAM (F1 = 0.7576, FPR = 69.26%) and SpecTTTra (F1 = 0.7713, FPR = 19.43%) evaluated under identical conditions with published checkpoints. Codec-aware training (4-way WAV/MP3/AAC/Opus augmentation) further reduces cross-codec probability drift by 83% (Delta = 0.95 -> 0.16), resolving the primary codec-invariance failure mode. These results establish forensic physics -- direct extraction of codec-level artifacts -- as a more generalizable and parameter-efficient paradigm for AI music detection than representation learning, using 49x fewer parameters than CLAM and 4.8x fewer than SpecTTTra.