ArtifactNet: Detectie van AI-gegenereerde muziek via forensische fysische residuen

Samenvatting

Wij presenteren ArtifactNet, een lichtgewicht raamwerk dat door AI gegenereerde muziek detecteert door het probleem te herformuleren als forensische fysica – het extraheren en analyseren van de fysieke artefacten die neurale audiocodecs onvermijdelijk afdrukken op gegenereerde audio. Een bounded-mask UNet (ArtifactUNet, 3.6M parameters) extraheert codec-residualen uit magnitude spectrogrammen, die vervolgens via HPSS worden ontbonden in 7-kanaals forensische kenmerken voor classificatie door een compacte CNN (0.4M parameters; 4.0M totaal). Wij introduceren ArtifactBench, een multi-generator evaluatiebenchmark bestaande uit 6.183 nummers (4.383 AI van 22 generators en 1.800 echt van 6 diverse bronnen). Elk nummer is getagged met `bench_origin` voor een eerlijke zero-shot evaluatie. Op de onzichtbare testpartitie (n=2.263) behaalt ArtifactNet een F1 = 0.9829 met FPR = 1.49%, vergeleken met CLAM (F1 = 0.7576, FPR = 69.26%) en SpecTTTra (F1 = 0.7713, FPR = 19.43%) geëvalueerd onder identieke condities met gepubliceerde checkpoints. Codec-aware training (4-weg WAV/MP3/AAC/Opus augmentatie) reduceert de kruis-codec waarschijnlijkheidsdrift verder met 83% (Delta = 0.95 -> 0.16), waardoor de primaire codec-invariantie foutmodus wordt opgelost. Deze resultaten vestigen forensische fysica – directe extractie van codec-niveau artefacten – als een meer generaliseerbaar en parameter-efficiënt paradigma voor AI-muziekdetectie dan representation learning, met 49x minder parameters dan CLAM en 4.8x minder dan SpecTTTra.

English

We present ArtifactNet, a lightweight framework that detects AI-generated music by reframing the problem as forensic physics -- extracting and analyzing the physical artifacts that neural audio codecs inevitably imprint on generated audio. A bounded-mask UNet (ArtifactUNet, 3.6M parameters) extracts codec residuals from magnitude spectrograms, which are then decomposed via HPSS into 7-channel forensic features for classification by a compact CNN (0.4M parameters; 4.0M total). We introduce ArtifactBench, a multi-generator evaluation benchmark comprising 6,183 tracks (4,383 AI from 22 generators and 1,800 real from 6 diverse sources). Each track is tagged with bench_origin for fair zero-shot evaluation. On the unseen test partition (n=2,263), ArtifactNet achieves F1 = 0.9829 with FPR = 1.49%, compared to CLAM (F1 = 0.7576, FPR = 69.26%) and SpecTTTra (F1 = 0.7713, FPR = 19.43%) evaluated under identical conditions with published checkpoints. Codec-aware training (4-way WAV/MP3/AAC/Opus augmentation) further reduces cross-codec probability drift by 83% (Delta = 0.95 -> 0.16), resolving the primary codec-invariance failure mode. These results establish forensic physics -- direct extraction of codec-level artifacts -- as a more generalizable and parameter-efficient paradigm for AI music detection than representation learning, using 49x fewer parameters than CLAM and 4.8x fewer than SpecTTTra.

ArtifactNet: Detectie van AI-gegenereerde muziek via forensische fysische residuen

ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

Samenvatting

Support