ArtifactNet: Rilevamento di musica generata da IA tramite fisica forense dei residui

Abstract

Presentiamo ArtifactNet, un framework leggero che rileva la musica generata da IA riformulando il problema come fisica forense, estraendo e analizzando gli artefatti fisici che i codec neurali audio imprimono inevitabilmente sull'audio generato. Una UNet con maschera limitata (ArtifactUNet, 3,6 milioni di parametri) estrae i residui del codec dagli spettrogrammi di magnitudine, che vengono poi scomposti tramite HPSS in caratteristiche forensi a 7 canali per la classificazione da parte di una CNN compatta (0,4 milioni di parametri; 4,0 milioni totali). Introduciamo ArtifactBench, un benchmark di valutazione multi-generatore che comprende 6.183 brani (4.383 generati da IA da 22 generatori e 1.800 reali da 6 fonti diverse). Ogni brano è etichettato con `bench_origin` per una valutazione zero-shot equa. Sulla partizione di test non vista (n=2.263), ArtifactNet raggiunge un F1 = 0,9829 con FPR = 1,49%, rispetto a CLAM (F1 = 0,7576, FPR = 69,26%) e SpecTTTra (F1 = 0,7713, FPR = 19,43%) valutati in condizioni identiche con checkpoint pubblicati. L'addestramento codec-aware (aumento dati 4-vie WAV/MP3/AAC/Opus) riduce ulteriormente la deriva probabilistica cross-codec dell'83% (Delta = 0,95 -> 0,16), risolvendo la principale modalità di fallimento dell'invarianza al codec. Questi risultati stabiliscono la fisica forense – l'estrazione diretta di artefatti a livello di codec – come un paradigma più generalizzabile ed efficiente in termini di parametri per il rilevamento della musica AI rispetto all'apprendimento di rappresentazioni, utilizzando 49x parametri in meno rispetto a CLAM e 4,8x in meno rispetto a SpecTTTra.

English

We present ArtifactNet, a lightweight framework that detects AI-generated music by reframing the problem as forensic physics -- extracting and analyzing the physical artifacts that neural audio codecs inevitably imprint on generated audio. A bounded-mask UNet (ArtifactUNet, 3.6M parameters) extracts codec residuals from magnitude spectrograms, which are then decomposed via HPSS into 7-channel forensic features for classification by a compact CNN (0.4M parameters; 4.0M total). We introduce ArtifactBench, a multi-generator evaluation benchmark comprising 6,183 tracks (4,383 AI from 22 generators and 1,800 real from 6 diverse sources). Each track is tagged with bench_origin for fair zero-shot evaluation. On the unseen test partition (n=2,263), ArtifactNet achieves F1 = 0.9829 with FPR = 1.49%, compared to CLAM (F1 = 0.7576, FPR = 69.26%) and SpecTTTra (F1 = 0.7713, FPR = 19.43%) evaluated under identical conditions with published checkpoints. Codec-aware training (4-way WAV/MP3/AAC/Opus augmentation) further reduces cross-codec probability drift by 83% (Delta = 0.95 -> 0.16), resolving the primary codec-invariance failure mode. These results establish forensic physics -- direct extraction of codec-level artifacts -- as a more generalizable and parameter-efficient paradigm for AI music detection than representation learning, using 49x fewer parameters than CLAM and 4.8x fewer than SpecTTTra.

ArtifactNet: Rilevamento di musica generata da IA tramite fisica forense dei residui

ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

Abstract

Support