ArtifactNet: Detetando Música Gerada por IA via Física Residual Forense

Resumo

Apresentamos o ArtifactNet, uma estrutura leve que detecta música gerada por IA reformulando o problema como física forense — extraindo e analisando os artefatos físicos que os codecs neurais de áudio imprimem inevitavelmente no áudio gerado. Uma UNet com máscara limitada (ArtifactUNet, 3,6M de parâmetros) extrai resíduos do codec de espectrogramas de magnitude, que são então decompostos via HPSS em características forenses de 7 canais para classificação por uma CNN compacta (0,4M de parâmetros; 4,0M no total). Introduzimos o ArtifactBench, um benchmark de avaliação multi-gerador composto por 6.183 faixas (4.383 de IA de 22 geradores e 1.800 reais de 6 fontes diversas). Cada faixa é etiquetada com `bench_origin` para avaliação zero-shot justa. Na partição de teste não vista (n=2.263), o ArtifactNet atinge F1 = 0,9829 com FPR = 1,49%, comparado ao CLAM (F1 = 0,7576, FPR = 69,26%) e ao SpecTTTra (F1 = 0,7713, FPR = 19,43%) avaliados sob condições idênticas com checkpoints publicados. O treinamento com consciência do codec (aumento de dados em 4 vias: WAV/MP3/AAC/Opus) reduz ainda mais o *drift* de probabilidade entre codecs em 83% (Delta = 0,95 -> 0,16), resolvendo o principal modo de falha de invariância do codec. Estes resultados estabelecem a física forense — extração direta de artefatos a nível de codec — como um paradigma mais generalizável e eficiente em parâmetros para detecção de música IA do que a aprendizagem de representação, usando 49x menos parâmetros que o CLAM e 4,8x menos que o SpecTTTra.

English

We present ArtifactNet, a lightweight framework that detects AI-generated music by reframing the problem as forensic physics -- extracting and analyzing the physical artifacts that neural audio codecs inevitably imprint on generated audio. A bounded-mask UNet (ArtifactUNet, 3.6M parameters) extracts codec residuals from magnitude spectrograms, which are then decomposed via HPSS into 7-channel forensic features for classification by a compact CNN (0.4M parameters; 4.0M total). We introduce ArtifactBench, a multi-generator evaluation benchmark comprising 6,183 tracks (4,383 AI from 22 generators and 1,800 real from 6 diverse sources). Each track is tagged with bench_origin for fair zero-shot evaluation. On the unseen test partition (n=2,263), ArtifactNet achieves F1 = 0.9829 with FPR = 1.49%, compared to CLAM (F1 = 0.7576, FPR = 69.26%) and SpecTTTra (F1 = 0.7713, FPR = 19.43%) evaluated under identical conditions with published checkpoints. Codec-aware training (4-way WAV/MP3/AAC/Opus augmentation) further reduces cross-codec probability drift by 83% (Delta = 0.95 -> 0.16), resolving the primary codec-invariance failure mode. These results establish forensic physics -- direct extraction of codec-level artifacts -- as a more generalizable and parameter-efficient paradigm for AI music detection than representation learning, using 49x fewer parameters than CLAM and 4.8x fewer than SpecTTTra.

ArtifactNet: Detetando Música Gerada por IA via Física Residual Forense

ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

Resumo

Support