Apprendimento di Rappresentazioni Disentangled Spiegabili per l'Attribuzione di Autorialità Generalizzabile nell'Era dell'IA Generativa

Abstract

L'apprendimento di rappresentazioni robuste dello stile autoriale è cruciale per l'attribuzione di paternità e il rilevamento di testo generato dall'IA. Tuttavia, i metodi esistenti spesso si scontrano con il problema dell'entanglement contenuto-stile, in cui i modelli apprendono correlazioni spurie tra gli stili di scrittura degli autori e i temi trattati, portando a una scarsa generalizzazione tra diversi domini. Per affrontare questa sfida, proponiamo Explainable Authorship Variational Autoencoder (EAVAE), un nuovo framework che separa esplicitamente lo stile dal contenuto attraverso una separazione architetturale by-design. EAVAE addestra preliminarmente gli encoder di stile utilizzando l'apprendimento contrastivo supervisionato su dati di paternità diversificati, per poi affinare il modello con un'architettura Variational Autoencoder (VAE) che utilizza encoder separati per le rappresentazioni di stile e contenuto. La separazione viene applicata attraverso un nuovo discriminatore che non solo distingue se coppie di rappresentazioni di stile/contenuto appartengono allo stesso autore o a fonti di contenuto diverse, ma genera anche una spiegazione in linguaggio naturale per la sua decisione, mitigando simultaneamente le informazioni confondenti e migliorando l'interpretabilità. Esperimenti estensivi dimostrano l'efficacia di EAVAE. Nell'attribuzione di paternità, otteniamo prestazioni all'avanguardia su vari dataset, tra cui Amazon Reviews, PAN21 e HRS. Per il rilevamento di testo generato dall'IA, EAVAE eccelle nell'apprendimento con pochi esempi sul dataset M4. I repository di codice e dati sono disponibili online: https://github.com/hieum98/avae https://huggingface.co/collections/Hieuman/document-level-authorship-datasets.

English

Learning robust representations of authorial style is crucial for authorship attribution and AI-generated text detection. However, existing methods often struggle with content-style entanglement, where models learn spurious correlations between authors' writing styles and topics, leading to poor generalization across domains. To address this challenge, we propose Explainable Authorship Variational Autoencoder (EAVAE), a novel framework that explicitly disentangles style from content through architectural separation-by-design. EAVAE first pretrains style encoders using supervised contrastive learning on diverse authorship data, then finetunes with a Variational Autoencoder (VEA) architecture using separate encoders for style and content representations. Disentanglement is enforced through a novel discriminator that not only distinguishes whether pairs of style/content representations belong to the same or different authors/content sources, but also generates natural language explanation for their decision, simultaneously mitigating confounding information and enhancing interpretability. Extensive experiments demonstrate the effectiveness of EAVAE. On authorship attribution, we achieve state-of-the-art performance on various datasets, including Amazon Reviews, PAN21, and HRS. For AI-generated text detection, EAVAE excels in few-shot learning over the M4 dataset. Code and data repositories are available onlinehttps://github.com/hieum98/avae https://huggingface.co/collections/Hieuman/document-level-authorship-datasets.

Apprendimento di Rappresentazioni Disentangled Spiegabili per l'Attribuzione di Autorialità Generalizzabile nell'Era dell'IA Generativa

Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

Abstract

Support