Aprendizagem de Representação Explicável e Desenredada para Atribuição de Autoria Generalizável na Era da IA Generativa

Resumo

A aprendizagem de representações robustas do estilo autoral é crucial para a atribuição de autoria e a deteção de texto gerado por IA. No entanto, os métodos existentes frequentemente lutam com o entrelaçamento conteúdo-estilo, em que os modelos aprendem correlações espúrias entre os estilos de escrita dos autores e os tópicos, levando a uma fraca generalização entre domínios. Para enfrentar este desafio, propomos o *Explainable Authorship Variational Autoencoder* (EAVAE), uma nova estrutura que desembaraça explicitamente o estilo do conteúdo através de uma separação arquitetónica por design. O EAVAE pré-treina primeiro codificadores de estilo usando aprendizagem contrastiva supervisionada em dados de autoria diversos, e depois afina a arquitetura com um *Variational Autoencoder* (VAE) utilizando codificadores separados para as representações de estilo e conteúdo. O desembaraçamento é imposto através de um novo discriminador que não só distingue se pares de representações de estilo/conteúdo pertencem ao mesmo autor ou a autores/fontes de conteúdo diferentes, mas também gera uma explicação em linguagem natural para a sua decisão, mitigando simultaneamente informações de confusão e melhorando a interpretabilidade. Experiências extensivas demonstram a eficácia do EAVAE. Na atribuição de autoria, alcançámos um desempenho de ponta em vários conjuntos de dados, incluindo *Amazon Reviews*, PAN21 e HRS. Para a deteção de texto gerado por IA, o EAVAE sobressai na aprendizagem *few-shot* sobre o conjunto de dados M4. Os repositórios de código e dados estão disponíveis online: https://github.com/hieum98/avae e https://huggingface.co/collections/Hieuman/document-level-authorship-datasets.

English

Learning robust representations of authorial style is crucial for authorship attribution and AI-generated text detection. However, existing methods often struggle with content-style entanglement, where models learn spurious correlations between authors' writing styles and topics, leading to poor generalization across domains. To address this challenge, we propose Explainable Authorship Variational Autoencoder (EAVAE), a novel framework that explicitly disentangles style from content through architectural separation-by-design. EAVAE first pretrains style encoders using supervised contrastive learning on diverse authorship data, then finetunes with a Variational Autoencoder (VEA) architecture using separate encoders for style and content representations. Disentanglement is enforced through a novel discriminator that not only distinguishes whether pairs of style/content representations belong to the same or different authors/content sources, but also generates natural language explanation for their decision, simultaneously mitigating confounding information and enhancing interpretability. Extensive experiments demonstrate the effectiveness of EAVAE. On authorship attribution, we achieve state-of-the-art performance on various datasets, including Amazon Reviews, PAN21, and HRS. For AI-generated text detection, EAVAE excels in few-shot learning over the M4 dataset. Code and data repositories are available onlinehttps://github.com/hieum98/avae https://huggingface.co/collections/Hieuman/document-level-authorship-datasets.

Aprendizagem de Representação Explicável e Desenredada para Atribuição de Autoria Generalizável na Era da IA Generativa

Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

Resumo

Support