Comprendere e Prevedere il Deragliamento nelle Conversazioni Tossiche su GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub
March 4, 2025
Autori: Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski
cs.AI
Abstract
I progetti software prosperano grazie al coinvolgimento e ai contributi di individui provenienti da contesti diversi. Tuttavia, un linguaggio tossico e interazioni negative possono ostacolare la partecipazione e la fidelizzazione dei collaboratori, oltre a scoraggiare i nuovi arrivati. Le strategie di moderazione proattiva mirano a prevenire la tossicità intervenendo sulle conversazioni che si sono deviate dal loro scopo originario. Questo studio si propone di comprendere e prevedere la deriva conversazionale che porta alla tossicità su GitHub.
Per facilitare questa ricerca, abbiamo curato un nuovo dataset composto da 202 conversazioni tossiche provenienti da GitHub, con punti di deriva annotati, insieme a 696 conversazioni non tossiche come baseline. Sulla base di questo dataset, abbiamo identificato caratteristiche uniche delle conversazioni tossiche e dei punti di deriva, inclusi marcatori linguistici come pronomi di seconda persona, termini di negazione e toni di Amarezza, Frustrazione e Impazienza, oltre a modelli nelle dinamiche conversazionali tra i collaboratori del progetto e i partecipanti esterni.
Sfruttando queste osservazioni empiriche, proponiamo un approccio di moderazione proattiva per rilevare e affrontare automaticamente le conversazioni potenzialmente dannose prima che si intensifichino. Utilizzando moderni LLM, sviluppiamo una tecnica di riepilogo della traiettoria conversazionale che cattura l'evoluzione delle discussioni e identifica i primi segnali di deriva. I nostri esperimenti dimostrano che i prompt LLM progettati per fornire riepiloghi delle conversazioni su GitHub raggiungono un punteggio F1 del 69% nella previsione della deriva conversazionale, migliorando significativamente rispetto a un insieme di approcci baseline.
English
Software projects thrive on the involvement and contributions of individuals
from different backgrounds. However, toxic language and negative interactions
can hinder the participation and retention of contributors and alienate
newcomers. Proactive moderation strategies aim to prevent toxicity from
occurring by addressing conversations that have derailed from their intended
purpose. This study aims to understand and predict conversational derailment
leading to toxicity on GitHub.
To facilitate this research, we curate a novel dataset comprising 202 toxic
conversations from GitHub with annotated derailment points, along with 696
non-toxic conversations as a baseline. Based on this dataset, we identify
unique characteristics of toxic conversations and derailment points, including
linguistic markers such as second-person pronouns, negation terms, and tones of
Bitter Frustration and Impatience, as well as patterns in conversational
dynamics between project contributors and external participants.
Leveraging these empirical observations, we propose a proactive moderation
approach to automatically detect and address potentially harmful conversations
before escalation. By utilizing modern LLMs, we develop a conversation
trajectory summary technique that captures the evolution of discussions and
identifies early signs of derailment. Our experiments demonstrate that LLM
prompts tailored to provide summaries of GitHub conversations achieve 69%
F1-Score in predicting conversational derailment, strongly improving over a set
of baseline approaches.Summary
AI-Generated Summary