Tossicità in Vista: Prevedere il Deragliamento Conversazionale su GitHub
Toxicity Ahead: Forecasting Conversational Derailment on GitHub
December 17, 2025
Autori: Mia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski
cs.AI
Abstract
Le interazioni tossiche nelle comunità di software open source (OSS) riducono il coinvolgimento dei contributori e minacciano la sostenibilità dei progetti. Prevenire tale tossicità prima che emerga richiede una chiara comprensione di come si sviluppano le conversazioni dannose. Tuttavia, la maggior parte delle strategie di moderazione proattiva sono manuali, richiedendo un notevole dispendio di tempo e impegno da parte dei maintainer della comunità. Per supportare approcci più scalabili, abbiamo curato un dataset composto da 159 thread tossici degenerati e 207 thread non tossici, tratti dalle discussioni su GitHub. La nostra analisi rivela che la tossicità può essere prevista attraverso trigger di tensione, cambiamenti di sentiment e specifici pattern conversazionali.
Presentiamo un framework innovativo basato su Large Language Model (LLM) per prevedere la degenerazione conversazionale su GitHub, utilizzando una pipeline di prompting in due fasi. In primo luogo, generiamo dei Riassunti delle Dinamiche Conversazionali (SCD) tramite il prompting Least-to-Most (LtM); successivamente, utilizziamo questi riassunti per stimare la probabilità di degenerazione. Valutata sui modelli Qwen e Llama, la nostra strategia LtM raggiunge rispettivamente punteggi F1 di 0.901 e 0.852 a una soglia decisionale di 0.3, superando i baseline NLP consolidati per la degenerazione conversazionale. Una validazione esterna su un dataset di 308 thread di issue di GitHub (65 tossici, 243 non tossici) produce un punteggio F1 fino a 0.797. I nostri risultati dimostrano l'efficacia del prompting strutturato con LLM per il rilevamento precoce della degenerazione conversazionale negli OSS, abilitando una moderazione proattiva e spiegabile.
English
Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns.
We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate Summaries of Conversation Dynamics (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the likelihood of derailment. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.