Toxiciteit in Aantocht: Voorspelling van Conversatie-ontsporing op GitHub

Samenvatting

Giftige interacties in gemeenschappen van Open Source Software (OSS) verminderen de betrokkenheid van bijdragers en bedreigen de duurzaamheid van projecten. Om dergelijke toxiciteit te voorkomen voordat deze de kop opsteekt, is een duidelijk inzicht nodig in hoe schadelijke gesprekken verlopen. De meeste proactieve moderatiestrategieën zijn echter handmatig en vergen aanzienlijke tijd en inspanning van gemeenschapsbeheerders. Om schaalbare aanpakken te ondersteunen, stellen we een dataset samen van 159 ontspoorde, giftige discussiedraden en 207 niet-giftige draden uit GitHub-discussies. Onze analyse toont aan dat toxiciteit voorspeld kan worden door spanningen, sentimentverschuivingen en specifieke gesprekspatronen. We presenteren een nieuw op Large Language Models (LLM) gebaseerd raamwerk voor het voorspellen van gespreksontsporing op GitHub met behulp van een tweestaps prompting-pijplijn. Eerst genereren we Samenvattingen van Gespreksdynamiek (SCD's) via Least-to-Most (LtM) prompting; vervolgens gebruiken we deze samenvattingen om de waarschijnlijkheid van ontsporing in te schatten. Geëvalueerd op Qwen- en Llama-modellen behaalt onze LtM-strategie F1-scores van respectievelijk 0.901 en 0.852 bij een drempelwaarde van 0.3, wat beter presteert dan gevestigde NLP-baselines voor gespreksontsporing. Externe validatie op een dataset van 308 GitHub-issue-draden (65 giftig, 243 niet-giftig) levert een F1-score op tot 0.797. Onze bevindingen tonen de effectiviteit aan van gestructureerde LLM-prompting voor de vroege detectie van gespreksontsporing in OSS, wat proactieve en uitlegbare moderatie mogelijk maakt.

English

Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns. We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate Summaries of Conversation Dynamics (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the likelihood of derailment. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.

Toxiciteit in Aantocht: Voorspelling van Conversatie-ontsporing op GitHub

Toxicity Ahead: Forecasting Conversational Derailment on GitHub

Samenvatting

Support