Toxizität voraus: Vorhersage von Gesprächsentgleisungen auf GitHub
Toxicity Ahead: Forecasting Conversational Derailment on GitHub
December 17, 2025
papers.authors: Mia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski
cs.AI
papers.abstract
Toxische Interaktionen in Open-Source-Software (OSS)-Communities verringern das Engagement der Mitwirkenden und gefährden die Nachhaltigkeit von Projekten. Um solche Toxizität zu verhindern, bevor sie entsteht, ist ein klares Verständnis dafür erforderlich, wie sich schädliche Gespräche entwickeln. Die meisten proaktiven Moderationsstrategien sind jedoch manuell und erfordern erheblichen Zeit- und Arbeitsaufwand von den Maintainern der Community. Um skalierbarere Ansätze zu unterstützen, haben wir einen Datensatz mit 159 entgleisten toxischen Threads und 207 nicht-toxischen Threads aus GitHub-Diskussionen zusammengestellt. Unsere Analyse zeigt, dass sich Toxizität anhand von Spannungsauslösern, Stimmungswechseln und spezifischen Konversationsmustern vorhersagen lässt.
Wir stellen einen neuartigen, auf Large Language Models (LLM) basierenden Rahmen zur Vorhersage von Konversationsentgleisungen auf GitHub vor, der eine zweistufige Prompting-Pipeline verwendet. Zuerst generieren wir Zusammenfassungen der Konversationsdynamik (Summaries of Conversation Dynamics, SCDs) mittels Least-to-Most (LtM)-Prompting; anschließend nutzen wir diese Zusammenfassungen, um die Wahrscheinlichkeit einer Entgleisung abzuschätzen. Bewertet an Qwen- und Llama-Modellen erreicht unsere LtM-Strategie bei einem Entscheidungsschwellenwert von 0,3 F1-Scores von 0,901 bzw. 0,852 und übertrifft damit etablierte NLP-Baseline-Modelle für Konversationsentgleisung. Eine externe Validierung an einem Datensatz von 308 GitHub-Issue-Threads (65 toxisch, 243 nicht-toxisch) ergibt einen F1-Score von bis zu 0,797. Unsere Ergebnisse demonstrieren die Wirksamkeit von strukturiertem LLM-Prompting für die frühzeitige Erkennung von Konversationsentgleisungen in OSS, was eine proaktive und erklärbare Moderation ermöglicht.
English
Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns.
We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate Summaries of Conversation Dynamics (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the likelihood of derailment. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.