Verständnis und Vorhersage von Entgleisungen in toxischen Konversationen auf GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub
March 4, 2025
Autoren: Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski
cs.AI
Zusammenfassung
Software-Projekte gedeihen durch die Beteiligung und Beiträge von Personen
aus unterschiedlichen Hintergründen. Toxische Sprache und negative Interaktionen
können jedoch die Teilnahme und Bindung von Mitwirkenden behindern und Neulinge
verprellen. Proaktive Moderationsstrategien zielen darauf ab, Toxizität zu
verhindern, indem sie Gespräche ansprechen, die von ihrem ursprünglichen Zweck
abgewichen sind. Diese Studie zielt darauf ab, Gesprächsabschweifungen, die zu
Toxizität auf GitHub führen, zu verstehen und vorherzusagen.
Um diese Forschung zu ermöglichen, haben wir einen neuartigen Datensatz
zusammengestellt, der 202 toxische Konversationen von GitHub mit annotierten
Abschweifungspunkten sowie 696 nicht-toxische Konversationen als Baseline
umfasst. Basierend auf diesem Datensatz identifizieren wir einzigartige
Merkmale von toxischen Gesprächen und Abschweifungspunkten, einschließlich
linguistischer Marker wie Pronomen der zweiten Person, Verneinungsbegriffe und
Töne von bitterer Frustration und Ungeduld sowie Muster in der
Gesprächsdynamik zwischen Projektmitwirkenden und externen Teilnehmern.
Gestützt auf diese empirischen Beobachtungen schlagen wir einen proaktiven
Moderationsansatz vor, um potenziell schädliche Gespräche automatisch zu
erkennen und zu adressieren, bevor sie eskalieren. Durch die Nutzung moderner
LLMs entwickeln wir eine Technik zur Zusammenfassung von Gesprächsverläufen,
die die Entwicklung von Diskussionen erfasst und frühe Anzeichen von
Abschweifungen identifiziert. Unsere Experimente zeigen, dass LLM-Prompts, die
auf die Zusammenfassung von GitHub-Konversationen zugeschnitten sind, einen
F1-Score von 69 % bei der Vorhersage von Gesprächsabschweifungen erreichen und
damit eine deutliche Verbesserung gegenüber einer Reihe von Baseline-Ansätzen
darstellen.
English
Software projects thrive on the involvement and contributions of individuals
from different backgrounds. However, toxic language and negative interactions
can hinder the participation and retention of contributors and alienate
newcomers. Proactive moderation strategies aim to prevent toxicity from
occurring by addressing conversations that have derailed from their intended
purpose. This study aims to understand and predict conversational derailment
leading to toxicity on GitHub.
To facilitate this research, we curate a novel dataset comprising 202 toxic
conversations from GitHub with annotated derailment points, along with 696
non-toxic conversations as a baseline. Based on this dataset, we identify
unique characteristics of toxic conversations and derailment points, including
linguistic markers such as second-person pronouns, negation terms, and tones of
Bitter Frustration and Impatience, as well as patterns in conversational
dynamics between project contributors and external participants.
Leveraging these empirical observations, we propose a proactive moderation
approach to automatically detect and address potentially harmful conversations
before escalation. By utilizing modern LLMs, we develop a conversation
trajectory summary technique that captures the evolution of discussions and
identifies early signs of derailment. Our experiments demonstrate that LLM
prompts tailored to provide summaries of GitHub conversations achieve 69%
F1-Score in predicting conversational derailment, strongly improving over a set
of baseline approaches.Summary
AI-Generated Summary