ChatPaper.aiChatPaper

Verständnis und Vorhersage von Entgleisungen in toxischen Konversationen auf GitHub

Understanding and Predicting Derailment in Toxic Conversations on GitHub

March 4, 2025
Autoren: Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski
cs.AI

Zusammenfassung

Software-Projekte gedeihen durch die Beteiligung und Beiträge von Personen aus unterschiedlichen Hintergründen. Toxische Sprache und negative Interaktionen können jedoch die Teilnahme und Bindung von Mitwirkenden behindern und Neulinge verprellen. Proaktive Moderationsstrategien zielen darauf ab, Toxizität zu verhindern, indem sie Gespräche ansprechen, die von ihrem ursprünglichen Zweck abgewichen sind. Diese Studie zielt darauf ab, Gesprächsabschweifungen, die zu Toxizität auf GitHub führen, zu verstehen und vorherzusagen. Um diese Forschung zu ermöglichen, haben wir einen neuartigen Datensatz zusammengestellt, der 202 toxische Konversationen von GitHub mit annotierten Abschweifungspunkten sowie 696 nicht-toxische Konversationen als Baseline umfasst. Basierend auf diesem Datensatz identifizieren wir einzigartige Merkmale von toxischen Gesprächen und Abschweifungspunkten, einschließlich linguistischer Marker wie Pronomen der zweiten Person, Verneinungsbegriffe und Töne von bitterer Frustration und Ungeduld sowie Muster in der Gesprächsdynamik zwischen Projektmitwirkenden und externen Teilnehmern. Gestützt auf diese empirischen Beobachtungen schlagen wir einen proaktiven Moderationsansatz vor, um potenziell schädliche Gespräche automatisch zu erkennen und zu adressieren, bevor sie eskalieren. Durch die Nutzung moderner LLMs entwickeln wir eine Technik zur Zusammenfassung von Gesprächsverläufen, die die Entwicklung von Diskussionen erfasst und frühe Anzeichen von Abschweifungen identifiziert. Unsere Experimente zeigen, dass LLM-Prompts, die auf die Zusammenfassung von GitHub-Konversationen zugeschnitten sind, einen F1-Score von 69 % bei der Vorhersage von Gesprächsabschweifungen erreichen und damit eine deutliche Verbesserung gegenüber einer Reihe von Baseline-Ansätzen darstellen.
English
Software projects thrive on the involvement and contributions of individuals from different backgrounds. However, toxic language and negative interactions can hinder the participation and retention of contributors and alienate newcomers. Proactive moderation strategies aim to prevent toxicity from occurring by addressing conversations that have derailed from their intended purpose. This study aims to understand and predict conversational derailment leading to toxicity on GitHub. To facilitate this research, we curate a novel dataset comprising 202 toxic conversations from GitHub with annotated derailment points, along with 696 non-toxic conversations as a baseline. Based on this dataset, we identify unique characteristics of toxic conversations and derailment points, including linguistic markers such as second-person pronouns, negation terms, and tones of Bitter Frustration and Impatience, as well as patterns in conversational dynamics between project contributors and external participants. Leveraging these empirical observations, we propose a proactive moderation approach to automatically detect and address potentially harmful conversations before escalation. By utilizing modern LLMs, we develop a conversation trajectory summary technique that captures the evolution of discussions and identifies early signs of derailment. Our experiments demonstrate that LLM prompts tailored to provide summaries of GitHub conversations achieve 69% F1-Score in predicting conversational derailment, strongly improving over a set of baseline approaches.

Summary

AI-Generated Summary

PDF42March 7, 2025