Begrijpen en Voorspellen van Ontsporing in Giftige Gesprekken op GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub
March 4, 2025
Auteurs: Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski
cs.AI
Samenvatting
Softwareprojecten gedijen bij de betrokkenheid en bijdragen van individuen
uit verschillende achtergronden. Echter kunnen giftige taal en negatieve interacties
de deelname en retentie van bijdragers belemmeren en nieuwkomers vervreemden.
Proactieve moderatiestrategieën zijn erop gericht om toxiciteit te voorkomen
door gesprekken die zijn afgedwaald van hun beoogde doel aan te pakken. Deze studie
heeft als doel om gespreksafdwaling die leidt tot toxiciteit op GitHub te begrijpen
en te voorspellen.
Om dit onderzoek te faciliteren, hebben we een nieuwe dataset samengesteld die
202 giftige gesprekken van GitHub bevat met geannoteerde afdwalingspunten, samen
met 696 niet-giftige gesprekken als referentiekader. Op basis van deze dataset
identificeren we unieke kenmerken van giftige gesprekken en afdwalingspunten,
waaronder linguïstische markers zoals tweede-persoonsvoornaamwoorden, ontkenningstermen,
en tonen van Bittere Frustratie en Ongeduld, evenals patronen in de gespreksdynamiek
tussen projectbijdragers en externe deelnemers.
Gebruikmakend van deze empirische observaties, stellen we een proactieve
moderatieaanpak voor om potentieel schadelijke gesprekken automatisch te detecteren
en aan te pakken voordat ze escaleren. Door gebruik te maken van moderne LLM's,
ontwikkelen we een techniek voor het samenvatten van gesprekstrajecten die de
evolutie van discussies vastlegt en vroege tekenen van afdwaling identificeert.
Onze experimenten tonen aan dat LLM-prompts die zijn afgestemd op het samenvatten
van GitHub-gesprekken een F1-Score van 69% behalen in het voorspellen van
gespreksafdwaling, wat een sterke verbetering is ten opzichte van een reeks
baseline-benaderingen.
English
Software projects thrive on the involvement and contributions of individuals
from different backgrounds. However, toxic language and negative interactions
can hinder the participation and retention of contributors and alienate
newcomers. Proactive moderation strategies aim to prevent toxicity from
occurring by addressing conversations that have derailed from their intended
purpose. This study aims to understand and predict conversational derailment
leading to toxicity on GitHub.
To facilitate this research, we curate a novel dataset comprising 202 toxic
conversations from GitHub with annotated derailment points, along with 696
non-toxic conversations as a baseline. Based on this dataset, we identify
unique characteristics of toxic conversations and derailment points, including
linguistic markers such as second-person pronouns, negation terms, and tones of
Bitter Frustration and Impatience, as well as patterns in conversational
dynamics between project contributors and external participants.
Leveraging these empirical observations, we propose a proactive moderation
approach to automatically detect and address potentially harmful conversations
before escalation. By utilizing modern LLMs, we develop a conversation
trajectory summary technique that captures the evolution of discussions and
identifies early signs of derailment. Our experiments demonstrate that LLM
prompts tailored to provide summaries of GitHub conversations achieve 69%
F1-Score in predicting conversational derailment, strongly improving over a set
of baseline approaches.Summary
AI-Generated Summary