Comprendre et prédire les dérives dans les conversations toxiques sur GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub
March 4, 2025
Auteurs: Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski
cs.AI
Résumé
Les projets logiciels prospèrent grâce à l'implication et aux contributions d'individus issus de divers horizons. Cependant, un langage toxique et des interactions négatives peuvent entraver la participation et la rétention des contributeurs, tout en décourageant les nouveaux arrivants. Les stratégies de modération proactive visent à prévenir l'apparition de toxicité en intervenant sur les conversations qui s'écartent de leur objectif initial. Cette étude cherche à comprendre et à prédire les dérives conversationnelles menant à la toxicité sur GitHub.
Pour faciliter cette recherche, nous avons constitué un nouveau jeu de données comprenant 202 conversations toxiques issues de GitHub, avec des points de dérive annotés, ainsi que 696 conversations non toxiques servant de référence. Sur la base de ce corpus, nous identifions des caractéristiques spécifiques des conversations toxiques et des points de dérive, notamment des marqueurs linguistiques tels que les pronoms à la deuxième personne, les termes de négation, ainsi que des tonalités de frustration amère et d'impatience. Nous observons également des dynamiques conversationnelles particulières entre les contributeurs du projet et les participants externes.
En nous appuyant sur ces observations empiriques, nous proposons une approche de modération proactive pour détecter et traiter automatiquement les conversations potentiellement nuisibles avant qu'elles ne dégénèrent. En exploitant les modèles de langage modernes (LLM), nous développons une technique de résumé de trajectoire conversationnelle qui capture l'évolution des discussions et identifie les signes précoces de dérive. Nos expériences montrent que des prompts LLM conçus pour fournir des résumés des conversations sur GitHub atteignent un score F1 de 69 % dans la prédiction des dérives conversationnelles, surpassant nettement un ensemble d'approches de référence.
English
Software projects thrive on the involvement and contributions of individuals
from different backgrounds. However, toxic language and negative interactions
can hinder the participation and retention of contributors and alienate
newcomers. Proactive moderation strategies aim to prevent toxicity from
occurring by addressing conversations that have derailed from their intended
purpose. This study aims to understand and predict conversational derailment
leading to toxicity on GitHub.
To facilitate this research, we curate a novel dataset comprising 202 toxic
conversations from GitHub with annotated derailment points, along with 696
non-toxic conversations as a baseline. Based on this dataset, we identify
unique characteristics of toxic conversations and derailment points, including
linguistic markers such as second-person pronouns, negation terms, and tones of
Bitter Frustration and Impatience, as well as patterns in conversational
dynamics between project contributors and external participants.
Leveraging these empirical observations, we propose a proactive moderation
approach to automatically detect and address potentially harmful conversations
before escalation. By utilizing modern LLMs, we develop a conversation
trajectory summary technique that captures the evolution of discussions and
identifies early signs of derailment. Our experiments demonstrate that LLM
prompts tailored to provide summaries of GitHub conversations achieve 69%
F1-Score in predicting conversational derailment, strongly improving over a set
of baseline approaches.Summary
AI-Generated Summary