Comprensión y predicción de descarrilamientos en conversaciones tóxicas en GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub
March 4, 2025
Autores: Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski
cs.AI
Resumen
Los proyectos de software prosperan gracias a la participación y contribuciones de personas de diversos orígenes. Sin embargo, el lenguaje tóxico y las interacciones negativas pueden obstaculizar la participación y retención de colaboradores, además de alienar a los recién llegados. Las estrategias de moderación proactiva buscan prevenir la toxicidad abordando conversaciones que se han desviado de su propósito original. Este estudio tiene como objetivo comprender y predecir el desvío conversacional que conduce a la toxicidad en GitHub.
Para facilitar esta investigación, hemos creado un nuevo conjunto de datos que incluye 202 conversaciones tóxicas de GitHub con puntos de desvío anotados, junto con 696 conversaciones no tóxicas como referencia. Basándonos en este conjunto de datos, identificamos características únicas de las conversaciones tóxicas y los puntos de desvío, incluyendo marcadores lingüísticos como pronombres en segunda persona, términos de negación y tonos de Frustración Amarga e Impaciencia, así como patrones en la dinámica conversacional entre colaboradores del proyecto y participantes externos.
Aprovechando estas observaciones empíricas, proponemos un enfoque de moderación proactiva para detectar y abordar automáticamente conversaciones potencialmente dañinas antes de que escalen. Utilizando modelos de lenguaje modernos (LLMs), desarrollamos una técnica de resumen de trayectoria conversacional que captura la evolución de las discusiones e identifica señales tempranas de desvío. Nuestros experimentos demuestran que los prompts de LLMs diseñados para proporcionar resúmenes de conversaciones en GitHub alcanzan un F1-Score del 69% en la predicción del desvío conversacional, superando significativamente un conjunto de enfoques de referencia.
English
Software projects thrive on the involvement and contributions of individuals
from different backgrounds. However, toxic language and negative interactions
can hinder the participation and retention of contributors and alienate
newcomers. Proactive moderation strategies aim to prevent toxicity from
occurring by addressing conversations that have derailed from their intended
purpose. This study aims to understand and predict conversational derailment
leading to toxicity on GitHub.
To facilitate this research, we curate a novel dataset comprising 202 toxic
conversations from GitHub with annotated derailment points, along with 696
non-toxic conversations as a baseline. Based on this dataset, we identify
unique characteristics of toxic conversations and derailment points, including
linguistic markers such as second-person pronouns, negation terms, and tones of
Bitter Frustration and Impatience, as well as patterns in conversational
dynamics between project contributors and external participants.
Leveraging these empirical observations, we propose a proactive moderation
approach to automatically detect and address potentially harmful conversations
before escalation. By utilizing modern LLMs, we develop a conversation
trajectory summary technique that captures the evolution of discussions and
identifies early signs of derailment. Our experiments demonstrate that LLM
prompts tailored to provide summaries of GitHub conversations achieve 69%
F1-Score in predicting conversational derailment, strongly improving over a set
of baseline approaches.Summary
AI-Generated Summary