Compreendendo e Prevendo o Desvio em Conversas Tóxicas no GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub
March 4, 2025
Autores: Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski
cs.AI
Resumo
Projetos de software prosperam com o envolvimento e as contribuições de indivíduos de diferentes origens. No entanto, linguagem tóxica e interações negativas podem dificultar a participação e a retenção de colaboradores, além de afastar novos participantes. Estratégias proativas de moderação visam prevenir a toxicidade ao abordar conversas que se desviaram de seu propósito original. Este estudo tem como objetivo compreender e prever o desvio conversacional que leva à toxicidade no GitHub.
Para facilitar essa pesquisa, compilamos um novo conjunto de dados contendo 202 conversas tóxicas do GitHub com pontos de desvio anotados, juntamente com 696 conversas não tóxicas como linha de base. Com base nesse conjunto de dados, identificamos características únicas de conversas tóxicas e pontos de desvio, incluindo marcadores linguísticos como pronomes de segunda pessoa, termos de negação e tons de Frustração Amarga e Impaciência, além de padrões na dinâmica conversacional entre colaboradores do projeto e participantes externos.
Aproveitando essas observações empíricas, propomos uma abordagem de moderação proativa para detectar e abordar automaticamente conversas potencialmente prejudiciais antes que escalem. Utilizando LLMs modernos, desenvolvemos uma técnica de resumo de trajetória conversacional que captura a evolução das discussões e identifica sinais precoces de desvio. Nossos experimentos demonstram que prompts de LLMs ajustados para fornecer resumos de conversas do GitHub alcançam um F1-Score de 69% na previsão de desvio conversacional, superando significativamente um conjunto de abordagens de linha de base.
English
Software projects thrive on the involvement and contributions of individuals
from different backgrounds. However, toxic language and negative interactions
can hinder the participation and retention of contributors and alienate
newcomers. Proactive moderation strategies aim to prevent toxicity from
occurring by addressing conversations that have derailed from their intended
purpose. This study aims to understand and predict conversational derailment
leading to toxicity on GitHub.
To facilitate this research, we curate a novel dataset comprising 202 toxic
conversations from GitHub with annotated derailment points, along with 696
non-toxic conversations as a baseline. Based on this dataset, we identify
unique characteristics of toxic conversations and derailment points, including
linguistic markers such as second-person pronouns, negation terms, and tones of
Bitter Frustration and Impatience, as well as patterns in conversational
dynamics between project contributors and external participants.
Leveraging these empirical observations, we propose a proactive moderation
approach to automatically detect and address potentially harmful conversations
before escalation. By utilizing modern LLMs, we develop a conversation
trajectory summary technique that captures the evolution of discussions and
identifies early signs of derailment. Our experiments demonstrate that LLM
prompts tailored to provide summaries of GitHub conversations achieve 69%
F1-Score in predicting conversational derailment, strongly improving over a set
of baseline approaches.Summary
AI-Generated Summary