Toxicidade à Frente: Previsão de Descarrilamento Conversacional no GitHub

Resumo

Interações tóxicas em comunidades de Software de Código Aberto (OSS) reduzem o engajamento dos contribuidores e ameaçam a sustentabilidade dos projetos. Prevenir essa toxicidade antes que ela surja requer uma compreensão clara de como as conversas prejudiciais se desenrolam. No entanto, a maioria das estratégias de moderação proativas é manual, exigindo tempo e esforço significativos dos mantenedores da comunidade. Para apoiar abordagens mais escaláveis, organizamos um conjunto de dados com 159 *threads* tóxicas desviadas e 207 *threads* não tóxicas de discussões do GitHub. Nossa análise revela que a toxicidade pode ser prevista por gatilhos de tensão, mudanças de sentimento e padrões conversacionais específicos. Apresentamos uma nova estrutura baseada em Modelos de Linguagem de Grande Porte (LLMs) para prever o desvio conversacional no GitHub usando um *pipeline* de *prompting* em duas etapas. Primeiro, geramos Resumos da Dinâmica da Conversa (RDCs) via *prompting* Do-Menor-para-o-Maior (LtM); em seguida, usamos esses resumos para estimar a probabilidade de desvio. Avaliada nos modelos Qwen e Llama, nossa estratégia LtM atinge pontuações F1 de 0,901 e 0,852, respectivamente, com um limiar de decisão de 0,3, superando *baselines* estabelecidas de PLN em desvio conversacional. A validação externa em um conjunto de dados de 308 *threads* de *issues* do GitHub (65 tóxicas, 243 não tóxicas) resulta em uma pontuação F1 de até 0,797. Nossos achados demonstram a eficácia do *prompting* estruturado de LLMs para a detecção precoce de desvio conversacional em OSS, permitindo uma moderação proativa e explicável.

English

Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns. We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate Summaries of Conversation Dynamics (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the likelihood of derailment. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.

Toxicidade à Frente: Previsão de Descarrilamento Conversacional no GitHub

Toxicity Ahead: Forecasting Conversational Derailment on GitHub

Resumo

Support