Toxicidad Inminente: Predicción del Desvío Conversacional en GitHub
Toxicity Ahead: Forecasting Conversational Derailment on GitHub
December 17, 2025
Autores: Mia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski
cs.AI
Resumen
Las interacciones tóxicas en las comunidades de Software de Código Abierto (OSS) reducen la participación de los colaboradores y amenazan la sostenibilidad de los proyectos. Prevenir dicha toxicidad antes de que emerja requiere una comprensión clara de cómo se desarrollan las conversaciones dañinas. Sin embargo, la mayoría de las estrategias de moderación proactiva son manuales, requiriendo un tiempo y esfuerzo significativos por parte de los mantenedores de la comunidad. Para apoyar enfoques más escalables, recopilamos un conjunto de datos de 159 hilos tóxicos descarrilados y 207 hilos no tóxicos de discusiones de GitHub. Nuestro análisis revela que la toxicidad puede ser pronosticada por desencadenantes de tensión, cambios de sentimiento y patrones conversacionales específicos.
Presentamos un novedoso marco basado en Modelos de Lenguaje Grande (LLM) para predecir el descarrilamiento conversacional en GitHub utilizando un pipeline de prompting en dos pasos. Primero, generamos Resúmenes de la Dinámica Conversacional (SCDs, por sus siglas en inglés) mediante el prompting de Menos-a-Más (LtM); luego utilizamos estos resúmenes para estimar la probabilidad de descarrilamiento. Evaluada en los modelos Qwen y Llama, nuestra estrategia LtM alcanza puntuaciones F1 de 0.901 y 0.852, respectivamente, con un umbral de decisión de 0.3, superando a los baselines establecidos de PLN en descarrilamiento conversacional. La validación externa en un conjunto de datos de 308 hilos de issues de GitHub (65 tóxicos, 243 no tóxicos) produce una puntuación F1 de hasta 0.797. Nuestros hallazgos demuestran la efectividad del prompting estructurado con LLM para la detección temprana del descarrilamiento conversacional en OSS, permitiendo una moderación proactiva y explicable.
English
Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns.
We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate Summaries of Conversation Dynamics (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the likelihood of derailment. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.