Toxicité à l'horizon : Prédire le déraillement des conversations sur GitHub

papers.abstract

Les interactions toxiques au sein des communautés de logiciels libres réduisent l'engagement des contributeurs et menacent la pérennité des projets. Pour prévenir cette toxicité avant qu'elle n'émerge, il est essentiel de comprendre comment les conversations nuisibles se développent. Cependant, la plupart des stratégies de modération proactive sont manuelles, exigeant un temps et des efforts considérables de la part des mainteneurs de la communauté. Pour favoriser des approches plus évolutives, nous avons constitué un jeu de données de 159 fils de discussion toxiques et déviants et de 207 fils non toxiques issus des discussions GitHub. Notre analyse révèle que la toxicité peut être anticipée par des déclencheurs de tension, des changements de sentiment et des schémas conversationnels spécifiques. Nous présentons un nouveau cadre basé sur un grand modèle de langage pour prédire la déviation conversationnelle sur GitHub en utilisant un pipeline d'invitation en deux étapes. Premièrement, nous générons des résumés de la dynamique des conversations via l'invitation du Moins-au-Plus ; ensuite, nous utilisons ces résumés pour estimer la probabilité de déviation. Évaluée sur les modèles Qwen et Llama, notre stratégie LtM atteint des scores F1 de 0,901 et 0,852 respectivement, à un seuil de décision de 0,3, surpassant les méthodes de référence établies en TAL pour la déviation conversationnelle. Une validation externe sur un jeu de données de 308 fils de discussion GitHub (65 toxiques, 243 non toxiques) produit un score F1 allant jusqu'à 0,797. Nos résultats démontrent l'efficacité de l'invitation structurée des LLM pour la détection précoce de la déviation conversationnelle dans les logiciels libres, permettant une modération proactive et explicable.

English

Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns. We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate Summaries of Conversation Dynamics (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the likelihood of derailment. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.

Toxicité à l'horizon : Prédire le déraillement des conversations sur GitHub

Toxicity Ahead: Forecasting Conversational Derailment on GitHub

papers.abstract

Support