Токсичность впереди: Прогнозирование сбоев в коммуникации на GitHub
Toxicity Ahead: Forecasting Conversational Derailment on GitHub
December 17, 2025
Авторы: Mia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski
cs.AI
Аннотация
Токсичные взаимодействия в сообществах открытого программного обеспечения (ПО) снижают вовлеченность участников и угрожают устойчивости проектов. Для предотвращения такой токсичности до её появления необходимо четкое понимание того, как развиваются вредоносные беседы. Однако большинство упреждающих стратегий модерации являются ручными и требуют значительных временных затрат и усилий от сопровождающих сообщества. Для поддержки более масштабируемых подходов мы подготовили набор данных, содержащий 159 токсичных и 207 нетоксичных обсуждений из дискуссий на GitHub. Наш анализ показывает, что токсичность можно прогнозировать по триггерам напряженности, сдвигам в тональности и определенным паттернам общения.
Мы представляем новую систему на основе больших языковых моделей (LLM) для прогнозирования схода беседы с рельсов на GitHub, использующую двухэтапный пайплайн промптов. Сначала мы генерируем сводки динамики беседы с помощью подсказки «от наименьшего к наибольшему»; затем используем эти сводки для оценки вероятности схода беседы с рельсов. Оцененная на моделях Qwen и Llama, наша стратегия LtM достигает F1-меры 0,901 и 0,852 соответственно при пороге принятия решения 0,3, превосходя установленные NLP-базисы в задаче прогнозирования схода беседы. Внешняя валидация на наборе данных из 308 обсуждений GitHub Issues (65 токсичных, 243 нетоксичных) показывает F1-меру до 0,797. Наши результаты демонстрируют эффективность структурированного промптинга LLM для раннего обнаружения схода беседы с рельсов в сообществах открытого ПО, что позволяет реализовать проактивную и объяснимую модерацию.
English
Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns.
We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate Summaries of Conversation Dynamics (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the likelihood of derailment. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.