毒性の予兆: GitHubにおける対話の脱線予測
Toxicity Ahead: Forecasting Conversational Derailment on GitHub
December 17, 2025
著者: Mia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski
cs.AI
要旨
オープンソースソフトウェア(OSS)コミュニティにおける有害な相互作用は、貢献者の参加意欲を低下させ、プロジェクトの持続可能性を脅かす。このような有害性が顕在化する前に防止するには、有害な会話がどのように展開するかを明確に理解する必要がある。しかし、積極的なモデレーション戦略の多くは手動であり、コミュニティメンテナに多大な時間と労力を要求する。よりスケーラブルなアプローチを支援するため、我々はGitHub Discussionsから159の脱線した有害スレッドと207の非有害スレッドからなるデータセットを構築した。分析により、有害性は、緊張のトリガー、感情の変化、特定の会話パターンによって予測可能であることが明らかになった。
本論文では、2段階のプロンプティングパイプラインを用いてGitHub上の会話脱線を予測する新しい大規模言語モデル(LLM)ベースのフレームワークを提案する。まず、Least-to-Most(LtM)プロンプティングにより会話ダイナミクスの要約(SCD)を生成し、次にこれらの要約を用いて脱線の可能性を推定する。QwenモデルとLlamaモデルで評価した結果、我々のLtM戦略は決定閾値0.3において、それぞれF1スコア0.901および0.852を達成し、会話脱線タスクにおいて既存のNLPベースライン手法を凌駕した。308のGitHubイシュースレッド(有害65、非有害243)からなるデータセットを用いた外部検証では、最大0.797のF1スコアを得た。本研究の結果は、OSSにおける会話脱線の早期検出のための構造化されたLLMプロンプティングの有効性を示し、積極的かつ説明可能なモデレーションを可能にする。
English
Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns.
We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate Summaries of Conversation Dynamics (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the likelihood of derailment. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.