앞으로 닥칠 독성: GitHub 대화의 붕괴 예측하기
Toxicity Ahead: Forecasting Conversational Derailment on GitHub
December 17, 2025
저자: Mia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski
cs.AI
초록
오픈소스 소프트웨어(OSS) 커뮤니티에서 발생하는 유해한 상호작용은 기여자의 참여를 저하시키고 프로젝트의 지속 가능성을 위협합니다. 이러한 유해한 대화가 발생하기 전에 예방하려면 해로운 대화가 어떻게 전개되는지에 대한 명확한 이해가 필요합니다. 그러나 대부분의 사전 조정 전략은 수동적으로 진행되어 커뮤니티 관리자들에게 상당한 시간과 노력을 요구합니다. 더 확장 가능한 접근법을 지원하기 위해 우리는 GitHub 토론에서 159개의 탈선된 유해 스레드와 207개의 비유해 스레드로 구성된 데이터셋을 구축했습니다. 우리의 분석에 따르면 긴장 유발 요인, 감정 변화, 특정 대화 패턴을 통해 유해성을 예측할 수 있음을 보여줍니다.
우리는 2단계 프롬프트 파이프라인을 사용하여 GitHub에서의 대화 탈선을 예측하기 위한 새로운 대규모 언어 모델(LLM) 기반 프레임워크를 제시합니다. 첫째, Least-to-Most(LtM) 프롬프팅을 통해 대화 역학 요약(SCD)을 생성한 다음, 이러한 요약을 사용하여 탈선 가능성을 추정합니다. Qwen 및 Llama 모델에서 평가한 결과, 우리의 LtM 전략은 결정 임계값 0.3에서 각각 0.901과 0.852의 F1 점수를 달성하여 대화 탈선 분야에서 기존 NLP 기준선을 능가했습니다. 308개의 GitHub 이슈 스레드(유해 65개, 비유해 243개) 데이터셋에 대한 외부 검증에서는 최대 0.797의 F1 점수를 얻었습니다. 우리의 연구 결과는 OSS에서 대화 탈선을 조기에 감지하고 사전적이며 설명 가능한 조정을 가능하게 하는 구조화된 LLM 프롬프팅의 효과성을 입증합니다.
English
Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns.
We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate Summaries of Conversation Dynamics (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the likelihood of derailment. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.