다중 LLM 주제 분석과 이중 신뢰도 지표: 질적 연구 검증을 위한 코헨 카파와 의미 유사성의 결합
Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation
December 23, 2025
저자: Nilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop
cs.AI
초록
질적 연구는 중요한 신뢰도 과제에 직면해 있습니다: 기존의 평가자 간 일치도 방법은 다수의 인간 코더를 요구하며, 시간이 많이 소요되고 보통 중간 수준의 일치도를 보입니다. 본 연구에서는 앙상블 검증과 이중 신뢰도 지표(평가자 간 일치도를 위한 Cohen's Kappa(κ)와 의미론적 일관성을 위한 코사인 유사도)를 결합한 LLM 기반 주제 분석을 위한 다중 관점 검증 프레임워크를 제시합니다. 우리의 프레임워크는 구성 가능한 분석 매개변수(1-6개의 시드, temperature 0.0-2.0)를 지원하며, 변수 치환이 가능한 사용자 정의 프롬프트 구조를 수용하고, 모든 JSON 형식에 걸쳐 합의된 주제 추출을 제공합니다. 개념 증명으로써, 우리는 환각제 미술 치료 인터뷰 녹취록을 대상으로 세 가지 주요 LLM(Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet)을 평가하며 모델당 6개의 독립적인 실행을 수행했습니다. 결과는 Gemini가 가장 높은 신뢰도(κ=0.907, 코사인=95.3%)를 달성했으며, 그 다음으로 GPT-4o(κ=0.853, 코사인=92.6%), Claude(κ=0.842, 코사인=92.1%) 순임을 보여줍니다. 세 모델 모두 높은 일치도(κ>0.80)를 달성하여 다중 실행 앙상블 접근법의 타당성을 입증했습니다. 본 프레임워크는 실행 간 합의된 주제들을 성공적으로 추출했으며, Gemini는 6개의 합의 주제(50-83% 일관성), GPT-4o는 5개, Claude는 4개 주제를 각각 식별했습니다. 우리의 오픈소스 구현은 연구자들에게 투명한 신뢰도 지표, 유연한 구성, 구조 독립적인 합의 추출을 제공하여 신뢰할 수 있는 AI 지원 질적 연구를 위한 방법론적 기초를 마련합니다.
English
Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa (κ) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability (κ= 0.907, cosine=95.3%), followed by GPT-4o (κ= 0.853, cosine=92.6%) and Claude (κ= 0.842, cosine=92.1%). All three models achieve a high agreement (κ> 0.80), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.