ChatPaper.aiChatPaper

マルチLLMによるテーマ分析と二重信頼性指標:質的研究の妥当性検証のためのコーエンのカッパと意味的類似性の統合

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

December 23, 2025
著者: Nilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop
cs.AI

要旨

質的研究は信頼性における重大な課題に直面している。従来の評価者間一致率の手法は複数の人間によるコーディングを必要とし、時間がかかる上、一貫性が中程度に留まることが多い。本研究では、LLMに基づく主題分析のための多角的検証フレームワークを提案する。これはアンサンブル検証と、評価者間一致率のコーエンのカッパ(κ)と意味的一貫性のコサイン類似度という二つの信頼性指標を組み合わせたものである。本フレームワークは設定可能な分析パラメータ(シード数1~6、温度パラメータ0.0~2.0)を可能とし、変数置換を伴うカスタムプロンプト構造をサポートし、任意のJSON形式にわたる合意主題の抽出を提供する。概念実証として、サイケデリック芸術療法のインタビュー記録を用いて3つの主要LLM(Gemini 2.5 Pro、GPT-4o、Claude 3.5 Sonnet)を評価し、モデルごとに6回の独立した実行を行った。その結果、Geminiが最高の信頼性(κ=0.907、コサイン類似度=95.3%)を達成し、次いでGPT-4o(κ=0.853、コサイン類似度=92.6%)、Claude(κ=0.842、コサイン類似度=92.1%)となった。3モデル全てが高い一致率(κ>0.80)を達成し、複数回実行アンサンブル手法の有効性が確認された。本フレームワークは実行間での合意主題の抽出に成功し、Geminiは6つの合意主題(一貫性50~83%)、GPT-4oは5つ、Claudeは4つをそれぞれ特定した。我々のオープンソース実装は、研究者に対して透明性の高い信頼性指標、柔軟な設定、構造に依存しない合意抽出を提供し、信頼性の高いAI支援質的研究の方法的基盤を確立するものである。
English
Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa (κ) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability (κ= 0.907, cosine=95.3%), followed by GPT-4o (κ= 0.853, cosine=92.6%) and Claude (κ= 0.842, cosine=92.1%). All three models achieve a high agreement (κ> 0.80), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.
PDF21December 25, 2025