ChatPaper.aiChatPaper

Multimodale LLM-Themenanalyse mit dualen Zuverlässigkeitsmetriken: Kombination von Cohens Kappa und semantischer Ähnlichkeit zur Validierung qualitativer Forschung

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

December 23, 2025
papers.authors: Nilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop
cs.AI

papers.abstract

Die qualitative Forschung steht vor einer zentralen Herausforderung in Bezug auf die Reliabilität: traditionelle Methoden zur Übereinstimmung zwischen Beurteilern erfordern mehrere menschliche Kodierer, sind zeitaufwändig und erzielen oft nur mäßige Konsistenz. Wir stellen einen multiperspektivischen Validierungsrahmen für die LLM-gestützte Themenanalyse vor, der Ensemble-Validierung mit zwei Reliabilitätsmetriken kombiniert: Cohens Kappa (κ) für die Übereinstimmung zwischen Beurteilern und Kosinus-Ähnlichkeit für semantische Konsistenz. Unser Rahmenwerk ermöglicht konfigurierbare Analyseparameter (1-6 Seeds, Temperature 0,0-2,0), unterstützt benutzerdefinierte Prompt-Strukturen mit Variablenersetzung und bietet Konsens-Themenextraktion über beliebige JSON-Formate hinweg. Als Proof-of-Concept evaluieren wir drei führende LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) anhand eines Interviewtranskripts zur psychedelischen Kunsttherapie, wobei pro Modell sechs unabhängige Durchläufe durchgeführt werden. Die Ergebnisse zeigen, dass Gemini die höchste Reliabilität erreicht (κ=0,907, Kosinus=95,3 %), gefolgt von GPT-4o (κ=0,853, Kosinus=92,6 %) und Claude (κ=0,842, Kosinus=92,1 %). Alle drei Modelle erzielen eine hohe Übereinstimmung (κ>0,80), was den Mehrfachdurchlauf-Ensemble-Ansatz validiert. Das Framework extrahiert erfolgreich Konsensthemen über die Durchläufe hinweg, wobei Gemini 6 Konsensthemen (50-83 % Konsistenz), GPT-4o 5 Themen und Claude 4 Themen identifiziert. Unsere Open-Source-Implementierung bietet Forschenden transparente Reliabilitätsmetriken, flexible Konfiguration und strukturunabhängige Konsensextraktion und schafft damit methodische Grundlagen für zuverlässige KI-gestützte qualitative Forschung.
English
Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa (κ) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability (κ= 0.907, cosine=95.3%), followed by GPT-4o (κ= 0.853, cosine=92.6%) and Claude (κ= 0.842, cosine=92.1%). All three models achieve a high agreement (κ> 0.80), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.
PDF21December 25, 2025