ChatPaper.aiChatPaper

Multi-LLM Thematische Analyse met Dubbele Betrouwbaarheidsmetrieken: Een Combinatie van Cohens Kappa en Semantische Gelijkenis voor Validatie in Kwalitatief Onderzoek

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

December 23, 2025
Auteurs: Nilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop
cs.AI

Samenvatting

Kwalitatief onderzoek staat voor een cruciale betrouwbaarheidsuitdaging: traditionele methoden voor beoordelaarsovereenstemming vereisen meerdere menselijke codeurs, zijn tijdrovend en leveren vaak matige consistentie op. Wij presenteren een multi-perspectief validatieraamwerk voor op LLM gebaseerde thematische analyse dat ensemble-validatie combineert met dubbele betrouwbaarheidsmetrieken: Cohens Kappa (κ) voor beoordelaarsovereenstemming en cosinusgelijkenis voor semantische consistentie. Ons raamwerk maakt configureerbare analyseparameters mogelijk (1-6 seeds, temperatuur 0.0-2.0), ondersteunt aangepaste promptstructuren met variabele substitutie en biedt consensus-thema-extractie voor elk JSON-formaat. Als proof-of-concept evalueren we drie toonaangevende LLM's (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) op een transcript van een psychedelische kunsttherapie-interview, waarbij we zes onafhanklijke runs per model uitvoeren. Resultaten tonen aan dat Gemini de hoogste betrouwbaarheid bereikt (κ= 0,907, cosinus=95,3%), gevolgd door GPT-4o (κ= 0,853, cosinus=92,6%) en Claude (κ= 0,842, cosinus=92,1%). Alle drie de modellen bereiken een hoge overeenstemming (κ> 0,80), wat de multi-run ensemble-aanpak valideert. Het raamwerk extraheert met succes consensusthema's over de runs heen, waarbij Gemini 6 consensusthema's identificeert (50-83% consistentie), GPT-4o er 5 identificeert en Claude er 4. Onze open-source-implementatie biedt onderzoekers transparante betrouwbaarheidsmetrieken, flexibele configuratie en structuuronafhankelijke consensusextractie, waarmee methodologische fundamenten worden gelegd voor betrouwbaar, door AI ondersteund kwalitatief onderzoek.
English
Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa (κ) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability (κ= 0.907, cosine=95.3%), followed by GPT-4o (κ= 0.853, cosine=92.6%) and Claude (κ= 0.842, cosine=92.1%). All three models achieve a high agreement (κ> 0.80), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.
PDF21December 25, 2025