Analyse thématique multi-LLM avec métriques de fiabilité duales : Combinaison du Kappa de Cohen et de la similarité sémantique pour la validation en recherche qualitative
Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation
December 23, 2025
papers.authors: Nilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop
cs.AI
papers.abstract
La recherche qualitative est confrontée à un défi crucial de fiabilité : les méthodes traditionnelles d'accord inter-codeurs nécessitent plusieurs évaluateurs humains, sont chronophages et produisent souvent une cohérence modérée. Nous présentons un cadre de validation multi-perspectives pour l'analyse thématique basée sur les LLM qui combine une validation par ensemble avec deux métriques de fiabilité : le Kappa de Cohen (κ) pour l'accord inter-juge et la similarité cosinus pour la cohérence sémantique. Notre cadre permet des paramètres d'analyse configurables (1-6 *seeds*, température 0.0-2.0), prend en charge des structures d'invite personnalisables avec substitution de variables et fournit une extraction de thèmes consensuels à partir de n'importe quel format JSON. À titre de preuve de concept, nous évaluons trois LLM leaders (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) sur une transcription d'entretien de thérapie par l'art psychédélique, en réalisant six exécutions indépendantes par modèle. Les résultats démontrent que Gemini atteint la fiabilité la plus élevée (κ= 0,907, cosinus=95,3 %), suivi par GPT-4o (κ= 0,853, cosinus=92,6 %) et Claude (κ= 0,842, cosinus=92,1 %). Les trois modèles atteignent un accord élevé (κ> 0,80), validant l'approche d'ensemble multi-exécutions. Le cadre permet avec succès l'extraction de thèmes consensuels entre les exécutions, Gemini identifiant 6 thèmes consensuels (cohérence de 50 à 83 %), GPT-4o en identifiant 5 et Claude 4. Notre implémentation open-source offre aux chercheurs des métriques de fiabilité transparentes, une configuration flexible et une extraction de consensus indépendante de la structure, établissant des fondements méthodologiques pour une recherche qualitative assistée par IA fiable.
English
Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa (κ) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability (κ= 0.907, cosine=95.3%), followed by GPT-4o (κ= 0.853, cosine=92.6%) and Claude (κ= 0.842, cosine=92.1%). All three models achieve a high agreement (κ> 0.80), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.