Análisis Temático Multi-LLM con Métricas Duales de Fiabilidad: Combinando el Kappa de Cohen y la Similitud Semántica para la Validación en Investigación Cualitativa
Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation
December 23, 2025
Autores: Nilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop
cs.AI
Resumen
La investigación cualitativa enfrenta un desafío crítico de fiabilidad: los métodos tradicionales de acuerdo inter-evaluador requieren múltiples codificadores humanos, son intensivos en tiempo y a menudo producen una consistencia moderada. Presentamos un marco de validación multiperspectiva para el análisis temático basado en LLM que combina la validación por conjuntos con métricas duales de fiabilidad: Kappa de Cohen (κ) para el acuerdo inter-evaluador y la similitud del coseno para la consistencia semántica. Nuestro marco permite parámetros de análisis configurables (1-6 semillas, temperatura 0.0-2.0), admite estructuras de prompts personalizables con sustitución de variables y proporciona la extracción de temas consensuados en cualquier formato JSON. Como prueba de concepto, evaluamos tres LLMs líderes (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) en una transcripción de entrevista de terapia de arte con psicodélicos, realizando seis ejecuciones independientes por modelo. Los resultados demuestran que Gemini alcanza la mayor fiabilidad (κ= 0.907, coseno=95.3%), seguido por GPT-4o (κ= 0.853, coseno=92.6%) y Claude (κ= 0.842, coseno=92.1%). Los tres modelos logran un alto acuerdo (κ> 0.80), validando el enfoque de conjuntos multi-ejecución. El marco extrae con éxito temas consensuados entre ejecuciones, con Gemini identificando 6 temas consensuados (50-83% de consistencia), GPT-4o identificando 5 temas y Claude 4 temas. Nuestra implementación de código abierto proporciona a los investigadores métricas de fiabilidad transparentes, configuración flexible y extracción de consenso independiente de la estructura, estableciendo bases metodológicas para una investigación cualitativa asistida por IA fiable.
English
Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa (κ) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability (κ= 0.907, cosine=95.3%), followed by GPT-4o (κ= 0.853, cosine=92.6%) and Claude (κ= 0.842, cosine=92.1%). All three models achieve a high agreement (κ> 0.80), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.