Análise Temática Multi-LLM com Métricas Duplas de Confiabilidade: Combinando Kappa de Cohen e Similaridade Semântica para Validação em Pesquisa Qualitativa

Resumo

A investigação qualitativa enfrenta um desafio crítico de fiabilidade: os métodos tradicionais de concordância interavaliadores exigem múltiplos codificadores humanos, são demorados e frequentemente produzem consistência moderada. Apresentamos uma estrutura de validação multiperspetiva para análise temática baseada em LLM que combina validação por *ensemble* com métricas duplas de fiabilidade: Kappa de Cohen (κ) para concordância interavaliadores e similaridade de cosseno para consistência semântica. A nossa estrutura permite parâmetros de análise configuráveis (1-6 *seeds*, temperatura 0,0-2,0), suporta estruturas de *prompt* personalizáveis com substituição de variáveis e fornece extração de temas de consenso em qualquer formato JSON. Como prova de conceito, avaliamos três LLMs líderes (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) numa transcrição de entrevista de terapia de arte com psicadélicos, realizando seis execuções independentes por modelo. Os resultados demonstram que o Gemini atinge a maior fiabilidade (κ=0,907, cosseno=95,3%), seguido pelo GPT-4o (κ=0,853, cosseno=92,6%) e pelo Claude (κ=0,842, cosseno=92,1%). Todos os três modelos atingem uma concordância elevada (κ>0,80), validando a abordagem de *ensemble* com múltiplas execuções. A estrutura extrai com sucesso temas de consenso entre as execuções, com o Gemini a identificar 6 temas de consenso (50-83% de consistência), o GPT-4o a identificar 5 temas e o Claude 4 temas. A nossa implementação de código aberto fornece aos investigadores métricas de fiabilidade transparentes, configuração flexível e extração de consenso independente da estrutura, estabelecendo bases metodológicas para uma investigação qualitativa assistida por IA fiável.

English

Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa (κ) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability (κ= 0.907, cosine=95.3%), followed by GPT-4o (κ= 0.853, cosine=92.6%) and Claude (κ= 0.842, cosine=92.1%). All three models achieve a high agreement (κ> 0.80), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.

Análise Temática Multi-LLM com Métricas Duplas de Confiabilidade: Combinando Kappa de Cohen e Similaridade Semântica para Validação em Pesquisa Qualitativa

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Resumo

Support