ChatPaper.aiChatPaper

Многоязычный тематический анализ с двойными метриками надежности: сочетание каппы Коэна и семантического сходства для валидации качественных исследований

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

December 23, 2025
Авторы: Nilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop
cs.AI

Аннотация

Качественные исследования сталкиваются с критической проблемой надежности: традиционные методы оценки межкодировочной согласованности требуют привлечения нескольких кодировщиков-людей, являются трудоемкими и часто дают умеренную согласованность. Мы представляем многоперспективную систему валидации для тематического анализа на основе больших языковых моделей (LLM), которая сочетает ансамблевую валидацию с двойными метриками надежности: каппа Коэна (κ) для оценки межкодировочной согласованности и косинусное сходство для оценки семантической консистентности. Наша система позволяет настраивать параметры анализа (1-6 сидов, температура 0.0-2.0), поддерживает пользовательские структуры промптов с подстановкой переменных и обеспечивает извлечение консенсусных тем из данных в любом JSON-формате. В качестве доказательства концепции мы оценили три ведущие LLM (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) на расшифровке интервью о психоделической арт-терапии, проведя по шесть независимых запусков для каждой модели. Результаты показывают, что Gemini демонстрирует наивысшую надежность (κ= 0.907, косинус=95.3%), за ней следуют GPT-4o (κ= 0.853, косинус=92.6%) и Claude (κ= 0.842, косинус=92.1%). Все три модели достигают высокой согласованности (κ> 0.80), что подтверждает эффективность ансамблевого подхода с многократными запусками. Система успешно извлекает консенсусные темы по всем запускам: Gemini идентифицировала 6 консенсусных тем (согласованность 50-83%), GPT-4o — 5 тем, а Claude — 4 темы. Наша открытая реализация предоставляет исследователям прозрачные метрики надежности, гибкую конфигурацию и независимый от структуры данных механизм извлечения консенсуса, закладывая методологические основы для надежного качественного исследования с использованием искусственного интеллекта.
English
Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa (κ) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability (κ= 0.907, cosine=95.3%), followed by GPT-4o (κ= 0.853, cosine=92.6%) and Claude (κ= 0.842, cosine=92.1%). All three models achieve a high agreement (κ> 0.80), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.
PDF21December 25, 2025