ChatPaper.aiChatPaper

X-CoT: Объяснимая текстово-видео поисковая система с использованием цепочки рассуждений на основе крупных языковых моделей

X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

September 25, 2025
Авторы: Prasanna Reddy Pulakurthi, Jiamian Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Zhiqiang Tao
cs.AI

Аннотация

Преобладающие системы поиска видео по тексту в основном используют модели внедрения для извлечения признаков и вычисления косинусных сходств для ранжирования. Однако этот подход имеет два ограничения. Низкокачественные пары текст-видео могут ухудшить результаты поиска, но их сложно выявить и проанализировать. Косинусное сходство само по себе не предоставляет объяснений для результатов ранжирования, что ограничивает интерпретируемость. Мы задаемся вопросом: можем ли мы интерпретировать результаты ранжирования, чтобы оценить модели поиска и проанализировать данные текст-видео? В данной работе предлагается X-CoT, объяснимый фреймворк для поиска, основанный на рассуждениях CoT (Chain-of-Thought) с использованием крупных языковых моделей (LLM) вместо ранжирования на основе моделей внедрения. Сначала мы расширяем существующие бенчмарки дополнительными аннотациями видео для поддержки семантического понимания и снижения смещения данных. Также мы разрабатываем CoT для поиска, состоящий из шагов попарного сравнения, что позволяет получить детализированные рассуждения и полное ранжирование. X-CoT эмпирически улучшает производительность поиска и предоставляет подробные обоснования. Кроме того, он способствует анализу поведения модели и качества данных. Код и данные доступны по адресу: https://github.com/PrasannaPulakurthi/X-CoT.
English
Prevalent text-to-video retrieval systems mainly adopt embedding models for feature extraction and compute cosine similarities for ranking. However, this design presents two limitations. Low-quality text-video data pairs could compromise the retrieval, yet are hard to identify and examine. Cosine similarity alone provides no explanation for the ranking results, limiting the interpretability. We ask that can we interpret the ranking results, so as to assess the retrieval models and examine the text-video data? This work proposes X-CoT, an explainable retrieval framework upon LLM CoT reasoning in place of the embedding model-based similarity ranking. We first expand the existing benchmarks with additional video annotations to support semantic understanding and reduce data bias. We also devise a retrieval CoT consisting of pairwise comparison steps, yielding detailed reasoning and complete ranking. X-CoT empirically improves the retrieval performance and produces detailed rationales. It also facilitates the model behavior and data quality analysis. Code and data are available at: https://github.com/PrasannaPulakurthi/X-CoT.
PDF12September 29, 2025