X-CoT: Recuperação Explicável de Texto para Vídeo via Raciocínio em Cadeia de Pensamento Baseado em LLM
X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning
September 25, 2025
Autores: Prasanna Reddy Pulakurthi, Jiamian Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Zhiqiang Tao
cs.AI
Resumo
Os sistemas predominantes de recuperação de texto-para-vídeo adotam principalmente modelos de incorporação para extração de características e calculam similaridades de cosseno para classificação. No entanto, esse design apresenta duas limitações. Pares de dados texto-vídeo de baixa qualidade podem comprometer a recuperação, mas são difíceis de identificar e examinar. A similaridade de cosseno por si só não fornece explicação para os resultados de classificação, limitando a interpretabilidade. Perguntamos: podemos interpretar os resultados de classificação para avaliar os modelos de recuperação e examinar os dados texto-vídeo? Este trabalho propõe o X-CoT, uma estrutura de recuperação explicável baseada no raciocínio CoT de LLM, em vez da classificação de similaridade baseada em modelos de incorporação. Primeiro, expandimos os benchmarks existentes com anotações adicionais de vídeo para apoiar a compreensão semântica e reduzir o viés dos dados. Também elaboramos um CoT de recuperação composto por etapas de comparação par a par, gerando raciocínios detalhados e classificação completa. O X-CoT melhora empiricamente o desempenho da recuperação e produz racionais detalhados. Ele também facilita a análise do comportamento do modelo e da qualidade dos dados. O código e os dados estão disponíveis em: https://github.com/PrasannaPulakurthi/X-CoT.
English
Prevalent text-to-video retrieval systems mainly adopt embedding models for
feature extraction and compute cosine similarities for ranking. However, this
design presents two limitations. Low-quality text-video data pairs could
compromise the retrieval, yet are hard to identify and examine. Cosine
similarity alone provides no explanation for the ranking results, limiting the
interpretability. We ask that can we interpret the ranking results, so as to
assess the retrieval models and examine the text-video data? This work proposes
X-CoT, an explainable retrieval framework upon LLM CoT reasoning in place of
the embedding model-based similarity ranking. We first expand the existing
benchmarks with additional video annotations to support semantic understanding
and reduce data bias. We also devise a retrieval CoT consisting of pairwise
comparison steps, yielding detailed reasoning and complete ranking. X-CoT
empirically improves the retrieval performance and produces detailed
rationales. It also facilitates the model behavior and data quality analysis.
Code and data are available at: https://github.com/PrasannaPulakurthi/X-CoT.