X-CoT: Recuperação Explicável de Texto para Vídeo via Raciocínio em Cadeia de Pensamento Baseado em LLM

Resumo

Os sistemas predominantes de recuperação de texto-para-vídeo adotam principalmente modelos de incorporação para extração de características e calculam similaridades de cosseno para classificação. No entanto, esse design apresenta duas limitações. Pares de dados texto-vídeo de baixa qualidade podem comprometer a recuperação, mas são difíceis de identificar e examinar. A similaridade de cosseno por si só não fornece explicação para os resultados de classificação, limitando a interpretabilidade. Perguntamos: podemos interpretar os resultados de classificação para avaliar os modelos de recuperação e examinar os dados texto-vídeo? Este trabalho propõe o X-CoT, uma estrutura de recuperação explicável baseada no raciocínio CoT de LLM, em vez da classificação de similaridade baseada em modelos de incorporação. Primeiro, expandimos os benchmarks existentes com anotações adicionais de vídeo para apoiar a compreensão semântica e reduzir o viés dos dados. Também elaboramos um CoT de recuperação composto por etapas de comparação par a par, gerando raciocínios detalhados e classificação completa. O X-CoT melhora empiricamente o desempenho da recuperação e produz racionais detalhados. Ele também facilita a análise do comportamento do modelo e da qualidade dos dados. O código e os dados estão disponíveis em: https://github.com/PrasannaPulakurthi/X-CoT.

English

Prevalent text-to-video retrieval systems mainly adopt embedding models for feature extraction and compute cosine similarities for ranking. However, this design presents two limitations. Low-quality text-video data pairs could compromise the retrieval, yet are hard to identify and examine. Cosine similarity alone provides no explanation for the ranking results, limiting the interpretability. We ask that can we interpret the ranking results, so as to assess the retrieval models and examine the text-video data? This work proposes X-CoT, an explainable retrieval framework upon LLM CoT reasoning in place of the embedding model-based similarity ranking. We first expand the existing benchmarks with additional video annotations to support semantic understanding and reduce data bias. We also devise a retrieval CoT consisting of pairwise comparison steps, yielding detailed reasoning and complete ranking. X-CoT empirically improves the retrieval performance and produces detailed rationales. It also facilitates the model behavior and data quality analysis. Code and data are available at: https://github.com/PrasannaPulakurthi/X-CoT.

X-CoT: Recuperação Explicável de Texto para Vídeo via Raciocínio em Cadeia de Pensamento Baseado em LLM

X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

Resumo

Support