X-CoT: Recuperación Explicable de Texto a Vídeo mediante Razonamiento en Cadena de Pensamiento Basado en Modelos de Lenguaje de Gran Escala
X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning
September 25, 2025
Autores: Prasanna Reddy Pulakurthi, Jiamian Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Zhiqiang Tao
cs.AI
Resumen
Los sistemas predominantes de recuperación de texto a video adoptan principalmente modelos de incrustación para la extracción de características y calculan similitudes coseno para la clasificación. Sin embargo, este diseño presenta dos limitaciones. Los pares de datos texto-video de baja calidad podrían comprometer la recuperación, pero son difíciles de identificar y examinar. La similitud coseno por sí sola no proporciona una explicación para los resultados de la clasificación, lo que limita la interpretabilidad. Nos preguntamos: ¿podemos interpretar los resultados de la clasificación para evaluar los modelos de recuperación y examinar los datos texto-video? Este trabajo propone X-CoT, un marco de recuperación explicable basado en el razonamiento CoT de modelos de lenguaje grandes (LLM) en lugar de la clasificación basada en similitudes de modelos de incrustación. Primero, ampliamos los puntos de referencia existentes con anotaciones adicionales de video para apoyar la comprensión semántica y reducir el sesgo de los datos. También diseñamos un CoT de recuperación que consiste en pasos de comparación por pares, generando un razonamiento detallado y una clasificación completa. X-CoT mejora empíricamente el rendimiento de la recuperación y produce justificaciones detalladas. Además, facilita el análisis del comportamiento del modelo y la calidad de los datos. El código y los datos están disponibles en: https://github.com/PrasannaPulakurthi/X-CoT.
English
Prevalent text-to-video retrieval systems mainly adopt embedding models for
feature extraction and compute cosine similarities for ranking. However, this
design presents two limitations. Low-quality text-video data pairs could
compromise the retrieval, yet are hard to identify and examine. Cosine
similarity alone provides no explanation for the ranking results, limiting the
interpretability. We ask that can we interpret the ranking results, so as to
assess the retrieval models and examine the text-video data? This work proposes
X-CoT, an explainable retrieval framework upon LLM CoT reasoning in place of
the embedding model-based similarity ranking. We first expand the existing
benchmarks with additional video annotations to support semantic understanding
and reduce data bias. We also devise a retrieval CoT consisting of pairwise
comparison steps, yielding detailed reasoning and complete ranking. X-CoT
empirically improves the retrieval performance and produces detailed
rationales. It also facilitates the model behavior and data quality analysis.
Code and data are available at: https://github.com/PrasannaPulakurthi/X-CoT.