ChatPaper.aiChatPaper

X-CoT: LLM 기반 사고 연쇄 추론을 통한 설명 가능한 텍스트-비디오 검색

X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

September 25, 2025
저자: Prasanna Reddy Pulakurthi, Jiamian Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Zhiqiang Tao
cs.AI

초록

현재 널리 사용되는 텍스트-비디오 검색 시스템은 주로 임베딩 모델을 사용하여 특징을 추출하고 코사인 유사도를 계산하여 순위를 매기는 방식을 채택하고 있습니다. 그러나 이러한 설계는 두 가지 한계를 가지고 있습니다. 저품질의 텍스트-비디오 데이터 쌍은 검색 결과를 저해할 수 있지만, 이를 식별하고 검토하기는 어렵습니다. 또한 코사인 유사도만으로는 순위 결과에 대한 설명을 제공하지 못해 해석 가능성이 제한됩니다. 우리는 순위 결과를 해석하여 검색 모델을 평가하고 텍스트-비디오 데이터를 검토할 수 있는지에 대해 질문합니다. 본 연구에서는 임베딩 모델 기반의 유사도 순위 대신 LLM CoT(Chain-of-Thought) 추론을 기반으로 한 설명 가능한 검색 프레임워크인 X-CoT를 제안합니다. 먼저, 기존 벤치마크에 추가 비디오 주석을 확장하여 의미 이해를 지원하고 데이터 편향을 줄입니다. 또한, 쌍별 비교 단계로 구성된 검색 CoT를 설계하여 상세한 추론과 완전한 순위를 생성합니다. X-CoT는 실험적으로 검색 성능을 향상시키고 상세한 근거를 제공합니다. 또한 모델 동작 및 데이터 품질 분석을 용이하게 합니다. 코드와 데이터는 https://github.com/PrasannaPulakurthi/X-CoT에서 확인할 수 있습니다.
English
Prevalent text-to-video retrieval systems mainly adopt embedding models for feature extraction and compute cosine similarities for ranking. However, this design presents two limitations. Low-quality text-video data pairs could compromise the retrieval, yet are hard to identify and examine. Cosine similarity alone provides no explanation for the ranking results, limiting the interpretability. We ask that can we interpret the ranking results, so as to assess the retrieval models and examine the text-video data? This work proposes X-CoT, an explainable retrieval framework upon LLM CoT reasoning in place of the embedding model-based similarity ranking. We first expand the existing benchmarks with additional video annotations to support semantic understanding and reduce data bias. We also devise a retrieval CoT consisting of pairwise comparison steps, yielding detailed reasoning and complete ranking. X-CoT empirically improves the retrieval performance and produces detailed rationales. It also facilitates the model behavior and data quality analysis. Code and data are available at: https://github.com/PrasannaPulakurthi/X-CoT.
PDF12September 29, 2025