VideoICL: Aprendizado Iterativo em Contexto Baseado em Confiança para Compreensão de Vídeos Fora da Distribuição
VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding
December 3, 2024
Autores: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang
cs.AI
Resumo
Os avanços recentes em modelos multimodais grandes de vídeo (LMMs) melhoraram significativamente suas capacidades de compreensão e raciocínio de vídeo. No entanto, seu desempenho cai em tarefas fora da distribuição (OOD) que são sub-representadas nos dados de treinamento. Métodos tradicionais como ajuste fino em conjuntos de dados OOD são impraticáveis devido aos altos custos computacionais. Enquanto a aprendizagem em contexto (ICL) com exemplos de demonstração tem mostrado um desempenho de generalização promissor em tarefas de linguagem e tarefas de imagem-linguagem sem ajuste fino, aplicar ICL a tarefas de vídeo-linguagem enfrenta desafios devido ao comprimento de contexto limitado em LMMs de vídeo, uma vez que os vídeos requerem comprimentos de token mais longos. Para abordar essas questões, propomos VideoICL, um novo framework de aprendizagem em contexto de vídeo para tarefas OOD que introduz uma estratégia de seleção de exemplos relevantes baseada em similaridade e uma abordagem de inferência iterativa baseada em confiança. Isso permite selecionar os exemplos mais relevantes e classificá-los com base na similaridade, a serem usados para inferência. Se a resposta gerada tiver baixa confiança, nosso framework seleciona novos exemplos e realiza a inferência novamente, refinando iterativamente os resultados até obter uma resposta de alta confiança. Essa abordagem melhora o desempenho de compreensão de vídeo OOD ao estender o comprimento efetivo do contexto sem incorrer em altos custos. Os resultados experimentais em vários benchmarks demonstram ganhos significativos de desempenho, especialmente em cenários específicos de domínio, lançando as bases para aplicações mais amplas de compreensão de vídeo. O código será disponibilizado em https://github.com/KangsanKim07/VideoICL
English
Recent advancements in video large multimodal models (LMMs) have
significantly improved their video understanding and reasoning capabilities.
However, their performance drops on out-of-distribution (OOD) tasks that are
underrepresented in training data. Traditional methods like fine-tuning on OOD
datasets are impractical due to high computational costs. While In-context
learning (ICL) with demonstration examples has shown promising generalization
performance in language tasks and image-language tasks without fine-tuning,
applying ICL to video-language tasks faces challenges due to the limited
context length in Video LMMs, as videos require longer token lengths. To
address these issues, we propose VideoICL, a novel video in-context learning
framework for OOD tasks that introduces a similarity-based relevant example
selection strategy and a confidence-based iterative inference approach. This
allows to select the most relevant examples and rank them based on similarity,
to be used for inference. If the generated response has low confidence, our
framework selects new examples and performs inference again, iteratively
refining the results until a high-confidence response is obtained. This
approach improves OOD video understanding performance by extending effective
context length without incurring high costs. The experimental results on
multiple benchmarks demonstrate significant performance gains, especially in
domain-specific scenarios, laying the groundwork for broader video
comprehension applications. Code will be released at
https://github.com/KangsanKim07/VideoICLSummary
AI-Generated Summary