VideoICL: Доверие основанное на итеративном контекстном обучении для понимания видео вне диапазона данных.
VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding
December 3, 2024
Авторы: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang
cs.AI
Аннотация
Недавние достижения в области видео больших мультимодальных моделей (LMM) значительно улучшили их способности к пониманию и рассуждениям о видео. Однако их производительность снижается на задачах вне распределения (OOD), которые недостаточно представлены в обучающих данных. Традиционные методы, такие как донастройка на наборах данных OOD, являются непрактичными из-за высоких вычислительных затрат. В то время как обучение в контексте (ICL) с примерами демонстрации показало многообещающую обобщающую производительность в языковых задачах и задачах изображение-язык без донастройки, применение ICL к задачам видео-язык сталкивается с проблемами из-за ограниченной длины контекста в видео LMM, поскольку видео требуют более длинных токенов. Для решения этих проблем мы предлагаем VideoICL, новую видео-систему обучения в контексте для задач OOD, которая вводит стратегию выбора сходных примеров на основе сходства и подход итеративного вывода на основе уверенности. Это позволяет выбирать наиболее релевантные примеры и ранжировать их по сходству для использования в выводе. Если сгенерированный ответ имеет низкую уверенность, наша система выбирает новые примеры и выполняет вывод снова, итеративно уточняя результаты до получения ответа с высокой уверенностью. Этот подход улучшает производительность понимания видео вне распределения путем расширения эффективной длины контекста без дополнительных затрат. Экспериментальные результаты на нескольких бенчмарках демонстрируют значительный прирост производительности, особенно в сценариях, специфичных для области, заложив основу для более широких приложений по пониманию видео. Код будет опубликован на https://github.com/KangsanKim07/VideoICL
English
Recent advancements in video large multimodal models (LMMs) have
significantly improved their video understanding and reasoning capabilities.
However, their performance drops on out-of-distribution (OOD) tasks that are
underrepresented in training data. Traditional methods like fine-tuning on OOD
datasets are impractical due to high computational costs. While In-context
learning (ICL) with demonstration examples has shown promising generalization
performance in language tasks and image-language tasks without fine-tuning,
applying ICL to video-language tasks faces challenges due to the limited
context length in Video LMMs, as videos require longer token lengths. To
address these issues, we propose VideoICL, a novel video in-context learning
framework for OOD tasks that introduces a similarity-based relevant example
selection strategy and a confidence-based iterative inference approach. This
allows to select the most relevant examples and rank them based on similarity,
to be used for inference. If the generated response has low confidence, our
framework selects new examples and performs inference again, iteratively
refining the results until a high-confidence response is obtained. This
approach improves OOD video understanding performance by extending effective
context length without incurring high costs. The experimental results on
multiple benchmarks demonstrate significant performance gains, especially in
domain-specific scenarios, laying the groundwork for broader video
comprehension applications. Code will be released at
https://github.com/KangsanKim07/VideoICLSummary
AI-Generated Summary