VideoICL : Apprentissage en contexte itératif basé sur la confiance pour la compréhension des vidéos hors distribution
VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding
December 3, 2024
Auteurs: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang
cs.AI
Résumé
Les récentes avancées dans les grands modèles multimodaux vidéo (LMMs) ont considérablement amélioré leur compréhension et leurs capacités de raisonnement vidéo. Cependant, leurs performances chutent sur des tâches hors distribution (OOD) qui sont sous-représentées dans les données d'entraînement. Les méthodes traditionnelles telles que le fine-tuning sur des ensembles de données OOD sont impraticables en raison des coûts computationnels élevés. Alors que l'apprentissage en contexte (ICL) avec des exemples de démonstration a montré des performances de généralisation prometteuses dans les tâches linguistiques et les tâches image-langage sans fine-tuning, l'application de l'ICL aux tâches vidéo-langage est confrontée à des défis en raison de la longueur de contexte limitée dans les LMMs vidéo, car les vidéos nécessitent des longueurs de jeton plus longues. Pour résoudre ces problèmes, nous proposons VideoICL, un nouveau cadre d'apprentissage en contexte vidéo pour les tâches OOD qui introduit une stratégie de sélection d'exemples pertinents basée sur la similarité et une approche d'inférence itérative basée sur la confiance. Cela permet de sélectionner les exemples les plus pertinents et de les classer en fonction de leur similarité, à utiliser pour l'inférence. Si la réponse générée a une faible confiance, notre cadre sélectionne de nouveaux exemples et effectue à nouveau l'inférence, affinant itérativement les résultats jusqu'à l'obtention d'une réponse à haute confiance. Cette approche améliore les performances de compréhension vidéo OOD en étendant la longueur efficace du contexte sans entraîner de coûts élevés. Les résultats expérimentaux sur plusieurs benchmarks démontrent des gains de performance significatifs, notamment dans des scénarios spécifiques au domaine, jetant les bases pour des applications de compréhension vidéo plus larges. Le code sera publié sur https://github.com/KangsanKim07/VideoICL
English
Recent advancements in video large multimodal models (LMMs) have
significantly improved their video understanding and reasoning capabilities.
However, their performance drops on out-of-distribution (OOD) tasks that are
underrepresented in training data. Traditional methods like fine-tuning on OOD
datasets are impractical due to high computational costs. While In-context
learning (ICL) with demonstration examples has shown promising generalization
performance in language tasks and image-language tasks without fine-tuning,
applying ICL to video-language tasks faces challenges due to the limited
context length in Video LMMs, as videos require longer token lengths. To
address these issues, we propose VideoICL, a novel video in-context learning
framework for OOD tasks that introduces a similarity-based relevant example
selection strategy and a confidence-based iterative inference approach. This
allows to select the most relevant examples and rank them based on similarity,
to be used for inference. If the generated response has low confidence, our
framework selects new examples and performs inference again, iteratively
refining the results until a high-confidence response is obtained. This
approach improves OOD video understanding performance by extending effective
context length without incurring high costs. The experimental results on
multiple benchmarks demonstrate significant performance gains, especially in
domain-specific scenarios, laying the groundwork for broader video
comprehension applications. Code will be released at
https://github.com/KangsanKim07/VideoICLSummary
AI-Generated Summary