ChatPaper.aiChatPaper

VideoICL: Vertrauensbasiertes iteratives In-Context-Lernen für die Verständnis von Videos außerhalb der Verteilung

VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding

December 3, 2024
Autoren: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte bei großen multimodalen Videomodellen (LMMs) ihre Fähigkeiten zur Videoverarbeitung und -analyse signifikant verbessert. Allerdings sinkt ihre Leistung bei Out-of-Distribution (OOD) Aufgaben, die im Trainingsdatensatz unterrepräsentiert sind. Traditionelle Methoden wie Feinabstimmung auf OOD-Datensätzen sind aufgrund hoher Rechenkosten unpraktikabel. Während In-Context-Learning (ICL) mit Demonstrationsbeispielen vielversprechende Verallgemeinerungsleistungen bei Sprach- und Bildsprach-Aufgaben ohne Feinabstimmung gezeigt hat, stehen bei der Anwendung von ICL auf Video-Sprach-Aufgaben Herausforderungen aufgrund der begrenzten Kontextlänge in Video LMMs im Weg, da Videos längere Tokenlängen erfordern. Um diese Probleme anzugehen, schlagen wir VideoICL vor, ein neuartiges Video-In-Context-Learning-Framework für OOD-Aufgaben, das eine strategische Auswahl relevanter Beispiele auf Basis von Ähnlichkeit einführt und einen vertrauensbasierten iterativen Inferenzansatz verwendet. Dies ermöglicht die Auswahl der relevantesten Beispiele und ihre Rangfolge basierend auf Ähnlichkeit zur Verwendung bei der Inferenz. Wenn die generierte Antwort eine niedrige Zuversicht aufweist, wählt unser Framework neue Beispiele aus und führt die Inferenz erneut durch, wodurch die Ergebnisse iterativ verfeinert werden, bis eine Antwort mit hoher Zuversicht erzielt wird. Dieser Ansatz verbessert die Leistung der OOD-Videoverarbeitung, indem die effektive Kontextlänge vergrößert wird, ohne hohe Kosten zu verursachen. Die experimentellen Ergebnisse auf mehreren Benchmarks zeigen signifikante Leistungssteigerungen, insbesondere in domänenspezifischen Szenarien, und legen den Grundstein für breitere Anwendungen in der Videoverarbeitung. Der Code wird unter https://github.com/KangsanKim07/VideoICL veröffentlicht.
English
Recent advancements in video large multimodal models (LMMs) have significantly improved their video understanding and reasoning capabilities. However, their performance drops on out-of-distribution (OOD) tasks that are underrepresented in training data. Traditional methods like fine-tuning on OOD datasets are impractical due to high computational costs. While In-context learning (ICL) with demonstration examples has shown promising generalization performance in language tasks and image-language tasks without fine-tuning, applying ICL to video-language tasks faces challenges due to the limited context length in Video LMMs, as videos require longer token lengths. To address these issues, we propose VideoICL, a novel video in-context learning framework for OOD tasks that introduces a similarity-based relevant example selection strategy and a confidence-based iterative inference approach. This allows to select the most relevant examples and rank them based on similarity, to be used for inference. If the generated response has low confidence, our framework selects new examples and performs inference again, iteratively refining the results until a high-confidence response is obtained. This approach improves OOD video understanding performance by extending effective context length without incurring high costs. The experimental results on multiple benchmarks demonstrate significant performance gains, especially in domain-specific scenarios, laying the groundwork for broader video comprehension applications. Code will be released at https://github.com/KangsanKim07/VideoICL

Summary

AI-Generated Summary

PDF222December 6, 2024