ChatPaper.aiChatPaper

MotionSight: Verbesserung des feinkörnigen Bewegungsverständnisses in multimodalen LLMs

MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

June 2, 2025
Autoren: Yipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI

Zusammenfassung

Trotz Fortschritten bei Multimodalen Großen Sprachmodellen (MLLMs) bleibt ihre Fähigkeit zum feinkörnigen Verständnis von Videobewegungen kritisch eingeschränkt. Oft fehlt ihnen die Differenzierung zwischen Bildern, und sie neigen dazu, subtile visuelle Hinweise zu mitteln oder zu ignorieren. Darüber hinaus hat sich visuelles Prompting zwar bei statischen Bildern als vielversprechend erwiesen, seine Anwendung auf die zeitlichen Komplexitäten von Videos, insbesondere für das feinkörnige Verständnis von Bewegung, ist jedoch weitgehend unerforscht. Wir untersuchen, ob inhärente Fähigkeiten freigesetzt werden können, um die Bewegungswahrnehmung von MLLMs zu verbessern und spezifische visuelle Signaturen zu ermöglichen, die dazu dienen, Objekt- und Kamerabewegungshinweise zu entkoppeln. In dieser Studie stellen wir MotionSight vor, eine neuartige Zero-Shot-Methode, die objektzentrierte visuelle Spotlight- und Bewegungsunschärfe als visuelle Prompts nutzt, um das feinkörnige Bewegungsverständnis effektiv ohne Training zu verbessern. Um dies in wertvolle Datenbestände umzuwandeln, haben wir MotionVid-QA kuratiert, den ersten groß angelegten Datensatz für das feinkörnige Verständnis von Videobewegungen, mit hierarchischen Annotationen, einschließlich SFT- und Präferenzdaten, {\Theta}(40K) Videoclips und {\Theta}(87K) Fragen und Antworten (QAs). Experimente zeigen, dass MotionSight state-of-the-art Open-Source-Leistungen erreicht und mit kommerziellen Modellen wettbewerbsfähig ist. Insbesondere für das feinkörnige Bewegungsverständnis präsentieren wir eine neuartige Zero-Shot-Technik und einen groß angelegten, hochwertigen Datensatz. Der gesamte Code und die Annotationen werden öffentlich zugänglich sein.
English
Despite advancements in Multimodal Large Language Models (MLLMs), their proficiency in fine-grained video motion understanding remains critically limited. They often lack inter-frame differencing and tend to average or ignore subtle visual cues. Furthermore, while visual prompting has shown potential in static images, its application to video's temporal complexities, particularly for fine-grained motion understanding, remains largely unexplored. We investigate whether inherent capability can be unlocked and boost MLLMs' motion perception and enable distinct visual signatures tailored to decouple object and camera motion cues. In this study, we introduce MotionSight, a novel zero-shot method pioneering object-centric visual spotlight and motion blur as visual prompts to effectively improve fine-grained motion understanding without training. To convert this into valuable data assets, we curated MotionVid-QA, the first large-scale dataset for fine-grained video motion understanding, with hierarchical annotations including SFT and preference data, {\Theta}(40K) video clips and {\Theta}(87K) QAs. Experiments show MotionSight achieves state-of-the-art open-source performance and competitiveness with commercial models. In particular, for fine-grained motion understanding we present a novel zero-shot technique and a large-scale, high-quality dataset. All the code and annotations will be publicly available.
PDF242June 4, 2025