Video2LoRA: Parametrische video-internalisatie voor visie-taalmodellen

Samenvatting

Het verwerken van video in visie-taalmodellen is duur: elk beeld neemt honderden tokens in beslag en de inferentiekosten stijgen met elk beeld en elke herhaalde query. We introduceren Video2LoRA, een methode voor parametrische video-internalisatie. Een perceiver hypernetwerk leest de laag-voor-laag geproduceerde tussentijdse representaties terwijl een bevroren VLM een video codeert, en genereert in één enkele voorwaartse pas een Low-Rank Adaptation (LoRA)-adapter. In tegenstelling tot standaard LoRA-fijnafstemming, die iteratieve gradiëntupdates vereist, voorspelt Video2LoRa deze gewichten rechtstreeks uit de video. Getraind voor SmolVLM2 500M en 2.2B op video-samenvatting en -bijschrijving, stelt Video2LoRA dezelfde bevroren VLM in staat om vragen te beantwoorden met alleen de adapter, zonder visuele tokens in de context op het moment van de query. Video2LoRA is statistisch niet inferieur en equivalent aan directe video-in-context inferentie voor alle vijf bijschrijfbenchmarks op beide modelschalen, en voor zeven van de acht video-vraagbeantwoordingsbenchmark-schaalcombinaties. Hoewel alleen getraind op 12 beelden van 384px, blijft het stabiel tot 1024 beelden en 1024px, waar directe video-in-context inferentie vaak degenereert. Over deze reeks heen vermindert het de visuele token-belasting tijdens de antwoordtijd met tot 1500x en de query TTFT met 6-80x, terwijl het video-getrouwe uitvoer behoudt. We vinden ook dat onafhankelijk gegenereerde adapters voor niet-overlappende videosegmenten kunnen samengesteld worden in de rangruimte, wat een pad suggereert naar chunked lange-video-internalisatie.

English

Processing video in vision-language models is expensive: each frame occupies hundreds of tokens, and inference cost scales with every frame and every repeated query. We introduce Video2LoRA, a method for parametric video internalization. A perceiver hypernetwork reads the intermediate representations produced layer-by-layer as a frozen VLM encodes a video, and generates a Low-Rank Adaptation (LoRA) adapter in a single forward pass. Unlike standard LoRA fine-tuning, which requires iterative gradient updates, Video2LoRA predicts these weights directly from the video. Trained for SmolVLM2 500M and 2.2B on video summarization and captioning, Video2LoRA enables the same frozen VLM to answer queries from the adapter alone, with zero visual tokens in its context at query time. Video2LoRA is statistically non-inferior and equivalent to direct video-in-context inference across all five captioning benchmarks at both model scales, and across seven of eight video question answering benchmark-scale pairings. Although trained only on 12 frames at 384px, it remains stable up to 1,024 frames and 1024px, where direct video-in-context inference often degenerates. Across this sweep, it reduces answer-time visual-token load by up to 1,500x and query TTFT by 6-80x, while preserving video-faithful outputs. We also find that independently generated adapters for non-overlapping video segments can compose in rank space, suggesting a path toward chunked long-video internalization.