Video2LoRA: Internalização Paramétrica de Vídeo para Modelos de Visão-Linguagem

Resumo

O processamento de vídeo em modelos de visão-linguagem é custoso: cada quadro ocupa centenas de tokens, e o custo de inferência escala com cada quadro e cada consulta repetida. Apresentamos o Video2LoRA, um método para internalização paramétrica de vídeo. Uma hiper-rede perceptron (perceiver) lê as representações intermediárias produzidas camada por camada enquanto um VLM congelado codifica um vídeo, e gera um adaptador de Adaptação de Baixo Posto (LoRA) em uma única passagem direta. Diferentemente do ajuste fino LoRA padrão, que requer atualizações iterativas de gradiente, o Video2LoRA prediz esses pesos diretamente a partir do vídeo. Treinado para SmolVLM2 500M e 2.2B em sumarização e legendagem de vídeos, o Video2LoRA permite que o mesmo VLM congelado responda a consultas apenas a partir do adaptador, com zero tokens visuais no contexto no momento da consulta. O Video2LoRA é estatisticamente não inferior e equivalente à inferência direta com vídeo no contexto em todos os cinco benchmarks de legendagem em ambas as escalas de modelo, e em sete de oito emparelhamentos de escala de benchmark para resposta a perguntas sobre vídeo. Embora treinado apenas com 12 quadros a 384px, permanece estável até 1.024 quadros e 1024px, onde a inferência direta com vídeo no contexto frequentemente se degenera. Ao longo dessa varredura, reduz a carga de tokens visuais no tempo de resposta em até 1.500x e o TTFT (tempo até o primeiro token) da consulta em 6-80x, enquanto preserva saídas fiéis ao vídeo. Também descobrimos que adaptadores gerados independentemente para segmentos de vídeo não sobrepostos podem compor no espaço de posto, sugerindo um caminho para a internalização de vídeos longos em partes.

English

Processing video in vision-language models is expensive: each frame occupies hundreds of tokens, and inference cost scales with every frame and every repeated query. We introduce Video2LoRA, a method for parametric video internalization. A perceiver hypernetwork reads the intermediate representations produced layer-by-layer as a frozen VLM encodes a video, and generates a Low-Rank Adaptation (LoRA) adapter in a single forward pass. Unlike standard LoRA fine-tuning, which requires iterative gradient updates, Video2LoRA predicts these weights directly from the video. Trained for SmolVLM2 500M and 2.2B on video summarization and captioning, Video2LoRA enables the same frozen VLM to answer queries from the adapter alone, with zero visual tokens in its context at query time. Video2LoRA is statistically non-inferior and equivalent to direct video-in-context inference across all five captioning benchmarks at both model scales, and across seven of eight video question answering benchmark-scale pairings. Although trained only on 12 frames at 384px, it remains stable up to 1,024 frames and 1024px, where direct video-in-context inference often degenerates. Across this sweep, it reduces answer-time visual-token load by up to 1,500x and query TTFT by 6-80x, while preserving video-faithful outputs. We also find that independently generated adapters for non-overlapping video segments can compose in rank space, suggesting a path toward chunked long-video internalization.