UniVid: Vereinheitlichung von Vision-Aufgaben mit vortrainierten Video-Generierungsmodellen
UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models
September 26, 2025
papers.authors: Lan Chen, Yuchao Gu, Qi Mao
cs.AI
papers.abstract
Große Sprachmodelle, die auf umfangreichen Korpora trainiert wurden, vereinen erfolgreich diverse linguistische Aufgaben innerhalb eines einzigen generativen Frameworks. Inspiriert davon erweitern neuere Arbeiten wie das Large Vision Model (LVM) dieses Paradigma auf den Bereich der Vision, indem sie Aufgaben in sequenzielle visuelle Sätze organisieren, wobei visuelle Prompts als Kontext dienen, um die Ausgaben zu steuern. Eine solche Modellierung erfordert jedoch aufgaben-spezifisches Pre-Training über verschiedene Modalitäten und Quellen hinweg, was kostspielig ist und die Skalierbarkeit auf unbekannte Aufgaben einschränkt. Da vortrainierte Videogenerationsmodelle inhärent Abhängigkeiten in zeitlichen Sequenzen erfassen, untersuchen wir eine einheitlichere und skalierbarere Alternative: Kann ein vortrainiertes Videogenerationsmodell sich an diverse Bild- und Videoaufgaben anpassen? Um dies zu beantworten, schlagen wir UniVid vor, ein Framework, das ein Video-Diffusion-Transformer-Modell feinabstimmt, um verschiedene Vision-Aufgaben ohne aufgaben-spezifische Modifikationen zu bewältigen. Aufgaben werden als visuelle Sätze dargestellt, wobei die Kontextsequenz sowohl die Aufgabe als auch die erwartete Ausgabemodalität definiert. Wir bewerten die Generalisierung von UniVid aus zwei Perspektiven: (1) Cross-modale Inferenz mit Kontexten, die sowohl Bilder als auch Videos umfassen, was über LVM's uni-modale Einstellung hinausgeht; (2) Cross-Quellen-Aufgaben von natürlichen zu annotierten Daten, ohne Multi-Quellen-Pre-Training. Obwohl UniVid ausschließlich auf natürlichen Videodaten trainiert wurde, generalisiert es gut in beiden Settings. Bemerkenswerterweise können Verstehens- und Generierungsaufgaben einfach durch Umkehrung der Reihenfolge der visuellen Sätze in diesem Paradigma gewechselt werden. Diese Erkenntnisse unterstreichen das Potenzial vortrainierter Videogenerationsmodelle, als skalierbare und einheitliche Grundlage für die Vision-Modellierung zu dienen. Unser Code wird unter https://github.com/CUC-MIPG/UniVid veröffentlicht.
English
Large language models, trained on extensive corpora, successfully unify
diverse linguistic tasks within a single generative framework. Inspired by
this, recent works like Large Vision Model (LVM) extend this paradigm to vision
by organizing tasks into sequential visual sentences, where visual prompts
serve as the context to guide outputs. However, such modeling requires
task-specific pre-training across modalities and sources, which is costly and
limits scalability to unseen tasks. Given that pre-trained video generation
models inherently capture temporal sequence dependencies, we explore a more
unified and scalable alternative: can a pre-trained video generation model
adapt to diverse image and video tasks? To answer this, we propose UniVid, a
framework that fine-tunes a video diffusion transformer to handle various
vision tasks without task-specific modifications. Tasks are represented as
visual sentences, where the context sequence defines both the task and the
expected output modality. We evaluate the generalization of UniVid from two
perspectives: (1) cross-modal inference with contexts composed of both images
and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks
from natural to annotated data, without multi-source pre-training. Despite
being trained solely on natural video data, UniVid generalizes well in both
settings. Notably, understanding and generation tasks can easily switch by
simply reversing the visual sentence order in this paradigm. These findings
highlight the potential of pre-trained video generation models to serve as a
scalable and unified foundation for vision modeling. Our code will be released
at https://github.com/CUC-MIPG/UniVid.