Visuele Kronieken: Het gebruik van multimodale LLM's voor het analyseren van enorme collecties afbeeldingen
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images
April 11, 2025
Auteurs: Boyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser
cs.AI
Samenvatting
We presenteren een systeem dat gebruikmaakt van Multimodale LLM's (MLLMs) om een grote database met tientallen miljoenen afbeeldingen die op verschillende tijdstippen zijn vastgelegd te analyseren, met als doel patronen in temporele veranderingen te ontdekken. Specifiek streven we ernaar om veelvoorkomende gelijktijdige veranderingen ("trends") in een stad gedurende een bepaalde periode vast te leggen. In tegenstelling tot eerdere visuele analyses, beantwoordt onze analyse open-einde vragen (bijvoorbeeld "wat zijn de veelvoorkomende soorten veranderingen in de stad?") zonder vooraf bepaalde doelonderwerpen of trainingslabels. Deze eigenschappen maken eerder op leren gebaseerde of onbewaakte visuele analyse tools ongeschikt. We identificeren MLLMs als een nieuw hulpmiddel vanwege hun vermogen tot open-einde semantisch begrip. Echter, onze datasets zijn vier ordes van grootte te groot voor een MLLM om als context te verwerken. Daarom introduceren we een bottom-up procedure die het enorme visuele analyseprobleem opsplitst in meer behapbare subproblemen. We ontwerpen zorgvuldig MLLM-gebaseerde oplossingen voor elk subprobleem. Tijdens experimenten en ablatiestudies met ons systeem, ontdekken we dat het aanzienlijk beter presteert dan baseline-methoden en in staat is interessante trends te ontdekken uit afbeeldingen die in grote steden zijn vastgelegd (bijvoorbeeld "toevoeging van buitenruimtes voor dineren", "viaduct werd blauw geverfd", enz.). Bekijk meer resultaten en interactieve demo's op https://boyangdeng.com/visual-chronicles.
English
We present a system using Multimodal LLMs (MLLMs) to analyze a large database
with tens of millions of images captured at different times, with the aim of
discovering patterns in temporal changes. Specifically, we aim to capture
frequent co-occurring changes ("trends") across a city over a certain period.
Unlike previous visual analyses, our analysis answers open-ended queries (e.g.,
"what are the frequent types of changes in the city?") without any
predetermined target subjects or training labels. These properties cast prior
learning-based or unsupervised visual analysis tools unsuitable. We identify
MLLMs as a novel tool for their open-ended semantic understanding capabilities.
Yet, our datasets are four orders of magnitude too large for an MLLM to ingest
as context. So we introduce a bottom-up procedure that decomposes the massive
visual analysis problem into more tractable sub-problems. We carefully design
MLLM-based solutions to each sub-problem. During experiments and ablation
studies with our system, we find it significantly outperforms baselines and is
able to discover interesting trends from images captured in large cities (e.g.,
"addition of outdoor dining,", "overpass was painted blue," etc.). See more
results and interactive demos at https://boyangdeng.com/visual-chronicles.Summary
AI-Generated Summary