Crónicas Visuales: Utilizando Modelos de Lenguaje Multimodales para Analizar Colecciones Masivas de Imágenes
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images
April 11, 2025
Autores: Boyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser
cs.AI
Resumen
Presentamos un sistema que utiliza Modelos de Lenguaje Multimodales (MLLMs, por sus siglas en inglés) para analizar una gran base de datos con decenas de millones de imágenes capturadas en diferentes momentos, con el objetivo de descubrir patrones en los cambios temporales. Específicamente, buscamos capturar cambios frecuentes que ocurren simultáneamente ("tendencias") en una ciudad durante un período determinado. A diferencia de análisis visuales previos, nuestro análisis responde a consultas abiertas (por ejemplo, "¿cuáles son los tipos de cambios frecuentes en la ciudad?") sin sujetos objetivos predeterminados ni etiquetas de entrenamiento. Estas propiedades hacen que las herramientas de análisis visual basadas en aprendizaje previo o no supervisado no sean adecuadas. Identificamos a los MLLMs como una herramienta novedosa por sus capacidades de comprensión semántica abierta. Sin embargo, nuestros conjuntos de datos son cuatro órdenes de magnitud demasiado grandes para que un MLLM los ingiera como contexto. Por lo tanto, introducimos un procedimiento de abajo hacia arriba que descompone el masivo problema de análisis visual en subproblemas más manejables. Diseñamos cuidadosamente soluciones basadas en MLLMs para cada subproblema. Durante los experimentos y estudios de ablación con nuestro sistema, encontramos que supera significativamente a las líneas base y es capaz de descubrir tendencias interesantes a partir de imágenes capturadas en grandes ciudades (por ejemplo, "adición de comedores al aire libre", "el paso elevado fue pintado de azul", etc.). Consulte más resultados y demostraciones interactivas en https://boyangdeng.com/visual-chronicles.
English
We present a system using Multimodal LLMs (MLLMs) to analyze a large database
with tens of millions of images captured at different times, with the aim of
discovering patterns in temporal changes. Specifically, we aim to capture
frequent co-occurring changes ("trends") across a city over a certain period.
Unlike previous visual analyses, our analysis answers open-ended queries (e.g.,
"what are the frequent types of changes in the city?") without any
predetermined target subjects or training labels. These properties cast prior
learning-based or unsupervised visual analysis tools unsuitable. We identify
MLLMs as a novel tool for their open-ended semantic understanding capabilities.
Yet, our datasets are four orders of magnitude too large for an MLLM to ingest
as context. So we introduce a bottom-up procedure that decomposes the massive
visual analysis problem into more tractable sub-problems. We carefully design
MLLM-based solutions to each sub-problem. During experiments and ablation
studies with our system, we find it significantly outperforms baselines and is
able to discover interesting trends from images captured in large cities (e.g.,
"addition of outdoor dining,", "overpass was painted blue," etc.). See more
results and interactive demos at https://boyangdeng.com/visual-chronicles.Summary
AI-Generated Summary