ChatPaper.aiChatPaper

Crónicas Visuales: Utilizando Modelos de Lenguaje Multimodales para Analizar Colecciones Masivas de Imágenes

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

April 11, 2025
Autores: Boyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser
cs.AI

Resumen

Presentamos un sistema que utiliza Modelos de Lenguaje Multimodales (MLLMs, por sus siglas en inglés) para analizar una gran base de datos con decenas de millones de imágenes capturadas en diferentes momentos, con el objetivo de descubrir patrones en los cambios temporales. Específicamente, buscamos capturar cambios frecuentes que ocurren simultáneamente ("tendencias") en una ciudad durante un período determinado. A diferencia de análisis visuales previos, nuestro análisis responde a consultas abiertas (por ejemplo, "¿cuáles son los tipos de cambios frecuentes en la ciudad?") sin sujetos objetivos predeterminados ni etiquetas de entrenamiento. Estas propiedades hacen que las herramientas de análisis visual basadas en aprendizaje previo o no supervisado no sean adecuadas. Identificamos a los MLLMs como una herramienta novedosa por sus capacidades de comprensión semántica abierta. Sin embargo, nuestros conjuntos de datos son cuatro órdenes de magnitud demasiado grandes para que un MLLM los ingiera como contexto. Por lo tanto, introducimos un procedimiento de abajo hacia arriba que descompone el masivo problema de análisis visual en subproblemas más manejables. Diseñamos cuidadosamente soluciones basadas en MLLMs para cada subproblema. Durante los experimentos y estudios de ablación con nuestro sistema, encontramos que supera significativamente a las líneas base y es capaz de descubrir tendencias interesantes a partir de imágenes capturadas en grandes ciudades (por ejemplo, "adición de comedores al aire libre", "el paso elevado fue pintado de azul", etc.). Consulte más resultados y demostraciones interactivas en https://boyangdeng.com/visual-chronicles.
English
We present a system using Multimodal LLMs (MLLMs) to analyze a large database with tens of millions of images captured at different times, with the aim of discovering patterns in temporal changes. Specifically, we aim to capture frequent co-occurring changes ("trends") across a city over a certain period. Unlike previous visual analyses, our analysis answers open-ended queries (e.g., "what are the frequent types of changes in the city?") without any predetermined target subjects or training labels. These properties cast prior learning-based or unsupervised visual analysis tools unsuitable. We identify MLLMs as a novel tool for their open-ended semantic understanding capabilities. Yet, our datasets are four orders of magnitude too large for an MLLM to ingest as context. So we introduce a bottom-up procedure that decomposes the massive visual analysis problem into more tractable sub-problems. We carefully design MLLM-based solutions to each sub-problem. During experiments and ablation studies with our system, we find it significantly outperforms baselines and is able to discover interesting trends from images captured in large cities (e.g., "addition of outdoor dining,", "overpass was painted blue," etc.). See more results and interactive demos at https://boyangdeng.com/visual-chronicles.

Summary

AI-Generated Summary

PDF112April 14, 2025