Feingranulare Datenschutzkontrolle für Geolokalisierung mit Visionssprachmodellen
Granular Privacy Control for Geolocation with Vision Language Models
July 6, 2024
Autoren: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI
Zusammenfassung
Vision Language Models (VLMs) entwickeln sich schnell in ihrer Fähigkeit, informationsuchende Fragen zu beantworten. Da diese Modelle weit verbreitet in Verbraucheranwendungen eingesetzt werden, könnten sie aufgrund aufkommender Fähigkeiten, Personen auf Fotos zu identifizieren, Bilder zu geolokalisieren usw., zu neuen Datenschutzrisiken führen. Wie wir zeigen, sind aktuelle Open-Source- und proprietäre VLMs überraschend leistungsfähige Bildgeolokalisierer, was die weit verbreitete Geolokalisierung mit VLMs zu einem unmittelbaren Datenschutzrisiko macht, anstatt nur eine theoretische zukünftige Sorge zu sein. Als ersten Schritt zur Bewältigung dieser Herausforderung entwickeln wir einen neuen Benchmark, GPTGeoChat, um die Fähigkeit von VLMs zu testen, Geolokalisierungsdialoge mit Benutzern zu moderieren. Wir sammeln eine Reihe von 1.000 Bildgeolokalisierungsgesprächen zwischen hauseigenen Annotatoren und GPT-4v, die mit der Genauigkeit der bei jedem Schritt offengelegten Standortinformationen annotiert sind. Unter Verwendung dieses neuen Datensatzes bewerten wir die Fähigkeit verschiedener VLMs, GPT-4v-Geolokalisierungsgespräche zu moderieren, indem wir feststellen, wann zu viele Standortinformationen preisgegeben wurden. Wir stellen fest, dass speziell angepasste feinabgestimmte Modelle ähnlich gut abschneiden wie aufgeforderte API-basierte Modelle bei der Identifizierung von durchgesickerten Standortinformationen auf Länder- oder Stadtebene; jedoch scheint eine Feinabstimmung auf überwachte Daten erforderlich zu sein, um feinere Granularitäten wie den Namen eines Restaurants oder Gebäudes genau zu moderieren.
English
Vision Language Models (VLMs) are rapidly advancing in their capability to
answer information-seeking questions. As these models are widely deployed in
consumer applications, they could lead to new privacy risks due to emergent
abilities to identify people in photos, geolocate images, etc. As we
demonstrate, somewhat surprisingly, current open-source and proprietary VLMs
are very capable image geolocators, making widespread geolocation with VLMs an
immediate privacy risk, rather than merely a theoretical future concern. As a
first step to address this challenge, we develop a new benchmark, GPTGeoChat,
to test the ability of VLMs to moderate geolocation dialogues with users. We
collect a set of 1,000 image geolocation conversations between in-house
annotators and GPT-4v, which are annotated with the granularity of location
information revealed at each turn. Using this new dataset, we evaluate the
ability of various VLMs to moderate GPT-4v geolocation conversations by
determining when too much location information has been revealed. We find that
custom fine-tuned models perform on par with prompted API-based models when
identifying leaked location information at the country or city level; however,
fine-tuning on supervised data appears to be needed to accurately moderate
finer granularities, such as the name of a restaurant or building.Summary
AI-Generated Summary