ビジョン言語モデルを用いたジオロケーションのための粒度別プライバシー制御
Granular Privacy Control for Geolocation with Vision Language Models
July 6, 2024
著者: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI
要旨
ビジョン言語モデル(VLMs)は、情報検索型の質問に答える能力において急速に進化しています。これらのモデルが消費者向けアプリケーションに広く導入されるにつれ、写真に写った人物を特定したり、画像の地理的位置を特定したりするといった新たな能力が、プライバシーリスクを引き起こす可能性があります。私たちが示すように、驚くべきことに、現在のオープンソースおよびプロプライエタリなVLMsは非常に優れた画像位置特定ツールであり、VLMsを用いた広範な位置特定は、理論上の将来の懸念ではなく、即座にプライバシーリスクとなっています。この課題に対処するための第一歩として、私たちは新しいベンチマーク「GPTGeoChat」を開発し、VLMsがユーザーとの位置特定に関する対話を適切に調整する能力をテストします。社内のアノテーターとGPT-4vとの間で行われた1,000件の画像位置特定会話を収集し、各ターンで明らかにされた位置情報の粒度を注釈付けしました。この新しいデータセットを使用して、さまざまなVLMsがGPT-4vの位置特定会話を調整する能力を評価し、過剰な位置情報が明らかにされたタイミングを判断します。その結果、カスタムファインチューニングされたモデルは、国や都市レベルの漏洩した位置情報を特定する点において、プロンプトベースのAPIモデルと同等の性能を発揮することがわかりました。しかし、レストランや建物の名前といったより細かい粒度を正確に調整するためには、教師ありデータでのファインチューニングが必要であるようです。
English
Vision Language Models (VLMs) are rapidly advancing in their capability to
answer information-seeking questions. As these models are widely deployed in
consumer applications, they could lead to new privacy risks due to emergent
abilities to identify people in photos, geolocate images, etc. As we
demonstrate, somewhat surprisingly, current open-source and proprietary VLMs
are very capable image geolocators, making widespread geolocation with VLMs an
immediate privacy risk, rather than merely a theoretical future concern. As a
first step to address this challenge, we develop a new benchmark, GPTGeoChat,
to test the ability of VLMs to moderate geolocation dialogues with users. We
collect a set of 1,000 image geolocation conversations between in-house
annotators and GPT-4v, which are annotated with the granularity of location
information revealed at each turn. Using this new dataset, we evaluate the
ability of various VLMs to moderate GPT-4v geolocation conversations by
determining when too much location information has been revealed. We find that
custom fine-tuned models perform on par with prompted API-based models when
identifying leaked location information at the country or city level; however,
fine-tuning on supervised data appears to be needed to accurately moderate
finer granularities, such as the name of a restaurant or building.Summary
AI-Generated Summary