번역이 포함된 일일 선별된 AI 연구 논문
기존의 시각-언어 모델(VLMs)은 주로 시각 인코더를 사용하여 시각적 특징을 추출한 후, 대규모 언어 모델(LLMs)을 통해 시각-언어 작업을 수행합니다. 그러나 시각 인코더는 해상도, 종횡비, 의미론적 사전 지식과 같은 시각적 표현을 추상화하는 데 강한 귀납적 편향을 설정하여, VLMs의 유연성과 효율성을 저해할 수 있습니다. 시각 인코더 없이 시각과 언어 입력을 원활하게 받아들이는 순수 VLMs를 훈련하는 것은 여전히 어려운 과제이며, 거의 탐구되지 않았습니다. 실험적 관찰에 따르면, 인코더 없이 직접 훈련할 경우 수렴 속도가 느리고 성능 격차가 크게 발생합니다. 본 연구에서는 인코더 기반 모델과 인코더 없는 모델 간의 격차를 메우고, 순수 VLMs를 위한 간단하면서도 효과적인 훈련 방법을 제시합니다. 구체적으로, 철저한 실험을 통해 인코더 없는 VLMs를 효율적으로 훈련하는 핵심 요소를 밝혀냈습니다: (1) 하나의 통합 디코더 내에서 시각-언어 표현을 연결하고, (2) 추가 감독을 통해 시각 인식 능력을 강화합니다. 이러한 전략을 통해, 우리는 효율적으로 훈련 및 추론이 가능한 인코더 없는 시각-언어 모델인 EVE를 출시했습니다. 특히, 공개적으로 접근 가능한 35M 데이터만을 사용하여 EVE는 여러 시각-언어 벤치마크에서 유사한 용량의 인코더 기반 VLMs와 경쟁할 수 있는 인상적인 성능을 보여줍니다. 또한, EVE는 훈련 절차와 훈련 데이터가 공개되지 않은 Fuyu-8B를 크게 능가합니다. 우리는 EVE가 다양한 모달리티에 걸쳐 순수 디코더 전용 아키텍처를 개발하는 데 있어 투명하고 효율적인 경로를 제공한다고 믿습니다. 우리의 코드와 모델은 https://github.com/baaivision/EVE에서 공개되어 있습니다.
본 보고서는 인간과 대형 언어 모델(LLM) 간의 자연스러운 음성 상호작용을 강화하기 위해 설계된 FunAudioLLM 모델 패밀리를 소개합니다. 이 모델 패밀리의 핵심에는 두 가지 혁신적인 모델이 있습니다: 다국어 음성 인식, 감정 인식, 오디오 이벤트 탐지를 처리하는 SenseVoice와, 다국어, 음색, 말투, 화자 식별을 제어하며 자연스러운 음성 생성을 가능하게 하는 CosyVoice입니다. SenseVoice-Small은 5개 언어에 대해 매우 낮은 지연 시간의 자동 음성 인식(ASR)을 제공하며, SenseVoice-Large는 50개 이상의 언어에 대해 고정밀 ASR을 지원합니다. 한편, CosyVoice는 다국어 음성 생성, 제로샷 인컨텍스트 학습, 교차 언어 음성 복제, 명령 수행 능력에서 뛰어난 성능을 보입니다. SenseVoice와 CosyVoice 관련 모델은 Modelscope와 Huggingface에 오픈소스로 공개되었으며, 해당 학습, 추론, 미세 조정 코드는 GitHub에 공개되었습니다. 이러한 모델들을 LLM과 통합함으로써, FunAudioLLM은 음성 대 음성 번역, 감정적 음성 채팅, 인터랙티브 팟캐스트, 표현력 있는 오디오북 낭독과 같은 애플리케이션을 가능하게 하여 음성 상호작용 기술의 한계를 넓히고 있습니다. 데모는 https://fun-audio-llm.github.io에서 확인할 수 있으며, 코드는 https://github.com/FunAudioLLM에서 접근 가능합니다.
셀프 어텐션은 긴 문맥에서 우수한 성능을 보이지만 이차 복잡도를 가집니다. 기존의 RNN 계층은 선형 복잡도를 가지지만, 긴 문맥에서의 성능은 은닉 상태의 표현력에 의해 제한됩니다. 우리는 선형 복잡도와 표현력 있는 은닉 상태를 가진 새로운 시퀀스 모델링 계층을 제안합니다. 핵심 아이디어는 은닉 상태를 머신 러닝 모델 자체로 만들고, 업데이트 규칙을 자기 지도 학습의 한 단계로 만드는 것입니다. 은닉 상태가 테스트 시퀀스에서도 학습을 통해 업데이트되기 때문에, 우리의 계층을 테스트 시간 학습(Test-Time Training, TTT) 계층이라고 부릅니다. 우리는 두 가지 구현체를 고려합니다: TTT-Linear와 TTT-MLP로, 각각 은닉 상태가 선형 모델과 2층 MLP인 경우입니다. 우리는 125M에서 1.3B 파라미터 규모에서 강력한 Transformer와 현대적인 RNN인 Mamba와 비교하여 구현체를 평가합니다. TTT-Linear와 TTT-MLP 모두 기준 모델과 동등하거나 더 나은 성능을 보입니다. Transformer와 유사하게, 이들은 더 많은 토큰을 조건으로 삼아 perplexity를 계속해서 줄일 수 있지만, Mamba는 16k 문맥 이후에는 이를 할 수 없습니다. 초기 시스템 최적화를 통해 TTT-Linear는 이미 8k 문맥에서 Transformer보다 빠르며, Mamba와 실시간 성능에서 동등합니다. TTT-MLP는 여전히 메모리 I/O에서 어려움을 겪지만, 긴 문맥에서 더 큰 잠재력을 보여 미래 연구를 위한 유망한 방향을 제시합니다.
생성형 AI의 발전으로 인해 대형 언어 모델(LLM)을 활용한 자율 에이전트 개발의 잠재적 응용 범위가 크게 확대되었습니다. 진정한 자율성을 달성하기 위해서는 환경과의 상호작용을 통해 얻은 지식을 축적하고 업데이트하며 이를 효과적으로 활용해야 합니다. 현재의 LLM 기반 접근법은 관찰 기록 전체, 요약 또는 검색 보강을 통해 과거 경험을 활용하고 있습니다. 그러나 이러한 비구조화된 메모리 표현은 복잡한 의사결정에 필수적인 추론과 계획을 용이하게 하지 못합니다. 본 연구에서는 에이전트가 환경을 탐색하면서 의미적 기억과 사건 기억을 통합한 메모리 그래프를 구축하는 새로운 방법인 AriGraph를 소개합니다. 이 그래프 구조는 에이전트의 현재 상태와 목표와 관련된 상호 연결된 개념들의 효율적인 연상 검색을 가능하게 하여, 에이전트의 탐색 및 계획 능력을 향상시키는 효과적인 환경 모델 역할을 합니다. 우리는 제안된 메모리 아키텍처에 계획 및 의사결정 기능을 보강한 Ariadne LLM 에이전트가 TextWorld 환경에서 제로샷 기반으로 복잡한 작업을 효과적으로 처리함을 입증했습니다. 우리의 접근법은 First TextWorld Problems 대회의 요리 챌린지와 같은 다양한 작업뿐만 아니라 집 청소 및 퍼즐 보물 찾기와 같은 새로운 작업에서도 전체 기록, 요약, 검색 보강 생성과 같은 기존 방법들을 크게 능가하는 성능을 보였습니다.
최근 등장한 의료 대형 시각 언어 모델(Med-LVLMs)은 의료 진단을 향상시켰습니다. 그러나 현재의 Med-LVLMs는 종종 사실적 문제에 직면하며, 기존의 의학적 사실과 일치하지 않는 응답을 생성하는 경우가 많습니다. 외부 지식을 활용하는 검색 증강 생성(Retrieval-Augmented Generation, RAG)은 이러한 모델의 사실적 정확성을 개선할 수 있지만, 두 가지 주요 문제를 야기합니다. 첫째, 제한된 검색 컨텍스트는 필요한 모든 정보를 포함하지 못할 수 있으며, 과도한 검색은 관련 없고 부정확한 참조를 도입하여 모델의 생성을 방해할 수 있습니다. 둘째, 모델이 원래 올바르게 응답하는 경우에도 RAG를 적용하면 검색 컨텍스트에 과도하게 의존하게 되어 잘못된 답변을 초래할 수 있습니다. 이러한 문제를 해결하기 위해 우리는 RULE를 제안합니다. RULE는 두 가지 구성 요소로 이루어져 있습니다. 첫째, 검색 컨텍스트의 수를 교정된 방식으로 선택하여 사실적 위험을 효과적으로 통제하는 전략을 도입합니다. 둘째, 검색 컨텍스트에 과도하게 의존하여 오류가 발생한 샘플을 기반으로 선호도 데이터셋을 구성하여 모델을 미세 조정함으로써, 모델의 내재적 지식과 검색 컨텍스트에 대한 의존도를 균형 있게 조정합니다. 우리는 RULE의 효과를 세 가지 의료 VQA 데이터셋에서 입증하며, 사실적 정확도에서 평균 20.8%의 향상을 달성했습니다. 우리는 벤치마크와 코드를 https://github.com/richard-peng-xia/RULE에서 공개합니다.
차트가 산업과 과학 전반에 걸쳐 데이터 분석, 시각화 및 의사결정 도구로서 보편적으로 사용됨에 따라, 차트 이해와 추론을 위한 사전 학습된 기초 모델과 일반 목적의 지시 튜닝 모델 개발에 대한 관심이 점차 증가하고 있습니다. 그러나 기존 방법들은 차트 표현 모델의 성능에 영향을 미치는 두 가지 중요한 측면에서 결정적인 단점을 가지고 있습니다: 이들은 차트의 기반 데이터 테이블에서 생성된 데이터로 학습되어 차트 이미지의 시각적 추세와 패턴을 무시하며, 도메인 특화 학습을 위해 약하게 정렬된 시각-언어 백본 모델을 사용함으로써 실제 환경에서 마주치는 차트에 대한 일반화 능력을 제한합니다. 우리는 이러한 중요한 단점을 해결하고 PaliGemma를 기반으로 개발된 새로운 차트 이해 및 추론 모델인 ChartGemma를 소개합니다. ChartGemma는 기반 데이터 테이블에 의존하는 대신, 차트 이미지에서 직접 생성된 지시 튜닝 데이터로 학습되어 다양한 차트에서 고수준의 추세와 저수준의 시각적 정보를 모두 포착합니다. 우리의 간단한 접근 방식은 차트 요약, 질문 응답, 사실 확인을 아우르는 5개의 벤치마크에서 최첨단 결과를 달성하며, 실제 차트에 대한 상세한 정성적 연구를 통해 ChartGemma가 동시대 모델들에 비해 더 현실적이고 사실적으로 정확한 요약을 생성함을 보여줍니다. 우리는 코드, 모델 체크포인트, 데이터셋 및 데모를 https://github.com/vis-nlp/ChartGemma에서 공개합니다.
사람들은 인스턴트 메시징 도구를 통해 대화 중에 자신의 개인적 경험과 관련된 다양한 이미지를 공유합니다. 그러나 기존 연구들은 (1) 단일 세션에서의 이미지 공유 행동에 초점을 맞추어 장기적인 사회적 상호작용이 제한적이며, (2) 개인화된 이미지 공유 행동이 부족하다는 문제점을 가지고 있습니다. 본 연구에서는 다양한 사회적 페르소나를 다루는 대규모 장기적 다중 모달 대화 데이터셋인 Stark를 소개합니다. 이 데이터셋은 다중 모달 형식, 시간 간격, 그리고 이미지를 포함합니다. Stark를 자동으로 구축하기 위해, 우리는 ChatGPT와 우리가 제안한 Plan-and-Execute 이미지 정렬기를 통해 장기적 다중 모달 대화를 생성하는 새로운 다중 모달 문맥화 프레임워크인 Mcu를 제안합니다. 우리의 Stark를 사용하여 다중 모달 대화 모델인 Ultron 7B를 학습시켰으며, 이 모델은 인상적인 시각적 상상 능력을 보여줍니다. 또한, 인간 평가를 통해 우리 데이터셋의 효과성을 입증합니다. 우리는 소스 코드와 데이터셋을 공개적으로 제공합니다.
대규모 언어 모델(LLMs)은 간단한 수학 문제를 다루는 데 있어서 인상적인 진전을 보였지만, 여전히 더 도전적이고 복잡한 수학적 과제에는 어려움을 겪고 있습니다. 본 논문에서는 코드 지원과 자기 수정을 통한 사고 분해(Decomposition of thought)를 활용한 수학적 추론을 위한 일련의 LLMs를 소개하며, 이를 DotaMath라고 명명합니다. DotaMath 모델은 복잡한 수학적 과제를 더 간단한 논리적 하위 과제로 분해하고, 이러한 하위 과제를 해결하기 위해 코드를 활용하며, 코드 인터프리터로부터 세밀한 피드백을 얻고, 자기 반성과 수정을 수행합니다. 다양한 상호작용적 도구 사용 궤적을 주석 처리하고 GSM8K 및 MATH 데이터셋에 대한 질의 진화를 통해 574K개의 질의-응답 쌍으로 구성된 DotaMathQA라는 지시 미세 조정 데이터셋을 생성합니다. 우리는 DotaMathQA에서 모방 학습을 사용하여 일련의 기본 LLMs를 훈련시켜, 다양한 도메인 내 및 도메인 외 벤치마크에서 오픈소스 LLMs와 비교하여 뛰어난 성능을 달성하는 DotaMath 모델을 얻습니다. 특히, DotaMath-deepseek-7B는 경쟁적인 MATH 데이터셋에서 64.8%, GSM8K에서 86.7%의 탁월한 성능을 보여줍니다. 또한, DotaMath-deepseek-7B는 일련의 도메인 내 및 도메인 외 벤치마크에서도 강력한 경쟁력을 유지합니다(평균 80.1%). 앞으로, DotaMath 패러다임이 복잡한 수학적 문제를 해결하기 위한 새로운 길을 열어줄 것으로 기대합니다. 우리의 코드는 https://github.com/ChengpengLi1003/DotaMath에서 공개되어 있습니다.
본 논문은 일본어 대규모 언어 모델(LLM) 연구 및 개발을 위한 교차 조직 프로젝트인 LLM-jp를 소개합니다. LLM-jp는 오픈 소스이면서 강력한 일본어 LLM을 개발하는 것을 목표로 하며, 본 논문 작성 시점 기준으로 학계와 산업계에서 1,500명 이상의 참가자가 이 목적을 위해 함께 협력하고 있습니다. 본 논문은 LLM-jp 설립 배경, 활동 요약, 그리고 LLM-jp가 개발한 LLM에 대한 기술 보고서를 제시합니다. 최신 활동 정보는 https://llm-jp.nii.ac.jp/en/에서 확인할 수 있습니다.
대규모 언어 모델과 크로스 모달 정렬 기술의 발전으로 인해, 기존의 다중 모달 비디오 이해 방법들은 오프라인 시나리오에서 뛰어난 성능을 달성해 왔습니다. 그러나 실제 세계에서 가장 일반적인 미디어 형태 중 하나인 온라인 비디오 스트림은 거의 주목받지 못했습니다. 오프라인 비디오와 비교했을 때, 온라인 비디오 스트림의 '동적' 특성은 기존 모델의 직접적인 적용에 어려움을 주며, 극도로 장기간의 정보 저장, 연속적인 시각적 콘텐츠와 '비동기적' 사용자 질문 간의 상호작용과 같은 새로운 문제를 야기합니다. 따라서 본 논문에서는 인간의 기억 메커니즘을 모방한 비디오-언어 모델인 Flash-VStream을 제안합니다. 우리의 모델은 실시간으로 극도로 긴 비디오 스트림을 처리하면서 동시에 사용자 질문에 응답할 수 있습니다. 기존 모델과 비교했을 때, Flash-VStream은 온라인 스트리밍 비디오 이해 수행과 밀접하게 관련된 추론 지연 시간과 VRAM 소비를 크게 줄였습니다. 또한, 기존의 비디오 이해 벤치마크가 주로 오프라인 시나리오에 집중되어 있다는 점을 고려하여, 온라인 비디오 스트리밍 이해를 위해 특별히 설계된 새로운 질문 응답 벤치마크인 VStream-QA를 제안합니다. 제안된 벤치마크에서 인기 있는 기존 방법들과의 비교를 통해, 우리의 방법이 이러한 도전적인 설정에서 우수함을 입증했습니다. 우리의 접근 방식의 일반화 가능성을 검증하기 위해, 기존의 비디오 이해 벤치마크에서도 평가를 수행했으며, 오프라인 시나리오에서도 최첨단 성능을 달성했습니다. 모든 코드, 모델, 데이터셋은 https://invinciblewyq.github.io/vstream-page/에서 확인할 수 있습니다.
확장 가능한 감독 프로토콜은 인간이 초인공지능을 정확하게 감독할 수 있도록 하는 것을 목표로 합니다. 본 논문에서는 두 개의 AI가 판사(judge)를 설득하기 위해 경쟁하는 '토론(debate)' 방식과, 단일 AI가 질문을 하는 판사를 설득하려는 '컨설팅(consultancy)' 방식을 연구하며, 이를 AI 없이 판사가 직접 질문에 답하는 '직접 질문-응답(direct question-answering)' 방식과 비교합니다. 우리는 대형 언어 모델(LLM)을 AI 에이전트와 인간 판사의 대리자로 사용하며, 판사 모델을 에이전트 모델보다 약하게 설정합니다. 정보 비대칭을 가진 단일 추출형 질문-응답(extractive QA) 작업에서의 기존 연구를 확장하여, 수학, 코딩, 논리 및 다중모드 추론 비대칭을 포함한 다양한 비대칭 상황에서 벤치마크를 수행합니다. 우리는 컨설턴트가 올바른/잘못된 답을 주장하도록 무작위로 할당될 때, 모든 작업에서 토론 방식이 컨설팅 방식을 능가한다는 것을 발견했습니다. 토론 방식과 직접 질문-응답 방식을 비교할 때, 작업 유형에 따라 결과가 달라집니다: 정보 비대칭이 있는 추출형 QA 작업에서는 토론 방식이 직접 질문-응답 방식을 능가하지만, 정보 비대칭이 없는 다른 작업에서는 결과가 혼재됩니다. 기존 연구에서는 토론자/컨설턴트가 주장할 답을 할당했지만, 우리는 그들이 주장할 답을 선택하도록 허용했을 때, 판사가 잘못된 답에 설득되는 빈도가 토론 방식에서 컨설팅 방식보다 낮다는 것을 발견했습니다. 또한, 더 강력한 토론자 모델이 판사의 정확도를 높이지만, 이전 연구보다는 더 소폭 증가한다는 것을 확인했습니다.
LLM(Large Language Model)은 안전성 정렬(safety alignment) 이후에도 여전히 탈옥 공격(jailbreak attack)에 취약한 것으로 알려져 있습니다. 중요한 관찰은 다양한 유형의 탈옥 공격이 상당히 다른 쿼리를 생성할 수 있지만, 대부분 동일한 유해 지식(예: 폭탄 제작의 상세 단계)에 기반한 유사한 응답을 초래한다는 점입니다. 따라서, 우리는 LLM 내의 유해 지식을 직접적으로 제거(unlearn)하는 것이 주류인 지도 미세 조정(supervised fine-tuning, SFT) 기반 접근법보다 탈옥 공격에 대한 더 효과적인 방어 방법이 될 수 있다고 추측합니다. 우리의 광범위한 실험은 이러한 통찰을 확인했으며, 우리의 제거 기반 접근법이 놀라운 일반화 능력을 보인다는 것을 시사했습니다: 학습 중에 어떠한 탈옥 프롬프트도 사용하지 않고 단 20개의 원시 유해 질문만을 사용하여, 우리의 솔루션은 Vicuna-7B에서 다양한 복잡한 탈옥 프롬프트로 감싸진 분포 외(out-of-distribution, OOD) 유해 질문에 대한 공격 성공률(Attack Success Rate, ASR)을 82.6%에서 7.7%로 감소시켰습니다. 이는 약 0.1M의 안전성 정렬 샘플로 미세 조정된 Llama2-7B-Chat을 크게 능가하는 결과로, Llama2-7B-Chat은 추가적인 안전 시스템 프롬프트의 도움에도 불구하고 여전히 21.9%의 ASR을 보였습니다. 추가 분석에 따르면, 우리 솔루션의 일반화 능력은 유해 질문 간의 유해 응답 간의 내재적 관련성(예: 응답 패턴, 공유된 단계 및 행동, 그리고 LLM 내에서 학습된 표현 간의 유사성)에서 비롯됩니다. 우리의 코드는 https://github.com/thu-coai/SafeUnlearning에서 확인할 수 있습니다.
텍스트와 함께 이미지, 비디오, 오디오 및 기타 감각 모달리티를 종합적으로 처리할 수 있는 멀티모달 기반 모델은 다양한 실제 애플리케이션에서 점점 더 많이 사용되고 있습니다. 그러나 가능한 모델링 결정, 작업 및 도메인의 범위를 고려할 때 멀티모달 기반 모델의 진전을 특성화하고 연구하는 것은 어려운 과제입니다. 본 논문에서는 멀티모달 기반 모델의 능력을 3가지 차원(기본 기술, 정보 흐름, 실제 사용 사례)에 걸쳐 체계적으로 평가하기 위해 Holistic Evaluation of Multimodal Models(HEMM)을 소개합니다. 기본 멀티모달 기술은 문제를 해결하기 위해 필요한 내부 능력으로, 모달리티 간 상호작용 학습, 세밀한 정렬, 다단계 추론, 외부 지식 처리 능력 등을 포함합니다. 정보 흐름은 작업 중 멀티모달 콘텐츠가 질의, 번역, 편집 및 융합을 통해 어떻게 변화하는지를 연구합니다. 사용 사례는 실제 멀티미디어, 감성 컴퓨팅, 자연과학, 헬스케어 및 인간-컴퓨터 상호작용 애플리케이션에서 도입된 도메인별 과제를 포괄합니다. HEMM의 30개 작업에 걸친 포괄적인 실험을 통해 우리는 (1) 오늘날의 모델에 도전을 제기하는 주요 데이터셋 차원(예: 기본 기술, 정보 흐름, 사용 사례)을 식별하고, (2) 다양한 모델링 차원(예: 규모, 사전 학습 데이터, 멀티모달 정렬, 사전 학습 및 지시 튜닝 목표)이 성능에 미치는 영향에 대한 성능 추세를 도출합니다. 도전적인 멀티모달 상호작용, 추론 및 외부 지식이 필요한 사용 사례와 작업, 데이터 및 모델 규모의 이점, 지시 튜닝의 영향에 대한 우리의 결론은 멀티모달 기반 모델의 미래 작업을 위한 실행 가능한 통찰력을 제공합니다.
신경 방사 필드(NeRF)는 높은 품질의 새로운 시점 렌더링 능력으로 인해 상당한 주목을 받으며 다양한 실제 사례를 해결하기 위한 연구가 활발히 진행되고 있습니다. 이 중 하나의 중요한 과제는 노출 시간 동안 카메라 이동으로 인해 발생하는 카메라 모션 블러로, 이는 정확한 3D 장면 재구성을 방해합니다. 본 연구에서는 실시간 렌더링 속도로 블러 이미지로부터 정확한 3D 장면을 재구성하기 위해 연속적인 강체 운동 인식 가우시안 스플래팅(CRiM-GS)을 제안합니다. 복잡한 운동 패턴으로 구성된 실제 카메라 모션 블러링 과정을 고려하여, 신경 상미분 방정식(ODE)을 기반으로 카메라의 연속적인 움직임을 예측합니다. 특히, 강체 변환을 활용하여 적절한 정규화와 함께 카메라 운동을 모델링함으로써 물체의 형태와 크기를 보존합니다. 더 나아가, SE(3) 필드에서 연속적인 변형 가능한 3D 변환을 도입하여 강체 변환을 실제 문제에 적응시킴으로써 더 높은 자유도를 보장합니다. 기본적인 카메라 이론을 재검토하고 고급 신경망 훈련 기법을 활용함으로써, 연속적인 카메라 궤적의 정확한 모델링을 달성합니다. 벤치마크 데이터셋에서 정량적 및 정성적으로 최신 기술 수준의 성능을 입증하는 광범위한 실험을 수행합니다.
비전 언어 모델(VLMs)은 정보 탐색 질문에 답변하는 능력에서 빠르게 발전하고 있습니다. 이러한 모델들이 소비자 애플리케이션에 널리 배포됨에 따라, 사진 속 사람을 식별하거나 이미지의 지리적 위치를 파악하는 등의 새로운 능력으로 인해 프라이버시 위험이 발생할 수 있습니다. 우리가 보여주듯이, 다소 놀랍게도 현재의 오픈소스 및 독점 VLMs는 매우 유능한 이미지 지리적 위치 파악 도구로, VLMs를 통한 광범위한 지리적 위치 파악은 이론적인 미래의 우려가 아니라 즉각적인 프라이버시 위험으로 작용합니다. 이러한 문제를 해결하기 위한 첫 번째 단계로, 우리는 VLMs가 사용자와의 지리적 위치 대화를 조정하는 능력을 테스트하기 위한 새로운 벤치마크인 GPTGeoChat을 개발했습니다. 우리는 내부 주석자와 GPT-4v 간의 1,000개의 이미지 지리적 위치 대화를 수집했으며, 각 턴에서 드러난 위치 정보의 세분성을 주석으로 달았습니다. 이 새로운 데이터셋을 사용하여, 다양한 VLMs가 GPT-4v 지리적 위치 대화를 조정하는 능력을 평가했는데, 이는 너무 많은 위치 정보가 드러났을 때를 판단하는 능력을 포함합니다. 우리는 맞춤형 파인튜닝 모델들이 국가 또는 도시 수준에서 누출된 위치 정보를 식별할 때 프롬프트 기반 API 모델들과 동등한 성능을 보이는 것을 발견했습니다. 그러나, 레스토랑이나 건물 이름과 같은 더 세분화된 정보를 정확히 조정하기 위해서는 지도 학습 데이터에 대한 파인튜닝이 필요해 보입니다.