번역이 포함된 일일 선별된 AI 연구 논문
사후 양자화(Post-training quantization)는 LLM 추론에서 메모리 관련 병목 현상을 해결하기 위한 주요 방법이지만, 불행히도 4비트 미만의 정밀도에서는 성능 저하가 크게 발생합니다. 이를 대체할 수 있는 접근법으로는 낮은 비트폭(예: 이진 또는 삼진 모델)에서 직접 압축된 모델을 훈련시키는 방법이 있습니다. 그러나 이러한 모델의 성능, 훈련 역학, 그리고 확장 추세는 아직 잘 이해되지 않고 있습니다. 이 문제를 해결하기 위해, 우리는 99M에서 3.9B 파라미터 범위의 54개 언어 모델로 구성된 Spectra LLM 스위트를 훈련시키고 공개했습니다. 이 모델들은 300B 토큰으로 훈련되었습니다. Spectra에는 FloatLM, 사후 양자화된 QuantLM(3, 4, 6, 8비트), 그리고 삼진 언어 모델링을 위한 개선된 아키텍처인 삼진 LLM(TriLM)이 포함되어 있습니다. TriLM은 주어진 크기(비트 단위)의 기존 삼진 모델을 크게 능가하며, 대규모에서 반정밀도 모델과도 성능이 일치합니다. 예를 들어, TriLM 3.9B는 반정밀도 FloatLM 830M보다 (비트 단위로) 작지만, 상식 추론 및 지식 벤치마크에서 반정밀도 FloatLM 3.9B와 동등한 성능을 보입니다. 그러나 TriLM 3.9B는 크기가 6배 더 큰 FloatLM 3.9B만큼 독성이 있고 고정관념적입니다. 또한, TriLM 3.9B는 검증 데이터셋과 웹 기반 코퍼스에서의 perplexity에서는 FloatLM에 뒤처지지만, Lambada와 PennTreeBank와 같은 덜 노이즈가 있는 데이터셋에서는 더 나은 성능을 보입니다. 낮은 비트폭 모델에 대한 이해를 높이기 위해, 우리는 Spectra 스위트의 500개 이상의 중간 체크포인트를 https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}에서 공개하고 있습니다.
우리는 GoldFinch를 소개합니다. 이는 새로운 기술을 사용하여 시퀀스 길이에 대해 선형 시간과 공간으로 고도로 압축되고 재사용 가능한 KV 캐시를 효율적으로 생성하는 하이브리드 선형 어텐션/트랜스포머 시퀀스 모델입니다. GoldFinch는 개선된 Finch(RWKV-6) 아키텍처 위에 새로운 GOLD 트랜스포머를 쌓아 구성됩니다. 우리는 Finch, Llama, 그리고 GoldFinch 아키텍처의 최대 15억 파라미터 규모 모델을 학습시켰으며, Finch와 Llama에 비해 극적으로 향상된 모델링 성능을 확인했습니다. 우리의 캐시 크기 절감 효과는 모델 레이어 수에 따라 선형적으로 증가하며, 일반적인 크기에서 기존 트랜스포머 캐시보다 756~2550배 작아 제한된 하드웨어에서도 매우 큰 컨텍스트 길이의 추론을 가능하게 합니다. 자동회귀 생성은 어텐션으로 인해 토큰당 O(n) 시간 복잡도를 가지지만, 제출된 컨텍스트에 대한 초기 캐시 상태의 전체 사전 계산은 순환 신경망(RNN)을 사용하여 이 캐시를 생성하기 때문에 토큰당 O(1) 시간만 소요됩니다. 우리는 학습된 가중치와 학습 코드를 Apache 2.0 라이선스 하에 커뮤니티 사용을 위해 공개합니다.
LLM 에이전트는 추론, 외부 지식 및 도구 활용, API 호출, 환경과 상호작용하기 위한 액션 실행 등 고급 기능 덕분에 다양한 애플리케이션에서 뛰어난 성능을 보여주고 있습니다. 현재의 에이전트는 일반적으로 메모리 모듈이나 검색 증강 생성(RAG) 메커니즘을 활용하여 지식 기반에서 과거 지식과 유사한 임베딩을 가진 사례를 검색하여 작업 계획 및 실행에 활용합니다. 그러나 검증되지 않은 지식 기반에 의존하는 것은 안전성과 신뢰성에 대한 심각한 우려를 불러일으킵니다. 이러한 취약점을 밝히기 위해, 우리는 장기 메모리나 RAG 지식 기반을 대상으로 하는 최초의 백도어 공격인 AgentPoison이라는 새로운 레드 팀링 접근 방식을 제안합니다. 특히, 트리거 생성 과정을 제약 최적화 문제로 구성하여 백도어 트리거를 최적화하고, 트리거된 사례를 고유한 임베딩 공간에 매핑함으로써 사용자 명령어에 최적화된 백도어 트리거가 포함될 때마다 악성 데모가 오염된 메모리나 지식 기반에서 높은 확률로 검색되도록 합니다. 동시에, 트리거가 없는 정상 명령어는 여전히 정상적인 성능을 유지합니다. 기존의 백도어 공격과 달리, AgentPoison은 추가적인 모델 학습이나 미세 조정이 필요하지 않으며, 최적화된 백도어 트리거는 우수한 전이성, 문맥 일관성, 그리고 은밀성을 보여줍니다. 광범위한 실험을 통해 AgentPoison이 RAG 기반 자율 주행 에이전트, 지식 집약적 QA 에이전트, 헬스케어 EHRAgent 등 세 가지 유형의 실제 LLM 에이전트를 공격하는 데 효과적임을 입증했습니다. 각 에이전트에서 AgentPoison은 0.1% 미만의 오염률로 정상 성능에 미치는 영향(1% 미만)을 최소화하면서 평균 80% 이상의 공격 성공률을 달성했습니다.
멀티모달 대형 언어 모델(MLLMs)은 일반적인 시각 및 언어 이해 분야에서 유망한 발전을 보여왔습니다. 그러나 MLLMs를 사용한 멀티모달 정보의 표현은 아직 크게 탐구되지 않은 상태입니다. 본 연구에서는 MLLMs를 적응시켜 범용 멀티모달 임베딩을 달성하기 위해 새로운 프레임워크인 E5-V를 소개합니다. 우리의 연구 결과는 MLLMs가 이전 접근 방식에 비해 멀티모달 입력을 표현하는 데 있어 상당한 잠재력을 가지고 있음을 강조합니다. 프롬프트와 함께 MLLMs를 활용함으로써, E5-V는 다양한 유형의 입력 간의 모달리티 격차를 효과적으로 해소하며, 미세 조정 없이도 강력한 멀티모달 임베딩 성능을 보여줍니다. 우리는 E5-V를 위한 단일 모달리티 학습 접근 방식을 제안하는데, 이 모델은 텍스트 쌍에 대해서만 학습됩니다. 이 방법은 이미지-텍스트 쌍에 대한 전통적인 멀티모달 학습보다 상당한 개선을 보여주면서도 학습 비용을 약 95% 절감합니다. 또한, 이 접근 방식은 비용이 많이 드는 멀티모달 학습 데이터 수집의 필요성을 제거합니다. 네 가지 유형의 작업에 걸친 광범위한 실험은 E5-V의 효과성을 입증합니다. 범용 멀티모달 모델로서, E5-V는 단일 모달리티로 학습되었음에도 불구하고 각 작업에서 최신 기술 수준의 성능을 달성하거나 이를 능가합니다.
대형 기반 모델의 발전은 광범위한 커버리지, 낮은 비용, 그리고 오염 없는 벤치마크의 필요성을 요구하고 있습니다. 언어 모델 평가에 대한 지속적인 탐구에도 불구하고, 대형 다중 모달 모델(Large Multi-modal Models, LMMs) 평가에 대한 포괄적인 연구는 여전히 제한적입니다. 본 연구에서는 LMMS-EVAL을 소개합니다. 이는 50개 이상의 작업과 10개 이상의 모델을 포함한 통일되고 표준화된 다중 모달 벤치마크 프레임워크로, 투명하고 재현 가능한 평가를 촉진합니다. LMMS-EVAL이 포괄적인 커버리지를 제공함에도 불구하고, 여전히 낮은 비용과 오염 없는 평가를 달성하는 데는 부족함이 있습니다. 이 평가 삼중고에 접근하기 위해, 우리는 커버리지와 효율성을 모두 강조하는 LMMS-EVAL LITE라는 정제된 평가 툴킷을 추가로 소개합니다. 또한, 지속적으로 업데이트되는 뉴스와 온라인 포럼을 활용하여 모델의 실제 환경에서의 일반화 능력을 평가하는 Multimodal LIVEBENCH를 제시합니다. 이는 낮은 비용과 오염 없는 평가 접근법을 특징으로 합니다. 요약하자면, 본 연구는 평가 삼중고를 고려하는 것의 중요성을 강조하고, 대형 다중 모달 모델 평가에서의 트레이드오프를 극복하기 위한 실질적인 해결책을 제공함으로써, LMMs의 더 효과적이고 신뢰할 수 있는 벤치마킹을 위한 길을 열어줍니다. 우리는 코드베이스를 오픈소스로 공개하고, LIVEBENCH의 리더보드를 https://github.com/EvolvingLMMs-Lab/lmms-eval과 https://huggingface.co/spaces/lmms-lab/LiveBench에서 유지합니다.
대규모 언어 모델(LLMs)이 언어 이해 및 생성 분야에서 놀라운 진전을 이루면서, 이들의 학습 효율성이 중요한 관심사로 대두되고 있습니다. 전통적으로 LLMs는 시퀀스 내 다음 토큰을 예측하도록 학습됩니다. 토큰 수준 학습의 성공에도 불구하고, 방대한 수의 토큰을 처리해야 하기 때문에 상당한 계산 비용이 발생합니다. 이 문제를 완화하기 위해, 본 논문은 LLMs를 위한 패치 수준 학습을 소개합니다. 이 방법은 여러 토큰을 단일 패치로 압축하여 시퀀스 길이를 줄입니다. 패치 수준 학습 동안, 우리는 언어 모델에 더 짧은 패치 시퀀스를 입력하고 다음 패치를 예측하도록 학습시켜, 대부분의 학습 데이터를 상당히 감소된 계산 비용으로 처리합니다. 이후, 모델은 추론 모드와 일치하도록 남은 학습 데이터에 대해 토큰 수준 학습을 계속합니다. 다양한 모델(370M-2.7B 파라미터)에 대한 실험 결과, 패치 수준 학습은 토큰 수준 학습과 비교하여 모델 성능을 저하시키지 않으면서 전체 계산 비용을 0.5배로 줄일 수 있음을 보여줍니다. 소스 코드: https://github.com/shaochenze/PatchTrain.
최신 텍스트-투-비디오 합성 모델은 텍스트 설명으로부터 복잡한 비디오를 일관성 있고 사실적으로 생성하는 능력을 보여줍니다. 그러나 대부분의 기존 모델은 콘텐츠 제작, 시각 효과, 3D 비전과 관련된 다운스트림 애플리케이션에 있어 중요한 카메라 이동에 대한 세밀한 제어가 부족합니다. 최근에는 사전 학습된 U-Net 기반의 확산 모델을 활용하여 공간적 및 시간적 생성을 명시적으로 분리함으로써 제어 가능한 카메라 포즈로 비디오를 생성할 수 있는 새로운 방법들이 등장했습니다. 그럼에도 불구하고, 공간적 및 시간적 정보를 함께 처리하는 트랜스포머 기반 비디오 확산 모델에 대한 카메라 제어를 가능하게 하는 기존의 접근 방식은 없습니다. 본 연구에서는 Plucker 좌표를 기반으로 한 시공간적 카메라 임베딩을 통합하는 ControlNet과 유사한 조건화 메커니즘을 사용하여 3D 카메라 제어를 위한 비디오 트랜스포머를 제어하는 방법을 제안합니다. 이 접근 방식은 RealEstate10K 데이터셋에 대한 미세 조정 후 제어 가능한 비디오 생성에서 최첨단 성능을 보여줍니다. 우리가 알고 있는 한, 본 연구는 트랜스포머 기반 비디오 확산 모델에 대한 카메라 제어를 가능하게 한 첫 번째 사례입니다.
최근의 발전은 잠재 확산 모델을 활용한 지역적 의상 인페인팅을 통해 현실적인 가상 피팅(VTON)을 달성함으로써 소비자의 온라인 쇼핑 경험을 크게 향상시켰습니다. 그러나 기존의 VTON 기술은 의상을 포괄적으로 전시해야 하는 판매자의 요구, 즉 의상에 대한 유연한 제어, 선택적 얼굴, 포즈 및 장면 등을 간과하고 있습니다. 이 문제를 해결하기 위해, 우리는 고정된 의상과 선택적 조건을 가진 자유롭게 편집 가능한 인간 이미지를 생성하는 데 초점을 맞춘 가상 드레싱(VD) 작업을 정의합니다. 동시에, 생성된 이미지와 참조 의상 간의 일관성을 평가하기 위한 포괄적 친화성 지표(CAMI)를 설계합니다. 그런 다음, CLIP에서 의미론적 특징을 캡처하고 VAE에서 텍스처 특징을 추출하는 의상 UNet을 통합한 IMAGDressing-v1을 제안합니다. 우리는 고정된 자기 주의 모듈과 학습 가능한 교차 주의 모듈을 포함한 하이브리드 주의 모듈을 제시하여, 의상 UNet에서 추출한 의상 특징을 고정된 디노이징 UNet에 통합함으로써 사용자가 텍스트를 통해 다양한 장면을 제어할 수 있도록 합니다. IMAGDressing-v1은 ControlNet 및 IP-Adapter와 같은 확장 플러그인과 결합하여 생성된 이미지의 다양성과 제어 가능성을 향상시킬 수 있습니다. 또한, 데이터 부족 문제를 해결하기 위해 30만 쌍 이상의 의상과 착용 이미지를 포함한 인터랙티브 의상 페어링(IGPair) 데이터셋을 공개하고 데이터 조립을 위한 표준 파이프라인을 구축합니다. 광범위한 실험을 통해 우리의 IMAGDressing-v1이 다양한 제어 조건 하에서 최첨단 인간 이미지 합성 성능을 달성함을 입증합니다. 코드와 모델은 https://github.com/muzishen/IMAGDressing에서 확인할 수 있습니다.
현재 대부분의 LLM 기반 비디오 이해 모델은 몇 분 내에 비디오를 처리할 수 있습니다. 그러나 이러한 모델들은 "노이즈와 중복성" 및 "메모리와 계산" 제약과 같은 문제로 인해 긴 비디오를 다루는 데 어려움을 겪습니다. 본 논문에서는 임의 길이의 비디오를 이해하기 위해 특별히 설계된 Goldfish 방법론을 소개합니다. 또한, 비전과 텍스트 콘텐츠 모두에 대한 질문을 통해 긴 비디오 이해 능력을 평가하기 위해 특별히 설계된 TVQA-long 벤치마크를 제안합니다. Goldfish는 이러한 문제를 해결하기 위해 효율적인 검색 메커니즘을 사용하여, 먼저 명령과 관련된 상위 k개의 비디오 클립을 수집한 후 원하는 응답을 제공합니다. 이 검색 메커니즘 설계는 Goldfish가 영화나 TV 시리즈와 같은 맥락에서 임의의 길이의 비디오 시퀀스를 효율적으로 처리할 수 있도록 합니다. 검색 과정을 용이하게 하기 위해, 우리는 비디오 클립에 대한 상세한 설명을 생성하는 MiniGPT4-Video를 개발했습니다. 긴 비디오 평가를 위한 벤치마크의 부족 문제를 해결하기 위해, 우리는 TVQA 단편 비디오 벤치마크를 확장하여 전체 에피소드의 질문을 집계함으로써 평가를 부분적 이해에서 전체 에피소드 이해로 전환했습니다. 우리는 TVQA-long 벤치마크에서 41.78%의 정확도를 달성하여 기존 방법보다 14.94% 향상된 성능을 보였습니다. 또한, MiniGPT4-Video는 단편 비디오 이해에서도 탁월한 성능을 보여, MSVD, MSRVTT, TGIF, TVQA 단편 비디오 벤치마크에서 각각 3.23%, 2.03%, 16.5%, 23.59%의 성능 향상을 기록했습니다. 이러한 결과는 우리의 모델이 긴 비디오와 단편 비디오 이해 모두에서 상당한 개선을 이루었음을 나타냅니다. 우리의 모델과 코드는 https://vision-cair.github.io/Goldfish_website/에서 공개되었습니다.
복잡한 추론은 대형 언어 모델(LLM)이 보여주는 인상적인 능력 중 하나입니다. 대부분의 LLM은 사고의 연쇄(chain-of-thought) 프롬프팅이나 반복적인 도구 사용과 같은 연역적 추론에 능숙하여 어려운 과제를 단계적으로 해결할 수 있습니다. 본 논문에서는 LLM이 귀납적 추론을 수행하도록 평가하고 가르치는 데 초점을 맞추고자 합니다. 즉, LLM이 예시나 순차적 변환을 관찰하여 내재된 규칙을 추론할 수 있어야 합니다. 그러나 대규모이고 다양한 인간 생성 귀납 데이터를 수집하는 것은 어려운 과제입니다. 우리는 코드 도메인에서의 데이터 합성에 초점을 맞추고 프로그램의 표현력과 정확성을 활용하여 Case2Code 과제를 제안합니다. 구체적으로, 우리는 다양한 실행 가능한 프로그램을 수집하고 각 프로그램에 대한 입력-출력 변환을 합성한 후, LLM이 합성된 I/O 사례를 기반으로 내재된 코드 구현을 추론하도록 강제합니다. 먼저, 합성된 Case2Code 과제에서 대표적인 LLM을 평가하고, 사례에서 코드로의 귀납이 LLM에게 어려운 과제임을 입증합니다. 그런 다음, 대규모의 Case2Code 훈련 샘플을 합성하여 LLM이 귀납적 추론을 수행하도록 훈련시킵니다. 실험 결과는 이러한 귀납 훈련이 분포 내 Case2Code 성능뿐만 아니라 훈련된 LLM의 다양한 코딩 능력을 향상시키는 데 도움이 됨을 보여주며, 합성 데이터를 통해 귀납적 추론을 학습하는 것의 큰 잠재력을 입증합니다.
대부분의 음악 생성 모델이 텍스트적 또는 파라미터적 조건화(예: 템포, 화음, 음악 장르)를 사용하는 반면, 우리는 오디오 입력을 기반으로 언어 모델 기반 음악 생성 시스템을 조건화하는 방법을 제안합니다. 우리의 탐구는 두 가지 독특한 전략을 포함합니다. 첫 번째 전략은 '텍스트 역전'이라고 불리며, 사전 훈련된 텍스트-투-뮤직 모델을 활용하여 오디오 입력을 텍스트 임베딩 공간의 해당 "가상 단어"로 매핑합니다. 두 번째 모델을 위해 우리는 텍스트 조건화기와 양자화된 오디오 특징 추출기와 함께 음악 언어 모델을 처음부터 공동으로 훈련시킵니다. 추론 시, 우리는 새로운 이중 분류기 없는 지도 방법 덕분에 텍스트와 오디오 조건화를 혼합하고 균형을 맞출 수 있습니다. 우리는 자동 및 인간 연구를 통해 우리의 접근 방식을 검증합니다. 우리는 모델의 품질을 보여주기 위해 코드를 공개하고 https://musicgenstyle.github.io에서 음악 샘플을 제공할 것입니다.
제약 없는 실제 환경 이미지 컬렉션에서의 새로운 시점 합성은 광도 변화와 일시적 가림 요소로 인해 정확한 장면 재구성을 복잡하게 만들어 여전히 중요한 과제로 남아 있습니다. 기존 방법들은 Neural Radiance Fields(NeRF)에 이미지별 외관 특징 임베딩을 통합하여 이러한 문제를 해결하려고 시도했습니다. 3D Gaussian Splatting(3DGS)은 더 빠른 학습과 실시간 렌더링을 제공하지만, 구조가 크게 다르기 때문에 제약 없는 이미지 컬렉션에 적용하는 것은 간단하지 않습니다. 본 논문에서는 래스터화 과정에 가우시안별 신경망 색상 특징과 이미지별 외관 임베딩을 통합하고, 구면 조화 함수 기반 배경 모델을 사용하여 다양한 광도적 외관을 표현하고 배경을 더 잘 묘사하는 Splatfacto-W 접근법을 소개합니다. 우리의 주요 기여는 잠재적 외관 모델링, 효율적인 일시적 객체 처리, 그리고 정확한 배경 모델링을 포함합니다. Splatfacto-W는 실제 환경 시나리오에서 개선된 장면 일관성과 함께 고품질의 실시간 새로운 시점 합성을 제공합니다. 우리의 방법은 3DGS 대비 평균 5.3 dB의 PSNR(Peak Signal-to-Noise Ratio) 향상을 이루었으며, NeRF 기반 방법 대비 150배 빠른 학습 속도를 보이고, 3DGS와 유사한 렌더링 속도를 달성했습니다. 추가 비디오 결과와 Nerfstudio에 통합된 코드는 https://kevinxu02.github.io/splatfactow/에서 확인할 수 있습니다.
복잡한 환경에서의 로봇 그리핑은 가려짐 현상과 복잡한 물체 배치로 인해 여전히 큰 도전 과제로 남아 있습니다. 우리는 GPT-4o의 고급 문맥 추론 능력을 활용하여 복잡한 환경에서의 그리핑 전략을 구현한 플러그 앤 플레이 방식의 비전-언어 그리핑 시스템인 ThinkGrasp를 개발했습니다. ThinkGrasp는 목표 지향적 언어를 사용하여 가려진 물체를 제거함으로써, 심하게 가려져 있거나 거의 보이지 않는 대상 물체를 효과적으로 식별하고 그리핑 포즈를 생성할 수 있습니다. 이 접근 방식은 점진적으로 대상 물체를 드러내고, 몇 단계만에 높은 성공률로 최종적으로 그리핑을 수행합니다. 시뮬레이션과 실제 실험 모두에서 ThinkGrasp는 높은 성공률을 달성했으며, 특히 심하게 복잡한 환경이나 다양한 미지의 물체에서 최신 기술을 크게 능가하며 강력한 일반화 능력을 입증했습니다.
그래픽 사용자 인터페이스(GUI)는 사용자가 모바일 앱과 상호작용하는 방식입니다. GUI가 의도한 대로 작동하는지 확인하기 위해 테스트 엔지니어들은 일반적으로 자연어로 작성된 테스트 요구사항을 기반으로 기능을 검증해야 합니다. 널리 채택된 수동 테스트와 스크립트 기반 방법은 효과적이지만, 현대 모바일 앱의 방대한 GUI 페이지 수와 빠른 반복 속도로 인해 상당한 노력이 필요합니다. 본 논문은 모바일 앱을 위한 최초의 자동화된 자연어 기반 GUI 테스트 도구인 AUITestAgent를 소개합니다. 이 도구는 GUI 상호작용 및 기능 검증의 전체 프로세스를 완전히 자동화할 수 있습니다. 테스트 요구사항은 일반적으로 상호작용 명령과 검증 오라클을 포함하므로, AUITestAgent는 동적으로 조직된 에이전트를 통해 테스트 요구사항에서 GUI 상호작용을 추출할 수 있습니다. 그런 다음, AUITestAgent는 다차원 데이터 추출 전략을 사용하여 상호작용 트레이스에서 테스트 요구사항과 관련된 데이터를 검색하고 검증을 수행합니다. 맞춤형 벤치마크에서의 실험 결과, AUITestAgent는 생성된 GUI 상호작용의 품질에서 기존 도구들을 능가하며 94%의 검증 정확도를 달성했습니다. 또한, Meituan에서의 현장 배포는 AUITestAgent의 실용성을 입증했으며, 두 달 동안 10회의 회귀 테스트에서 4개의 새로운 기능 버그를 발견했습니다.
대규모 언어 모델(LLMs)의 놀라운 발전을 활용하여, 명령 수행 로봇 내비게이션에 LLMs를 적용하려는 새로운 움직임이 활발히 진행 중입니다. 이러한 추세는 LLMs가 내비게이션 추론과 다양한 언어 이해를 일반화할 수 있는 잠재력을 강조합니다. 그러나, 비전-언어 내비게이션(VLN) 작업에 LLMs를 통합할 때 이전의 하위 전문 모델들과 비교해 에이전트 성능에서 상당한 차이가 관찰됩니다. 또한, 에이전트 상호작용에서 언어의 해석 및 의사소통 촉진 능력은 이러한 통합에서 종종 충분히 활용되지 않습니다. 본 연구에서는 VLN 전문 모델과 LLM 기반 내비게이션 패러다임 간의 격차를 해소하고, LLMs의 언어적 내비게이션 추론 생성 능력을 유지하는 데 주력합니다. 고정된 LLM에 시각적 콘텐츠를 정렬함으로써, LLMs의 시각적 관찰 이해를 포괄하고, 효과적인 행동 예측 및 내비게이션 추론을 위해 LLMs와 내비게이션 정책 네트워크를 통합하는 방법을 탐구합니다. 우리는 제안된 방법의 데이터 효율성을 입증하고, LM 기반 에이전트와 최신 VLN 전문가 간의 격차를 제거합니다.
LLM(대형 언어 모델)은 다양한 도메인과 작업에서 인상적인 성능을 보여왔지만, 그 보안 문제는 점점 더 심각해지고 있습니다. 이러한 문제를 해결하기 위해 기계 언러닝(MU)이 주목받고 있는데, 이는 원치 않는 데이터가 대상 모델에 미치는 영향을 제거하면서도 다른 측면에서의 유용성을 손상시키지 않는 방법으로 떠오르고 있습니다. 일반적으로 MU는 유용성을 보존하기 위해 원본 학습 데이터에 대한 완전한 접근을 가정하지만, 이는 LLM 언러닝에서는 달성하기 어려운 조건입니다. 기존의 LLM 언러닝 방법들은 주로 원치 않는 데이터 언러닝에 가장 크게 영향을 받는 데이터에 접근할 수 있다고 가정합니다. 그러나 이러한 가정은 다양한 LLM 능력 간의 복잡한 상호 연관성을 과소평가하며, 다양한 문제로 인한 데이터 접근 제한을 무시합니다. 또한, 이러한 LLM 언러닝 방법들은 실제 시나리오에서 언러닝 요청이 지속적으로 발생한다는 점을 충분히 고려하지 않습니다. 이러한 문제를 극복하고 실용적인 LLM 언러닝을 달성하기 위해, 우리는 O3 프레임워크를 제안합니다. O3 프레임워크는 입력 데이터와 언러닝 데이터 간의 유사성을 측정하기 위한 Out-Of-Distribution(OOD) 탐지기와, 요청된 데이터를 지속적으로 언러닝하기 위한 Orthogonal 저순위 어댑터(LoRA)를 포함합니다. OOD 탐지기는 새로운 대조 엔트로피 손실을 사용하여 훈련되며, 지역-전역 계층 집계 점수 메커니즘을 활용합니다. Orthogonal LoRA는 지속적인 언러닝 요청 간의 매개변수 분리를 달성합니다. 추론 과정에서 O3 프레임워크는 OOD 탐지기의 예측을 기반으로 언러닝 LoRA를 로드할지 여부와 그 정도를 스마트하게 결정할 수 있습니다. 특히, O3의 효과성은 어떤 보유 데이터에도 의존하지 않습니다. 우리는 O3와 최신 LLM 언러닝 방법들을 세 가지 작업과 일곱 개의 데이터셋에서 광범위하게 실험했습니다. 그 결과, O3는 특히 지속적인 언러닝 요청에 직면했을 때 언러닝 효과성과 유용성 보존 사이의 최적의 균형을 일관되게 달성함을 보여주었습니다.
채팅 기반 언어 모델은 도움을 주기 위해 설계되었지만, 모든 사용자 요청에 응답해서는 안 됩니다. 기존 연구 대부분이 주로 "안전하지 않은" 질문에 대한 거부에 초점을 맞추고 있지만, 우리는 이러한 비준수(noncompliance)의 범위를 확장해야 한다고 주장합니다. 본 연구에서는 언제 그리고 어떻게 모델이 사용자 요청에 응답하지 말아야 하는지를 설명하는 포괄적인 맥락적 비준수 분류 체계를 소개합니다. 우리의 분류 체계는 안전하지 않은 요청 외에도 불완전한, 지원되지 않는, 불확실한, 그리고 인간적인 요청 등 다양한 범주를 아우릅니다. 언어 모델의 비준수 능력을 테스트하기 위해, 이 분류 체계를 활용하여 1000개의 비준수 프롬프트로 구성된 새로운 평가 도구를 개발했습니다. 그 결과, GPT-4와 같은 기존 모델들이 이전에 충분히 연구되지 않은 특정 범주에서 상당히 높은 준수율을 보이며, 최대 30%의 요청을 잘못 준수하는 것으로 나타났습니다. 이러한 격차를 해결하기 위해, 우리는 합성적으로 생성된 요청과 예상되는 비준수 응답을 포함한 훈련 데이터셋을 사용하여 다양한 훈련 전략을 탐구했습니다. 실험 결과, 지시 튜닝된 모델을 직접 미세 조정하는 것은 과도한 거부와 일반적인 능력 저하를 초래할 수 있지만, 저랭크 어댑터(low rank adapters)와 같은 매개변수 효율적인 방법을 사용하면 적절한 비준수와 다른 능력 사이의 균형을 잘 유지할 수 있음을 확인했습니다.
문법 오류 탐지(Grammatical Error Detection, GED) 방법은 주로 인간이 주석을 단 오류 코퍼스에 크게 의존합니다. 그러나 이러한 주석은 많은 저자원 언어에서는 사용할 수 없습니다. 본 논문에서는 이러한 상황에서의 GED를 연구합니다. 다국어 사전 학습 언어 모델의 제로샷 교차 언어 전이 능력을 활용하여, 다양한 언어의 데이터를 사용해 모델을 훈련시켜 다른 언어에서 합성 오류를 생성합니다. 이렇게 생성된 합성 오류 코퍼스는 GED 모델을 훈련하는 데 사용됩니다. 구체적으로, 우리는 두 단계의 미세 조정 파이프라인을 제안합니다. 이 파이프라인에서는 GED 모델이 먼저 대상 언어의 다국어 합성 데이터로 미세 조정된 후, 소스 언어의 인간 주석 GED 코퍼스로 추가 미세 조정됩니다. 이 접근 방식은 현재의 최첨단 주석 없는 GED 방법들을 능가합니다. 또한, 우리는 우리의 방법과 다른 강력한 베이스라인들이 생성한 오류를 분석하여, 우리의 접근 방식이 더 다양하고 인간의 오류와 더 유사한 오류를 생성한다는 것을 발견했습니다.
비디오 생성 모델(VGMs)은 고품질의 출력물을 합성할 수 있는 능력을 입증했습니다. 이러한 모델이 폭력적이거나 공포스러운 비디오와 같은 안전하지 않은 콘텐츠를 생성할 가능성을 이해하는 것이 중요합니다. 본 연구에서는 안전하지 않은 비디오 생성에 대한 포괄적인 이해를 제공합니다. 먼저, 이러한 모델이 실제로 안전하지 않은 비디오를 생성할 가능성을 확인하기 위해, 4chan과 Lexica에서 수집한 안전하지 않은 콘텐츠 생성 프롬프트와 세 가지 오픈소스 최신 VGMs를 선택하여 안전하지 않은 비디오를 생성했습니다. 중복 및 잘못 생성된 콘텐츠를 필터링한 후, 원래 5607개의 비디오 풀에서 초기 2112개의 안전하지 않은 비디오 세트를 생성했습니다. 이러한 생성된 비디오에 대한 클러스터링 및 주제 코딩 분석을 통해, 우리는 5가지 안전하지 않은 비디오 카테고리를 식별했습니다: 왜곡/이상함, 공포스러움, 포르노그래피, 폭력적/피투성이, 정치적. IRB 승인을 받은 후, 온라인 참가자를 모집하여 생성된 비디오에 라벨을 붙이는 데 도움을 받았습니다. 403명의 참가자가 제출한 주석을 바탕으로, 초기 비디오 세트에서 937개의 안전하지 않은 비디오를 식별했습니다. 라벨링된 정보와 해당 프롬프트를 바탕으로, VGMs에 의해 생성된 안전하지 않은 비디오의 첫 번째 데이터셋을 생성했습니다. 그런 다음, 안전하지 않은 비디오 생성을 방지하기 위한 가능한 방어 메커니즘을 연구했습니다. 이미지 생성 분야의 기존 방어 방법은 입력 프롬프트나 출력 결과를 필터링하는 데 초점을 맞추고 있습니다. 우리는 모델의 내부 샘플링 프로세스 내에서 작동하는 새로운 접근 방식인 잠재 변수 방어(Latent Variable Defense, LVD)를 제안합니다. LVD는 대량의 안전하지 않은 프롬프트를 샘플링할 때 시간과 컴퓨팅 리소스를 10배 줄이면서도 0.90의 방어 정확도를 달성할 수 있습니다.