번역이 포함된 일일 선별된 AI 연구 논문
우리는 RoPE 기반으로 사전 학습된 LLaMA 모델과 같은 대형 언어 모델(LLM)의 컨텍스트 윈도우 크기를 최대 32768까지 확장하는 위치 보간법(Position Interpolation, PI)을 제안합니다. 이 방법은 최소한의 미세 조정(1000단계 이내)만으로도 패스키 검색, 언어 모델링, 긴 문서 요약 등 긴 컨텍스트가 필요한 다양한 작업에서 LLaMA 7B부터 65B까지 강력한 실험 결과를 보여줍니다. 동시에, 위치 보간법으로 확장된 모델은 원래 컨텍스트 윈도우 내의 작업에서도 상대적으로 우수한 품질을 유지합니다. 이를 달성하기 위해 위치 보간법은 입력 위치 인덱스를 선형적으로 축소하여 원래 컨텍스트 윈도우 크기에 맞추며, 훈련된 컨텍스트 길이를 초과하여 외삽(extrapolation)하는 방식과 달리 자기 주의 메커니즘을 완전히 무너뜨릴 수 있는 치명적으로 높은 주의 점수를 방지합니다. 우리의 이론적 연구는 보간법의 상한이 외삽법에 비해 최소 약 600배 작음을 보여주며, 이는 보간법의 안정성을 더욱 입증합니다. 위치 보간법으로 확장된 모델은 원래의 아키텍처를 그대로 유지하며, 대부분의 기존 최적화 및 인프라를 재사용할 수 있습니다.
대규모 언어 모델(LLMs)은 Lean과 같은 증명 보조 도구를 사용하여 형식적 정리를 증명하는 데 유망한 가능성을 보여주었다. 그러나 기존 방법들은 비공개 코드, 데이터, 그리고 대규모 컴퓨팅 자원 요구 사항으로 인해 재현하거나 확장하기 어려운 문제가 있었다. 이는 정리 증명을 위한 기계 학습 방법 연구에 상당한 장벽을 만들어냈다. 본 논문은 이러한 장벽을 제거하기 위해 LeanDojo를 소개한다: LeanDojo는 툴킷, 데이터, 모델, 벤치마크로 구성된 오픈소스 Lean 플레이그라운드이다. LeanDojo는 Lean에서 데이터를 추출하고 프로그램적으로 증명 환경과 상호작용할 수 있도록 한다. 이는 증명 내 전제(premise)에 대한 세밀한 주석을 포함하여, 정리 증명의 주요 병목 현상인 전제 선택(premise selection)을 위한 귀중한 데이터를 제공한다. 이 데이터를 활용하여, 우리는 ReProver(Retrieval-Augmented Prover)를 개발했다: ReProver는 방대한 수학 라이브러리에서 전제를 선택하기 위해 검색(retrieval)을 강화한 최초의 LLM 기반 증명기이다. 이는 비용이 저렴하며 단일 GPU로 일주일 동안의 훈련만으로도 충분하다. 우리의 검색기는 LeanDojo의 프로그램 분석 기능을 활용하여 접근 가능한 전제와 어려운 부정 예제(hard negative examples)를 식별함으로써 검색을 훨씬 더 효과적으로 만든다. 또한, 우리는 Lean의 수학 라이브러리에서 추출한 96,962개의 정리와 증명으로 구성된 새로운 벤치마크를 구축했다. 이 벤치마크는 훈련 중에 사용되지 않은 새로운 전제에 의존하는 정리로 일반화해야 하는 도전적인 데이터 분할을 특징으로 한다. 우리는 이 벤치마크를 훈련과 평가에 사용하며, 실험 결과는 ReProver가 검색을 사용하지 않는 베이스라인과 GPT-4보다 우수한 성능을 보임을 입증한다. 따라서 우리는 독점 데이터셋 없이 오픈소스 LLM 기반 정리 증명기를 최초로 제공하고, 이를 허가적인 MIT 라이선스 하에 공개하여 추가 연구를 촉진한다.
최근 연구인 CLIPA는 CLIP 학습에 대한 역비례 스케일링 법칙을 제시했습니다. 이 법칙에 따르면, 이미지/텍스트 인코더의 크기가 클수록 학습에 적용할 수 있는 이미지/텍스트 토큰의 시퀀스 길이가 짧아집니다. 이러한 발견은 계산량을 크게 줄이면서도 고성능 CLIP 모델을 학습시킬 수 있게 해줍니다. 이 연구를 기반으로, 우리는 두 가지 주요 기여를 담은 CLIPA-v2를 제시합니다. 기술적으로, 이 역비례 스케일링 법칙이 파인튜닝 단계에서도 적용 가능하다는 것을 발견하여, 계산 요구량을 더욱 줄일 수 있었습니다. 실험적으로, 우리는 CLIPA를 대규모로 탐구하며, 학습 중에 약 130억 개의 이미지-텍스트 쌍을 본 H/14 모델까지 실험을 확장했습니다. 우리의 결과는 매우 흥미롭습니다. 단 10,000의 예산만 할당하여도, 우리의 CLIP 모델은 81.1%의 인상적인 제로샷 ImageNet 정확도를 달성했으며, 이는 이전 최고의 CLIP 모델(OpenCLIP, 80.1%)을 1.0% 앞서면서도 계산 비용을 약 39배 줄였습니다. 또한, 추가로 4,000을 투자하면 제로샷 ImageNet 정확도를 81.8%로 더욱 높일 수 있습니다. 우리의 코드와 모델은 https://github.com/UCSC-VLAA/CLIPA에서 확인할 수 있습니다.
카메라 포즈 추정은 오랜 기간 동안 컴퓨터 비전 분야에서 다루어져 온 문제로, 현재까지도 수작업 키포인트 매칭, RANSAC, 번들 조정과 같은 고전적인 방법에 의존하는 경우가 많다. 본 논문에서는 구조 추정(Structure from Motion, SfM) 문제를 확률적 확산 프레임워크 내에서 공식화하고, 입력 이미지가 주어졌을 때 카메라 포즈의 조건부 분포를 모델링하는 방법을 제안한다. 이 오래된 문제에 대한 새로운 관점은 몇 가지 장점을 가진다. (i) 확산 프레임워크의 특성은 번들 조정의 반복적 절차를 반영한다. (ii) 이 공식화는 에피폴라 기하학에서의 기하학적 제약 조건을 원활하게 통합할 수 있게 한다. (iii) 넓은 베이스라인을 가진 희소 뷰와 같은 일반적으로 어려운 시나리오에서 뛰어난 성능을 보인다. (iv) 이 방법은 임의의 수의 이미지에 대해 내부 및 외부 파라미터를 예측할 수 있다. 우리는 제안한 방법인 PoseDiffusion이 두 개의 실제 데이터셋에서 기존의 고전적 SfM 파이프라인과 학습 기반 접근법을 크게 개선함을 보여준다. 마지막으로, 우리의 방법이 추가 학습 없이도 데이터셋 간에 일반화할 수 있음을 관찰하였다. 프로젝트 페이지: https://posediffusion.github.io/
음성 발화에서 상관없는 정보를 분리해내는 것은 음성 연구 커뮤니티 내에서 중요한 연구 주제이다. 다양한 음성 관련 작업들은 서로 다른 음성 표현을 추출하면서도 다른 상관없는 정보의 영향을 최소화하는 데 초점을 맞추고 있다. 본 논문에서는 음성 표현 분리 연구를 촉진하기 위해 대규모 음성 코퍼스를 소개한다. 3D-Speaker는 10,000명 이상의 화자를 포함하며, 각 화자는 여러 장치(Devices)로 동시에 녹음되고, 서로 다른 거리(Distances)에서 위치하며, 일부 화자는 여러 방언(Dialects)을 사용한다. 이러한 다차원 오디오 데이터의 통제된 조합은 다양한 음성 표현 얽힘의 행렬을 생성하여 이를 해결하기 위한 흥미로운 방법들을 유도한다. 3D-Speaker의 다중 도메인 특성은 또한 대규모 범용 음성 모델을 평가하고, 도메인 외 학습 및 자기 지도 학습 방법을 실험하기에 적합한 자원으로 활용될 수 있다. https://3dspeaker.github.io/
많은 픽셀 단위의 밀집 예측 작업들, 특히 컴퓨터 비전 분야에서의 깊이 추정과 의미론적 분할은 사전 학습된 이미지 표현에 의존하고 있습니다. 따라서 효과적인 사전 학습 데이터셋을 구축하는 것이 매우 중요합니다. 그러나 현재까지 효과적인 사전 학습 데이터셋은 다중 뷰 장면을 포함하며, 시뮬레이션 환경에서 주석이 달린 3D 메시, 포인트 클라우드, 카메라 파라미터를 사용하여 구축된 것들뿐이었습니다. 본 연구에서는 어떠한 주석도 필요로 하지 않는 데이터셋 구축 메커니즘을 제안합니다. 우리는 오픈소스 비디오 데이터셋과 합성 3D 환경에서 130만 개의 다중 뷰 이미지 쌍을 포함한 MIMIC-1M과 310만 개의 다중 뷰 이미지 쌍을 포함한 MIMIC-3M이라는 두 가지 데이터셋을 구축했습니다. 다양한 마스크된 이미지 모델링 목적을 가진 여러 자기 지도 학습 모델을 학습시켜 다음과 같은 결과를 확인했습니다: MIMIC-3M에서 학습된 표현은 깊이 추정, 의미론적 분할, 표면 법선, 포즈 추정 등 다양한 다운스트림 작업에서 주석을 사용하여 구축된 데이터셋보다 우수한 성능을 보였습니다. 또한, 다운스트림 학습 데이터가 소량으로 제한된 경우에도 고정된 표현보다 우수한 성능을 보였습니다. 더 큰 데이터셋(MIMIC-3M)은 성능을 크게 향상시켰으며, 이는 우리의 구축 방법이 임의로 확장되어 더 큰 데이터셋을 생성할 수 있다는 점에서 매우 유망합니다. MIMIC 코드, 데이터셋, 사전 학습된 모델은 https://github.com/RAIVNLab/MIMIC에서 오픈소스로 제공됩니다.
컨텍스트 내 학습(In-context learning, ICL)은 추론 시 몇 가지 예시를 단순히 제시함으로써 다양한 자연어 처리(NLP) 작업에서 언어 모델의 성능을 향상시킨다. ICL 능력이 왜 나타나는지는 잘 이해되지 않고 있는데, 이는 모델이 그러한 데모에 대해 특별히 훈련된 적이 없기 때문이다. ICL의 암묵적 메커니즘을 탐구한 기존 연구와 달리, 우리는 사전 훈련 데이터를 조사함으로써 ICL을 연구한다. 구체적으로, 우리는 먼저 ICL을 지원하는 사전 훈련 데이터의 작은 부분집합을 찾기 위해 반복적이고 경사 기반의 접근 방식을 적용한다. 이 작은 부분집합에 대한 추가 사전 훈련이 모델의 ICL 능력을 최대 18%까지 크게 향상시킨다는 것을 관찰한다. 그런 다음, 이 지원적인 부분집합을 사전 훈련 데이터의 무작위 부분집합과 대조적으로 비교하여 다음과 같은 사실을 발견한다: (1) ICL을 지원하는 사전 훈련 데이터는 다운스트림 작업과 더 높은 도메인 관련성을 가지지 않는다. (2) ICL을 지원하는 사전 훈련 데이터는 드물게 발생하는 롱테일 토큰의 비중이 더 높다. (3) ICL을 지원하는 사전 훈련 데이터는 장거리 컨텍스트에서의 정보 획득이 평균 이하인 어려운 예시들로, 어려운 장거리 컨텍스트를 통합하는 학습이 ICL을 촉진함을 나타낸다. 우리의 연구는 인스턴스 수준의 사전 훈련 데이터를 분석함으로써 ICL을 이해하기 위한 첫걸음을 내딛는다. 우리의 통찰은 향후 사전 훈련 데이터 구성을 적극적으로 안내함으로써 언어 모델의 ICL 능력을 강화할 잠재력을 가지고 있다.
대규모 언어 모델은 이제 창작자의 목표, 즉 "유용하고 무해한" 상태에 맞춰 조정되고 있습니다. 이러한 모델은 사용자의 질문에 도움이 되는 응답을 제공해야 하지만, 해를 끼칠 수 있는 요청에는 응답을 거부해야 합니다. 그러나 적대적 사용자는 이러한 조정 시도를 우회하는 입력을 구성할 수 있습니다. 본 연구에서는 최악의 경우 입력(적대적 예제)을 구성하는 적대적 사용자와 상호작용할 때 이러한 모델이 어느 정도까지 조정 상태를 유지하는지 조사합니다. 이러한 입력은 모델이 일반적으로 금지된 유해한 콘텐츠를 생성하도록 설계됩니다. 우리는 기존의 NLP 기반 최적화 공격이 조정된 텍스트 모델을 안정적으로 공격하기에는 충분히 강력하지 않음을 보여줍니다: 현재의 NLP 기반 공격이 실패하더라도, 무차별 대입 방식으로 적대적 입력을 찾을 수 있습니다. 결과적으로, 현재의 공격 실패는 조정된 텍스트 모델이 적대적 입력 하에서도 조정 상태를 유지한다는 증거로 간주되어서는 안 됩니다. 그러나 최근 대규모 ML 모델의 추세는 사용자가 제공한 이미지가 생성되는 텍스트에 영향을 미칠 수 있는 멀티모달 모델로 전환되고 있습니다. 우리는 이러한 모델이 입력 이미지에 대한 적대적 섭동을 통해 임의의 비조정 행동을 수행하도록 쉽게 공격될 수 있음을 보여줍니다. 우리는 개선된 NLP 공격이 텍스트 전용 모델에 대해 동일한 수준의 적대적 제어를 보여줄 수 있을 것이라고 추측합니다.
우리는 트랜스포머가 두 가지 도전 과제, 즉 기본 정수 산술을 학습하는 것과 훈련 중에 접한 것보다 더 긴 시퀀스로 일반화하는 것에 어떻게 대처하는지 조사한다. 우리는 상대적 위치 임베딩이 덧셈과 같은 간단한 작업에서 길이 일반화를 가능하게 한다는 것을 발견했다: 5자리 숫자로 훈련된 모델이 15자리 합계를 수행할 수 있다. 그러나 이 방법은 곱셈에는 실패하며, 우리는 훈련 세트 프라이밍을 제안한다: 훈련 세트에 몇 개(10~50개)의 긴 시퀀스를 추가하는 것이다. 우리는 프라이밍이 5자리 × 3자리 곱셈으로 훈련된 모델이 35자리 × 3자리 예제로 일반화할 수 있게 한다는 것을 보여준다. 또한 모델이 다른 일반화 길이에 대해 프라이밍될 수 있으며, 프라이밍 샘플 크기가 훈련 세트 크기의 로그로 스케일링된다는 것을 보여준다. 마지막으로, 우리는 산술을 넘어서는 프라이밍의 잠재적 응용에 대해 논의한다.