번역이 포함된 일일 선별된 AI 연구 논문
노이즈 제거 확산 확률 모델(DDPM)은 음성 합성에서 유망한 성능을 보여왔습니다. 그러나 고품질 샘플을 생성하기 위해서는 많은 수의 반복 단계가 필요하며, 이는 추론 속도를 제한하는 요인으로 작용합니다. 샘플 품질을 유지하면서 샘플링 속도를 높이는 것은 어려운 과제가 되었습니다. 본 논문에서는 단일 확산 샘플링 단계로 고품질 음성을 합성하는 "Co"nsistency "Mo"del 기반 "Speech" 합성 방법인 CoMoSpeech를 제안합니다. 일관성 제약 조건을 통해 잘 설계된 확산 기반 교사 모델로부터 일관성 모델을 추출함으로써, 최종적으로 CoMoSpeech에서 우수한 성능을 달성합니다. 실험 결과, 단일 샘플링 단계로 오디오를 생성하는 CoMoSpeech는 단일 NVIDIA A100 GPU에서 실시간 대비 150배 이상 빠른 추론 속도를 달성하며, 이는 FastSpeech2와 비슷한 수준으로 확산 샘플링 기반 음성 합성을 실용적으로 만듭니다. 한편, 텍스트-음성 변환 및 노래 음성 합성에 대한 객관적 및 주관적 평가에서 제안된 교사 모델은 최고의 오디오 품질을 보였으며, 단일 단계 샘플링 기반 CoMoSpeech는 기존의 다단계 확산 모델 기준선과 비교하여 더 나은 또는 비슷한 오디오 품질을 유지하면서 최고의 추론 속도를 달성했습니다. 오디오 샘플은 https://comospeech.github.io/에서 확인할 수 있습니다.
우리는 이미지 수준의 사전 학습과 개방형 어휘 객체 탐지 간의 격차를 해소하기 위한 대조적 이미지-텍스트 사전 학습 방법인 Region-aware Open-vocabulary Vision Transformers(RO-ViT)를 제안합니다. 사전 학습 단계에서, 전체 이미지 위치 임베딩을 사용하는 대신 위치 임베딩의 영역을 무작위로 자르고 크기를 조정하는 방식을 제안합니다. 이는 탐지 미세 조정 단계에서 영역 수준의 위치 임베딩 사용과 더 잘 맞습니다. 또한, 대조 학습에서 일반적으로 사용되는 소프트맥스 교차 엔트로피 손실을 포컬 손실로 대체하여 정보가 풍부하지만 학습하기 어려운 예제를 더 잘 학습할 수 있도록 합니다. 마지막으로, 최신 객체 제안 기술을 활용하여 개방형 어휘 탐지 미세 조정을 개선합니다. 우리는 전체 모델을 LVIS 및 COCO 개방형 어휘 탐지 벤치마크와 제로샷 전이에서 평가합니다. RO-ViT는 LVIS에서 32.1 AP_r의 최첨단 성능을 달성하며, 기존 최고 접근법보다 +5.8 포인트를 앞섰을 뿐만 아니라 경쟁력 있는 제로샷 전이 탐지 성능도 보여줍니다. 놀랍게도, RO-ViT는 이미지 수준 표현도 개선하여 COCO 및 Flickr 이미지-텍스트 검색 벤치마크에서 12개 지표 중 9개에서 최첨단 성능을 달성하며, 더 큰 모델을 사용한 경쟁 접근법들을 능가합니다.
다양한 언어 도메인 작업을 해결할 수 있는 범용 언어 모델은 사전 학습과 명령어 튜닝 파이프라인의 발전에 힘입어 등장했습니다. 그러나 시각적 입력이 추가되면서 작업 간 차이가 더 커져 범용 시각-언어 모델을 구축하는 것은 더욱 어려운 과제가 되었습니다. 시각-언어 사전 학습은 널리 연구되었지만, 시각-언어 명령어 튜닝은 상대적으로 덜 탐구된 분야입니다. 본 논문에서는 사전 학습된 BLIP-2 모델을 기반으로 시각-언어 명령어 튜닝에 대한 체계적이고 포괄적인 연구를 수행합니다. 우리는 26개의 다양한 공개 데이터셋을 수집하여 명령어 튜닝 형식으로 변환하고, 이를 held-in 명령어 튜닝과 held-out 제로샷 평가를 위한 두 개의 클러스터로 분류했습니다. 또한, 주어진 명령어에 맞춰 정보를 추출할 수 있는 중요한 방법인 명령어 인식 시각적 특징 추출을 도입했습니다. 그 결과, InstructBLIP 모델은 모든 13개의 held-out 데이터셋에서 최첨단 제로샷 성능을 달성하며, BLIP-2와 더 큰 Flamingo 모델을 크게 능가했습니다. 또한, 개별 하위 작업에 대해 미세 조정할 때도 최첨단 성능을 보였습니다(예: ScienceQA IMG에서 90.7% 정확도). 더 나아가, 우리는 InstructBLIP이 동시대의 다중 모달 모델에 비해 갖는 장점을 질적으로 입증했습니다. 모든 InstructBLIP 모델은 https://github.com/salesforce/LAVIS/tree/main/projects/instructblip에서 오픈소스로 공개되었습니다.
우리는 사전 학습된 텍스트-이미지 확산 모델에 캡슐화된 사전 지식을 활용하여 블라인드 초해상도(SR)를 수행하는 새로운 접근 방식을 제안합니다. 구체적으로, 우리의 시간 인식 인코더를 사용하면 사전 학습된 합성 모델을 변경하지 않고도 유망한 복원 결과를 달성할 수 있어, 생성적 사전 지식을 보존하고 훈련 비용을 최소화할 수 있습니다. 확산 모델의 고유한 확률적 특성으로 인한 충실도 손실을 보완하기 위해, 우리는 추론 과정에서 단순히 스칼라 값을 조정하여 품질과 충실도 간의 균형을 맞출 수 있는 제어 가능한 특징 래핑 모듈을 도입했습니다. 또한, 사전 학습된 확산 모델의 고정 크기 제약을 극복하기 위해 점진적 집계 샘플링 전략을 개발하여 임의의 크기의 해상도에 적응할 수 있도록 했습니다. 합성 및 실제 벤치마크를 사용한 우리 방법의 포괄적인 평가는 현재 최첨단 접근 방식보다 우수함을 입증합니다.
비전 트랜스포머는 높은 모델 능력으로 인해 큰 성공을 거두었습니다. 그러나 이러한 뛰어난 성능은 높은 계산 비용을 동반하며, 이는 실시간 애플리케이션에 적합하지 않게 만듭니다. 본 논문에서는 EfficientViT라는 고속 비전 트랜스포머 패밀리를 제안합니다. 우리는 기존 트랜스포머 모델의 속도가 일반적으로 메모리 비효율적인 연산, 특히 MHSA(Multi-Head Self-Attention)에서의 텐서 재구성 및 요소별 함수에 의해 제한된다는 것을 발견했습니다. 따라서 우리는 샌드위치 레이아웃을 가진 새로운 빌딩 블록을 설계했습니다. 즉, 효율적인 FFN(Feed-Forward Network) 레이어 사이에 단일 메모리 바운드 MHSA를 사용하여 메모리 효율성을 향상시키고 채널 간 통신을 강화했습니다. 또한, 우리는 어텐션 맵이 헤드 간에 높은 유사성을 공유하여 계산적 중복을 초래한다는 것을 발견했습니다. 이를 해결하기 위해, 우리는 전체 특징을 다른 분할로 나누어 어텐션 헤드에 공급하는 캐스케이드 그룹 어텐션 모듈을 제안합니다. 이는 계산 비용을 절약할 뿐만 아니라 어텐션 다양성을 향상시킵니다. 포괄적인 실험을 통해 EfficientViT가 기존의 효율적인 모델들을 능가하며 속도와 정확도 사이의 좋은 균형을 달성함을 입증했습니다. 예를 들어, 우리의 EfficientViT-M5는 MobileNetV3-Large보다 정확도에서 1.9% 우수하며, Nvidia V100 GPU와 Intel Xeon CPU에서 각각 40.4%와 45.2% 더 높은 처리량을 달성했습니다. 최근의 효율적인 모델인 MobileViT-XXS와 비교했을 때, EfficientViT-M2는 1.8% 더 우수한 정확도를 달성하며 GPU/CPU에서 각각 5.8배/3.7배 더 빠르게 실행되고, ONNX 형식으로 변환 시 7.4배 더 빠릅니다. 코드와 모델은 https://github.com/microsoft/Cream/tree/main/EfficientViT에서 확인할 수 있습니다.
이미지와 텍스트를 연결하는 최초의 파운데이션 모델인 CLIP은 최근 컴퓨터 비전 분야에서 많은 혁신을 이끌어냈습니다. 그러나 이와 관련된 훈련 비용이 지나치게 높아, 이를 널리 탐구하는 데 상당한 장벽이 되고 있습니다. 본 논문에서는 CLIP 훈련에 역스케일링 법칙이 존재한다는 놀라운 발견을 제시합니다. 즉, 사용된 이미지/텍스트 인코더가 클수록 훈련에 적용할 수 있는 이미지/텍스트 토큰의 시퀀스 길이가 짧아진다는 것입니다. 더 나아가, 이미지/텍스트 토큰 길이를 줄이는 전략이 이러한 스케일링 법칙의 품질을 결정하는 데 중요한 역할을 한다는 것을 보여줍니다. 이 발견의 결과로, 우리는 학술 자원만을 사용하여도 CLIP을 성공적으로 훈련시킬 수 있었습니다. 예를 들어, A100 8-GPU 서버에서 우리의 CLIP 모델은 약 2일 만에 63.2%, 약 3일 만에 67.8%, 그리고 약 4일 만에 69.3%의 제로샷 Top-1 ImageNet 정확도를 달성했습니다. CLIP과 관련된 계산적 장벽을 줄임으로써, 특히 학계에서 이 분야에 대한 더 많은 연구가 활성화되기를 바랍니다. 우리의 코드는 https://github.com/UCSC-VLAA/CLIPA에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 병렬 데이터 없이 훈련된 경우에도 다국어 신경망 기계 번역(MNMT)에서 놀라울 정도로 우수한 성능을 보여왔습니다. 그러나 훈련 데이터의 양이 엄청나게 많음에도 불구하고, 특히 저자원 언어의 희귀 단어 번역에는 여전히 어려움을 겪고 있습니다. 더욱 심각한 문제는, 저자원 언어에 대한 컨텍스트 학습을 위한 관련 데모를 검색하는 것이 현실적으로 불가능한 경우가 많아, LLMs의 번역 실용성이 제한된다는 점입니다. 이 문제를 어떻게 완화할 수 있을까요? 이를 위해 우리는 CoD라는 새로운 방법을 제안합니다. CoD는 입력 단어의 일부에 대해 다국어 사전 체인을 활용하여 LLMs에 사전 지식을 추가함으로써 번역 능력을 이끌어냅니다. 광범위한 실험 결과, CoD를 통해 ChatGPT를 보강하면 FLORES-200 전체 개발 테스트 세트에서 MNMT의 ChrF++ 점수가 최대 13배(영어에서 키릴 문자로 작성된 세르비아어의 경우 3.08에서 42.63으로) 향상되는 것으로 나타났습니다. 또한, 다국어 사전 체인의 중요성과 저자원 언어에 대한 CoD의 소수 샷 데모 대비 우수성을 입증했습니다.
이미지 캡션이 이미지를 정확하게 설명하는지 판단하는 능력은 시각-언어 이해의 중요한 부분입니다. 그러나 최첨단 모델들은 종종 미세한 세부 사항의 정확성을 잘못 해석하여, 생성된 캡션에서 객체를 허구적으로 만들어내거나 구성적 추론에서 부족한 성능을 보이는 등의 오류를 일으킵니다. 본 연구에서는 캡션 정확성을 평가하는 간단하면서도 놀라울 정도로 효과적인 방법으로서 토큰 수준 신뢰도(Token-Level Confidence, TLC)를 탐구합니다. 구체적으로, 우리는 시각-언어 모델을 이미지 캡션 생성 작업에 대해 미세 조정하고, 이미지와 제안된 캡션을 모델에 입력한 후, 단어나 시퀀스에 대한 대수적 또는 학습된 토큰 신뢰도를 집계하여 이미지-캡션 일관성을 추정합니다. 사전 학습된 모델의 시퀀스 수준 점수와 비교했을 때, 대수적 신뢰도 측정을 사용한 TLC는 SVO-Probes에서 동사 이해 정확도에서 10%의 상대적 개선을 달성했으며, Winoground의 구성적 추론에서 이미지 및 그룹 점수에서 각각 37%와 9%의 상대적 우수성을 보였습니다. 학습 데이터가 사용 가능한 경우, 학습된 신뢰도 추정기는 더욱 향상된 성능을 제공하여, MS COCO Captions에서 객체 허구화 비율을 원본 모델 대비 상대적으로 30% 감소시키고 새로운 최첨단 성능을 설정했습니다.
대형 언어 모델(LLMs)은 인상적인 다국어 능력을 보여주지만, 다양한 언어 간 성능 차이가 상당히 크다. 본 연구에서는 LLMs의 다국어 능력을 체계적으로 향상시키기 위해 교차언어적 사고 프롬프팅(XLT)이라는 간단하면서도 효과적인 방법을 소개한다. 구체적으로, XLT는 교차언어적 및 논리적 추론 능력을 자극하여 다양한 언어 간 과제 성능을 향상시키는 일반적인 템플릿 프롬프트이다. 우리는 추론, 이해, 생성 과제와 관련된 7개의 대표적인 벤치마크를 대상으로 포괄적인 평가를 수행하며, 이는 고자원 언어와 저자원 언어를 모두 포함한다. 실험 결과, XLT는 다양한 다국어 과제의 성능을 현저히 향상시킬 뿐만 아니라, 각 과제의 평균 성능과 최고 성능 간의 격차를 크게 줄이는 것으로 나타났다. 특히, XLT는 산술 추론 및 개방형 질의응답 과제에서 평균 10점 이상의 향상을 가져왔다.
비디오의 시각적 콘텐츠를 보완하는 고품질 음악을 생성하는 것은 어려운 과제입니다. 기존의 시각적 조건부 음악 생성 시스템 대부분은 원시 오디오 파형 대신 MIDI 파일과 같은 기호적 음악 데이터를 생성합니다. 기호적 음악 데이터의 제한된 가용성으로 인해, 이러한 방법은 소수의 악기나 특정 유형의 시각적 입력에 대해서만 음악을 생성할 수 있습니다. 본 논문에서는 다양한 유형의 비디오 입력에 대해 시각적 의미와 잘 맞는 고품질 음악 오디오를 생성할 수 있는 V2Meow라는 새로운 접근 방식을 제안합니다. 구체적으로, 제안된 음악 생성 시스템은 실제 음악 비디오에서 추출한 O(100K) 수준의 음악 오디오 클립과 비디오 프레임 쌍으로 학습된 다단계 자기회귀 모델이며, 병렬 기호적 음악 데이터는 사용되지 않습니다. V2Meow는 임의의 무음 비디오 클립에서 추출한 사전 학습된 시각적 특징만을 조건으로 고해상도 음악 오디오 파형을 합성할 수 있으며, 비디오 프레임 조건 외에도 텍스트 프롬프트를 통해 생성 예제의 음악 스타일에 대한 상위 수준의 제어를 지원합니다. 정성적 및 정량적 평가를 통해, 우리의 모델이 시각-오디오 일관성과 오디오 품질 모두에서 기존의 여러 음악 생성 시스템을 능가함을 입증합니다.
평생 학습(Lifelong Learning, LL)은 NLP 모델이 지속적으로 새로운 작업을 학습할 수 있는 중요한 능력입니다. 아키텍처 기반 접근법은 LL 모델을 구현하는 데 효과적인 것으로 보고되었습니다. 그러나 기존 접근법을 도메인 증분 LL 시나리오로 확장하는 것은 사소한 문제가 아닙니다. 이는 테스트 단계에서 작업 식별자에 대한 접근이 필요하거나 보이지 않는 작업의 샘플을 처리할 수 없기 때문입니다. 본 논문에서는 Diana를 제안합니다: 프롬프트 강화 언어 모델을 사용하여 일련의 작업을 학습하려는 동적 아키텍처 기반 평생 학습 모델입니다. Diana에서는 서로 다른 세분성의 지식을 포착하기 위해 계층적으로 조직된 네 가지 유형의 프롬프트가 사용됩니다. 구체적으로, 작업 수준 프롬프트는 작업별 지식을 포착하여 높은 LL 성능을 유지하고, 인스턴스 수준 프롬프트는 입력 샘플 간에 공유되는 지식을 학습하여 모델의 일반화 성능을 향상시킵니다. 또한, 보이지 않는 작업을 명시적으로 모델링하기 위해 별도의 프롬프트를 할당하고, 작업 간 지식 공유를 촉진하기 위해 프롬프트 키 벡터 세트를 도입합니다. 광범위한 실험을 통해 Diana가 특히 보이지 않는 작업을 처리하는 데 있어 최첨단 LL 모델을 능가함을 입증합니다. 코드와 데이터는 https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana에서 공개합니다.
대규모 언어 모델(LLMs)은 제로샷 또는 퓨샷 방식으로 새로운 작업에 일반화하는 탁월한 능력을 보여주고 있다. 그러나 LLMs가 사용자의 이전 행동을 기반으로 선호도를 이해할 수 있는 정도는 여전히 새롭고 불분명한 연구 주제로 남아 있다. 전통적으로 협업 필터링(CF)은 이러한 작업에 가장 효과적인 방법으로, 주로 방대한 양의 평점 데이터에 의존해 왔다. 반면, LLMs는 일반적으로 훨씬 적은 데이터를 요구하면서도 영화나 제품과 같은 각 아이템에 대한 포괄적인 세계 지식을 유지한다. 본 논문에서는 사용자의 과거 평점을 기반으로 특정 아이템에 대한 평점을 예측하는 고전적인 작업인 사용자 평점 예측에서 CF와 LLMs를 철저히 비교 분석한다. 250M에서 540B 파라미터까지 다양한 크기의 LLMs를 제로샷, 퓨샷, 미세 조정 시나리오에서 평가하며, 그 성능을 검토한다. LLMs와 강력한 CF 방법 간의 포괄적인 비교 분석을 수행한 결과, 제로샷 LLMs는 사용자 상호작용 데이터에 접근할 수 있는 전통적인 추천 모델에 비해 뒤처지는 것으로 나타났으며, 이는 사용자 상호작용 데이터의 중요성을 시사한다. 그러나 미세 조정을 통해 LLMs는 훈련 데이터의 극히 일부만으로도 비슷하거나 더 나은 성능을 달성하며, 데이터 효율성을 통해 그 잠재력을 입증한다.
본 논문에서는 노이즈가 포함된 입력(예: 비디오에서 추정된 포즈 또는 언어로 생성된 포즈)과 예기치 않은 낙상 상황에서도 고해상도 모션 모방과 내결함성 동작을 달성하는 물리 기반 휴머노이드 컨트롤러를 제시한다. 우리의 컨트롤러는 외부 안정화 힘을 사용하지 않고도 수만 개의 모션 클립을 학습할 수 있으며, 실패 상태에서 자연스럽게 회복하는 방법을 학습한다. 참조 모션이 주어지면, 이 컨트롤러는 시뮬레이션된 아바타를 재설정 없이 지속적으로 제어할 수 있다. 핵심적으로, 우리는 점진적 곱셈 제어 정책(Progressive Multiplicative Control Policy, PMCP)을 제안하는데, 이는 더 어려운 모션 시퀀스를 학습하기 위해 새로운 네트워크 용량을 동적으로 할당한다. PMCP는 대규모 모션 데이터베이스로부터의 학습과 실패 상태 회복과 같은 새로운 작업 추가를 효율적으로 확장할 수 있도록 하며, 이 과정에서 치명적인 망각 현상을 방지한다. 우리는 이 컨트롤러의 효과를 실시간 다중 사용자 아바타 사용 사례에서 비디오 기반 포즈 추정기와 언어 기반 모션 생성기로부터 노이즈가 포함된 포즈를 모방하는 데 활용하여 입증한다.
ChatGPT와 같은 대형 언어 모델은 최근 자연어 이해 및 생성 분야에서 인상적인 능력을 보여주며, 번역, 에세이 작성, 잡담 등 다양한 응용 분야에서 활용되고 있습니다. 그러나 이러한 모델이 사기나 서비스 거부 공격과 같은 악의적인 목적으로 악용될 가능성에 대한 우려도 제기되고 있습니다. 따라서 대화 상대가 봇인지 인간인지를 감지하는 방법을 개발하는 것이 중요합니다. 본 논문에서는 온라인 방식으로 대화 봇을 탐지하기 위해 FLAIR(Finding Large language model Authenticity via a single Inquiry and Response)라는 프레임워크를 제안합니다. 구체적으로, 인간 사용자와 봇을 효과적으로 구분할 수 있는 단일 질문 시나리오를 대상으로 합니다. 질문은 인간에게는 쉽지만 봇에게는 어려운 유형(예: 계수, 대체, 위치 지정, 노이즈 필터링, ASCII 아트)과 봇에게는 쉽지만 인간에게는 어려운 유형(예: 암기 및 계산)으로 나뉩니다. 우리의 접근 방식은 이러한 질문들의 효과성에서 서로 다른 강점을 보여주며, 온라인 서비스 제공자들이 악의적인 활동으로부터 스스로를 보호하고 실제 사용자에게 서비스를 제공할 수 있는 새로운 방법을 제시합니다. 우리는 데이터셋을 https://github.com/hongwang600/FLAIR 에 공개했으며, 커뮤니티의 기여를 통해 이러한 탐지 데이터셋을 더욱 풍부하게 만들기를 기대합니다.
텍스트 임베딩은 문장 유사성, 텍스트 클러스터링, 의미론적 검색과 같은 여러 NLP 애플리케이션에 유용한 특징입니다. 본 논문에서는 다국어 대형 언어 모델인 8비트 Siamese-BLOOM 위에 대조적 목적 함수를 적용한 저순위 적응(Low-rank Adaptation) 기법을 제안합니다. 이 모델은 의미론적으로 의미 있는 단어 임베딩을 생성하도록 최적화되었습니다. 이 연구의 혁신은 세 가지입니다. 첫째, BLOOM 가중치를 8비트 값으로 변환합니다. 둘째, 확장 가능한 어댑터(LoRA)와 8비트 Adam 옵티마이저를 사용하여 BLOOM을 문장 유사성 분류를 위해 미세 조정합니다. 셋째, 다국어 레이블 데이터 부족 문제를 완화하기 위해 BLOOM 모델에 샴(Siamese) 아키텍처와 대조적 목적 함수를 적용합니다. 실험 결과는 LACoS-BLOOM에서 학습된 임베딩의 품질이 모델 매개변수의 수와 레이블이 없는 훈련 데이터의 양에 비례함을 보여줍니다. 매개변수 효율적 미세 조정 설계를 통해 71억 개의 매개변수를 가진 BLOOM을 32GB 메모리의 단일 GPU 머신에서 종단 간 실행할 수 있습니다. 이전 솔루션인 Sentence-BERT와 비교하여, 우리는 영어 및 다국어 STS 작업에서 모두 상당한 개선을 달성했습니다.