번역이 포함된 일일 선별된 AI 연구 논문
웹 규모의 이미지-텍스트 쌍을 사용하여 텍스트-이미지 모델을 학습시키면 다양한 시각적 개념을 텍스트로부터 생성할 수 있습니다. 그러나 이러한 사전 학습된 모델들은 고도로 미학적인 이미지를 생성하는 데 있어 어려움을 겪는 경우가 많습니다. 이로 인해 사전 학습 이후의 미학적 정렬(aesthetic alignment)이 필요하게 됩니다. 본 논문에서는 사전 학습된 모델이 시각적 개념의 일반성을 유지하면서도 고도로 시각적으로 매력적인 이미지만을 생성하도록 효과적으로 유도하는 품질 튜닝(quality-tuning)을 제안합니다. 우리의 핵심 통찰은, 놀랍도록 작지만 극도로 시각적으로 매력적인 이미지 세트를 사용한 지도 미세 조정(supervised fine-tuning)이 생성 품질을 크게 향상시킬 수 있다는 것입니다. 우리는 11억 개의 이미지-텍스트 쌍으로 잠재 확산 모델(latent diffusion model)을 사전 학습시키고, 수천 개의 신중하게 선별된 고품질 이미지로 미세 조정을 수행했습니다. 그 결과로 얻은 모델인 Emu는 사전 학습만 수행된 모델 대비 82.9%의 승률을 달성했습니다. 최신 기술인 SDXLv1.0과 비교했을 때, Emu는 표준 PartiPrompts와 텍스트-이미지 모델의 실제 사용을 기반으로 한 우리의 Open User Input 벤치마크에서 각각 68.4%와 71.3%의 선호도를 보였습니다. 또한, 품질 튜닝이 픽셀 확산(pixel diffusion) 및 마스크 생성 트랜스포머(masked generative transformer) 모델을 포함한 다른 아키텍처에서도 효과적인 일반적인 접근 방식임을 보여줍니다.
우리는 VQ-VAE의 잠재 표현에서 벡터 양자화(VQ)를 대체할 간단한 기법인 유한 스칼라 양자화(FSQ)를 제안합니다. 이 기법에서는 VAE 표현을 몇 개의 차원(일반적으로 10개 미만)으로 축소합니다. 각 차원은 작은 고정 값 집합으로 양자화되며, 이 집합들의 곱으로 (암묵적인) 코드북이 생성됩니다. 차원의 수와 각 차원이 가질 수 있는 값을 적절히 선택함으로써 VQ와 동일한 코드북 크기를 얻을 수 있습니다. 이러한 이산 표현 위에서, VQ-VAE 표현으로 훈련된 것과 동일한 모델들을 훈련시킬 수 있습니다. 예를 들어, 이미지 생성을 위한 자기회귀 모델 및 마스크된 트랜스포머 모델, 다중모달 생성, 그리고 밀집 예측 컴퓨터 비전 작업 등이 있습니다. 구체적으로, 우리는 이미지 생성을 위해 MaskGIT과 함께 FSQ를 사용하며, 깊이 추정, 색상화, 그리고 파노픽 세분화를 위해 UViM과 함께 FSQ를 사용합니다. FSQ의 훨씬 간단한 설계에도 불구하고, 우리는 이러한 모든 작업에서 경쟁력 있는 성능을 얻습니다. 우리는 FSQ가 코드북 붕괴 문제를 겪지 않으며, 표현력 있는 이산 표현을 학습하기 위해 VQ에서 사용되는 복잡한 메커니즘(커밋먼트 손실, 코드북 재시드, 코드 분할, 엔트로피 페널티 등)이 필요하지 않음을 강조합니다.
우리는 음성 인식 출력 재점수를 위한 저순위 적응(LoRA) 기반의 신경망 언어 모델링 시스템을 제안한다. BERT와 같은 사전 학습된 언어 모델(LM)이 두 번째 단계 재점수에서 우수한 성능을 보여왔지만, 사전 학습 단계의 확장과 사전 학습된 모델을 특정 도메인에 적응시키는 데 드는 높은 계산 비용으로 인해 재점수에서의 실용적 사용이 제한되어 왔다. 본 연구에서는 저순위 분해를 기반으로 재점수 BERT 모델을 학습시키고 사전 학습된 매개변수의 일부(0.08%)만을 사용하여 새로운 도메인에 적응시키는 방법을 제시한다. 이러한 삽입된 행렬은 판별 학습 목표와 상관관계 기반 정규화 손실을 통해 최적화된다. 제안된 저순위 적응 Rescore-BERT(LoRB) 아키텍처는 LibriSpeech와 내부 데이터셋에서 평가되었으며, 학습 시간이 5.4배에서 3.6배로 감소하였다.
대규모 사전 학습된 텍스트-투-비디오 확산 모델(VDMs) 분야에서 상당한 진전이 이루어졌습니다. 그러나 기존 방법들은 고도의 계산 비용이 발생하는 픽셀 기반 VDMs에만 의존하거나, 정확한 텍스트-비디오 정렬에 어려움을 겪는 잠재 공간 기반 VDMs에만 의존하는 한계가 있었습니다. 본 논문에서는 텍스트-투-비디오 생성을 위해 픽셀 기반과 잠재 공간 기반 VDMs를 결합한 하이브리드 모델인 Show-1을 최초로 제안합니다. 우리의 모델은 먼저 픽셀 기반 VDMs를 사용하여 강력한 텍스트-비디오 상관관계를 가진 저해상도 비디오를 생성합니다. 이후, 잠재 공간 기반 VDMs를 활용하여 저해상도 비디오를 고해상도로 업샘플링하는 새로운 전문가 변환 방법을 제안합니다. 잠재 공간 VDMs와 비교했을 때, Show-1은 정확한 텍스트-비디오 정렬을 가진 고품질 비디오를 생성할 수 있으며, 픽셀 VDMs와 비교했을 때 훨씬 더 효율적입니다(추론 중 GPU 메모리 사용량이 15G 대 72G). 또한, 표준 비디오 생성 벤치마크에서 우리의 모델을 검증했습니다. 우리의 코드와 모델 가중치는 https://github.com/showlab/Show-1에서 공개적으로 이용 가능합니다.
우리는 신호 표현을 위해 일반적인 방사형 기저(radial basis)를 사용하는 새로운 유형의 신경 필드(neural field)를 제안합니다. 최신 신경 필드는 일반적으로 지역적 신경 특징을 저장하기 위해 그리드 기반 표현을 사용하고, 연속적인 쿼리 지점에서 특징을 보간하기 위해 N차원 선형 커널을 활용합니다. 이들의 신경 특징의 공간적 위치는 그리드 노드에 고정되어 있어 대상 신호에 잘 적응하지 못합니다. 반면, 우리의 방법은 커널 위치와 형태가 유연한 일반적인 방사형 기저를 기반으로 하여, 더 높은 공간 적응성을 가지며 대상 신호에 더 밀접하게 적합할 수 있습니다. 방사형 기저 함수의 채널별 용량을 더욱 향상시키기 위해, 우리는 이를 다중 주파수 사인 함수와 결합하는 방법을 제안합니다. 이 기술은 추가 매개변수 없이도 방사형 기저를 다양한 주파수 대역의 다중 푸리에 방사형 기저로 확장하여 세부 사항의 표현을 용이하게 합니다. 또한, 적응형 방사형 기저와 그리드 기반 기저를 결합함으로써, 우리의 하이브리드 조합은 적응성과 보간의 부드러움을 모두 상속받습니다. 우리는 방사형 기저가 다양한 유형의 신호에 효과적으로 적응할 수 있도록 가중치 방식을 신중하게 설계했습니다. 2D 이미지와 3D 부호 거리 필드(signed distance field) 표현에 대한 실험을 통해, 우리의 방법이 기존 기술보다 더 높은 정확도와 간결함을 보여줌을 입증했습니다. 신경 방사 필드(neural radiance field) 재구성에 적용했을 때, 우리의 방법은 작은 모델 크기와 비교 가능한 학습 속도로 최신 수준의 렌더링 품질을 달성했습니다.
최근 대규모 언어 모델 및 텍스트-이미지 모델의 사전 학습 기술 발전이 머신러닝 분야에 혁신을 가져왔습니다. 그러나 이 두 가지 양식을 통합하여 원활한 다중모달 출력을 생성할 수 있는 강력한 단일 모델을 만드는 것은 여전히 중요한 과제로 남아 있습니다. 이러한 격차를 해결하기 위해, 우리는 기존 텍스트 및 이미지 생성 모델을 체계적으로 융합하는 모듈식 접근 방식인 Joint Autoregressive Mixture(JAM) 프레임워크를 제안합니다. 또한 혼합 모달 생성 작업에 특화된 데이터 효율적인 지시 튜닝 전략을 소개합니다. 최종적으로 지시 튜닝된 우리의 모델은 고품질 다중모달 출력 생성에서 탁월한 성능을 보여주며, 이러한 목적을 위해 명시적으로 설계된 최초의 모델로 자리매김합니다.
인간이 물리적 접촉을 통해 세상과 상호작용하는 방식을 이해하는 것은 인간 중심의 인공지능을 구현하는 데 핵심적입니다. 사실적이고 물리적으로 타당한 인간-물체 상호작용을 모델링하기 위해 3D 접촉을 추론하는 것은 중요하지만, 기존 방법들은 2D에 초점을 맞추거나, 표면 대신 관절을 고려하거나, 거친 3D 신체 영역을 사용하거나, 실제 환경의 이미지에 일반화되지 못하는 한계가 있습니다. 이와 대조적으로, 우리는 임의의 이미지에서 전체 신체 표면과 물체 간의 조밀한 3D 접촉을 추론하는 데 초점을 맞춥니다. 이를 위해 먼저, 복잡한 인간-물체 및 인간-장면 접촉을 포함하는 RGB 이미지와 함께 조밀한 정점 수준의 접촉 주석을 포함한 새로운 데이터셋인 DAMON을 수집합니다. 둘째, SMPL 신체에서 정점 수준의 접촉을 추정하기 위해 신체 부위 기반 및 장면 맥락 기반 주의 메커니즘을 모두 사용하는 새로운 3D 접촉 탐지기인 DECO를 학습합니다. DECO는 인간 관찰자가 접촉을 인식할 때 접촉하는 신체 부위, 장면 물체와의 근접성, 주변 장면 맥락에 대해 추론한다는 통찰에 기반합니다. 우리는 DAMON뿐만 아니라 RICH 및 BEHAVE 데이터셋에서도 탐지기를 광범위하게 평가합니다. 모든 벤치마크에서 기존 SOTA 방법을 크게 능가하는 성능을 보여줍니다. 또한 DECO가 자연 이미지에서 다양한 도전적인 실제 인간 상호작용에 잘 일반화됨을 정성적으로 입증합니다. 코드, 데이터 및 모델은 https://deco.is.tue.mpg.de에서 확인할 수 있습니다.
최근 대규모 언어 모델(LLM)에서 새로운 인지 능력이 나타난다는 주장을 담은 연구들이 쏟아져 나오고 있다. 그러나 대부분의 연구는 일화적 증거에 의존하거나, 훈련 데이터셋의 오염 가능성을 간과하거나, 다중 과제, 통제 조건, 반복 실험, 통계적 강건성 검증을 포함한 체계적인 평가가 부족한 경우가 많다. 본 연구에서는 두 가지 주요 기여를 한다. 첫째, 대규모 언어 모델의 인지 능력을 체계적으로 평가하기 위한 인지 과학 기반 프로토콜인 CogEval을 제안한다. CogEval 프로토콜은 다양한 능력 평가에 적용할 수 있다. 둘째, 본 연구에서는 CogEval을 따라 OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, Alpaca-7B 등 8가지 LLM에 대해 인지 지도와 계획 능력을 체계적으로 평가한다. 과제 프롬프트는 인간 실험을 기반으로 설계되었으며, 이는 계획 능력 평가를 위한 확립된 구성 타당성을 제공할 뿐만 아니라 LLM 훈련 데이터셋에 포함되지 않은 내용이다. 연구 결과, LLM은 구조적으로 단순한 몇 가지 계획 과제에서는 유의미한 능력을 보였지만, 체계적인 평가를 통해 무효한 경로를 환각하거나 루프에 빠지는 등 계획 과제에서 두드러지는 실패 모드를 발견했다. 이러한 결과는 LLM에서 즉각적인 계획 능력이 나타난다는 주장을 지지하지 않는다. 이는 LLM이 계획 문제의 기저에 있는 잠재적 관계 구조, 즉 인지 지도를 이해하지 못하고, 기저 구조를 기반으로 목표 지향적 경로를 전개하는 데 실패하기 때문일 수 있다. 응용 및 향후 연구 방향에 대한 함의를 논의한다.
텍스트 프롬프트 튜닝은 수작업으로 설계된 프롬프트를 학습 가능한 매개변수로 취급함으로써 다양한 다운스트림 작업에 자연어 처리 모델을 적응시키는 데 있어 상당한 성능 향상을 보여주었습니다. 텍스트 프롬프팅의 성공에 영감을 받아, 여러 연구들이 시각적 프롬프트 튜닝의 효용성을 탐구해 왔습니다. 본 연구에서는 테스트 시간 적응과 함께 시각적 프롬프팅을 일반화하는 최초의 프레임워크인 Visual Prompt Adaptation(VPA)을 제안합니다. VPA는 소수의 학습 가능한 토큰을 도입함으로써 소스 도메인 정보를 필요로 하지 않으면서도 완전한 테스트 시간 및 저장 효율적인 적응을 가능하게 합니다. 우리는 단일 이미지, 배치 이미지, 그리고 의사 레이블 적응을 포함한 다양한 적응 설정 하에서 VPA 설계를 검토합니다. VPA는 분포 외 일반화(OOD), 손상 강건성, 그리고 도메인 적응을 포함한 여러 작업에서 평가됩니다. 실험 결과는 VPA가 다양한 모델에서 OOD 일반화를 3.3% 향상시키며, 이전의 테스트 시간 접근법들을 능가함을 보여줍니다. 또한, VPA는 강력한 베이스라인 대비 손상 강건성을 6.5% 개선함을 보여줍니다. 마지막으로, VPA가 도메인 적응 성능을 상대적으로 5.2% 향상시킴을 입증합니다. 우리의 VPA는 또한 시각-언어 모델의 제로샷 인식 강건성을 개선하는 데 있어 뚜렷한 효과를 보입니다.