번역이 포함된 일일 선별된 AI 연구 논문
우리는 일반적인 확산 노이즈 스케줄이 마지막 타임스텝에서 신호 대 잡음비(SNR)를 0으로 강제하지 않으며, 일부 확산 샘플러 구현이 마지막 타임스텝에서 시작하지 않는다는 사실을 발견했습니다. 이러한 설계는 결함이 있으며, 모델이 추론 시 순수 가우시안 노이즈를 받는다는 사실을 반영하지 않아 훈련과 추론 간의 불일치를 초래합니다. 우리는 이러한 결함이 기존 구현에서 실제 문제를 일으킨다는 것을 보여줍니다. Stable Diffusion에서는 이로 인해 모델이 중간 밝기의 이미지만 생성하도록 제한되고, 매우 밝거나 어두운 샘플을 생성하지 못하게 됩니다. 우리는 몇 가지 간단한 수정 사항을 제안합니다: (1) 노이즈 스케줄을 재조정하여 최종 SNR을 0으로 강제; (2) v 예측으로 모델을 훈련; (3) 샘플러가 항상 마지막 타임스텝에서 시작하도록 변경; (4) 과도한 노출을 방지하기 위해 분류자 없는 가이던스를 재조정. 이러한 간단한 변경 사항들은 확산 과정이 훈련과 추론 간에 일관되도록 보장하며, 모델이 원본 데이터 분포에 더 충실한 샘플을 생성할 수 있게 합니다.
본 논문에서는 단일 또는 다중 이미지로부터 고해상도의 렌더링 가능한 인간 아바타를 획득하는 데 사용할 수 있는 얼굴 반사 모델 및 미분 가능 렌더링 최적화 파이프라인인 FitMe를 소개합니다. 이 모델은 확산 및 정반사 반사 측면에서 얼굴 외관을 포착하는 다중 모달 스타일 기반 생성기와 PCA 기반 형태 모델로 구성됩니다. 우리는 최적화 파이프라인에서 사용할 수 있는 빠른 미분 가능 렌더링 프로세스를 채택하면서도 사실적인 얼굴 쉐이딩을 달성합니다. 우리의 최적화 프로세스는 스타일 기반 잠재 표현과 형태 모델의 표현력을 활용하여 고해상도로 얼굴 반사와 형태를 정확하게 포착합니다. FitMe는 단일 "인더와일드" 얼굴 이미지에서 최신 반사 획득 및 신원 보존을 달성하며, 동일한 신원에 속하는 다수의 제약 없는 얼굴 이미지가 주어졌을 때 인상적인 스캔과 유사한 결과를 생성합니다. 최근의 암묵적 아바타 재구성과 달리, FitMe는 단 1분만 소요되며 최종 사용자 애플리케이션에서 사용할 수 있는 재조명 가능한 메시 및 텍스처 기반 아바타를 생성합니다.
디퓨전 모델은 텍스트-이미지 생성, 특히 개인화된 이미지를 위한 주체 중심 생성에서 뛰어난 성능을 보입니다. 그러나 기존 방법들은 주체별 미세 조정(fine-tuning)이 필요하여 계산 비용이 높고 효율적인 배포를 방해한다는 문제가 있습니다. 또한, 기존 방법들은 다중 주체 생성에서 주체 간 특징이 혼합되는 문제를 겪습니다. 우리는 미세 조정 없이도 효율적이고 개인화된 다중 주체 텍스트-이미지 생성을 가능하게 하는 FastComposer를 제안합니다. FastComposer는 이미지 인코더로 추출한 주체 임베딩을 사용하여 디퓨전 모델의 일반적인 텍스트 조건을 보강함으로써, 주체 이미지와 텍스트 지시만으로 전방향 패스(forward pass)만으로 개인화된 이미지 생성을 가능하게 합니다. 다중 주체 생성에서의 정체성 혼합 문제를 해결하기 위해, FastComposer는 학습 중에 교차 주의력(cross-attention) 지역화 감독을 제안하여, 참조 주체의 주의력이 대상 이미지의 올바른 영역에 집중되도록 강제합니다. 주체 임베딩에 단순히 조건을 부여하면 주체 과적합이 발생할 수 있습니다. FastComposer는 노이즈 제거(denoising) 단계에서 지연된 주체 조건을 제안하여 주체 중심 이미지 생성에서 정체성과 편집 가능성을 모두 유지합니다. FastComposer는 다양한 스타일, 동작, 맥락에서 보지 못한 다수의 개인 이미지를 생성합니다. 이는 미세 조정 기반 방법 대비 300배에서 2500배의 속도 향상을 달성하며, 새로운 주체에 대한 추가 저장 공간이 필요하지 않습니다. FastComposer는 효율적이고 개인화된 고품질 다중 주체 이미지 생성의 길을 열어줍니다. 코드, 모델, 데이터셋은 https://github.com/mit-han-lab/fastcomposer에서 확인할 수 있습니다.
텍스트와 해당 이미지가 의미적으로 일치하는지 자동으로 판단하는 것은 시각-언어 모델에게 중요한 과제이며, 이는 생성적 텍스트-이미지 및 이미지-텍스트 작업에 응용됩니다. 본 연구에서는 자동 텍스트-이미지 정렬 평가 방법을 탐구합니다. 먼저, SeeTRUE를 소개합니다: 이는 텍스트-이미지 및 이미지-텍스트 생성 작업에서 다양한 데이터셋을 아우르는 포괄적인 평가 세트로, 주어진 텍스트-이미지 쌍이 의미적으로 일치하는지에 대한 인간의 판단을 포함합니다. 그런 다음, 정렬을 판단하기 위한 두 가지 자동 방법을 설명합니다: 첫 번째는 질문 생성과 시각적 질문 응답 모델을 기반으로 한 파이프라인을 포함하며, 두 번째는 다중모드 사전 학습 모델을 미세 조정하여 종단 간 분류 접근법을 사용합니다. 두 방법 모두 다양한 텍스트-이미지 정렬 작업에서 기존 접근법을 능가하며, 복잡한 구성이나 비자연적인 이미지를 포함하는 어려운 사례에서도 상당한 개선을 보입니다. 마지막으로, 우리의 접근법이 이미지와 주어진 텍스트 간의 특정 불일치를 지역화하는 방법과 텍스트-이미지 생성에서 후보를 자동으로 재순위화하는 데 사용될 수 있는 방법을 보여줍니다.
인간은 단일 이미지를 보고 상호작용이 가능한 여러 잠재적 객체를 쉽게 이해할 수 있습니다. 우리는 이러한 능력을 활용하여 세상과의 상호작용을 계획하고, 실제 상호작용 없이도 새로운 객체를 빠르게 이해합니다. 본 논문에서는 기계에 유사한 능력을 부여하여 지능형 에이전트가 3D 장면을 더 잘 탐색하거나 객체를 조작할 수 있도록 하고자 합니다. 우리의 접근 방식은 객체의 3D 위치, 물리적 속성 및 어포던스(affordance)를 예측하는 트랜스포머 기반 모델입니다. 이 모델을 학습하고 검증하기 위해 인터넷 동영상, 에고센트릭(egocentric) 동영상 및 실내 이미지로 구성된 데이터셋을 수집했습니다. 우리의 모델은 해당 데이터에서 강력한 성능을 보이며, 로보틱스 데이터에도 잘 일반화됩니다.
온라인 지속 학습(OCL) 연구는 주로 에이전트의 수명 동안 고정적이고 제한된 저장 공간 할당을 통해 치명적 망각(catastrophic forgetting)을 완화하는 데 초점을 맞추어 왔습니다. 그러나 데이터 저장 비용이 점차 저렴해짐에 따라 이러한 가정을 따르지 않는 다양한 응용 분야가 부각되고 있습니다. 이러한 경우, 주요 관심사는 저장 공간보다는 계산 비용을 관리하는 데 있습니다. 본 논문에서는 이러한 설정을 대상으로, 저장 제약을 완화하고 고정적이며 제한된 경제적 예산을 강조하여 온라인 지속 학습 문제를 탐구합니다. 우리는 kNN 분류기와 범용 사전 훈련된 특징 추출기를 사용하여 작은 계산 예산 하에서도 들어오는 데이터 스트림 전체를 간결하게 저장하고 활용할 수 있는 간단한 알고리즘을 제안합니다. 우리의 알고리즘은 지속 학습에 매력적인 일관성 속성을 제공합니다: 과거에 본 데이터를 절대 잊지 않습니다. 우리는 두 가지 대규모 OCL 데이터셋에서 새로운 최첨단 기술을 설정했습니다: 712개 클래스에 걸쳐 39M개의 이미지를 포함하는 Continual LOCalization(CLOC)과 10,788개 클래스에 걸쳐 580K개의 이미지를 포함하는 Continual Google Landmarks V2(CGLM)입니다. 우리의 알고리즘은 훨씬 더 높은 계산 예산을 사용하는 방법들보다 과거 데이터의 치명적 망각을 줄이고 빠르게 변화하는 데이터 스트림에 신속하게 적응하는 면에서 우수한 성능을 보였습니다. 우리는 결과를 재현할 수 있는 코드를 https://github.com/drimpossible/ACM에서 제공합니다.