번역이 포함된 일일 선별된 AI 연구 논문
우리는 초상화 조명 개선을 위한 새로운 방법인 빛 확산(light diffusion)을 소개한다. 이 방법은 전체 장면 조명을 보존하면서도 거친 그림자와 반사 하이라이트를 부드럽게 만든다. 전문 사진작가들이 사용하는 디퓨저와 스크림에서 영감을 받은 우리의 방법은 단일 초상화 사진만으로도 조명을 부드럽게 만든다. 기존의 초상화 재조명 접근법은 전체 조명 환경을 변경하거나, 그림자를 제거(강한 반사 하이라이트는 무시)하거나, 혹은 음영을 완전히 제거하는 데 초점을 맞추었다. 반면, 우리는 학습 기반 방법을 제안하여 빛 확산의 양을 제어하고 실제 환경에서 촬영된 초상화에 적용할 수 있도록 한다. 또한, 피사체의 얼굴 형태에 맞추면서도 하위 표면 산란 효과를 포함한 그럴듯한 외부 그림자를 합성적으로 생성하는 방법을 설계한다. 마지막으로, 우리의 접근법이 알베도 추정, 기하학적 구조 추정, 의미론적 분할과 같은 상위 수준의 시각 응용 분야의 견고성을 높일 수 있음을 보여준다.
최근 3D 생성 신경망의 급속한 발전으로 3D 형태 생성이 크게 개선되었지만, 일반 사용자가 3D 형태를 생성하고 생성된 형태의 지역적 기하학을 제어하는 것은 여전히 불편한 상황입니다. 이러한 문제를 해결하기 위해, 우리는 2D 스케치 이미지 입력을 통해 그럴듯한 3D 형태를 모델링하기 위한 확산 기반 3D 생성 프레임워크인 지역적 주의 기반 SDF 확산(locally attentional SDF diffusion)을 제안합니다. 우리의 방법은 두 단계의 확산 모델로 구성됩니다. 첫 번째 단계는 점유 확산(occupancy-diffusion)으로, 저해상도 점유 필드를 생성하여 형태의 외곽을 근사화하는 것을 목표로 합니다. 두 번째 단계는 SDF 확산(SDF-diffusion)으로, 첫 번째 단계에서 결정된 점유된 복셀 내에서 고해상도의 부호 있는 거리 필드(signed distance field)를 합성하여 세밀한 기하학을 추출합니다. 우리의 모델은 이미지 조건화된 형태 생성을 위한 새로운 시각 인식 지역적 주의 메커니즘에 의해 강화되어, 2D 이미지 패치 특징을 활용하여 3D 복셀 특징 학습을 안내함으로써 지역적 제어 가능성과 모델의 일반화 능력을 크게 향상시킵니다. 스케치 조건화 및 카테고리 조건화 3D 형태 생성 작업에서의 광범위한 실험을 통해, 우리는 우리의 방법이 그럴듯하고 다양한 3D 형태를 제공할 뿐만 아니라 기존 작업에 비해 우수한 제어 가능성과 일반화 능력을 가지고 있음을 검증하고 입증합니다. 우리의 코드와 훈련된 모델은 https://zhengxinyang.github.io/projects/LAS-Diffusion.html에서 확인할 수 있습니다.
대형 언어 모델(LLM)은 놀라운 언어 능력을 보여주고 있다. GPT-4는 고급 LLM을 기반으로 이전의 시각 언어 모델을 넘어서는 탁월한 다중 모달 능력을 보여준다. 우리는 이러한 능력이 이전의 다중 모달 모델과 비교하여 더 고급 LLM을 사용한 결과라고 판단한다. 그러나 GPT-4의 모델 아키텍처와 훈련 전략은 알려져 있지 않다. LLM에 다중 모달 능력을 부여하기 위해, 우리는 X-LLM을 제안한다. X-LLM은 X2L 인터페이스를 사용하여 이미지, 음성, 비디오와 같은 다중 모달리티를 외국어로 변환하고 이를 대형 언어 모델(ChatGLM)에 입력한다. 구체적으로, X-LLM은 여러 고정된 단일 모달 인코더와 고정된 LLM을 X2L 인터페이스를 사용하여 정렬한다. 여기서 "X"는 이미지, 음성, 비디오와 같은 다중 모달리티를 나타내고, "L"은 언어를 나타낸다. X-LLM의 훈련은 세 단계로 구성된다: (1) 다중 모달 정보 변환: 첫 번째 단계에서는 각 X2L 인터페이스를 해당 단일 모달 인코더와 별도로 정렬하여 다중 모달 정보를 언어로 변환한다. (2) X2L 표현과 LLM 정렬: 단일 모달 인코더는 X2L 인터페이스를 통해 LLM과 독립적으로 정렬된다. (3) 다중 모달리티 통합: 모든 단일 모달 인코더는 X2L 인터페이스를 통해 LLM과 정렬되어 다중 모달 능력을 LLM에 통합한다. 우리의 실험 결과, X-LLM은 인상적인 다중 모달 채팅 능력을 보여주며, 때로는 보지 못한 이미지/지시에 대해 다중 모달 GPT-4의 행동을 보여주기도 한다. 또한 합성 다중 모달 지시 따르기 데이터셋에서 GPT-4 대비 84.5%의 상대 점수를 기록했다. 또한 우리는 LLM을 사용한 ASR 및 다중 모달 ASR에 대한 정량적 테스트를 수행하여 LLM 기반 음성 인식 시대를 촉진하고자 한다.
구성적 추론은 인간 시각 지능의 특징적인 능력이지만, 대규모 시각-언어 모델들은 그 규모에도 불구하고 객체와 속성을 결합하여 간단한 구성을 표현하는 데 어려움을 겪습니다. 이러한 구성적 능력의 부족을 측정하기 위해, 우리는 Cola라는 텍스트-이미지 검색 벤치마크를 설계했습니다. Cola는 속성으로 지역화된 객체를 구성(Compose Objects Localized with Attributes)하는 데 사용됩니다. Cola를 테스트베드로 활용하여, 우리는 사전 훈련된 시각-언어 모델이 여러 객체에 부착된 여러 속성에 대해 구성적으로 추론할 수 있도록 모델 설계를 탐구합니다. 우리는 2개의 주요 시각-언어 모델에 대해 6가지 미세 조정 전략을 탐구하며, 3개의 미세 조정 데이터셋과 2개의 테스트 벤치마크(Cola와 CREPE)를 사용합니다. 놀랍게도, 우리의 최적 미세 조정 전략은 사전 훈련 중 이미지와 언어를 분리적으로 인코딩하는 151M 파라미터의 CLIP 모델을, 사전 훈련 중 다중 모달 변환기 인코더를 사용하여 시각과 언어 양쪽 모달리티에 주의를 기울이는 241M 파라미터의 FLAVA 모델과 동등한 성능으로 향상시킵니다. 이 최적의 미세 조정 전략은 사전 훈련된 모델이 생성한 이미지와 언어 특징을 공동으로 주의하는 경량 다중 모달 어댑터입니다. 우리는 이 전략이 프롬프트/미세 조정이나 유사한 수의 단일 모달 레이어를 조정하는 일반적인 전략보다 더 효과적임을 보여줍니다.
디퓨전 모델은 시각 영역에서의 기초 모델(foundation model)의 핵심 요소로 부상했습니다. 이 모델의 중요한 응용 분야 중 하나는 각 작업별로 재학습 없이 단일 디퓨전 사전(prior)을 통해 다양한 하위 역작업(inverse task)을 보편적으로 해결하는 것입니다. 대부분의 역작업은 측정값(예: 마스킹된 이미지)이 주어졌을 때 데이터(예: 전체 이미지)에 대한 사후 분포(posterior distribution)를 추론하는 문제로 공식화될 수 있습니다. 그러나 디퓨전 과정의 비선형성과 반복적 특성으로 인해 디퓨전 모델에서 사후 분포를 다루는 것은 매우 어려운 과제입니다. 이러한 문제를 해결하기 위해, 우리는 설계상 진정한 사후 분포를 근사화하는 변분적 접근법을 제안합니다. 우리의 접근법은 자연스럽게 디노이징 디퓨전 과정을 통한 정규화(RED-Diff)로 이어지며, 여기서 서로 다른 시간 단계의 디노이저(denoiser)들이 이미지에 대해 다양한 구조적 제약을 동시에 부과합니다. 서로 다른 시간 단계의 디노이저들의 기여도를 평가하기 위해, 우리는 신호 대 잡음비(SNR)를 기반으로 한 가중치 메커니즘을 제안합니다. 우리의 접근법은 디퓨전 모델을 사용한 역문제 해결을 위한 새로운 변분적 관점을 제공하며, 샘플링을 확률적 최적화 문제로 공식화할 수 있게 합니다. 이를 통해 경량화된 반복 과정으로 기존의 표준 솔버를 간단히 적용할 수 있습니다. 인페인팅(inpainting) 및 초해상도(superresolution)와 같은 이미지 복원 작업에 대한 실험 결과는 우리의 방법이 최신 샘플링 기반 디퓨전 모델들과 비교하여 우수한 성능을 보임을 입증합니다.
현대의 생성 모델은 놀라울 정도의 사실감으로 토킹 헤드(talking-head) 비디오를 생성하며, 제한된 대역폭 예산 하에서 화상 회의와 같은 새로운 사용자 경험을 제공하고 있다. 그러나 이러한 기술의 안전한 도입을 위해서는 생성된 비디오가 신뢰할 수 있는지 확인할 수 있는 메커니즘이 필요하다. 예를 들어, 화상 회의의 경우 개인의 동의 없이 그들의 외모를 사용한 합성 비디오 초상화를 식별해야 한다. 우리는 이러한 작업을 아바타 지문 인식(avatar fingerprinting)이라고 명명한다. 우리는 각 개인에게 고유한 얼굴 움직임 특징을 활용하여 이 문제를 해결하고자 한다. 구체적으로, 우리는 합성 비디오에서의 외모와 관계없이 한 신원의 움직임 특징이 함께 그룹화되고 다른 신원의 움직임 특징과는 멀어지도록 임베딩을 학습한다. 토킹 헤드 생성기가 보편화됨에 따라 아바타 지문 인식 알고리즘은 매우 중요해질 것이나, 이 새로운 작업을 위한 대규모 데이터셋은 아직 존재하지 않는다. 따라서 우리는 스크립트를 따르거나 즉흥적으로 짧은 독백을 하는 사람들의 대규모 데이터셋을 제공하며, 이 데이터셋에는 한 사람의 얼굴 외모를 사용하여 다른 사람의 비디오를 합성한 예시가 포함되어 있다. 프로젝트 페이지: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
웹페이지는 시각-언어 및 언어 전용 작업을 위한 풍부하고 확장 가능한 자원으로 여겨져 왔다. 그러나 웹페이지의 일부만이 보존되는 경우가 대부분이다: 이미지-캡션 쌍, 긴 텍스트 기사, 또는 원시 HTML 등이 따로따로 저장되며, 이 모든 것이 한곳에 모여 있는 경우는 거의 없다. 그 결과, 웹페이지 작업은 상대적으로 적은 관심을 받았으며, 구조화된 이미지-텍스트 데이터는 제대로 활용되지 못했다. 다중 모드 웹페이지 이해를 연구하기 위해, 우리는 200만 개의 페이지로 구성된 Wikipedia 웹페이지 스위트(WikiWeb2M)를 소개한다. 우리는 이 스위트의 유용성을 페이지 설명 생성, 섹션 요약, 그리고 맥락적 이미지 캡션 생성이라는 세 가지 생성 작업에서 검증한다. 우리는 가장 관련성이 높은 이미지와 텍스트 콘텐츠를 전역 토큰으로 선택하여 웹페이지의 나머지 부분에 맥락을 제공하는 새로운 주의 메커니즘인 Prefix Global을 설계했다. 페이지 구조를 활용하여 이러한 토큰을 분리함으로써, 이 메커니즘은 더 낮은 계산 복잡도로 완전 주의 메커니즘보다 더 나은 성능을 보인다. 실험 결과, WikiWeb2M의 새로운 주석은 기존 작업의 데이터에 비해 작업 성능을 향상시키는 것으로 나타났다. 또한, 우리는 시퀀스 길이, 입력 특징, 모델 크기에 대한 절제 실험도 포함시켰다.
본 논문에서는 물리 기반 시뮬레이션 캐릭터를 위한 복합적이고 작업 주도적인 모션 제어를 위한 딥러닝 기법을 제안한다. 기존의 강화 학습을 활용한 데이터 기반 접근법이 전신 동작을 모방하는 것과 달리, 우리는 GAN과 유사한 설정에서 다중 판별기를 활용하여 특정 신체 부위의 분리된 동작을 다중 참조 동작으로부터 동시에 직접 학습한다. 이 과정에서 학습을 위한 복합 참조 동작을 생성하기 위한 수작업이 필요하지 않으며, 대신 제어 정책이 복합 동작이 어떻게 자동으로 결합될 수 있는지를 스스로 탐색한다. 또한, 다중 작업 특화 보상을 고려하고 단일 다중 목표 제어 정책을 학습한다. 이를 위해, 우리는 다중 출처로부터의 상이한 동작 학습과 다중 목표 지향적 제어 목표를 적응적으로 균형 잡는 새로운 다중 목표 학습 프레임워크를 제안한다. 추가적으로, 복합 동작이 일반적으로 단순한 행동의 확장이기 때문에, 우리는 사전 학습된 정책을 메타 정책으로 재사용하고 새로운 복합 작업에 대해 메타 정책을 적응시키는 협력 정책을 학습하는 증분적 방식으로 복합 제어 정책을 효율적으로 학습하는 방법을 소개한다. 우리는 복합 모션 모방과 다중 목표 지향적 제어를 모두 포함하는 다양한 도전적인 다중 목표 작업에서 우리의 접근법의 적용 가능성을 보여준다.