번역이 포함된 일일 선별된 AI 연구 논문
대규모 텍스트-이미지 확산 모델의 생성적 사전 지식은 다양한 시각적 양식에 걸쳐 새로운 생성 및 편집 애플리케이션의 폭넓은 범위를 가능하게 합니다. 그러나 이러한 사전 지식을 복잡한 시각적 양식(예: 비디오와 같은 다중 이미지)에 적용할 때, 일련의 이미지 간 일관성을 달성하는 것은 어려운 과제입니다. 본 논문에서는 이러한 과제를 해결하기 위해 새로운 방법인 협력적 점수 증류(Collaborative Score Distillation, CSD)를 제안합니다. CSD는 Stein 변분 경사 하강법(Stein Variational Gradient Descent, SVGD)을 기반으로 합니다. 구체적으로, 우리는 다중 샘플을 SVGD 업데이트에서 "입자"로 간주하고 이들의 점수 함수를 결합하여 일련의 이미지에 걸쳐 생성적 사전 지식을 동기적으로 증류할 것을 제안합니다. 이를 통해 CSD는 2D 이미지 간 정보의 원활한 통합을 촉진하여 다중 샘플 간 일관된 시각적 합성을 이끌어냅니다. 우리는 파노라마 이미지, 비디오, 3D 장면의 시각적 편집을 포함한 다양한 작업에서 CSD의 효과성을 입증합니다. 우리의 결과는 CSD가 샘플 간 일관성을 강화하는 다목적 방법으로서의 능력을 보여주며, 이를 통해 텍스트-이미지 확산 모델의 적용 범위를 확장합니다.
미분 방정식을 위한 기계 학습은 수치 해석기 대신 계산 효율적인 대안을 제시하며, 과학과 공학 분야에 광범위한 영향을 미칠 잠재력을 가지고 있습니다. 현재의 알고리즘은 일반적으로 특정 설정에 맞춰 시뮬레이션된 훈련 데이터를 필요로 하지만, 이와 달리 다양한 출처에서 유용한 정보를 학습하거나, 실제 동적 시스템 관측치에서 지저분하거나 불완전한 데이터를 활용하고자 할 수 있습니다. 본 연구에서는 컴퓨터 비전 분야에서 주목할 만한 성과를 거둔 자기 지도 학습(SSL)을 위한 공동 임베딩 방법을 구현하여, 이질적인 데이터로부터 편미분 방정식(PDE)의 일반적인 표현을 학습합니다. 우리의 표현은 PDE의 계수를 회귀하는 것과 같은 불변 작업에서 기준 접근법을 능가하며, 신경망 해석기의 시간 단계 성능도 개선합니다. 우리는 제안된 방법론이 궁극적으로 PDE를 위한 범용 기반 모델 개발에 유용하게 활용되기를 기대합니다.
본 논문에서는 3D 자동 디코더를 핵심으로 하는 정적 및 관절형 3D 자산 생성에 대한 새로운 접근 방식을 제시한다. 3D 자동 디코더 프레임워크는 대상 데이터셋에서 학습된 속성을 잠재 공간에 임베딩하며, 이를 볼륨트릭 표현으로 디코딩하여 시점 일관적인 외관과 기하학을 렌더링할 수 있다. 이후 적절한 중간 볼륨트릭 잠재 공간을 식별하고, 강력한 정규화 및 비정규화 연산을 도입하여 2D 이미지 또는 단안 비디오로부터 고정형 또는 관절형 객체의 3D 확산을 학습한다. 제안된 접근 방식은 기존의 카메라 감독을 사용하거나 카메라 정보를 전혀 사용하지 않고도 유연하게 적용 가능하며, 대신 훈련 중에 이를 효율적으로 학습한다. 평가 결과, 제안 방식은 합성 객체의 다중 시점 이미지 데이터셋, 움직이는 사람의 실제 야외 비디오, 정적 객체의 대규모 실제 비디오 데이터셋을 포함한 다양한 벤치마크 데이터셋과 지표에서 최신 대안들을 능가하는 생성 결과를 보여준다.
하나의 장면에 대한 캘리브레이션된 이미지 세트가 주어졌을 때, 우리는 3D 프리미티브를 통해 단순하고 컴팩트하며 실행 가능한 3D 세계 표현을 생성하는 접근 방식을 제시한다. 많은 접근 방식이 고해상도 3D 장면 복원에 초점을 맞추는 반면, 우리는 장면을 소수의 텍스처가 적용된 프리미티브로 구성된 중간 수준의 3D 표현으로 파싱하는 데 초점을 맞춘다. 이러한 표현은 해석하기 쉽고, 조작이 간편하며, 물리 기반 시뮬레이션에 적합하다. 또한, 3D 입력 데이터에 의존하는 기존의 프리미티브 분해 방법과 달리, 우리의 접근 방식은 미분 가능 렌더링을 통해 이미지에서 직접 작동한다. 구체적으로, 우리는 프리미티브를 텍스처가 적용된 슈퍼쿼드릭 메시로 모델링하고, 이미지 렌더링 손실을 통해 처음부터 그 매개변수를 최적화한다. 우리는 각 프리미티브에 대한 투명도 모델링의 중요성을 강조하며, 이는 최적화에 중요할 뿐만 아니라 다양한 수의 프리미티브를 처리할 수 있게 한다. 결과적으로 생성된 텍스처가 적용된 프리미티브는 입력 이미지를 충실하게 재구성하고, 보이는 3D 점을 정확하게 모델링하며, 보이지 않는 객체 영역에 대한 모양 완성을 제공한다. 우리는 DTU의 다양한 장면에서 최신 기술과 우리의 접근 방식을 비교하고, BlendedMVS와 Nerfstudio의 실제 캡처에서의 견고성을 입증한다. 또한, 우리의 결과를 사용하여 장면을 쉽게 편집하거나 물리적 시뮬레이션을 수행할 수 있는 방법을 보여준다. 코드와 비디오 결과는 https://www.tmonnier.com/DBW에서 확인할 수 있다.
비디오-언어 사전 학습(VLP)은 다양한 시각 및 언어 작업으로 일반화할 수 있는 능력으로 인해 점점 더 중요해지고 있습니다. 그러나 기존의 자기 중심적 VLP 프레임워크는 별도의 비디오와 언어 인코더를 사용하며, 미세 조정 단계에서만 작업별 교차 모달 정보를 학습함으로써 통합 시스템의 발전을 제한하고 있습니다. 본 연구에서는 이전 세대에서 크게 개선된 두 번째 세대의 자기 중심적 비디오-언어 사전 학습(EgoVLPv2)을 소개합니다. EgoVLPv2는 비디오와 언어 백본에 직접 교차 모달 융합을 통합하여, 사전 학습 단계에서 강력한 비디오-텍스트 표현을 학습하고, 교차 모달 어텐션 모듈을 재사용하여 다양한 다운스트림 작업을 유연하고 효율적으로 지원함으로써 미세 조정 비용을 줄입니다. 또한, 우리가 제안한 백본 내 융합 전략은 추가적인 융합 전용 레이어를 쌓는 방식보다 더 가볍고 계산 효율적입니다. 다양한 VL 작업에 대한 광범위한 실험을 통해 EgoVLPv2의 효과를 입증하였으며, 모든 다운스트림 작업에서 강력한 베이스라인을 일관되게 뛰어넘는 최첨단 성능을 달성했습니다. 우리의 프로젝트 페이지는 https://shramanpramanick.github.io/EgoVLPv2/에서 확인할 수 있습니다.
고품질이고 다양한 3D 관절형 디지털 인간 자산에 대한 접근은 가상 현실부터 소셜 플랫폼에 이르기까지 다양한 응용 분야에서 매우 중요합니다. 3D 생성적 적대 신경망(GAN)과 같은 생성적 접근 방식은 수작업 콘텐츠 제작 도구를 빠르게 대체하고 있습니다. 그러나 기존의 3D GAN 프레임워크는 일반적으로 템플릿 메시(빠르지만 품질이 제한적)나 볼륨(고용량이지만 렌더링이 느림)과 같은 장면 표현에 의존하며, 이는 GAN 설정에서 3D 충실도를 제한합니다. 본 연구에서는 관절형 디지털 인간을 위한 새로운 3D 객체 표현으로 계층화된 표면 볼륨(LSV)을 소개합니다. LSV은 기존 템플릿 주위에 여러 텍스처 메시 레이어를 사용하여 인간의 몸을 표현합니다. 이러한 레이어는 빠른 미분 가능 래스터화를 통해 알파 합성으로 렌더링되며, 템플릿 주위의 유한 두께 매니폴드에 용량을 할당하는 볼륨 표현으로 해석될 수 있습니다. 머리카락이나 액세서리와 같은 미세한 표면 외부 세부 사항을 표현하는 데 어려움을 겪는 기존의 단일 레이어 템플릿과 달리, 우리의 표면 볼륨은 이러한 세부 사항을 자연스럽게 포착합니다. LSV은 관절형으로 조작할 수 있으며, 2D 생성기가 개별 레이어의 RGBA 텍스처를 합성하도록 학습하는 GAN 설정에서 탁월한 효율성을 보입니다. 비정형 단일 뷰 2D 이미지 데이터셋으로 학습된 우리의 LSV-GAN은 뷰 불일치 2D 업샘플링 네트워크 없이도 고품질이고 뷰 일관성이 있는 3D 관절형 디지털 인간을 생성합니다.
기존 연구에서는 테스트 시간 학습(Test-Time Training, TTT)을 훈련된 모델을 테스트 시간에 추가로 개선하기 위한 일반적인 프레임워크로 확립했습니다. 각 테스트 인스턴스에 대한 예측을 수행하기 전에, 모델은 마스크된 오토인코더를 사용한 이미지 재구성과 같은 자기 지도 학습 작업을 통해 동일한 인스턴스에서 훈련됩니다. 우리는 TTT를 스트리밍 환경으로 확장합니다. 여기서는 여러 테스트 인스턴스(이 경우 비디오 프레임)가 시간 순서대로 도착합니다. 우리의 확장은 온라인 TTT입니다: 현재 모델은 이전 모델에서 초기화된 후, 현재 프레임과 바로 이전의 작은 프레임 윈도우에서 훈련됩니다. 온라인 TTT는 세 가지 실제 데이터셋에서 네 가지 작업에 대해 고정 모델 기준선을 크게 능가합니다. 인스턴스 분할과 파노픽 분할에서 상대적 개선은 각각 45%와 66%입니다. 놀랍게도, 온라인 TTT는 시간 순서에 관계없이 전체 테스트 비디오의 모든 프레임에서 훈련하는 오프라인 변형보다도 더 나은 성능을 보입니다. 이는 합성 비디오를 사용한 이전 연구 결과와는 다른 결과입니다. 우리는 온라인 TTT가 오프라인 TTT보다 우위에 있는 이유를 지역성(locality)으로 개념화합니다. 우리는 지역성의 역할을 ablation 연구와 편향-분산 트레이드오프 이론을 통해 분석합니다.