번역이 포함된 일일 선별된 AI 연구 논문
고급 멀티모달 학습의 시대에서 GPT-4V와 같은 멀티모달 대형 언어 모델(MLLMs)은 언어와 시각 요소를 연결하는 데 있어 놀라운 진전을 이루었습니다. 그러나 폐쇄적인 소스 특성과 상당한 계산 요구 사항은 보편적인 사용과 수정에 있어 상당한 과제로 남아 있습니다. 이에 LLaVA와 MiniGPT-4와 같은 오픈소스 MLLMs가 등장하여 다양한 작업에서 획기적인 성과를 보여주고 있습니다. 이러한 성과에도 불구하고, LLaVA-v1.5-13B와 같은 모델들은 상당한 자원을 필요로 하기 때문에 계산 효율성은 여전히 해결되지 않은 문제로 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 인상적인 성능과 일반적인 계산 능력을 결합한 새로운 모델인 TinyGPT-V를 소개합니다. 이 모델은 학습에 단 24G GPU만을 필요로 하며, 추론에는 8G GPU 또는 CPU만을 요구하는 점에서 두드러집니다. Phi-2를 기반으로 구축된 TinyGPT-V는 효과적인 언어 백본과 BLIP-2 또는 CLIP의 사전 훈련된 비전 모듈을 결합합니다. TinyGPT-V의 2.8B 매개변수는 고유한 양자화 과정을 거칠 수 있어, 8G 다양한 장치에서의 로컬 배포 및 추론 작업에 적합합니다. 우리의 작업은 비용 효율적이고 효율적이며 고성능의 MLLMs 설계를 위한 추가 발전을 촉진하여, 다양한 실제 시나리오에서의 적용 가능성을 확장합니다. 더불어, 이 논문은 작은 백본을 통한 멀티모달 대형 언어 모델의 새로운 패러다임을 제안합니다. 우리의 코드와 훈련 가중치는 각각 https://github.com/DLYuanGod/TinyGPT-V와 https://huggingface.co/Tyrannosaurus/TinyGPT-V에 공개되어 있습니다.
이미지, 텍스트, 오디오, 동작을 이해하고 생성할 수 있는 최초의 자기회귀적 멀티모달 모델인 Unified-IO 2를 소개한다. 다양한 모달리티를 통합하기 위해 입력과 출력(이미지, 텍스트, 오디오, 동작, 바운딩 박스 등)을 공유된 의미 공간으로 토큰화한 후, 단일 인코더-디코더 트랜스포머 모델로 처리한다. 이렇게 다양한 모달리티를 사용한 학습은 도전적이므로, 모델 학습을 안정화하기 위한 다양한 아키텍처 개선을 제안한다. 다양한 소스로부터 대규모 멀티모달 사전 학습 코퍼스를 사용해 모델을 처음부터 학습시키며, 멀티모달 디노이저 목표를 활용한다. 멀티모달 지시를 따르는 것과 같은 광범위한 기술을 학습하기 위해, 프롬프트와 증강 기법을 적용한 120개의 데이터셋 앙상블을 구성하고 미세 조정한다. 단일 통합 모델인 Unified-IO 2는 GRIT 벤치마크에서 최첨단 성능을 달성하며, 이미지 생성 및 이해, 자연어 이해, 비디오 및 오디오 이해, 로봇 조작 등 35개 이상의 벤치마크에서 강력한 결과를 보인다. 모든 모델을 연구 커뮤니티에 공개한다.
고품질의 대규모 코퍼스는 기초 모델 구축의 초석입니다. 본 연구에서는 약 95억 개의 토큰으로 구성된 다양하고 고품질의 수학 중심 코퍼스인 MathPile을 소개합니다. 이를 구축하는 과정에서 우리는 "적은 것이 더 많다"는 원칙을 준수하며, 사전 학습 단계에서도 데이터의 양보다 질이 우선한다는 믿음을 견지했습니다. 우리의 세심한 데이터 수집 및 처리 작업은 복잡한 전처리, 사전 필터링, 언어 식별, 정제, 필터링, 중복 제거 등의 과정을 포함하여 코퍼스의 높은 품질을 보장했습니다. 더 나아가, 하위 벤치마크 테스트 세트에 대한 데이터 오염 검출을 수행하여 중복을 제거했습니다. 우리는 MathPile이 언어 모델의 수학적 추론 능력을 향상시키는 데 도움이 되기를 바랍니다. 우리는 이 분야의 미래 발전을 촉진하기 위해 처리에 사용된 스크립트와 함께 MathPile의 다양한 버전을 오픈소스로 공개할 계획입니다.
본 논문에서는 모바일 기기에서 실행 가능한 다중 모달 비전 언어 모델(MMVLM)인 MobileVLM을 소개한다. MobileVLM은 모바일 환경에 최적화된 다양한 아키텍처 설계와 기술을 통합한 모델로, 1.4B 및 2.7B 파라미터 규모의 언어 모델 세트, CLIP 방식으로 사전 학습된 다중 모달 비전 모델, 그리고 효율적인 프로젝터를 통한 교차 모달리티 상호작용으로 구성된다. MobileVLM은 여러 전형적인 VLM 벤치마크에서 평가되었으며, 훨씬 더 큰 규모의 모델들과 비교해도 동등한 성능을 보여준다. 특히, Qualcomm Snapdragon 888 CPU와 NVIDIA Jetson Orin GPU에서의 추론 속도를 측정한 결과, 각각 초당 21.5 토큰과 65.3 토큰이라는 최첨단 성능을 달성하였다. 본 모델의 코드는 https://github.com/Meituan-AutoML/MobileVLM에서 공개될 예정이다.
고밀도 수동 주석 분할 마스크의 필요성을 제거한 여러 비지도 이미지 분할 접근법이 제안되었으며, 현재 모델들은 시맨틱 분할(예: STEGO) 또는 클래스 불문 인스턴스 분할(예: CutLER) 중 하나만을 개별적으로 처리할 뿐, 둘 다(즉, 팬옵틱 분할)를 동시에 처리하지는 못합니다. 우리는 다양한 이미지 분할 작업(인스턴스, 시맨틱, 팬옵틱)을 수행할 수 있는 비지도 범용 분할 모델(U2Seg)을 제안합니다. U2Seg는 새로운 통합 프레임워크를 사용하여 이러한 분할 작업을 위한 가짜 시맨틱 레이블을 생성합니다. 이는 자기 지도 모델을 활용한 후 클러스터링을 통해 이루어지며, 각 클러스터는 픽셀의 서로 다른 시맨틱 및/또는 인스턴스 소속을 나타냅니다. 그런 다음 모델을 이러한 가짜 시맨틱 레이블에 대해 자기 학습시켜, 각 작업에 맞춤화된 전문 방법들보다 상당한 성능 향상을 달성합니다: COCO에서의 비지도 인스턴스 분할에서 CutLER 대비 +2.6 AP^{box} 향상, COCOStuff에서의 비지도 시맨틱 분할에서 STEGO 대비 +7.0 PixelAcc 증가를 보입니다. 더욱이, 우리의 방법은 이전에 탐구되지 않았던 비지도 팬옵틱 분할을 위한 새로운 기준을 설정합니다. U2Seg는 또한 소량 데이터(예: COCO 레이블의 1%만 사용)로 학습할 때 CutLER를 +5.0 AP^{mask}로 능가하는 강력한 소량 학습 분할을 위한 사전 학습 모델입니다. 우리의 간단하지만 효과적인 방법이 비지도 범용 이미지 분할에 대한 더 많은 연구를 영감을 줄 수 있기를 바랍니다.
최근 4D 콘텐츠 생성 분야에서 놀라운 진전이 이루어졌습니다. 그러나 기존 방법들은 긴 최적화 시간, 움직임 제어성의 부족, 그리고 낮은 디테일 수준 등의 문제를 안고 있습니다. 본 논문에서는 4D Gaussian Splatting 표현을 기반으로 한 효율적인 4D 생성 프레임워크인 DreamGaussian4D를 소개합니다. 우리의 핵심 통찰은 Gaussian Splatting의 공간 변환에 대한 명시적 모델링이 암묵적 표현에 비해 4D 생성 설정에 더 적합하다는 점입니다. DreamGaussian4D는 최적화 시간을 몇 시간에서 단 몇 분으로 단축하며, 생성된 3D 모션을 유연하게 제어할 수 있고, 3D 엔진에서 효율적으로 렌더링할 수 있는 애니메이션 메시를 생성합니다.
딥러닝 기반 3D 비전 분야에서는 신경 방사 필드(NeRF) 기반 3D 표현 학습부터 새로운 시점 합성(NVS) 응용에 이르기까지 상당한 진전을 목격했습니다. 그러나 기존의 딥러닝 기반 3D 비전을 위한 장면 수준 데이터셋은 합성 환경이나 제한된 실제 장면으로만 구성되어 있어 상당히 부족한 실정입니다. 이러한 부족은 기존 방법론의 포괄적인 벤치마킹을 방해할 뿐만 아니라 딥러닝 기반 3D 분석에서 탐구할 수 있는 가능성을 제한합니다. 이러한 중요한 격차를 해결하기 위해, 우리는 DL3DV-10K라는 대규모 장면 데이터셋을 제안합니다. 이 데이터셋은 65종류의 관심 지점(POI)에서 촬영된 10,510개의 비디오로부터 추출된 5,120만 프레임으로 구성되어 있으며, 경계가 있는 장면과 없는 장면을 모두 포함하고, 다양한 수준의 반사, 투명도, 조명 조건을 다룹니다. 우리는 DL3DV-10K를 사용하여 최근의 NVS 방법론들을 포괄적으로 벤치마킹했으며, 이를 통해 NVS 연구의 미래를 위한 귀중한 통찰을 얻었습니다. 또한, DL3DV-10K로부터 일반화 가능한 NeRF를 학습하는 파일럿 연구에서도 고무적인 결과를 얻었는데, 이는 3D 표현 학습을 위한 기초 모델로 나아가기 위해 대규모 장면 수준 데이터셋의 필요성을 보여줍니다. 우리의 DL3DV-10K 데이터셋, 벤치마크 결과, 그리고 모델들은 https://dl3dv-10k.github.io/DL3DV-10K/에서 공개될 예정입니다.
NeRF는 다양한 환경에서의 복잡한 디테일을 포착하며 3D 장면 재구성 분야에서 큰 진전을 이루었습니다. 기존 방법들은 작은 규모의 장면에 대해 실시간 렌더링을 가능하게 하는 방사광장(radiance field) 베이킹 기술을 성공적으로 활용해 왔습니다. 그러나 대규모 장면에 적용할 경우, 이러한 기술들은 계산, 메모리, 대역폭 등의 제한된 자원으로 인해 원활한 실시간 경험을 제공하는 데 상당한 어려움을 겪습니다. 본 논문에서는 City-on-Web을 제안하며, 이는 전체 장면을 관리 가능한 블록으로 분할하고 각 블록에 적절한 Level-of-Detail을 부여하여 높은 정확도, 효율적인 메모리 관리, 그리고 빠른 렌더링을 보장합니다. 동시에, 웹 상의 최종 렌더링 결과가 학습 과정과 일관성을 유지하도록 학습 및 추론 과정을 신중하게 설계하였습니다. 이러한 새로운 표현 방식과 신중하게 설계된 학습/추론 프로세스 덕분에, 우리는 자원이 제한된 환경에서 대규모 장면의 실시간 렌더링을 최초로 달성하였습니다. 광범위한 실험 결과는 우리의 방법이 웹 플랫폼에서 대규모 장면의 실시간 렌더링을 가능하게 하며, RTX 3060 GPU에서 1080P 해상도로 32FPS를 달성하면서도 최신 기술과 거의 비슷한 품질을 유지함을 보여줍니다. 프로젝트 페이지: https://ustc3dv.github.io/City-on-Web/
급변하는 디지털 콘텐츠 생성 분야에서, 텍스트-이미지(T2I) 모델에서 더욱 진보된 비디오 디퓨전 모델, 특히 텍스트-비디오(T2V) 및 이미지-비디오(I2V) 모델로 초점이 이동하고 있습니다. 본 논문은 I2V가 제기하는 복잡한 문제, 즉 정적 이미지를 원본 이미지의 충실도를 유지하면서 생동감 있는 동영상 시퀀스로 변환하는 과제를 다룹니다. 기존 방법들은 일반적으로 전체 이미지를 디퓨전 프로세스에 통합하거나 사전 학습된 인코더를 교차 주의(cross attention)에 사용합니다. 그러나 이러한 접근 방식은 종종 T2I 모델의 기본 가중치를 변경해야 하므로 재사용성을 제한합니다. 우리는 이러한 한계를 극복하기 위한 새로운 솔루션인 I2V-Adapter를 소개합니다. 우리의 접근 방식은 T2I 모델의 구조적 무결성과 내재된 모션 모듈을 보존합니다. I2V-Adapter는 경량 어댑터 모듈을 활용하여 입력 이미지와 함께 노이즈가 추가된 비디오 프레임을 병렬로 처리합니다. 이 모듈은 입력을 모델의 자기 주의(self-attention) 메커니즘에 효율적으로 연결하는 다리 역할을 하여, T2I 모델의 구조적 변경 없이 공간적 세부 사항을 유지합니다. 또한, I2V-Adapter는 기존 모델의 파라미터 수의 일부만 필요로 하며, 기존의 커뮤니티 주도 T2I 모델 및 제어 도구와의 호환성을 보장합니다. 우리의 실험 결과는 I2V-Adapter가 고품질 비디오 출력을 생성할 수 있는 능력을 입증합니다. 이러한 성능과 더불어, I2V-Adapter의 다재다능성과 학습 가능한 파라미터의 감소는 특히 창의적인 응용 분야에서 AI 기반 비디오 생성 분야의 상당한 진전을 나타냅니다.
물리 기반 캐릭터의 애니메이션을 직관적인 제어로 생성하는 것은 오랫동안 다양한 응용 분야에서 바람직한 과제로 여겨져 왔습니다. 그러나 물리적 환경의 복잡성과 인간 언어의 풍부함으로 인해 고수준의 인간 지시를 반영하는 물리 시뮬레이션 애니메이션을 생성하는 것은 여전히 어려운 문제로 남아 있습니다. 본 논문에서는 최근의 확산 기반 인간 모션 모델의 발전을 활용하여 물리 기반 캐릭터의 지시 기반 애니메이션을 생성하는 원칙적인 생성 프레임워크인 InsActor를 소개합니다. 우리의 프레임워크는 유연한 조건부 모션 계획을 위해 확산 정책을 사용함으로써 InsActor가 고수준 인간 지시와 캐릭터 모션 간의 복잡한 관계를 포착할 수 있도록 합니다. 계획된 모션에서 무효 상태와 실행 불가능한 상태 전이를 극복하기 위해 InsActor는 저수준 스킬을 발견하고 계획을 컴팩트한 잠재 공간의 잠재 스킬 시퀀스에 매핑합니다. 광범위한 실험을 통해 InsActor가 지시 기반 모션 생성 및 지시 기반 웨이포인트 헤딩을 포함한 다양한 작업에서 최첨단 결과를 달성함을 입증했습니다. 특히, InsActor가 고수준 인간 지시를 사용하여 물리 시뮬레이션 애니메이션을 생성할 수 있는 능력은 풍부한 지시 세트를 사용하여 장기간 작업을 실행하는 데 있어 특히 유용한 도구로 자리매김합니다.
동적 장면의 새로운 시점 합성은 흥미롭지만 도전적인 문제로 남아 있습니다. 최근의 발전에도 불구하고, 고해상도 포토리얼리스틱 결과, 실시간 렌더링, 그리고 컴팩트한 저장 공간을 동시에 달성하는 것은 여전히 어려운 과제입니다. 이러한 문제를 해결하기 위해, 우리는 세 가지 핵심 요소로 구성된 새로운 동적 장면 표현 방법인 Spacetime Gaussian Feature Splatting을 제안합니다. 첫째, 우리는 3D 가우시안에 시간적 투명도와 파라미터화된 움직임/회전을 추가하여 표현력이 풍부한 Spacetime Gaussian을 정의합니다. 이를 통해 Spacetime Gaussian은 장면 내의 정적, 동적, 그리고 일시적인 내용을 모두 포착할 수 있습니다. 둘째, 우리는 구면 조화 함수를 신경망 기반 특징으로 대체하는 splatted feature rendering을 도입합니다. 이러한 특징은 시점과 시간에 따른 외관을 모델링하면서도 작은 크기를 유지할 수 있게 합니다. 셋째, 우리는 학습 오차와 대략적인 깊이 정보를 활용하여 기존 파이프라인으로는 수렴하기 어려운 영역에 새로운 가우시안을 샘플링합니다. 여러 실세계 데이터셋에 대한 실험을 통해, 우리의 방법이 최신의 렌더링 품질과 속도를 달성하면서도 컴팩트한 저장 공간을 유지함을 입증했습니다. 8K 해상도에서, 우리의 라이트 버전 모델은 Nvidia RTX 4090 GPU에서 60 FPS로 렌더링할 수 있습니다.
최신 언어 모델은 대규모 텍스트 데이터 코퍼스에서 최고의 성능을 달성하기 위해 점점 더 커지고 있다. 그러나 Transformer 아키텍처의 방대한 크기로 인해 계산적, 환경적 또는 특정 디바이스의 제약 내에서 모델을 배포하기가 어려워지고 있다. 우리는 처음부터 더 작은 모델을 훈련시키는 대신 기존에 사전 훈련된 모델을 데이터 기반으로 압축하는 방법을 탐구한다. 이를 위해 대상 손실 경관의 Kronecker-factored 곡률 근사를 대규모 언어 모델에 확장한다. 이를 통해 제거 가능한 구조의 동적 할당과 제거를 고려한 남은 가중치의 업데이트를 모두 계산할 수 있다. 우리는 비정형, 준정형 및 정형 가지치기를 위한 일반적인 프레임워크를 제공하고, 계산적으로 효율적으로 유지하면서 가중치 간의 더 많은 상관관계를 포착하기 위해 가중치 업데이트를 개선한다. 실험적으로, 우리의 방법은 다양한 OPT 모델과 Llamav2-7B의 행과 열을 20%-30%까지 가지치기할 수 있으며, 성능 저하가 거의 없이 대규모 언어 모델의 비정형 및 준정형 가지치기에서 최신의 결과를 달성한다.
단일 뷰에서 이미지-3D 변환 문제를 해결하는 것은 잘 정의되지 않은 문제이며, 현재 확산 모델을 통해 이를 다루는 신경망 재구성 방법들은 여전히 장면별 최적화에 의존하여 일반화 능력이 제한적입니다. 기존 접근법의 일반화와 일관성에 관한 한계를 극복하기 위해, 우리는 새로운 신경 렌더링 기법을 소개합니다. 우리의 접근법은 부호 있는 거리 함수(SDF)를 표면 표현으로 사용하며, 기하학적 인코딩 볼륨과 하이퍼네트워크를 통해 일반화 가능한 사전 정보를 통합합니다. 구체적으로, 우리의 방법은 생성된 다중 뷰 입력으로부터 신경 인코딩 볼륨을 구축합니다. 테스트 시 입력 이미지에 따라 SDF 네트워크의 가중치를 조정하여 하이퍼네트워크를 통해 새로운 장면에 대한 모델 적응을 순전파 방식으로 가능하게 합니다. 합성된 뷰에서 발생하는 아티팩트를 완화하기 위해, 각 뷰포인트를 개별적으로 처리하는 대신 이미지 특징의 집계를 개선하기 위한 볼륨 트랜스포머 모듈을 제안합니다. 우리가 제안한 Hyper-VolTran이라는 방법을 통해, 장면별 최적화의 병목 현상을 피하고 다중 뷰포인트에서 생성된 이미지 간의 일관성을 유지합니다. 우리의 실험은 일관된 결과와 빠른 생성을 통해 제안된 접근법의 장점을 보여줍니다.
신경 그래픽스 프리미티브는 그리드 형태로 배열된 학습 가능한 특징을 담는 공간 데이터 구조로 신경망을 보강할 때 더 빠르고 높은 품질을 달성합니다. 그러나 기존의 특징 그리드는 메모리 사용량이 크거나(밀집 또는 인수분해된 그리드, 트리, 해시 테이블) 성능이 느린(인덱스 학습 및 벡터 양자화) 문제가 있습니다. 본 논문에서는 학습된 프로브를 가진 해시 테이블이 이러한 단점 없이 크기와 속도 측면에서 유리한 조합을 이룬다는 것을 보여줍니다. 동일한 품질에서 프로브가 없는 해시 테이블보다 추론이 더 빠르며, 학습 시간은 1.2-2.6배 느리지만 기존의 인덱스 학습 접근법을 크게 능가합니다. 우리는 모든 특징 그리드를 공통 프레임워크로 캐스팅하여 이 공식을 도출했습니다: 각 그리드는 특징 벡터 테이블을 인덱싱하는 조회 함수에 해당합니다. 이 프레임워크에서 기존 데이터 구조의 조회 함수는 인덱스의 간단한 산술 조합으로 결합될 수 있으며, 이를 통해 파레토 최적의 압축과 속도를 달성합니다.
현재의 대규모 확산 모델(Diffusion Model)은 텍스트, 인간 자세, 윤곽선 등 다양한 단서를 해석할 수 있는 조건부 이미지 합성 분야에서 거대한 도약을 이루었습니다. 그러나 이러한 모델들은 상당한 계산 자원과 광범위한 데이터 수집에 의존해야 한다는 점이 여전히 병목 현상으로 남아 있습니다. 한편, 각기 다른 제어 기능에 특화되어 고유한 잠재 공간에서 동작하는 기존 확산 모델들을 통합하는 것은 호환되지 않는 이미지 해상도와 잠재 공간 임베딩 구조로 인해 공동 사용을 방해하는 과제로 남아 있습니다. 이러한 제약 사항을 해결하기 위해, 우리는 다중 제어 신호를 능숙하게 수용할 수 있는 자원 효율적인 텍스트-이미지 합성을 위한 새로운 잠재 확산 모델인 "판구 드로우(PanGu-Draw)"를 제안합니다. 먼저, 우리는 자원 효율적인 시간 분리 학습 전략(Time-Decoupling Training Strategy)을 제안합니다. 이 전략은 단일 텍스트-이미지 모델을 구조 생성기와 질감 생성기로 분리하며, 각 생성기는 데이터 활용과 계산 효율성을 극대화하는 방식으로 학습됩니다. 이를 통해 데이터 준비 시간을 48% 절감하고 학습 자원을 51% 줄일 수 있습니다. 둘째, 우리는 "협력 확산(Coop-Diffusion)" 알고리즘을 소개합니다. 이 알고리즘은 서로 다른 잠재 공간과 미리 정의된 해상도를 가진 다양한 사전 학습된 확산 모델들을 통합된 노이즈 제거 과정 내에서 협력적으로 사용할 수 있게 합니다. 이를 통해 추가 데이터나 재학습 없이도 임의의 해상도에서 다중 제어 이미지 합성이 가능해집니다. 판구 드로우의 실험적 검증은 텍스트-이미지 및 다중 제어 이미지 생성에서의 탁월한 성능을 보여주며, 향후 모델 학습 효율성과 생성 다양성을 위한 유망한 방향을 제시합니다. 가장 큰 50억 파라미터 텍스트-이미지 판구 드로우 모델은 Ascend 플랫폼에 공개되었습니다. 프로젝트 페이지: https://pangu-draw.github.io
주제 기반 이미지 생성 분야의 최근 발전으로 제로샷 생성이 가능해졌지만, 핵심 주제 표현을 정확하게 선택하고 집중하는 것은 여전히 어려운 과제로 남아 있습니다. 이를 해결하기 위해, 우리는 단일 또는 다수의 참조 이미지에서 주제를 선택적으로 포착하도록 설계된 새로운 아키텍처인 SSR-Encoder를 소개합니다. 이 모델은 테스트 시 미세 조정 없이도 텍스트와 마스크를 포함한 다양한 쿼리 방식에 응답할 수 있습니다. SSR-Encoder는 쿼리 입력을 이미지 패치와 정렬하는 Token-to-Patch Aligner와 주제의 세부 특징을 추출하고 보존하는 Detail-Preserving Subject Encoder를 결합하여 주제 임베딩을 생성합니다. 이러한 임베딩은 원본 텍스트 임베딩과 함께 사용되어 생성 과정을 조건화합니다. 모델의 일반화 가능성과 효율성을 특징으로 하는 SSR-Encoder는 다양한 맞춤형 모델과 제어 모듈에 적응할 수 있습니다. 개선된 학습을 위한 Embedding Consistency Regularization Loss로 강화된 우리의 광범위한 실험은 다재다능하고 고품질의 이미지 생성에서의 효과를 입증하며, 이 모델의 광범위한 적용 가능성을 시사합니다. 프로젝트 페이지: https://ssr-encoder.github.io
텍스트 기반 3D 초상화 도메인 적응 및 생성은 다양한 분야에서 많은 응용 가능성을 가지고 있습니다. 그러나 학습 데이터의 부족과 기하학적 구조 및 외관의 높은 다양성을 다루는 데 있어서의 어려움으로 인해, 기존 방법들은 유연성 부족, 불안정성, 그리고 낮은 품질과 같은 문제를 겪고 있습니다. 본 논문에서는 3D GAN과 디퓨전 프라이어를 결합하여 텍스트 기반 3D 도메인 적응 및 생성을 강화하는 새로운 프레임워크인 DiffusionGAN3D를 제안합니다. 구체적으로, 사전 학습된 3D 생성 모델(예: EG3D)과 텍스트-이미지 디퓨전 모델을 통합합니다. 전자는 텍스트로부터 안정적이고 고품질의 아바타 생성을 위한 강력한 기반을 제공합니다. 그리고 디퓨전 모델은 강력한 프라이어를 제공하고 정보성 있는 방향으로 3D 생성기의 미세 조정을 안내하여 유연하고 효율적인 텍스트 기반 도메인 적응을 달성합니다. 도메인 적응의 다양성과 텍스트-아바타 생성 능력을 향상시키기 위해, 우리는 상대적 거리 손실과 사례별 학습 가능한 트라이플레인을 각각 도입했습니다. 또한, 위의 두 작업 모두에 대한 텍스처 품질을 개선하기 위해 점진적 텍스처 정제 모듈을 설계했습니다. 광범위한 실험을 통해 제안된 프레임워크가 도메인 적응 및 텍스트-아바타 작업 모두에서 우수한 결과를 달성하며, 생성 품질과 효율성 측면에서 기존 방법들을 능가함을 입증했습니다. 프로젝트 홈페이지는 https://younglbw.github.io/DiffusionGAN3D-homepage/에서 확인할 수 있습니다.
텍스트-이미지 생성 모델은 강력하지만 사용하기 어려운 편입니다. 사용자들은 더 나은 이미지를 얻기 위해 구체적인 프롬프트를 작성하지만, 생성된 이미지가 반복적일 수 있습니다. 본 논문은 사용자가 더 적은 노력으로 고품질의 다양한 이미지를 생성할 수 있도록 돕는 Prompt Expansion 프레임워크를 제안합니다. Prompt Expansion 모델은 텍스트 쿼리를 입력으로 받아, 텍스트-이미지 모델에 전달될 때 더 다양한 매력적인 이미지를 생성하도록 최적화된 확장된 텍스트 프롬프트 세트를 출력합니다. 우리는 인간 평가 연구를 통해 Prompt Expansion을 통해 생성된 이미지가 기존 방법들보다 더 미적으로 만족스럽고 다양하다는 것을 보여줍니다. 전반적으로, 본 논문은 텍스트-이미지 생성 경험을 개선하기 위한 새롭고 효과적인 접근 방식을 제시합니다.
노이즈 제거 확산 모델(denoising diffusion models)의 내재된 생성 능력은 입력 이미지와 가장 유사한 최적의 고품질 이미지를 생성 공간에서 찾는 것을 목표로 하는 이미지 복원 작업에 매우 적합하다. 본 연구에서는 사전 학습된 확산 모델을 이미지 복원에 적용하기 위해, 복원할 입력 이미지에 노이즈를 추가한 후 이를 제거하는 간단한 방법을 제안한다. 이 방법은 생성 모델의 공간이 제약되어야 한다는 관찰에 기반을 두고 있다. 우리는 입력 이미지의 특성을 포착하는 앵커 이미지 세트를 사용하여 생성 모델을 미세 조정함으로써 이러한 제약을 부과한다. 제약된 공간을 통해 생성에 사용되는 샘플링 전략을 활용하여 이미지 복원을 수행할 수 있다. 우리는 기존 방법들과 비교 평가를 통해 여러 실제 복원 데이터셋에서 신원과 이미지 품질을 보존하는 데 있어 우수한 성능을 보여준다. 또한, 개인화된 복원의 중요한 실용적 응용을 보여주는데, 여기서 개인 앨범을 앵커 이미지로 사용하여 생성 공간을 제약한다. 이 접근법은 이전 연구들이 달성하지 못한 고주파 세부 사항을 정확하게 보존하는 결과를 생성할 수 있게 한다. 프로젝트 웹페이지: https://gen2res.github.io.