번역이 포함된 일일 선별된 AI 연구 논문
컨볼루션 신경망(CNNs)과 비전 트랜스포머(ViTs)는 시각적 표현 학습을 위한 두 가지 가장 인기 있는 기반 모델로 자리 잡고 있습니다. CNNs는 이미지 해상도에 대해 선형 복잡도를 보이며 뛰어난 확장성을 보여주는 반면, ViTs는 2차 복잡도를 겪음에도 불구하고 더 우수한 적합 능력을 보입니다. 자세히 살펴보면, ViTs는 전역 수용 영역과 동적 가중치를 통합함으로써 더 우수한 시각적 모델링 성능을 달성합니다. 이러한 관찰은 우리가 이러한 요소를 계승하면서 계산 효율성을 향상시킨 새로운 아키텍처를 제안하도록 동기를 부여합니다. 이를 위해 최근에 소개된 상태 공간 모델에서 영감을 얻어, 전역 수용 영역을 희생하지 않으면서 선형 복잡도를 달성하는 Visual State Space Model(VMamba)을 제안합니다. 또한, 방향 민감성 문제를 해결하기 위해 공간 영역을 탐색하고 비인과적 시각 이미지를 순서 패치 시퀀스로 변환하는 Cross-Scan Module(CSM)을 도입합니다. 광범위한 실험 결과는 VMamba가 다양한 시각 인식 작업에서 유망한 능력을 보여줄 뿐만 아니라, 이미지 해상도가 증가함에 따라 기존 벤치마크 대비 더 두드러진 이점을 보인다는 것을 입증합니다. 소스 코드는 https://github.com/MzeroMiko/VMamba에서 확인할 수 있습니다.
디퓨전 모델은 이미지 생성 분야에 새로운 가능성을 열어주며, 오픈소스 플랫폼에서 공유되는 고품질 모델의 확산을 이끌어왔습니다. 그러나 현재의 텍스트-이미지 시스템은 다양한 입력을 처리하지 못하거나 단일 모델 결과에 국한되는 주요한 문제를 여전히 안고 있습니다. 현재의 통합적 시도는 주로 두 가지 직교적인 측면에 머물러 있습니다: i) 입력 단계에서 다양한 프롬프트를 파싱하는 것; ii) 전문가 모델을 활성화하여 출력을 생성하는 것. 이 두 가지 장점을 결합하기 위해, 우리는 다양한 유형의 프롬프트를 원활하게 수용하고 도메인 전문가 모델을 통합할 수 있는 통합 생성 시스템을 제공하는 DiffusionGPT를 제안합니다. DiffusionGPT는 사전 지식을 기반으로 다양한 생성 모델을 위한 도메인 특화 트리를 구성합니다. 입력이 제공되면, 대형 언어 모델(LLM)이 프롬프트를 파싱하고 Tree-of-Thought를 활용하여 적절한 모델을 선택하도록 안내함으로써 입력 제약을 완화하고 다양한 도메인에서 탁월한 성능을 보장합니다. 더 나아가, 우리는 Tree-of-Thought가 인간의 피드백으로 풍부해지는 Advantage Databases를 도입하여 모델 선택 과정을 인간의 선호에 맞춥니다. 광범위한 실험과 비교를 통해, 우리는 DiffusionGPT의 효과성을 입증하고 다양한 도메인에서 이미지 합성의 한계를 넓힐 수 있는 잠재력을 보여줍니다.
본 논문에서는 이미지-텍스트 쌍으로부터 더 세밀한 다중모달 표현을 사전 학습하기 위한 간단한 방법인 SPARse Fine-grained Contrastive Alignment(SPARC)를 소개한다. 여러 이미지 패치가 종종 단일 단어에 대응된다는 점을 고려하여, 우리는 캡션의 각 토큰에 대해 이미지 패치의 그룹화를 학습하는 방법을 제안한다. 이를 위해 이미지 패치와 언어 토큰 간의 희소 유사성 메트릭을 사용하고, 각 토큰에 대해 패치의 가중 평균으로 언어 그룹화된 시각 임베딩을 계산한다. 이후 토큰과 언어 그룹화된 시각 임베딩은 개별 샘플에만 의존하며 다른 배치 샘플을 네거티브로 요구하지 않는 세밀한 시퀀스 단위 손실을 통해 대조된다. 이를 통해 계산 비용이 적으면서도 더 상세한 정보를 학습할 수 있다. SPARC는 이 세밀한 손실과 전역 이미지 및 텍스트 임베딩 간의 대조 손실을 결합하여 전역 및 지역 정보를 동시에 인코딩하는 표현을 학습한다. 우리는 제안된 방법을 철저히 평가하고, 분류와 같은 거친 정보에 의존하는 이미지 수준 작업뿐만 아니라 검색, 객체 탐지, 분할과 같은 세밀한 정보에 의존하는 지역 수준 작업에서도 경쟁 방법들보다 향상된 성능을 보임을 입증한다. 또한, SPARC는 기본적인 시각-언어 모델의 신뢰성과 캡션 생성 능력을 향상시킨다.
많은 기계 학습 문제와 마찬가지로, 이미지 생성 방법의 발전은 좋은 평가 지표에 달려 있다. 그중 가장 널리 사용되는 것 중 하나는 프레셰 인셉션 거리(Frechet Inception Distance, FID)이다. FID는 실제 이미지의 Inception-v3 특징 분포와 알고리즘이 생성한 이미지의 특징 분포 간의 거리를 추정한다. 본 논문에서는 FID의 중요한 단점을 강조한다: 현대 텍스트-이미지 모델이 생성하는 풍부하고 다양한 콘텐츠에 대한 Inception의 부적절한 표현, 잘못된 정규성 가정, 그리고 낮은 샘플 복잡성. 우리는 생성된 이미지의 주요 품질 지표로서 FID의 사용을 재평가할 것을 요구한다. 실험적으로 FID가 인간 평가자와 상반된 결과를 내며, 반복적인 텍스트-이미지 모델의 점진적인 개선을 반영하지 못하고, 왜곡 수준을 포착하지 못하며, 샘플 크기를 변화시킬 때 일관되지 않은 결과를 생성함을 입증한다. 또한, 우리는 더 풍부한 CLIP 임베딩과 가우시안 RBF 커널을 사용한 최대 평균 불일치 거리(maximum mean discrepancy distance)를 기반으로 한 새로운 대안 지표인 CMMD를 제안한다. 이는 임베딩의 확률 분포에 대한 어떠한 가정도 하지 않는 편향 없는 추정자이며 샘플 효율적이다. 광범위한 실험과 분석을 통해, 텍스트-이미지 모델에 대한 FID 기반 평가가 신뢰할 수 없을 수 있으며, CMMD가 이미지 품질에 대한 더 강력하고 신뢰할 수 있는 평가를 제공함을 입증한다.
본 논문에서는 다양한 조명, 자세, 배경에서 촬영된 물체 이미지로부터 형태, 재질, 조명을 복원하기 위한 종단 간(end-to-end) 프레임워크인 SHINOBI를 소개한다. 제약 없는 이미지 컬렉션을 기반으로 물체의 역렌더링(inverse rendering)을 수행하는 것은 컴퓨터 비전 및 그래픽스 분야에서 오랜 기간 동안 해결되지 않은 과제로, 형태, 복사광(radiance), 자세에 대한 공동 최적화가 필요하다. 본 연구에서는 다중 해시 해상도 인코딩(multi-resolution hash encoding)을 기반으로 한 암묵적 형태 표현(implicit shape representation)이 기존 연구를 능가하는 빠르고 견고한 형태 복원과 함께 카메라 정렬 최적화를 가능하게 함을 보여준다. 또한, 조명 및 물체 반사율(즉, 재질) 편집을 가능하게 하기 위해 BRDF(Bidirectional Reflectance Distribution Function)와 조명을 물체의 형태와 함께 공동으로 최적화한다. 본 방법은 클래스에 구애받지 않으며, 야외에서 촬영된 물체 이미지 컬렉션에 적용 가능하여 AR/VR, 영화, 게임 등 다양한 사용 사례에 활용 가능한 재조명 가능한 3D 자산을 생성한다. 프로젝트 페이지: https://shinobi.aengelhardt.com 비디오: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
본 논문의 목표는 FreGrad라는 경량화되고 빠른 확산 기반 보코더를 사용하여 사실적인 오디오를 생성하는 것이다. 우리의 프레임워크는 다음과 같은 세 가지 핵심 구성 요소로 이루어져 있다: (1) 복잡한 파형을 서브 밴드 웨이블릿으로 분해하는 이산 웨이블릿 변환을 사용하여 FreGrad가 간단하고 명료한 특징 공간에서 작동할 수 있도록 한다, (2) 주파수 인식을 높이는 주파수 인식 확장 컨볼루션을 설계하여 정확한 주파수 정보를 가진 음성을 생성한다, (3) 제안된 모델의 생성 품질을 향상시키는 다양한 기법들을 도입한다. 실험 결과, FreGrad는 기준 모델 대비 3.7배 빠른 학습 시간과 2.2배 빠른 추론 속도를 달성하면서 모델 크기를 0.6배 줄이고(단 1.78M 파라미터), 출력 품질을 저하시키지 않았다. 오디오 샘플은 https://mm.kaist.ac.kr/projects/FreGrad에서 확인할 수 있다.
맞춤형 텍스트-비디오 생성은 텍스트 프롬프트와 주제 참조를 통해 고품질 비디오를 생성하는 것을 목표로 합니다. 단일 주제를 위해 설계된 기존의 접근 방식은 다중 주제를 다루는 데 어려움을 겪으며, 이는 더 도전적이고 실용적인 시나리오입니다. 본 연구에서는 다중 주제 기반 텍스트-비디오 맞춤화를 촉진하고자 합니다. 우리는 다중 주제의 지도를 통해 정체성을 유지한 비디오를 생성할 수 있는 새로운 프레임워크인 CustomVideo를 제안합니다. 구체적으로, 첫째, 다중 주제의 동시 발생을 촉진하기 위해 단일 이미지 내에서 이를 구성합니다. 또한, 기본 텍스트-비디오 확산 모델을 기반으로, 확산 모델의 잠재 공간에서 서로 다른 주제를 분리하기 위한 간단하지만 효과적인 주의 제어 전략을 설계합니다. 더 나아가, 모델이 특정 객체 영역에 집중할 수 있도록 참조 이미지에서 객체를 분할하고 해당 객체 마스크를 주의 학습에 제공합니다. 또한, 69개의 개별 주제와 57개의 의미 있는 쌍으로 구성된 다중 주제 텍스트-비디오 생성 데이터셋을 종합적인 벤치마크로 수집했습니다. 광범위한 정성적, 정량적 및 사용자 연구 결과는 이전의 최신 접근 방식과 비교하여 우리 방법의 우수성을 입증합니다.