번역이 포함된 일일 선별된 AI 연구 논문
딥러닝 분야에서 가장 흥미로운 애플리케이션들을 주도하고 있는 파운데이션 모델들은 거의 전적으로 트랜스포머(Transformer) 아키텍처와 그 핵심 구성 요소인 어텐션(attention) 모듈을 기반으로 합니다. 긴 시퀀스에서 트랜스포머의 계산 비효율성을 해결하기 위해 선형 어텐션(linear attention), 게이트 컨볼루션(gated convolution), 순환 모델(recurrent models), 그리고 구조화된 상태 공간 모델(Structured State Space Models, SSMs)과 같은 서브쿼드라틱 시간(subquadratic-time) 아키텍처들이 개발되었지만, 이러한 모델들은 언어와 같은 중요한 모달리티에서 어텐션만큼의 성능을 보이지 못했습니다. 우리는 이러한 모델들의 주요 약점이 콘텐츠 기반 추론(content-based reasoning)을 수행할 수 없다는 점임을 확인하고, 이를 개선하기 위해 몇 가지 접근을 시도했습니다. 첫째, SSM 매개변수를 입력의 함수로 설정함으로써 이산 모달리티(discrete modalities)에서의 약점을 해결하여, 모델이 현재 토큰에 따라 시퀀스 길이 차원을 따라 정보를 선택적으로 전파하거나 잊어버릴 수 있도록 했습니다. 둘째, 이러한 변경으로 인해 효율적인 컨볼루션 사용이 불가능해졌지만, 하드웨어를 고려한 병렬 알고리즘을 순환 모드에서 설계했습니다. 우리는 이러한 선택적 SSMs를 어텐션 또는 MLP 블록 없이도 동작하는 단순화된 엔드투엔드 신경망 아키텍처(Mamba)에 통합했습니다. Mamba는 빠른 추론 속도(트랜스포머 대비 5배 높은 처리량)와 시퀀스 길이에 대한 선형 스케일링을 자랑하며, 실제 데이터에서 최대 백만 길이의 시퀀스까지 성능이 향상됩니다. 일반적인 시퀀스 모델 백본으로서, Mamba는 언어, 오디오, 유전체학 등 여러 모달리티에서 최첨단 성능을 달성합니다. 언어 모델링에서, 우리의 Mamba-3B 모델은 동일한 크기의 트랜스포머를 능가하며, 크기가 두 배인 트랜스포머와도 프리트레이닝 및 다운스트림 평가에서 동등한 성능을 보입니다.
본 논문에서는 텍스트 기반 3D 인간 동작 생성을 위한 새로운 마스크 모델링 프레임워크인 MoMask를 소개합니다. MoMask에서는 계층적 양자화 기법을 사용하여 인간 동작을 고해상도 디테일을 가진 다층 이산 동작 토큰으로 표현합니다. 기본 층에서 시작하여 벡터 양자화를 통해 얻은 동작 토큰 시퀀스를 기반으로, 증가하는 차수의 잔차 토큰을 도출하고 계층 구조의 후속 층에 저장합니다. 이어서 두 가지의 독립적인 양방향 트랜스포머가 사용됩니다. 기본 층 동작 토큰의 경우, 마스크 트랜스포머가 학습 단계에서 텍스트 입력을 조건으로 무작위로 마스킹된 동작 토큰을 예측하도록 지정됩니다. 생성(즉, 추론) 단계에서는 빈 시퀀스에서 시작하여 마스크 트랜스포머가 누락된 토큰을 반복적으로 채워 넣습니다. 이후, 잔차 트랜스포머는 현재 층의 결과를 기반으로 다음 층의 토큰을 점진적으로 예측하도록 학습합니다. 광범위한 실험 결과, MoMask는 텍스트-투-모션 생성 작업에서 최신 방법들을 능가하는 성능을 보였으며, HumanML3D 데이터셋에서 FID 0.045(T2M-GPT의 0.141 대비), KIT-ML 데이터셋에서 0.228(0.514 대비)을 기록했습니다. 또한 MoMask는 추가 모델 미세 조정 없이도 텍스트 기반 시간적 인페인팅과 같은 관련 작업에 원활하게 적용될 수 있습니다.
우리는 DREAM(Diffusion Rectification and Estimation-Adaptive Models)이라는 새로운 훈련 프레임워크를 제안합니다. 이 프레임워크는 최소한의 코드 변경(단 세 줄)만으로도 확산 모델(diffusion models)에서 훈련과 샘플링의 정렬을 크게 향상시킵니다. DREAM은 두 가지 주요 구성 요소를 특징으로 합니다: 확산 보정(diffusion rectification)은 샘플링 과정을 반영하도록 훈련을 조정하고, 추정 적응(estimation adaptation)은 왜곡 대비 인지(perception) 간의 균형을 맞춥니다. 이미지 초해상도(SR)에 적용할 때, DREAM은 왜곡 최소화와 고화질 유지 사이의 균형을 능숙하게 조절합니다. 실험 결과, DREAM은 기존의 확산 기반 SR 방법을 능가하며, 훈련 수렴 속도가 2~3배 빨라지고, 동등하거나 더 나은 결과를 얻기 위해 필요한 샘플링 단계가 10~20배 감소함을 보여줍니다. 우리는 DREAM이 확산 모델 훈련 패러다임에 대한 재고를 촉발하기를 기대합니다.
최근 멀티모달 대형 언어 모델(MLLMs)은 멀티모달 이해, 추론 및 상호작용 분야에서 인상적인 능력을 보여주고 있습니다. 그러나 기존 MLLMs는 심각한 환각(hallucination) 문제를 보편적으로 겪고 있으며, 이는 관련 이미지에 사실적으로 근거하지 않은 텍스트를 생성하는 문제입니다. 이러한 문제는 기존 MLLMs를 신뢰할 수 없게 만들며, 특히 고위험 상황에서의 실제 적용을 어렵게 합니다. 이러한 문제를 해결하기 위해, 우리는 세밀한 수정형 인간 피드백을 통해 MLLM의 신뢰성을 강화하는 RLHF-V를 제안합니다. 구체적으로, RLHF-V는 환각에 대한 세그먼트 수준의 수정 형태로 인간 선호도를 수집하고, 이러한 인간 피드백에 대해 밀집 직접 선호 최적화(dense direct preference optimization)를 수행합니다. 자동 및 인간 평가를 포함한 5개 벤치마크에서의 포괄적인 실험 결과, RLHF-V는 데이터 및 계산 효율성을 유지하면서 상당히 더 신뢰할 수 있는 MLLM 행동을 가능하게 하는 것으로 나타났습니다. 특히, 1.4k개의 주석 데이터 샘플을 사용하여 RLHF-V는 기본 MLLM의 환각률을 34.8% 크게 감소시켰으며, 10k개의 주석 데이터로 학습된 동시대의 LLaVA-RLHF를 능가했습니다. 최종 모델은 오픈소스 MLLMs 중 신뢰성 측면에서 최첨단 성능을 달성했으며, 과도한 일반화로 인한 환각을 방지하는 데 있어 GPT-4V보다 더 나은 견고성을 보여주었습니다. 우리는 코드, 모델 및 데이터를 https://github.com/RLHF-V/RLHF-V에서 오픈소스로 공개합니다.
제한된 관측 데이터로부터 새로운 시점 합성은 여전히 중요하고 지속적인 과제로 남아 있습니다. 그러나 기존의 NeRF 기반 소수 시점 합성 방법들은 정확한 3D 표현을 얻기 위해 높은 효율성을 희생하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 3D Gaussian Splatting 기반의 소수 시점 합성 프레임워크를 제안합니다. 이 프레임워크는 단 세 개의 학습 시점만으로도 실시간에 가까운 속도로 사진처럼 사실적인 시점 합성을 가능하게 합니다. FSGS(FSGS)로 명명된 제안 방법은 극도로 희소하게 초기화된 SfM 포인트를 신중하게 설계된 Gaussian Unpooling 프로세스로 처리합니다. 우리의 방법은 가장 대표적인 위치 주변에 새로운 가우시안을 반복적으로 분포시켜 빈 공간의 지역적 세부 정보를 채워 넣습니다. 또한, 대규모 사전 학습된 단안 깊이 추정기를 가우시안 최적화 프로세스에 통합하여, 온라인으로 증강된 시점을 활용해 기하학적 최적화를 최적의 솔루션으로 이끌어냅니다. 제한된 입력 시점에서 관측된 희소한 포인트로 시작하여, FSGS는 보이지 않는 영역까지 정확하게 확장되어 장면을 포괄적으로 커버하고 새로운 시점의 렌더링 품질을 향상시킵니다. 전반적으로, FSGS는 LLFF, Mip-NeRF360, Blender 등 다양한 데이터셋에서 정확도와 렌더링 효율성 모두에서 최첨단 성능을 달성합니다. 프로젝트 웹사이트: https://zehaozhu.github.io/FSGS/.
신경망 기반 렌더링 방법은 다양한 학문적 및 산업적 응용 분야에서 사실적인 3D 장면 렌더링을 크게 발전시켰습니다. 최근의 3D 가우시안 스플래팅 방법은 기본 요소 기반 표현과 체적 표현의 장점을 결합하여 최첨단 렌더링 품질과 속도를 달성했습니다. 그러나 이 방법은 종종 모든 학습 뷰를 맞추기 위해 과도하게 중복된 가우시안을 생성하며, 이는 기본 장면 기하학을 간과하게 됩니다. 결과적으로 생성된 모델은 큰 시점 변화, 텍스처가 없는 영역 및 조명 효과에 대해 덜 견고해집니다. 우리는 Scaffold-GS를 소개합니다. 이 방법은 앵커 포인트를 사용하여 로컬 3D 가우시안을 분배하고, 뷰 프러스텀 내에서의 시점 방향과 거리에 기반하여 해당 속성을 실시간으로 예측합니다. 앵커 성장 및 가지치기 전략은 신경 가우시안의 중요도에 기반하여 장면 커버리지를 안정적으로 개선하기 위해 개발되었습니다. 우리의 방법은 고품질 렌더링을 제공하면서 중복 가우시안을 효과적으로 줄이는 것을 보여줍니다. 또한, 렌더링 속도를 희생하지 않고 다양한 수준의 디테일과 시점 의존적 관찰을 포함한 장면을 수용하는 능력이 향상되었음을 입증합니다.
텍스트 기반 3D 얼굴 합성은 텍스트-이미지(T2I) 확산 모델을 활용하여 주목할 만한 성과를 달성해 왔습니다. 그러나 기존 연구 대부분은 직접적인 생성에만 초점을 맞추고 있어, 반복적인 조정을 통해 맞춤형 3D 얼굴을 합성하는 데 제한이 있습니다. 본 논문에서는 얼굴 생성부터 편집까지 통합된 텍스트 기반 프레임워크를 제안합니다. 생성 단계에서는 결합으로 인한 기하학적 세부 정보의 손실을 완화하기 위해 기하학-텍스처 분리 생성을 제안합니다. 또한, 분리를 통해 생성된 기하학을 텍스처 생성의 조건으로 활용함으로써 기하학과 텍스처가 높은 정렬성을 갖는 결과를 얻을 수 있습니다. 더 나아가, RGB 및 YUV 공간에서 텍스처 품질을 향상시키기 위해 미세 조정된 텍스처 확산 모델을 사용합니다. 편집 단계에서는 먼저 사전 학습된 확산 모델을 사용하여 텍스트를 기반으로 얼굴 기하학 또는 텍스처를 업데이트합니다. 순차적 편집을 가능하게 하기 위해 UV 도메인 일관성 보존 정규화를 도입하여 관련 없는 얼굴 속성에 의도치 않은 변경이 발생하지 않도록 합니다. 또한, 일관성을 유지하면서 편집 효율성을 향상시키기 위해 자기 주도적 일관성 가중치 전략을 제안합니다. 포괄적인 실험을 통해 우리의 방법이 얼굴 합성에서 우수함을 입증합니다. 프로젝트 페이지: https://faceg2e.github.io/.
Neural Radiance Fields(NeRFs)는 공간 그리드 표현을 통해 크게 가속화될 수 있습니다. 그러나 이 방법들은 스케일에 대해 명시적으로 고려하지 않기 때문에, 서로 다른 카메라 거리에서 캡처된 장면을 재구성할 때 앨리어싱 아티팩트가 발생합니다. Mip-NeRF와 그 확장 버전들은 점 샘플링 대신 볼륨 프러스텀을 투영하는 스케일 인식 렌더러를 제안하지만, 이러한 접근 방식은 그리드 방법과 쉽게 호환되지 않는 위치 인코딩에 의존합니다. 우리는 그리드 기반 모델에 간단한 수정을 제안하여, 서로 다른 공간 그리드 해상도에서 모델 헤드를 학습시킵니다. 렌더링 시에는 더 큰 볼륨을 커버하는 샘플을 렌더링하기 위해 더 거친 그리드를 사용합니다. 우리의 방법은 기존의 가속화된 NeRF 방법에 쉽게 적용할 수 있으며, 성능 오버헤드를 최소화하면서도(각 모델 헤드가 빠르게 평가되기 때문에) 렌더링 품질을 크게 향상시킵니다(합성 및 무한한 실세계 장면에서 오류율을 20-90% 감소). Mip-NeRF와 비교했을 때, 우리는 오류율을 20% 감소시키면서도 60배 이상 빠르게 학습합니다.
최근 사전 학습된 2D 디퓨전 모델의 발전에 힘입어 자동 텍스트-3D 콘텐츠 생성이 상당한 진전을 이루었습니다. 기존의 텍스트-3D 방법은 일반적으로 사전 학습된 2D 디퓨전 모델에 의해 평가된 대로, 렌더링된 이미지가 주어진 텍스트와 잘 일치하도록 3D 표현을 최적화합니다. 그러나 2D 이미지와 3D 자산 사이에는 상당한 도메인 간극이 존재하며, 이는 주로 카메라 관련 속성의 변동과 전경 객체만이 존재하는 데 기인합니다. 결과적으로, 2D 디퓨전 모델을 직접 3D 표현 최적화에 사용하는 것은 최적이 아닌 결과를 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 텍스트-2D와 텍스트-3D 합성 간의 간극을 효과적으로 메우는 고품질 텍스트-3D 콘텐츠 생성 방법인 X-Dreamer를 제안합니다. X-Dreamer의 핵심 구성 요소는 두 가지 혁신적인 설계입니다: 카메라 가이드 저순위 적응(Camera-Guided Low-Rank Adaptation, CG-LoRA)과 주의 마스크 정렬(Attention-Mask Alignment, AMA) 손실입니다. CG-LoRA는 학습 가능한 매개변수에 대해 카메라 의존적 생성을 사용하여 사전 학습된 디퓨전 모델에 카메라 정보를 동적으로 통합합니다. 이 통합은 생성된 3D 자산과 카메라의 시각 간의 정렬을 강화합니다. AMA 손실은 3D 객체의 이진 마스크를 사용하여 사전 학습된 디퓨전 모델의 주의 맵을 안내하며, 전경 객체의 생성을 우선시합니다. 이 모듈은 모델이 정확하고 상세한 전경 객체를 생성하는 데 집중하도록 보장합니다. 광범위한 평가를 통해 우리가 제안한 방법이 기존의 텍스트-3D 접근법에 비해 효과적임을 입증했습니다. 우리의 프로젝트 웹페이지: https://xmuxiaoma666.github.io/Projects/X-Dreamer.