번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 개발이 진행됨에 따라, 이를 인간의 선호도와 조율하는 것이 점점 더 중요해지고 있습니다. 우리는 최근 인기를 끌고 있는 직접 선호도 최적화(DPO)를 확장한 단계적 DPO(sDPO)를 제안합니다. 이 접근법은 사용 가능한 선호도 데이터셋을 분할하고 이를 단계적으로 활용하는 방식으로, 한 번에 모두 사용하는 대신에 더 정밀하게 조율된 참조 모델을 DPO 학습 프레임워크 내에서 사용할 수 있도록 돕습니다. 더 나아가, sDPO는 최종 모델을 더 높은 성능으로 학습시켜, 더 많은 매개변수를 가진 다른 인기 있는 LLM들보다도 우수한 성능을 보이도록 합니다.
3D 가우시안 스플래팅(GS)은 3D 피팅 정확도와 렌더링 속도 측면에서 신경 방사 필드(Neural Radiance Fields)에 비해 상당한 개선을 이루었습니다. 그러나 흩어진 가우시안으로 구성된 이 비정형 표현은 생성 모델링에 있어 상당한 어려움을 야기합니다. 이 문제를 해결하기 위해, 우리는 생성 모델링에 강력하면서도 효율적인 구조화된 GS 표현인 GaussianCube를 소개합니다. 이를 위해 먼저 고정된 수의 자유 가우시안을 사용하여 고품질 피팅 결과를 얻을 수 있는 수정된 밀도화 제약 GS 피팅 알고리즘을 제안하고, 최적 수송(Optimal Transport)을 통해 가우시안을 미리 정의된 복셀 그리드로 재배치합니다. 이 구조화된 그리드 표현은 복잡한 설계 없이도 확산 생성 모델링에서 표준 3D U-Net을 백본으로 사용할 수 있게 합니다. ShapeNet과 OmniObject3D에서 수행한 광범위한 실험 결과, 우리 모델이 정성적 및 정량적으로 최첨단 생성 결과를 달성함을 보여주며, GaussianCube가 강력하고 다재다능한 3D 표현으로서의 잠재력을 강조합니다.
멀티모달 대형 언어 모델(LLMs)에서 엄청난 진전이 있었습니다. 최근 연구들은 이러한 모델을 비디오 입력으로 확장하여 유망한 지시 수행 능력을 보여주었습니다. 그러나 중요한 결여 요소는 시간적 위치 지정(temporal localization)입니다. 이러한 모델들은 "언제?"라는 질문에 정확하게 답할 수 없습니다. 우리는 시간적 위치 지정 능력을 제한하는 세 가지 주요 측면을 확인했습니다: (i) 시간 표현, (ii) 아키텍처, (iii) 데이터. 이러한 단점을 해결하기 위해 다음과 같은 특징을 가진 언어 지시 시간적 위치 지정 도우미(Language Instructed Temporal-Localization Assistant, LITA)를 제안합니다: (1) 비디오 길이에 상대적인 타임스탬프를 인코딩하는 시간 토큰을 도입하여 비디오에서 시간을 더 잘 표현합니다. (2) 아키텍처에 SlowFast 토큰을 도입하여 세밀한 시간 해상도로 시간적 정보를 포착합니다. (3) LITA를 위해 시간적 위치 지정 데이터를 강조합니다. 타임스탬프가 있는 기존 비디오 데이터셋을 활용하는 것 외에도, 이 작업을 학습하고 평가하기 위한 새로운 작업인 추론 시간적 위치 지정(Reasoning Temporal Localization, RTL)과 데이터셋인 ActivityNet-RTL을 제안합니다. 추론 시간적 위치 지정은 비디오 LLM의 추론과 시간적 위치 지정이 모두 필요합니다. LITA는 이 도전적인 작업에서 강력한 성능을 보여주며, 기준선의 시간적 평균 교차율(temporal mean intersection-over-union, mIoU)을 거의 두 배로 향상시켰습니다. 또한, 시간적 위치 지정에 대한 강조가 기존 비디오 LLM에 비해 비디오 기반 텍스트 생성도 크게 개선시켰음을 보여주며, 시간적 이해(Temporal Understanding)에서 36%의 상대적 개선을 달성했습니다. 코드는 https://github.com/NVlabs/LITA에서 확인할 수 있습니다.
확산 기반 텍스트-이미지 생성 모델(예: Stable Diffusion)은 콘텐츠 생성 분야에 혁신을 가져왔으며, 이미지 편집 및 비디오 합성과 같은 영역에서 상당한 발전을 이끌었습니다. 그러나 이러한 모델들도 한계가 없는 것은 아닙니다. 입력 텍스트와 잘 일치하는 이미지를 합성하는 것은 여전히 어려운 과제이며, 만족스러운 결과를 얻기 위해서는 신중하게 설계된 프롬프트를 사용한 여러 번의 실행이 필요합니다. 이러한 한계를 완화하기 위해, 다양한 기술을 활용하여 사전 학습된 확산 모델(예: UNet)을 미세 조정하려는 수많은 연구가 진행되어 왔습니다. 그러나 이러한 노력 속에서도 텍스트-이미지 확산 모델 훈련의 핵심적인 질문은 크게 탐구되지 않은 채 남아 있었습니다: 텍스트 인코더를 미세 조정하여 텍스트-이미지 확산 모델의 성능을 개선하는 것이 가능하고 실현 가능한가? 우리의 연구 결과는 Stable Diffusion에서 사용되는 CLIP 텍스트 인코더를 다른 대규모 언어 모델로 교체하는 대신, 우리가 제안한 미세 조정 접근 방식인 TextCraftor를 통해 이를 개선할 수 있으며, 이는 정량적 벤치마크와 인간 평가에서 상당한 개선을 이끌어냄을 보여줍니다. 흥미롭게도, 우리의 기술은 다양한 보상으로 미세 조정된 다른 텍스트 인코더들의 보간을 통해 제어 가능한 이미지 생성도 가능하게 합니다. 또한 TextCraftor는 UNet 미세 조정과 직교적이며, 이를 결합하여 생성 품질을 더욱 향상시킬 수 있음을 입증합니다.
우리는 3D 생성 작업을 위해 텍스처가 적용된 메시로부터 정확한 라디언스 필드를 도출하는 Mesh2NeRF 접근법을 제안합니다. 많은 3D 생성 방법들은 훈련을 위해 3D 장면을 라디언스 필드로 표현합니다. 이들의 정확한 라디언스 필드는 일반적으로 대규모 합성 3D 데이터셋의 다중 뷰 렌더링으로부터 피팅되며, 이는 종종 가림 현상이나 과소적합 문제로 인해 아티팩트를 발생시킵니다. Mesh2NeRF에서는 3D 메시로부터 직접 정확한 라디언스 필드를 얻기 위한 해석적 솔루션을 제안합니다. 여기서는 정의된 표면 두께를 특징으로 하는 점유 함수로 밀도 필드를 특성화하고, 메시와 환경 조명을 모두 고려한 반사 함수를 통해 뷰 의존적 색상을 결정합니다. Mesh2NeRF는 정확한 라디언스 필드를 추출하여 생성적 NeRF와 단일 장면 표현을 훈련시키기 위한 직접적인 지도를 제공합니다. 우리는 Mesh2NeRF의 효과를 다양한 작업에서 검증하였으며, ABO 데이터셋에서 단일 장면 표현의 뷰 합성을 위해 PSNR에서 3.12dB의 주목할 만한 개선을 달성했고, ShapeNet Cars의 단일 뷰 조건부 생성에서 0.69 PSNR 향상을 보였으며, Objaverse Mugs의 무조건 생성에서 NeRF로부터의 메시 추출이 크게 개선되었음을 확인했습니다.