번역이 포함된 일일 선별된 AI 연구 논문
우리는 일반 AI 어시스턴트를 위한 벤치마크인 GAIA를 소개합니다. 이 벤치마크를 해결한다면 AI 연구의 중요한 이정표가 될 것입니다. GAIA는 추론, 다중 모달리티 처리, 웹 브라우징, 그리고 일반적인 도구 사용 능력과 같은 기본적인 능력들을 요구하는 실제 세계의 질문들을 제시합니다. GAIA의 질문들은 개념적으로 인간에게는 간단하지만 대부분의 고급 AI에게는 도전적인 과제입니다: 우리는 인간 응답자가 92%의 정확도를 보이는 반면, 플러그인을 장착한 GPT-4는 15%의 정확도를 보임을 보여줍니다. 이러한 현저한 성능 차이는 최근의 대형 언어 모델(LLM)들이 법률이나 화학과 같은 전문 기술을 요구하는 과제에서 인간을 능가하는 추세와 대조를 이룹니다. GAIA의 철학은 인간에게 점점 더 어려운 과제를 목표로 하는 현재의 AI 벤치마크 추세와는 다릅니다. 우리는 인공 일반 지능(AGI)의 출현이 이러한 질문들에 대해 평균적인 인간과 유사한 견고성을 보이는 시스템의 능력에 달려 있다고 주장합니다. GAIA의 방법론을 사용하여 우리는 466개의 질문과 그 답변을 고안했습니다. 우리는 질문들을 공개하면서 300개의 답변은 리더보드를 구동하기 위해 보유하고 있습니다. 리더보드는 https://huggingface.co/gaia-benchmark에서 확인할 수 있습니다.
멀티미디어 생성 접근법은 인공지능 연구에서 중요한 위치를 차지하고 있습니다. 텍스트-이미지 모델은 지난 몇 년 동안 높은 품질의 결과를 달성했습니다. 그러나 비디오 합성 방법은 최근에야 개발되기 시작했습니다. 본 논문은 텍스트-이미지 확산 모델을 기반으로 한 새로운 2단계 잠재 확산 텍스트-비디오 생성 아키텍처를 제시합니다. 첫 번째 단계는 비디오의 스토리라인을 구성하기 위한 키프레임 합성에 관한 것이며, 두 번째 단계는 장면과 객체의 움직임을 부드럽게 하기 위한 보간 프레임 생성에 초점을 맞춥니다. 우리는 키프레임 생성을 위한 여러 시간적 조건화 접근법을 비교합니다. 결과는 비디오 생성 품질 측면과 인간의 선호도를 반영하는 지표에서 시간적 레이어 대신 별도의 시간적 블록을 사용하는 것이 더 우수함을 보여줍니다. 우리의 보간 모델 설계는 다른 마스크된 프레임 보간 접근법에 비해 계산 비용을 크게 줄입니다. 또한, 일관성을 개선하고 더 높은 PSNR, SSIM, MSE, LPIPS 점수를 달성하기 위해 MoVQ 기반 비디오 디코딩 스키마의 다양한 구성을 평가합니다. 마지막으로, 우리는 기존 솔루션과 파이프라인을 비교하여 전체적으로 상위 2위, 오픈소스 솔루션 중에서는 1위를 달성했습니다: CLIPSIM = 0.2976 및 FVD = 433.054. 프로젝트 페이지: https://ai-forever.github.io/kandinsky-video/
VR 기기와 콘텐츠의 보급이 확대됨에 따라 3D 장면 생성 기술에 대한 수요가 증가하고 있다. 그러나 기존의 3D 장면 생성 모델은 실제 세계와 거리가 먼 3D 스캔 데이터셋을 사용한 훈련 전략으로 인해 특정 도메인에 한정된 장면을 대상으로 한다는 한계가 있다. 이러한 한계를 해결하기 위해, 우리는 기존의 대규모 확산 기반 생성 모델의 힘을 최대한 활용하여 도메인 제약 없이 장면을 생성할 수 있는 LucidDreamer 파이프라인을 제안한다. LucidDreamer는 Dreaming과 Alignment라는 두 가지 교대 단계로 구성된다. 먼저, 입력으로부터 다중 뷰 일관성 이미지를 생성하기 위해 포인트 클라우드를 각 이미지 생성의 기하학적 가이드라인으로 설정한다. 구체적으로, 포인트 클라우드의 일부를 원하는 뷰로 투영하고, 이를 생성 모델을 이용한 인페인팅의 가이드로 제공한다. 인페인팅된 이미지는 추정된 깊이 맵과 함께 3D 공간으로 리프트되어 새로운 포인트를 구성한다. 둘째, 새로운 포인트를 3D 장면에 통합하기 위해, 새로 생성된 3D 장면의 부분을 조화롭게 통합하는 정렬 알고리즘을 제안한다. 최종적으로 얻은 3D 장면은 가우시안 스플랫 최적화를 위한 초기 포인트로 사용된다. LucidDreamer는 이전의 3D 장면 생성 방법에 비해 매우 상세한 가우시안 스플랫을 생성하며, 대상 장면의 도메인에 대한 제약이 없다.
대형 언어 모델(LLMs)은 인간 피드백 강화 학습(RLHF) 방법을 통해 인간 비교 데이터를 사용하여 미세 조정됨으로써 사용자 선호도와 더 잘 일치하도록 개선됩니다. 이와 달리, 텍스트-이미지 확산 모델에서는 인간 선호도 학습이 널리 탐구되지 않았으며, 기존의 최선의 접근 방식은 시각적 매력과 텍스트 정렬을 개선하기 위해 사전 훈련된 모델을 신중하게 선별된 고품질 이미지와 캡션을 사용하여 미세 조정하는 것입니다. 본 연구에서는 인간 비교 데이터를 직접 최적화하여 확산 모델을 인간 선호도에 맞추는 방법인 Diffusion-DPO를 제안합니다. Diffusion-DPO는 최근 개발된 직접 선호도 최적화(DPO)를 기반으로 하며, DPO는 RLHF의 더 간단한 대안으로서 분류 목표 하에서 인간 선호도를 가장 잘 만족시키는 정책을 직접 최적화합니다. 우리는 DPO를 확산 모델의 가능성 개념에 맞게 재구성하고, 증거 하한을 활용하여 미분 가능한 목표를 도출합니다. 851K 크라우드소싱된 쌍별 선호도 데이터셋인 Pick-a-Pic을 사용하여 최신 Stable Diffusion XL(SDXL)-1.0 모델의 기본 모델을 Diffusion-DPO로 미세 조정합니다. 우리의 미세 조정된 기본 모델은 인간 평가에서 기본 SDXL-1.0과 추가 정제 모델을 포함한 더 큰 SDXL-1.0 모델을 모두 크게 능가하며, 시각적 매력과 프롬프트 정렬을 개선합니다. 또한, 인간 선호도에 대한 훈련과 비슷한 성능을 보이는 AI 피드백을 사용하는 변형을 개발하여 확산 모델 정렬 방법의 확장 가능성을 열었습니다.
개념 기반 개인화를 위한 생성 모델 미세 조정 방법은 일반적으로 주제 중심 또는 스타일 중심 생성에서 강력한 결과를 달성합니다. 최근에는 LoRA(Low-Rank Adaptations)가 개념 기반 개인화를 달성하기 위한 매개변수 효율적인 방법으로 제안되었습니다. 최근 연구에서는 학습된 스타일과 주제의 결합 생성을 위해 별도의 LoRA를 결합하는 방법을 탐구하지만, 기존 기술은 이 문제를 안정적으로 해결하지 못하며 종종 주제 충실도나 스타일 충실도를 희생합니다. 우리는 사용자가 제공한 주제를 사용자가 제공한 스타일로 생성하기 위해 독립적으로 훈련된 스타일과 주제 LoRA를 저렴하고 효과적으로 병합하는 방법인 ZipLoRA를 제안합니다. 다양한 주제와 스타일 조합에 대한 실험 결과, ZipLoRA는 주제 및 스타일 충실도에서 기준선 대비 의미 있는 개선과 함께 재구성 능력을 유지하면서도 설득력 있는 결과를 생성할 수 있음을 보여줍니다. 프로젝트 페이지: https://ziplora.github.io
인간 피드백을 활용한 강화 학습(RLHF)은 확산 모델(Diffusion Model) 미세 조정에서 상당한 가능성을 보여주고 있습니다. 기존 방법들은 인간의 선호도에 부합하는 보상 모델을 먼저 학습시킨 후, 강화 학습 기법을 활용하여 기본 모델을 미세 조정합니다. 그러나 효율적인 보상 모델을 설계하려면 방대한 데이터셋, 최적의 아키텍처, 그리고 수동 하이퍼파라미터 조정이 필요하여 이 과정은 시간과 비용이 많이 소요됩니다. 대형 언어 모델 미세 조정에 효과적인 직접 선호 최적화(DPO) 방법은 보상 모델의 필요성을 제거합니다. 그러나 확산 모델의 노이즈 제거 과정에서 발생하는 GPU 메모리 요구량이 크기 때문에 DPO 방법을 직접 적용하는 데 어려움이 있습니다. 이 문제를 해결하기 위해, 우리는 확산 모델을 직접 미세 조정할 수 있는 직접 선호 노이즈 제거 확산 정책 최적화(D3PO) 방법을 제안합니다. 이론적 분석에 따르면, D3PO는 보상 모델 학습을 생략하더라도 인간 피드백 데이터를 사용하여 학습 과정을 안내하는 최적의 보상 모델로 효과적으로 기능합니다. 이 접근 방식은 보상 모델 학습이 필요 없어 더 직접적이고 비용 효율적이며, 계산 오버헤드를 최소화합니다. 실험에서 우리의 방법은 인간 선호도를 대리하는 목적 함수의 상대적 크기를 사용하여, 실제 보상을 사용하는 방법과 비슷한 결과를 제공합니다. 또한 D3PO는 이미지 왜곡률을 줄이고 더 안전한 이미지를 생성하는 능력을 보여주며, 견고한 보상 모델이 부족한 문제를 극복합니다.
대규모 언어 모델(LLMs)에서의 인컨텍스트 프롬프팅은 제로샷 능력을 향상시키기 위한 일반적인 접근 방식으로 자리 잡았지만, 이 아이디어는 비전 도메인에서는 덜 탐구되었습니다. 기존의 시각적 프롬프팅 방법들은 가장 관련성이 높은 객체를 분할하기 위한 참조 분할(referring segmentation)에 초점을 맞추고 있어, 오픈셋 분할 및 탐지와 같은 다양한 일반적인 비전 작업을 다루는 데는 한계가 있습니다. 본 논문에서는 이러한 두 가지 작업을 모두 위한 범용 시각적 인컨텍스트 프롬프팅 프레임워크를 소개합니다. 특히, 인코더-디코더 아키텍처를 기반으로 하여 스트로크, 박스, 점과 같은 다양한 프롬프트를 지원하는 다용도 프롬프트 인코더를 개발했습니다. 또한, 임의의 수의 참조 이미지 세그먼트를 컨텍스트로 사용할 수 있도록 이를 더욱 강화했습니다. 광범위한 실험을 통해 제안된 시각적 인컨텍스트 프롬프팅이 참조 및 일반 분할 능력을 극대화하여 참조 및 탐지 작업에서 경쟁력 있는 성능을 보여주며, 클로즈셋 인도메인 데이터셋에서 우수한 성과를 거두고 많은 오픈셋 분할 데이터셋에서도 유망한 결과를 보여줌을 확인했습니다. COCO와 SA-1B 데이터셋에 대한 공동 학습을 통해, 우리의 모델은 COCO에서 57.7 PQ, ADE20K에서 23.2 PQ를 달성했습니다. 코드는 https://github.com/UX-Decoder/DINOv에서 제공될 예정입니다.
이미지 기반 대형 멀티모달 모델(LMM)을 비디오로 확장하는 것은 비디오 데이터의 고유한 복잡성으로 인해 어려운 과제입니다. 최근 이미지 기반 LMM을 비디오로 확장한 접근 방식들은 그라운딩 기능이 부족하거나(예: VideoChat, Video-ChatGPT, Video-LLaMA), 더 나은 비디오 이해를 위해 오디오 신호를 활용하지 못하는(예: Video-ChatGPT) 한계가 있습니다. 이러한 격차를 해결하기 위해, 우리는 픽셀 수준의 그라운딩 기능을 갖춘 최초의 LMM인 Video-LLaVA를 제안하며, 오디오 신호를 텍스트로 변환하여 비디오 컨텍스트 이해를 풍부하게 합니다. 우리의 프레임워크는 기존의 트래커와 새로운 그라운딩 모듈을 사용하여 사용자 지시에 따라 비디오 내 객체를 공간적 및 시간적으로 위치 지정할 수 있습니다. 우리는 Video-LLaVA를 비디오 기반 생성 및 질의응답 벤치마크를 사용하여 평가하고, 비디오에서 프롬프트 기반 객체 그라운딩 성능을 측정하기 위해 특별히 설계된 새로운 벤치마크를 소개합니다. 또한, Video-ChatGPT에서 사용된 GPT-3.5 대신 Vicuna를 사용하여 비디오 기반 대화 벤치마킹을 제안하며, GPT-3.5의 독점적 특성으로 인한 재현성 문제를 해결합니다. 우리의 프레임워크는 최신 이미지 기반 LLaVA 모델을 기반으로 하며, 그 장점을 비디오 영역으로 확장하여 비디오 기반 대화 및 그라운딩 작업에서 유망한 성과를 제공합니다. 프로젝트 페이지: https://github.com/mbzuai-oryx/Video-LLaVA
본 기술 보고서는 확산 모델(Diffusion Model) 기반의 360도 파노라마 이미지 생성 작업에 관한 내용을 다룹니다. 일반적인 2D 이미지와 달리, 360도 파노라마 이미지는 360^circ × 180^circ의 시야각을 포착합니다. 따라서 360도 파노라마 이미지의 가장 오른쪽과 가장 왼쪽 부분이 연속성을 유지해야 하는 것이 이 분야의 주요 과제입니다. 그러나 현재의 확산 파이프라인은 이러한 매끄러운 360도 파노라마 이미지를 생성하는 데 적합하지 않습니다. 이를 해결하기 위해, 우리는 잡음 제거(Denoising) 및 VAE 디코딩 단계에서 기하학적 연속성을 유지하기 위한 원형 블렌딩 전략(Circular Blending Strategy)을 제안합니다. 이를 바탕으로, 텍스트-투-360-파노라마(Text-to-360-panoramas) 및 단일-이미지-투-360-파노라마(Single-Image-to-360-panoramas) 작업을 위한 두 가지 모델을 제시합니다. 해당 코드는 오픈소스 프로젝트로 공개되었으며, 아래 링크에서 확인할 수 있습니다: https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} 및 https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}