번역이 포함된 일일 선별된 AI 연구 논문
PaliGemma 2는 Gemma 2 패밀리의 언어 모델을 기반으로 한 PaliGemma 오픈 비전-언어 모델 (VLM)의 업그레이드입니다. 우리는 PaliGemma에서 사용된 SigLIP-So400m 비전 인코더를 Gemma 2의 전 범위 모델, 2B부터 27B 모델까지 결합합니다. 이러한 모델들을 224px, 448px, 896px의 세 가지 해상도에서 다단계로 훈련하여 이식을 통해 넓은 지식을 갖추게 합니다. 서로 다른 모델 크기와 해상도를 다루는 기본 모델 패밀리는 이식 성능에 영향을 미치는 요소 (학습률과 같은) 및 작업 유형, 모델 크기, 해상도 간의 상호 작용을 분석할 수 있도록 합니다. 우리는 PaliGemma의 범위를 넘어서 다양한 OCR 관련 작업 (테이블 구조 인식, 분자 구조 인식, 악보 인식 및 세밀한 캡션 및 방사선 영상 보고서 생성)을 포함한 이식 작업의 수와 범위를 더욱 증가시킵니다. PaliGemma 2는 이러한 작업에서 최첨단 결과를 얻습니다.
최근의 접근법은 다단계 텍스트-이미지 확산 모델을 일단계 모델로 축소하는 데 융통성 있는 결과를 얻었습니다. 최신의 효율적인 축소 기술인 즉, SwiftBrushv2 (SBv2)는 한정된 자원으로도 교사 모델의 성능을 능가합니다. 그러나 우리의 연구는 변분 점수 축소 (VSD) 손실 내에서 고정된 가이드 스케일을 사용하여 다양한 확산 모델 백본을 처리할 때 안정성이 부족함을 밝혀냅니다. 기존 일단계 확산 모델의 또 다른 약점은 실용적인 이미지 생성에서 중요한 부정적 프롬프트 가이드를 지원하지 않는 것입니다. 본 논문에서는 SNOOPI를 제안하여 이러한 한계를 극복하기 위해 일단계 확산 모델의 가이드를 강화하는 혁신적인 프레임워크를 제시합니다. 먼저, Proper Guidance-SwiftBrush (PG-SB)를 통해 훈련 안정성을 효과적으로 향상시킴으로써 교사 모델의 가이드 스케일을 다양화하여 출력 분포를 확장하여 다양한 백본에서 효과적으로 작동하도록 하는 더 견고한 VSD 손실을 구현합니다. 두 번째로, Negative-Away Steer Attention (NASA)라는 훈련 없는 방법을 제안하여 부정적 프롬프트를 교차 주의를 통해 일단계 확산 모델에 통합하여 생성된 이미지에서 원치 않는 요소를 억제합니다. 실험 결과는 우리의 제안된 방법이 다양한 메트릭을 통해 기준 모델을 크게 개선시킨다는 것을 보여줍니다. 놀랍게도, 우리는 일단계 확산 모델에 대한 새로운 최첨단 기준을 설정하며 HPSv2 점수를 31.08로 달성합니다.
우리는 TokenFlow를 제시합니다. 이는 다중 모달 이해와 생성 사이의 오랜 간극을 메우는 혁신적인 통합 이미지 토크나이저입니다. 이전 연구는 단일 재구성을 목표로 하는 Vector Quantization (VQ) 인코더를 사용하여 이 두 작업을 통합하려고 시도했습니다. 우리는 이해와 생성이 근본적으로 다른 시각 정보의 세분화를 필요로 한다는 것을 관찰했습니다. 이로 인해 중요한 절충이 발생하며 특히 다중 모달 이해 작업의 성능이 저하됩니다. TokenFlow는 이 도전에 대처하기 위해 혁신적인 이중 코드북 아키텍처를 통해 의미론적 및 픽셀 수준의 특징 학습을 분리하면서 공유 매핑 메커니즘을 통해 그들의 정렬을 유지합니다. 이 설계는 이해 작업에 중요한 고수준 의미 표현과 생성에 필수적인 세밀한 시각적 특징에 대한 직접 액세스를 가능하게 합니다. 우리의 포괄적인 실험은 TokenFlow의 다양한 차원에서의 우월성을 입증합니다. TokenFlow를 활용하여 우리는 처음으로 이산적 시각 입력이 이해 성능에서 LLaVA-1.5 13B를 능가하는 것을 시연하며 평균 7.2%의 향상을 달성합니다. 이미지 재구성에서는 384*384 해상도에서 강력한 FID 점수인 0.63을 달성합니다. 더욱이, TokenFlow는 256*256 해상도에서 GenEval 점수가 0.55로 자율 회귀 이미지 생성에서 최첨단 성능을 달성하며 SDXL과 유사한 결과를 얻습니다.
360도 비디오는 관객들이 전체 360도에서 동적 장면을 탐험할 수 있는 초절경적인 경험을 제공합니다. 360도 비디오 형식에서 더 사용자 친화적이고 개인화된 콘텐츠 생성을 위해, 표준 시각의 비디오를 360도 이퀴렉터각도 비디오로 전환하려 합니다. 이를 위해, 우리는 고화질의 360도 비디오를 다양하고 풍부한 움직임 패턴으로 생성하는 최초의 시각에서 360도 비디오로 변환하는 프레임워크인 Imagine360을 소개합니다. Imagine360은 한계가 있는 360도 비디오 데이터에서 세밀한 구 형태의 시각적 및 움직임 패턴을 학습하는데 있어 여러 가지 주요 디자인을 갖추고 있습니다. 1) 먼저, 우리는 360도 비디오 생성을 위해 로컬 및 글로벌 제약 조건을 제공하기 위한 투영 및 파노라마 비디오 노이즈 제거 브랜치를 포함한 이중 브랜치 디자인을 채택하며, 움직임 모듈 및 공간적 LoRA 레이어를 웹 360도 비디오에서 세밀하게 조정합니다. 2) 게다가, 멀리 떨어진 움직임 종속성을 포착하기 위해 반대편 마스크가 고안되었으며, 반구 간에 반대편 픽셀 사이의 반대 방향 카메라 움직임을 강화합니다. 3) 다양한 투영 비디오 입력을 처리하기 위해, 우리는 프레임 간 고도 변화로 인한 다양한 비디오 마스킹에 적응하는 고도 인식 디자인을 제안합니다. 광범위한 실험 결과는 Imagine360이 최첨단 360도 비디오 생성 방법 중에서도 우수한 그래픽 품질과 움직임 일관성을 달성한다는 것을 보여줍니다. 우리는 Imagine360이 개인화되고 몰입적인 360도 비디오 생성을 발전시키는 데 기대할만한 가능성을 가지고 있다고 믿습니다.
확산 모델은 강력한 훈련 안정성과 높은 완성 품질로 3D LiDAR 장면 완성에 적용되었습니다. 그러나 자율 주행 차량이 주변 환경을 효율적으로 인식해야 하는 실용적인 적용을 제한하는 느린 샘플링 속도가 있습니다. 본 논문에서는 3D LiDAR 장면 완성 모델에 맞춤화된 새로운 증류 방법인 ScoreLiDAR을 제안합니다. ScoreLiDAR은 효율적이면서도 고품질의 장면 완성을 달성합니다. ScoreLiDAR은 증류 후 적은 단계에서 샘플링할 수 있도록 합니다. 완성 품질을 향상시키기 위해 우리는 새로운 구조 손실을 소개합니다. 이 손실은 3D LiDAR 장면의 기하 구조를 캡처하도록 증류된 모델을 장려하는데, 전체적인 구조를 제약하는 장면별 용어와 주요 랜드마크 포인트와 그들의 상대적인 구성을 제약하는 포인트별 용어가 포함되어 있습니다. 광범위한 실험 결과는 ScoreLiDAR이 SemanticKITTI에서 프레임당 완성 시간을 30.55에서 5.37초로(5배 이상) 현저히 가속화하고 최첨단 3D LiDAR 장면 완성 모델과 비교하여 우수한 성능을 달성한다는 것을 입증합니다. 우리의 코드는 https://github.com/happyw1nd/ScoreLiDAR에서 공개적으로 이용할 수 있습니다.
최근 비디오 대규모 다중 모달 모델(LMMs)의 발전은 비디오 이해 및 추론 능력을 크게 향상시켰습니다. 그러나 이러한 모델은 훈련 데이터에서 소수인 OOD(분포 밖) 작업에서 성능이 떨어집니다. OOD 데이터셋에서 미세 조정하는 등의 전통적인 방법은 계산 비용이 높아 적용하기 어렵습니다. ICL(인-컨텍스트 학습)은 언어 작업 및 이미지-언어 작업에서 미세 조정 없이 일반화 성능을 보여주었지만, 비디오-언어 작업에 ICL을 적용하는 것은 비디오 LMMs에서 제한된 문맥 길이로 인해 어려움이 있습니다. 이러한 문제를 해결하기 위해 우리는 OOD 작업을 위한 혁신적인 비디오 인-컨텍스트 학습 프레임워크인 VideoICL을 제안합니다. 이 프레임워크는 유사성 기반의 관련 예제 선택 전략과 신뢰도 기반의 반복 추론 접근법을 도입하여 가장 관련성 높은 예제를 선택하고 유사성에 따라 순위를 매겨 추론에 사용합니다. 생성된 응답의 신뢰도가 낮은 경우, 프레임워크는 새로운 예제를 선택하고 다시 추론을 수행하여 결과를 반복적으로 개선하고 높은 신뢰도 응답을 얻을 때까지 진행합니다. 이 접근 방식은 높은 비용을 발생시키지 않으면서 효과적인 문맥 길이를 확장하여 OOD 비디오 이해 성능을 향상시킵니다. 다양한 벤치마크 실험 결과는 특히 도메인 특정 시나리오에서 상당한 성능 향상을 보여주며, 보다 넓은 비디오 이해 응용 프로그램을 위한 기초를 마련합니다. 코드는 https://github.com/KangsanKim07/VideoICL에서 공개될 예정입니다.
현실적이고 애니메이션 가능한 아바타를 만들기 위해서는 여전히 다중 뷰 또는 단안 자체 회전 비디오가 필요하며, 대부분의 방법은 제스처와 표현에 대한 정밀한 제어가 부족합니다. 이 한계를 극복하기 위해 우리는 단일 이미지에서 전신 대화 아바타를 구성하는 과제에 대응합니다. 우리는 두 가지 중요한 문제, 즉 복잡한 동적 모델링과 새로운 제스처 및 표현에 대한 일반화에 대처하는 새로운 파이프라인을 제안합니다. 매끄러운 일반화를 달성하기 위해 최근 자세 안내 이미지-비디오 확산 모델을 활용하여 불완전한 비디오 프레임을 가짜 레이블로 생성합니다. 불일치하고 잡음이 많은 가짜 비디오에 의해 제기된 동적 모델링 과제를 극복하기 위해 우리는 밀접하게 결합된 3DGS-메쉬 하이브리드 아바타 표현을 소개하고 불완전한 레이블로 인한 불일치를 완화하기 위해 여러 가지 주요 규제를 적용합니다. 다양한 주제에 대한 포괄적인 실험은 우리의 방법이 단 하나의 이미지로부터 사실적이고 정확하게 애니메이션 가능하며 표현력이 풍부한 전신 대화 아바타를 만들 수 있음을 보여줍니다.
본 논문에서는 오픈 소스 한영 언어-시각 모델(VLM), VARCO-VISION을 소개합니다. 우리는 모델이 언어 및 시각 정보를 학습하면서 백본 모델의 지식을 보존하는 단계별 훈련 전략을 통합했습니다. 우리 모델은 유사한 크기의 모델과 비교했을 때 다양한 설정에서 우수한 성능을 보여주며, 이중 언어 이미지-텍스트 이해 및 생성 능력이 요구되는 환경에서 뛰어난 성과를 거두었습니다. VARCO-VISION은 또한 그라운딩, 참조, OCR을 수행할 수 있어 사용 범위와 실제 시나리오에서의 잠재적 응용 가능성을 확대합니다. 모델뿐만 아니라, 우리는 네 개의 폐쇄형 및 하나의 오픈셋 벤치마크를 포함한 다섯 개의 한국어 평가 데이터셋을 공개합니다. 우리의 이정표가 VLM을 훈련하려는 AI 연구자들에게 기회를 넓힐 것으로 기대합니다. VARCO-VISION은 https://huggingface.co/NCSOFT/VARCO-VISION-14B에서 이용 가능합니다.
본 논문은 MIDI를 소개하는데, 이는 단일 이미지로부터 구성적인 3D 장면 생성을 위한 혁신적인 패러다임입니다. 기존의 재구성이나 검색 기술에 의존하는 방법이나 최근에 나온 단계별 객체 생성 방식과는 달리, MIDI는 사전 훈련된 이미지-3D 객체 생성 모델을 다중 사례 확산 모델로 확장하여 정확한 공간 관계와 높은 일반화 능력을 갖춘 여러 3D 사례를 동시에 생성할 수 있습니다. MIDI의 핵심은 새로운 다중 사례 주의 메커니즘을 포함하는데, 이는 복잡한 다단계 과정 없이 생성 과정 내에서 효과적으로 객체 간 상호 작용과 공간 일관성을 직접 포착합니다. 이 방법은 부분 객체 이미지와 전역 장면 컨텍스트를 입력으로 활용하여 3D 생성 중 객체 완성을 직접 모델링합니다. 훈련 중에 우리는 씬 수준의 제한된 데이터를 사용하여 3D 사례 간 상호 작용을 효과적으로 감독하면서, 정규화를 위해 단일 객체 데이터를 통합하여 사전 훈련된 일반화 능력을 유지합니다. MIDI는 이미지-장면 생성에서 최첨단 성능을 보여주며, 합성 데이터, 실제 장면 데이터, 그리고 텍스트-이미지 확산 모델에 의해 생성된 스타일화된 장면 이미지에 대한 평가를 통해 검증되었습니다.
최근 생성 모델의 발전은 다중 뷰 데이터로부터의 새로운 시야 합성(NVS)을 현저히 향상시켰다. 그러나 기존 방법은 명시적 자세 추정이나 사전 재구성과 같은 외부 다중 뷰 정렬 과정에 의존하며, 이는 뷰 간 충분한 겹침이나 가려짐으로 인해 정렬이 불안정할 때 특히 그들의 유연성과 접근성을 제한한다. 본 논문에서는 명시적 외부 정렬이 필요 없는 새로운 접근 방식인 NVComposer를 제안한다. NVComposer는 생성 모델이 여러 조건부 뷰 간의 공간적 및 기하학적 관계를 암시적으로 추론할 수 있도록 하는 두 가지 주요 구성 요소를 도입함으로써 가능케 한다: 1) 대상 새로운 뷰와 조건 카메라 자세를 동시에 생성하는 이미지-자세 이중 스트림 확산 모델, 그리고 2) 훈련 중 밀집 스테레오 모델로부터 기하학적 사전을 추출하는 기하학적 인식 특징 정렬 모듈. 광범위한 실험 결과, NVComposer가 생성적 다중 뷰 NVS 작업에서 최고 수준의 성능을 달성하며 외부 정렬에 대한 의존성을 제거하고 모델의 접근성을 향상시킨다는 것을 입증한다. 우리의 접근 방식은 입력 뷰의 수가 증가함에 따라 합성 품질이 상당히 향상되는 것을 보여주며, 더 유연하고 접근성 있는 생성적 NVS 시스템에 대한 잠재력을 강조한다.
우리는 NitroFusion을 소개합니다. 이는 동적 적대적 프레임워크를 통해 고품질 생성을 달성하는 단일 단계 확산에 대한 근본적으로 다른 접근 방식입니다. 한 단계 방법은 속도 이점을 제공하지만 일반적으로 다단계 대안과 비교하여 품질 저하가 발생합니다. 마치 조각가 패널이 구성, 색상 및 기술과 같은 다른 측면에 특화된 종합적인 피드백을 제공하는 것처럼, 우리의 방법은 생성 프로세스를 함께 이끄는 다양한 전문 판별자 헤드의 대규모 전문 판별자 풀을 유지합니다. 각 판별자 그룹은 서로 다른 잡음 수준에서 특정 품질 측면에 대한 전문 지식을 개발하여 고품질 단일 단계 생성을 가능하게 하는 다양한 피드백을 제공합니다. 우리의 프레임워크는 다음을 결합합니다: (i) 생성 품질을 향상시키기 위한 전문 판별자 그룹이 있는 동적 판별자 풀, (ii) 판별자 과적합을 방지하기 위한 전략적 새로고침 메커니즘, (iii) 다중 규모 품질 평가를 위한 전역-지역 판별자 헤드, 그리고 균형 잡음 제거를 위한 무조건적/조건적 훈련. 게다가, 우리의 프레임워크는 바텀-업 세밀화를 통해 유연한 배포를 지원하며, 사용자가 직접 품질-속도 트레이드 오프를 위해 1-4개의 노이즈 제거 단계 사이에서 동일한 모델을 동적으로 선택할 수 있게 합니다. 포괄적인 실험을 통해, 우리는 NitroFusion이 다양한 평가 메트릭을 통해 기존의 단일 단계 방법을 크게 능가하며, 특히 세부 사항과 전체적인 일관성을 보존하는 데 뛰어나다는 것을 입증합니다.
다중 모달 대형 언어 모델(MLLMs)의 신속한 발전은 다양한 다중 모달 작업에 중대한 영향을 미쳤습니다. 그러나 이러한 모델은 3D 환경 내에서 공간 이해가 필요한 작업에서 어려움을 겪습니다. 포인트 클라우드 피처를 통합하는 등 MLLMs를 향상시키기 위한 노력이 있었지만, 모델이 학습한 표현과 3D 장면의 본질적 복잡성 사이에 상당한 간극이 남아 있습니다. 이 불일치는 주로 MLLMs의 주로 2D 데이터에 대한 훈련에서 비롯되어 3D 공간을 이해하는 데 제약을 가하게 됩니다. 본 논문에서는 이 문제를 해결하기 위해 3D 장면 이해를 위한 혁신적인 종합 모델인 Video-3D LLM을 제안합니다. 3D 장면을 동적 비디오로 취급하고 이러한 표현에 3D 위치 인코딩을 통합함으로써, 우리의 Video-3D LLM은 비디오 표현을 실제 공간 맥락과 더 정확하게 일치시킵니다. 또한, 계산 비용과 성능 효율성 사이의 균형을 최적화하기 위해 최대 커버리지 샘플링 기술을 구현했습니다. 광범위한 실험을 통해 우리 모델이 ScanRefer, Multi3DRefer, Scan2Cap, ScanQA 및 SQA3D를 포함한 여러 3D 장면 이해 벤치마크에서 최첨단 성능을 달성한다는 것을 입증하였습니다.
LLM의 수학적 기술 평가는 현재 제한적이며, 기존의 기준은 상대적으로 작거나 주로 초등학교 및 고등학교 문제에 중점을 둬서 주제 다양성이 부족합니다. 또한 과제에 시각적 요소를 포함하는 것은 여전히 탐구되지 않은 상태입니다. 이러한 공백을 해결하기 위해, 우리는 U-MATH를 소개합니다. 이는 6개의 핵심 과목을 균형 있게 다루며, 20%가 다중모달 문제인 1,100개의 미발표 대학 수준 문제 벤치마크입니다. U-MATH 문제의 개방형 특성을 고려하여, 우리는 LLM을 사용하여 생성된 해결책의 정확성을 판단합니다. 이를 위해, 우리는 LLM의 판단 능력을 평가하기 위한 mu-MATH 데이터셋을 공개합니다. 일반 도메인, 수학 특화, 그리고 다중모달 LLM의 평가는 U-MATH가 제기하는 어려움을 강조합니다. 우리의 연구 결과는 LLM이 텍스트 기반 과제에서 최대 정확도가 63%에 불과하며, 시각적 문제에서는 더 낮은 45%에 머물러 있음을 보여줍니다. 해결책 평가는 LLM에게 어려운 과제임이 입증되었는데, mu-MATH에서 최고의 LLM 판사는 F1 점수가 80%에 달합니다.
대규모 언어 모델을 사용한 합성 데이터 생성은 다양한 작업 범위에 걸쳐 자연 데이터를 보완하는 유망한 패러다임이다. 이 다양성으로 인해 합성 데이터 생성 알고리즘 간 직접적인 비교가 드물어 개선이 어디서 오는지와 어떤 병목 현상이 존재하는지 이해하기 어렵다. 우리는 각 알고리즘에 의해 생성된 합성 데이터의 데이터 품질, 다양성 및 복잡성 측면에서 알고리즘을 평가하는 것을 제안한다. 우리는 이 세 가지 특성을 선택한 이유는 열린 과정에서의 중요성과 하류 모델의 능력에 미치는 영향 때문이다. 우리는 품질이 분포 모델 일반화에 중요하고, 다양성이 분포 밖 일반화에 중요하며, 복잡성이 둘 다에 유익하다고 판단한다. 더불어, 훈련 데이터에서 품질-다양성 교환의 존재와 모델 성능에 미치는 하류 효과를 강조한다. 그런 다음, 합성 데이터 파이프라인의 다양한 구성 요소가 각 데이터 특성에 미치는 영향을 살펴본다. 이 분석을 통해 우리는 각 알고리즘을 데이터 품질, 다양성, 복잡성 구성에 따라 분류하고 비교할 수 있다. 이 분석은 합성 데이터의 품질, 다양성, 복잡성을 균형 있게 유지하는 것이 효율적인 강화 학습 및 자가 개선 알고리즘을 위해 중요하다는 논의로 확장된다. 훈련 데이터에서의 품질-다양성 교환과 유사하게, 종종 모델 출력 품질과 출력 다양성 사이의 교환 관계가 존재하며 이는 합성 데이터의 구성에 영향을 미친다. 현재 많은 모델이 출력 품질에 대해만 평가되고 최적화되어 있어 출력 다양성과 자가 개선 가능성이 제한되는 것을 관찰한다. 이 교환 관계를 균형 있게 유지하는 것이 미래 자가 개선 알고리즘의 발전에 중요하며 이 방향으로 진전을 이루고 있는 여러 연구를 강조한다.
최근 대규모 사전 훈련된 확산 모델로부터 얻은 내부 특성은 다양한 하위 작업에 대한 강력한 의미적 설명자로 입증되었습니다. 이러한 특성을 활용하는 작업들은 일반적으로 이미지에 노이즈를 추가하여 모델을 통과시킨 후 의미적 특성을 얻어야 합니다. 왜냐하면 모델은 노이즈가 거의 없는 이미지를 입력으로 받았을 때 가장 유용한 특성을 제공하지 않기 때문입니다. 우리는 이 노이즈가 이러한 특성의 유용성에 중대한 영향을 미치며 다양한 무작위 노이즈를 사용하여 앙상블하는 것으로는 이를 해결할 수 없음을 보여줍니다. 우리는 가벼운 비지도 학습 미세 조정 방법을 소개함으로써 이 문제에 대처합니다. 이 방법을 통해 확산 백본이 고품질이며 노이즈가 없는 의미적 특성을 제공할 수 있게 됩니다. 이러한 특성이 다양한 추출 설정 및 하위 작업에서 이전 확산 특성을 크게 앞선 성능을 보여주며, 비용의 일부로 심지어 앙상블 기반 방법보다 우수한 성능을 제공합니다.
이질적인 오픈 소스 LLM(언어 모델)들을 다양한 아키텍처와 크기로 융합하는 것은 서로 다른 모델의 장점을 통합할 수 있는 잠재력을 가지고 있지만, 기존의 융합 방법은 어휘 정렬과 분포 행렬 병합과 같은 중요한 도전에 직면하고 있다. 이러한 절차들은 복잡할 뿐만 아니라 잡음과 오류를 도입할 가능성이 있다. 본 논문에서는 소스 LLM과 대상 LLM 간의 선호도 최적화를 활용하여 그들의 능력을 효과적으로 전이하는 암묵적 융합 방법인 가중 보상 선호도 최적화(WRPO)를 제안한다. WRPO는 어휘 정렬과 행렬 융합이 필요 없으며 다양한 LLM을 수용할 수 있는 효율적인 확장이 가능하다. 소스와 대상 LLM 간의 분포적 차이를 해결하기 위해 WRPO는 점진적 적응 전략을 도입하여 대상 LLM에서 소스 LLM으로 선호되는 예제에 대한 의존성을 서서히 이동시킨다. MT-Bench, AlpacaEval-2, Arena-Hard 벤치마크에서의 광범위한 실험 결과는 WRPO가 기존의 지식 융합 방법과 다양한 세밀 조정 기준선을 일관되게 능가함을 보여준다. 대상 모델로 LLaMA3-8B-Instruct를 적용한 경우, WRPO는 AlpacaEval-2에서 GPT-4-Preview-1106에 대해 55.9%의 길이 제어된 승률을 달성하고 Arena-Hard에서 GPT-4-0314에 대해 46.2%의 승률을 기록한다. 우리의 코드는 https://github.com/SLIT-AI/WRPO에서 확인할 수 있다.
비디오 생성에서 텍스트는 서술적 성격으로 인해 주요 제어 신호 역할을 합니다. 텍스트 설명을 비디오 클립으로 렌더링하기 위해 현재의 비디오 확산 모델은 텍스트 인코더에서 특징을 빌려오지만 텍스트 이해력이 제한되어 있습니다. 대형 언어 모델(LLMs)의 최근 성공은 디코더 전용 트랜스포머의 강점을 보여주며, 이는 텍스트-비디오(T2V) 생성에 세 가지 명확한 이점을 제공합니다. 즉, 우수한 확장성으로 인한 정확한 텍스트 이해, 입력 텍스트를 넘어 상상력을 제공하는 다음 토큰 예측에 의해 활성화된 상상력, 그리고 사용자 관심사를 우선시하는 유연성을 통한 지시 조정입니다. 그러나 두 가지 다른 텍스트 모델링 패러다임에서 발생하는 특징 분포 격차로 인해 LLMs의 직접적인 사용이 확립된 T2V 모델에서 어려움을 겪고 있습니다. 본 연구는 Mimir라는 엔드-투-엔드 훈련 프레임워크를 통해 이 도전에 대처합니다. 이 프레임워크는 텍스트 인코더와 LLMs의 출력을 조화시키기 위해 신중하게 설계된 토큰 퓨저를 특징으로 합니다. 이러한 설계는 T2V 모델이 학습된 비디오 사전을 완전히 활용하면서 LLMs의 텍스트 관련 능력을 최대한 활용할 수 있도록 합니다. 광범위한 양적 및 질적 결과는 Mimir이 뛰어난 텍스트 이해력을 갖춘 고품질 비디오를 생성하는 데 효과적임을 입증하며, 특히 짧은 캡션을 처리하고 움직임을 관리할 때 뛰어난 성과를 보여줍니다. 프로젝트 페이지: https://lucaria-academy.github.io/Mimir/
대규모 다중모달 모델(LMMs)은 지시 튜닝의 발전과 함께 중요한 발전을 이루었습니다. 그러나 기존 모델은 이미지와 비디오를 종합적 수준에서 이해할 수 있지만, 보다 세밀한 이해와 조정이 필요한 인스턴스 수준의 이해에는 여전히 어려움을 겪고 있습니다. 인스턴스 수준의 이해는 우리가 가장 관심을 가지는 구체적인 요소에 초점을 맞추기 때문에 중요합니다. 흥미로운 점은 최신 LMMs가 명시적 시각적 단서를 제공받을 때 강력한 인스턴스 이해 능력을 보여준다는 것을 발견한 기존 연구들이 있습니다. 이에 동기부여를 받아, 우리는 GPT-4o의 지원을 받아 이미지와 비디오에서 인스턴스 수준 정보를 추출하기 위한 자동 주석 파이프라인을 소개합니다. 이를 바탕으로, 우리는 명시적 시각적 프롬프팅을 통해 인스턴스 이해를 향상시키기 위한 Inst-IT를 제안했습니다. Inst-IT는 다중모달 인스턴스 수준 이해를 진단하는 벤치마크, 대규모 지시 튜닝 데이터셋, 그리고 기존 LMMs의 공간-시간 인스턴스 이해 능력을 효과적으로 향상시키기 위한 연속적 지시 튜닝 훈련 패러다임으로 구성됩니다. 실험 결과는 Inst-IT의 도움으로 우리 모델이 Inst-IT 벤치마크에서 우수한 성능을 달성하는데 뿐만 아니라 다양한 일반적인 이미지 및 비디오 이해 벤치마크에서도 상당한 향상을 보여준다는 것을 보여줍니다. 이는 우리 데이터셋이 인스턴스 수준 이해뿐만 아니라 일반적인 이미지 및 비디오 이해 능력을 강화한다는 점을 강조합니다.
우리는 새로운 아키텍처인 LumiNet을 소개합니다. 이 아키텍처는 생성 모델과 잠재 내재 표현을 활용하여 효과적인 조명 전송을 달성합니다. 소스 이미지와 대상 조명 이미지가 주어지면, LumiNet은 소스 장면의 재밝힌 버전을 합성하여 대상의 조명을 캡처합니다. 우리의 접근법은 두 가지 주요 기여를 합니다: StyleGAN 기반 재밝힘 모델로부터의 데이터 선별 전략 및 소스 이미지로부터의 잠재 내재 속성과 대상 이미지로부터의 잠재 외재 속성을 모두 처리하는 수정된 확산 기반 ControlNet입니다. 우리는 또한 MLP를 통해 대상의 잠재 외재 속성을 주입하는 학습된 어댑터를 통해 조명 전송을 개선합니다. 이는 교차 주의와 세밀한 조정을 통해 이루어집니다. 전통적인 ControlNet이 단일 장면으로부터 조건부 맵을 생성하는 데 비해, LumiNet은 두 가지 다른 이미지로부터의 잠재 표현을 처리하여 소스로부터 지오메트리와 알베도를 보존하면서 대상으로부터 조명 특성을 전달합니다. 실험 결과, 우리의 방법은 복잡한 조명 현상(예: 반사 하이라이트 및 간접 조명)을 다양한 공간 레이아웃과 재료를 가진 장면 간에 성공적으로 전송하며, 입력으로 이미지만 사용하여 어려운 실내 장면에서 기존 방법을 능가합니다.