번역이 포함된 일일 선별된 AI 연구 논문
본 연구는 Depth Anything V2를 소개합니다. 화려한 기법을 추구하기보다는, 강력한 단안 깊이 추정 모델을 구축하기 위한 길을 열어줄 핵심적인 발견을 밝히는 데 주력했습니다. 특히, V1과 비교하여 이번 버전은 세 가지 주요 실천을 통해 훨씬 더 세밀하고 강력한 깊이 예측을 생성합니다: 1) 모든 레이블이 달린 실제 이미지를 합성 이미지로 대체, 2) 교사 모델의 용량 확장, 3) 대규모 의사 레이블이 달린 실제 이미지를 통해 학생 모델을 교육. Stable Diffusion 기반의 최신 모델들과 비교했을 때, 우리의 모델은 훨씬 더 효율적(10배 이상 빠름)이고 정확합니다. 다양한 시나리오를 지원하기 위해 다양한 규모의 모델(25M에서 1.3B 파라미터까지)을 제공합니다. 강력한 일반화 능력을 활용하여, 미터법 깊이 레이블로 미세 조정하여 미터법 깊이 모델을 얻었습니다. 또한, 현재 테스트 세트의 제한된 다양성과 잦은 노이즈를 고려하여, 정확한 주석과 다양한 장면을 갖춘 다목적 평가 벤치마크를 구축하여 향후 연구를 촉진했습니다.
본 연구는 새로운 방법론을 제시하지 않습니다. 대신, 우리는 현대 컴퓨터 비전 아키텍처에서의 귀납적 편향(inductive bias), 특히 지역성(locality)의 필요성에 의문을 제기하는 흥미로운 발견을 제시합니다. 구체적으로, 우리는 기본적인 트랜스포머(vanilla Transformer)가 각각의 개별 픽셀을 토큰으로 직접 처리하여도 높은 성능을 달성할 수 있다는 사실을 발견했습니다. 이는 비전 트랜스포머(Vision Transformer)에서 흔히 사용되는, 합성곱 신경망(ConvNet)으로부터 유래한 지역적 이웃에 대한 귀납적 편향(예: 각 16x16 패치를 토큰으로 처리)을 유지하는 디자인과는 상당히 다릅니다. 우리는 픽셀을 토큰으로 처리하는 방식의 효과를 컴퓨터 비전의 세 가지 잘 알려진 작업을 통해 주로 보여줍니다: 객체 분류를 위한 지도 학습, 마스크된 자동 인코딩(masked autoencoding)을 통한 자기 지도 학습, 그리고 확산 모델(diffusion model)을 이용한 이미지 생성. 비록 개별 픽셀을 직접 처리하는 방식이 계산적으로 덜 실용적이지만, 우리는 컴퓨터 비전을 위한 차세대 신경망 아키텍처를 설계할 때 이 놀라운 사실을 커뮤니티가 반드시 인지해야 한다고 믿습니다.
트랜스포머는 단순하면서도 효과적인 아키텍처로 머신러닝 분야에 혁명을 일으켰습니다. 인터넷에서 수집한 방대한 텍스트 데이터셋에 대한 트랜스포머의 사전 학습은 자연어 이해(NLU) 작업에서 뛰어난 일반화 능력을 이끌어냈습니다. 그러나 이러한 언어 모델은 계산이 정확하고 견고해야 하는 알고리즘적 추론 형태의 작업에서는 여전히 취약한 모습을 보입니다. 이러한 한계를 해결하기 위해, 우리는 트랜스포머의 언어 이해 능력과 그래프 신경망(GNN) 기반의 신경 알고리즘 추론기(NAR)의 견고성을 결합한 새로운 접근 방식을 제안합니다. 이러한 NAR은 그래프 형태로 명시된 알고리즘 작업에 대해 일반적인 솔버로서 효과적인 것으로 입증되었습니다. 트랜스포머가 이러한 임베딩에 접근할 수 있도록, 우리는 언어 모델의 토큰들이 NAR의 노드 임베딩에 교차 주의(cross-attend)할 수 있는 2단계 학습 절차를 가진 하이브리드 아키텍처를 제안합니다. 우리는 결과적으로 얻은 TransNAR 모델을 CLRS-30 벤치마크의 텍스트 기반 버전인 CLRS-Text에서 평가하고, 분포 내외에서 알고리즘적 추론에 대해 트랜스포머 단독 모델 대비 상당한 성능 향상을 입증합니다.
인터넷 규모의 시각-언어 데이터와 다양한 로봇 데모 데이터를 결합해 사전 학습된 대형 정책 모델은 로봇에게 새로운 기술을 가르치는 방식을 바꿀 잠재력을 가지고 있습니다. 새로운 동작을 처음부터 학습시키는 대신, 이러한 시각-언어-행동(VLA) 모델을 미세 조정하여 강력하고 일반화 가능한 시각운동 제어 정책을 얻을 수 있습니다. 그러나 로봇 공학 분야에서 VLA의 광범위한 채택은 두 가지 주요 문제로 인해 어려움을 겪고 있습니다: 1) 기존 VLA 모델은 대부분 폐쇄적이며 공개적으로 접근할 수 없고, 2) 기존 연구는 새로운 작업에 대해 VLA를 효율적으로 미세 조정하는 방법을 탐구하지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 970,000개의 실제 로봇 데모 데이터를 기반으로 학습된 70억 파라미터 규모의 오픈소스 VLA인 OpenVLA를 소개합니다. OpenVLA는 Llama 2 언어 모델에 DINOv2와 SigLIP의 사전 학습된 특징을 융합한 시각 인코더를 결합하여 구축되었습니다. 데이터 다양성과 새로운 모델 구성 요소의 추가로 인해, OpenVLA는 일반적인 조작 작업에서 강력한 성능을 보이며, RT-2-X(550억 파라미터)와 같은 폐쇄형 모델을 29개 작업과 여러 로봇 구현체에서 절대 작업 성공률 기준 16.5% 앞서는 동시에 파라미터 수는 7배 적습니다. 또한, OpenVLA를 새로운 환경에 효과적으로 미세 조정할 수 있으며, 특히 다중 객체와 강력한 언어 기반 능력을 포함한 다중 작업 환경에서 우수한 일반화 성능을 보이고, Diffusion Policy와 같은 처음부터 학습하는 모방 학습 방법을 20.4% 앞섭니다. 우리는 또한 계산 효율성을 탐구했으며, 별도의 기여로 OpenVLA가 현대적인 저순위 적응 방법을 통해 소비자용 GPU에서 미세 조정될 수 있고, 양자화를 통해 다운스트림 성공률에 영향을 주지 않으면서 효율적으로 서빙될 수 있음을 보여줍니다. 마지막으로, 모델 체크포인트, 미세 조정 노트북, 그리고 Open X-Embodiment 데이터셋에서 대규모로 VLA를 학습할 수 있는 내장 지원을 포함한 PyTorch 코드베이스를 공개합니다.
무한한 컨텍스트 길이를 가진 시퀀스를 효율적으로 모델링하는 것은 오랫동안 해결되지 않은 문제였습니다. 기존 연구들은 이차 계산 복잡성이나 길이 일반화에서의 제한된 외삽 능력으로 인해 어려움을 겪어 왔습니다. 본 연구에서는 선택적 상태 공간 모델(SSM)인 Mamba와 슬라이딩 윈도우 어텐션(SWA)을 계층적으로 결합한 간단한 하이브리드 아키텍처인 Samba를 제안합니다. Samba는 주어진 시퀀스를 반복적인 은닉 상태로 선택적으로 압축하면서도 어텐션 메커니즘을 통해 정확한 메모리 회수를 유지할 수 있습니다. 우리는 Samba를 3.8B 파라미터와 3.2T 학습 토큰으로 확장하여, 다양한 벤치마크에서 순수 어텐션 또는 SSM 기반의 최신 모델들을 크게 능가하는 성능을 보여줍니다. 4K 길이의 시퀀스로 학습된 Samba는 256K 컨텍스트 길이로 효율적으로 외삽될 수 있으며 완벽한 메모리 회수를 보여주고, 최대 1M 컨텍스트 길이까지 토큰 예측이 개선됩니다. 선형 시간 시퀀스 모델인 Samba는 128K 길이의 사용자 프롬프트를 처리할 때 그룹화된 쿼리 어텐션을 사용하는 트랜스포머에 비해 3.73배 높은 처리량을 가지며, 64K 토큰을 무제한 스트리밍으로 생성할 때 3.64배의 속도 향상을 보입니다. Samba의 샘플 구현은 https://github.com/microsoft/Samba에서 공개되어 있습니다.
본 논문은 새로운 다중 해상도 네트워크와 시간 의존적 레이어 정규화를 통합하여 확산 모델에 혁신적인 개선을 제시합니다. 확산 모델은 고화질 이미지 생성에서의 효과성으로 인해 주목받고 있습니다. 기존의 접근 방식은 컨볼루션 U-Net 아키텍처에 의존해 왔으나, 최근 트랜스포머 기반 설계가 더 우수한 성능과 확장성을 입증했습니다. 그러나 입력 데이터를 토큰화(패치화)하는 트랜스포머 아키텍처는 토큰 길이에 대한 자기 주의 연산의 이차적 특성으로 인해 시각적 충실도와 계산 복잡성 사이의 트레이드오프에 직면합니다. 더 큰 패치 크기는 주의 연산 효율성을 가능하게 하지만, 미세한 시각적 세부 사항을 포착하는 데 어려움을 겪어 이미지 왜곡을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 다중 해상도 네트워크(DiMR)를 확산 모델에 통합하는 프레임워크를 제안합니다. 이 프레임워크는 여러 해상도에서 특징을 정제하며, 저해상도에서 고해상도로 점진적으로 세부 사항을 향상시킵니다. 또한, 시간 의존적 레이어 정규화(TD-LN)를 도입하여 시간 의존적 매개변수를 레이어 정규화에 통합함으로써 시간 정보를 주입하고 더 우수한 성능을 달성하는 파라미터 효율적 접근 방식을 제시합니다. 우리의 방법의 효율성은 클래스 조건부 ImageNet 생성 벤치마크에서 입증되었으며, DiMR-XL 변형은 기존의 확산 모델을 능가하여 ImageNet 256 x 256에서 1.70, ImageNet 512 x 512에서 2.89의 새로운 최첨단 FID 점수를 기록했습니다. 프로젝트 페이지: https://qihao067.github.io/projects/DiMR
대규모 언어 모델(LLM)은 놀라운 추론 능력을 보여주었지만, 특히 복잡한 시간 논리를 포함하는 시간적 추론 작업에서 오류에 취약한 것으로 나타났습니다. 기존 연구는 다양한 데이터셋과 벤치마크를 사용하여 LLM의 시간적 추론 성능을 탐구해왔습니다. 그러나 이러한 연구들은 종종 LLM이 사전 학습 중에 접했을 가능성이 있는 실제 데이터에 의존하거나, 사실적 불일치를 의도치 않게 초래할 수 있는 익명화 기법을 사용합니다. 본 연구에서는 이러한 한계를 극복하기 위해 다양한 시나리오에서 LLM의 시간적 추론 능력을 평가하기 위해 특별히 설계된 새로운 합성 데이터셋을 도입합니다. 이 데이터셋들에 포함된 다양한 질문 유형은 문제 구조, 크기, 질문 유형, 사실 순서 및 기타 요인들이 LLM 성능에 미치는 영향을 체계적으로 조사할 수 있게 합니다. 우리의 연구 결과는 현재 LLM의 시간적 추론 작업에서의 강점과 약점에 대한 귀중한 통찰을 제공합니다. 이 분야의 추가 연구를 촉진하기 위해, 우리는 실험에 사용된 데이터셋과 평가 프레임워크를 오픈소스로 공개합니다: https://huggingface.co/datasets/baharef/ToT.
Diffusion Transformers(DiT)는 이미지 및 비디오 생성에서 뛰어난 성능을 보이지만, self-attention의 이차 복잡도로 인해 계산적 문제에 직면합니다. 우리는 DiT의 계산 병목 현상을 완화하기 위한 새로운 사후 훈련 압축 방법인 DiTFastAttn을 제안합니다. 우리는 DiT 추론 과정에서 주의 계산의 세 가지 주요 중복성을 식별했습니다: 1. 많은 주의 헤드가 지역 정보에 집중하는 공간적 중복성, 2. 인접한 단계의 주의 출력 간 높은 유사성을 보이는 시간적 중복성, 3. 조건부 및 무조건부 추론 간 상당한 유사성을 보이는 조건적 중복성. 이러한 중복성을 해결하기 위해 우리는 세 가지 기술을 제안합니다: 1. 공간적 중복성을 줄이기 위한 Window Attention with Residual Caching, 2. 단계 간 유사성을 활용하는 Temporal Similarity Reduction, 3. 조건부 생성 중 중복 계산을 건너뛰는 Conditional Redundancy Elimination. DiTFastAttn의 효과를 입증하기 위해, 우리는 이를 이미지 생성 작업을 위한 DiT와 PixArt-Sigma, 그리고 비디오 생성 작업을 위한 OpenSora에 적용했습니다. 평가 결과, 이미지 생성에서 우리의 방법은 최대 88%의 FLOPs를 줄이고 고해상도 생성에서 최대 1.6배의 속도 향상을 달성했습니다.
인간은 추론을 돕기 위해 그림을 그립니다: 기하학 문제를 풀 때 보조선을 그리고, 지도에서 추론할 때 표시하고 동그라미를 치며, 아이디어를 확장하고 제한된 작업 기억을 완화하기 위해 스케치를 사용합니다. 그러나 이러한 행동은 현재의 다중모달 언어 모델(LMs)에서는 누락되어 있습니다. 현재의 사고 사슬(chain-of-thought)과 도구 사용 패러다임은 중간 추론 단계로 텍스트만을 사용합니다. 본 연구에서는 다중모달 LMs에 시각적 스케치패드와 그 위에 그림을 그릴 수 있는 도구를 제공하는 Sketchpad 프레임워크를 소개합니다. LM은 자신이 그린 시각적 아티팩트에 따라 계획과 추론을 수행합니다. 텍스트-이미지 모델을 사용해 LMs가 그림을 그리도록 한 기존 연구와 달리, Sketchpad는 LMs가 선, 상자, 표시 등을 사용해 그림을 그릴 수 있게 하여 인간의 스케치에 더 가깝고 추론을 더 잘 돕습니다. Sketchpad는 스케치 과정에서 전문적인 비전 모델(예: 객체 탐지 모델로 경계 상자를 그리거나, 분할 모델로 마스크를 그리는 등)을 사용하여 시각적 인식과 추론을 더욱 강화할 수도 있습니다. 우리는 다양한 수학 과제(기하학, 함수, 그래프, 체스 포함)와 복잡한 시각적 추론 과제를 실험했습니다. Sketchpad는 스케치 없이 강력한 기본 모델보다 모든 과제에서 성능을 크게 향상시켰으며, 수학 과제에서는 평균 12.7%, 비전 과제에서는 8.6%의 성능 향상을 보였습니다. Sketchpad를 사용한 GPT-4o는 V*Bench(80.3%), BLINK 공간 추론(83.9%), 시각적 일치(80.8%)를 포함한 모든 과제에서 새로운 최첨단 기술을 달성했습니다. 모든 코드와 데이터는 https://visualsketchpad.github.io/에서 확인할 수 있습니다.
우리는 다양한 맞춤형 확산 모델들이 형성하는 가중치 공간을 탐구한다. 이를 위해 60,000개 이상의 모델로 구성된 데이터셋을 구축했으며, 각 모델은 기본 모델을 미세 조정하여 서로 다른 개인의 시각적 정체성을 반영하도록 설계되었다. 우리는 이러한 가중치들의 근본적인 다양체를 하나의 부분공간으로 모델링하고, 이를 'weights2weights'라고 명명한다. 이 공간의 세 가지 즉각적인 응용 사례를 보여준다: 샘플링, 편집, 그리고 역변환. 첫째, 이 공간의 각 점은 하나의 정체성에 대응되며, 이 공간에서 가중치 집합을 샘플링하면 새로운 정체성을 인코딩한 모델을 얻을 수 있다. 둘째, 이 공간에서 선형 방향을 찾아 정체성의 의미론적 편집(예: 수염 추가)을 수행할 수 있으며, 이러한 편집은 생성된 샘플들에서 일관된 외모로 유지된다. 마지막으로, 단일 이미지를 이 공간으로 역변환하면 입력 이미지가 분포를 벗어난 경우(예: 그림)에도 현실적인 정체성을 재구성할 수 있음을 보여준다. 우리의 결과는 미세 조정된 확산 모델의 가중치 공간이 정체성의 해석 가능한 잠재 공간으로 작동함을 시사한다.
우리는 다중 이미지 이해 능력에 초점을 맞춘 포괄적인 벤치마크인 MuirBench를 소개한다. MuirBench는 장면 이해, 순서 배열 등 12가지 다양한 다중 이미지 작업으로 구성되며, 다중 뷰, 시간적 관계 등 10가지 범주의 다중 이미지 관계를 포함한다. 11,264개의 이미지와 2,600개의 객관식 질문으로 이루어진 MuirBench는 신뢰할 수 있는 평가를 위해 각 표준 인스턴스와 의미적으로 최소한의 차이만 있는 답변이 불가능한 변형을 쌍으로 구성하여 제작되었다. 최근 20개의 다중 모달 LLM을 대상으로 평가한 결과, GPT-4o와 Gemini Pro와 같은 최고 성능 모델들도 MuirBench를 해결하는 데 어려움을 겪으며 각각 68.0%와 49.3%의 정확도를 보였다. 단일 이미지로 훈련된 오픈소스 다중 모달 LLM들은 다중 이미지 질문에 일반화하기 어려워 33.3% 미만의 정확도를 보였다. 이러한 결과는 MuirBench가 단일 이미지를 넘어설 수 있는 다중 모달 LLM 개발을 촉진하는 데 있어서의 중요성을 강조하며, 향후 개선을 위한 잠재적 경로를 제시한다.
고품질의 선호도 데이터셋은 인간의 선호도에 부합하는 고품질 응답을 생성하도록 대규모 언어 모델(LLM)을 효과적으로 안내할 수 있는 보상 모델을 훈련하는 데 필수적입니다. LLM이 더 강력해지고 더 잘 정렬될수록, Open Assistant, HH-RLHF, HelpSteer와 같은 허가적 라이선스의 선호도 데이터셋은 보상 모델링에 효과적으로 사용되기 위해 업데이트가 필요합니다. GPT-4와 같은 독점 LLM에서 선호도 데이터를 추출하는 방법은 모델 제공자에 의해 상업적 사용에 제한이 있습니다. 생성된 응답과 속성 라벨링 품질을 모두 개선하기 위해, 우리는 허가적 라이선스(CC-BY-4.0)의 선호도 데이터셋인 HelpSteer2를 공개합니다. HelpSteer2로 훈련된 강력한 내부 기본 모델을 사용하여, 2024년 6월 12일 기준으로 Reward-Bench의 주요 데이터셋에서 SOTA 점수(92.0%)를 달성하여 현재 공개 및 독점 모델을 능가했습니다. 특히, HelpSteer2는 기존 선호도 데이터셋(예: HH-RLHF)보다 한 차원 적은 1만 개의 응답 쌍으로 구성되어 있어 보상 모델 훈련에 매우 효율적입니다. 우리의 광범위한 실험은 HelpSteer2로 훈련된 보상 모델이 LLM 정렬에 효과적임을 보여줍니다. 특히, 우리는 보상 모델이 예측한 풍부한 다중 속성 점수를 효과적으로 활용할 수 있는 모델 정렬 접근법인 SteerLM 2.0을 제안합니다. HelpSteer2는 https://huggingface.co/datasets/nvidia/HelpSteer2에서 확인할 수 있으며, 코드는 https://github.com/NVIDIA/NeMo-Aligner에서 확인할 수 있습니다.
멀티모달 대형 언어 모델(mLLMs)은 대량의 텍스트-이미지 데이터로 학습됩니다. 대부분의 mLLM은 캡션 형태의 데이터만으로 학습되지만, Alayrac 등[2022]은 텍스트와 이미지가 교차된 시퀀스를 추가로 학습시키면 컨텍스트 내 학습 능력이 발현될 수 있음을 보여주었습니다. 그러나 그들이 사용한 데이터셋인 M3W는 공개되지 않았으며 영어로만 구성되어 있습니다. 이들의 결과를 재현하려는 시도가 있었지만, 공개된 데이터셋들은 영어로만 제공되었습니다. 반면, 현재의 다국어 및 멀티모달 데이터셋은 캡션 형태로만 구성되거나 중간 규모이거나 완전히 비공개 데이터입니다. 이는 전 세계에서 사용되는 7,000여 개의 다른 언어에 대한 mLLM 연구를 제한합니다. 따라서 우리는 mOSCAR를 소개합니다. 우리가 아는 한, 웹에서 크롤링된 최초의 대규모 다국어 및 멀티모달 문서 코퍼스입니다. 이는 163개 언어, 3억 1,500만 개 문서, 2,140억 개 토큰 및 12억 개 이미지를 포함합니다. 우리는 mOSCAR가 충분히 안전하고 다양하며 양질의 데이터인지 확인하기 위해 일련의 필터링 및 평가 단계를 신중하게 수행했습니다. 또한 mOSCAR의 이점을 입증하기 위해 두 가지 유형의 다국어 모델을 학습시켰습니다: (1) mOSCAR의 일부와 캡션 데이터로 학습된 모델과 (2) 캡션 데이터만으로 학습된 모델입니다. mOSCAR를 추가로 학습한 모델은 다양한 다국어 이미지-텍스트 작업 및 벤치마크에서 강력한 퓨샷 학습 성능 향상을 보여주며, 이는 영어 전용 mLLM에 대한 이전 연구 결과를 확인시켜 줍니다.
컴퓨터 과학(CS)은 인간 지능의 복잡성을 증명하며, 인공지능과 현대 사회의 발전에 깊이 기여하고 있습니다. 그러나 현재 대형 언어 모델(LLM) 커뮤니티는 특정 기초 능력(예: 수학 및 코드 생성) 분석을 위한 벤치마크에 지나치게 초점을 맞추고 있어, 컴퓨터 과학 분야 전반에 대한 종합적인 평가를 소홀히 하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 컴퓨터 과학에서의 LLM 성능을 평가하기 위한 최초의 이중 언어(중국어-영어) 벤치마크인 CS-Bench를 소개합니다. CS-Bench는 약 5,000개의 세심하게 선별된 테스트 샘플로 구성되어 있으며, 컴퓨터 과학의 4가지 주요 영역에 걸친 26개의 하위 분야를 포괄하며, 다양한 작업 형태와 지식 및 추론의 분할을 포함합니다. CS-Bench를 활용하여, 우리는 30개 이상의 주류 LLM에 대한 종합적인 평가를 수행하고, CS 성능과 모델 규모 간의 관계를 밝혀냈습니다. 또한, 기존 LLM의 실패 원인을 정량적으로 분석하고, 지식 보충 및 CS 특화 추론을 포함한 개선 방향을 강조했습니다. 추가적인 교차 능력 실험은 LLM의 컴퓨터 과학 능력과 수학 및 코딩 능력 간의 높은 상관관계를 보여줍니다. 더 나아가, 수학 및 코딩에 특화된 전문가 LLM도 여러 CS 하위 분야에서 강력한 성능을 보였습니다. 앞으로, 우리는 CS-Bench가 CS 분야에서의 LLM 응용의 초석이 되고, LLM의 다양한 추론 능력 평가에 새로운 길을 열어줄 것으로 기대합니다. CS-Bench 데이터와 평가 코드는 https://github.com/csbench/csbench에서 확인할 수 있습니다.
현재 4M이나 UnifiedIO와 같은 다중 모달 및 다중 작업 기반 모델은 유망한 결과를 보여주고 있지만, 실제로 다양한 입력을 수용하고 다양한 작업을 수행하는 즉시 사용 가능한 능력은 (보통 상당히 적은 수의) 훈련된 모달리티와 작업에 의해 제한됩니다. 본 논문에서는 단일 모델을 수십 가지의 매우 다양한 모달리티에 대해 훈련시키고, 대규모 다중 모달 데이터셋과 텍스트 코퍼스에 대한 공동 훈련을 수행함으로써 이러한 능력을 확장합니다. 여기에는 여러 의미론적 및 기하학적 모달리티, DINOv2 및 ImageBind와 같은 최신 최첨단 모델의 특징 맵, SAM 및 4DHumans와 같은 전문 모델의 의사 레이블, 그리고 이미지 메타데이터나 색상 팔레트와 같은 새로운 방식으로 모델과 상호작용하고 생성을 조종할 수 있는 다양한 새로운 모달리티가 포함됩니다. 이 과정에서 중요한 단계는 이미지와 유사한 모달리티, 신경망 특징 맵, 벡터, 인스턴스 세그멘테이션이나 인간 포즈와 같은 구조화된 데이터, 또는 텍스트로 표현될 수 있는 데이터 등 다양한 모달리티에 대해 이산 토큰화를 수행하는 것입니다. 이를 통해 다중 모달 모델의 즉시 사용 가능한 능력을 확장하고, 특히 기존 모델보다 최소 3배 이상의 작업/모달리티를 해결할 수 있는 하나의 모델을 훈련시키는 가능성을 성능 저하 없이 보여줍니다. 이는 더 세밀하고 제어 가능한 다중 모달 생성 능력을 가능하게 하며, 다양한 데이터와 목표에 대해 훈련된 모델을 통합 모델로 증류하는 연구를 가능하게 합니다. 우리는 수십 가지 모달리티와 다양한 데이터셋을 사용하여 30억 개의 파라미터를 가진 모델의 훈련을 성공적으로 확장했습니다. 결과 모델과 훈련 코드는 4m.epfl.ch에서 오픈소스로 공개되었습니다.
최근 이미지 생성 분야의 발전으로 텍스트 조건에서 고품질 이미지를 생성할 수 있게 되었습니다. 그러나 텍스트와 참조 외관과 같은 다중 모달 조건에 직면했을 때, 기존 방법들은 여러 조건을 효과적으로 균형 있게 처리하는 데 어려움을 겪으며 일반적으로 한 모달리티를 다른 모달리티보다 선호하는 경향을 보입니다. 이러한 문제를 해결하기 위해, 우리는 최신 텍스트-이미지(T2I) 확산 모델인 ELLA를 기반으로 다중 모달 프롬프트를 수용하는 새로운 이미지 생성 모델인 EMMA를 소개합니다. EMMA는 혁신적인 다중 모달 특징 연결기(Multi-modal Feature Connector) 설계를 통해 텍스트와 함께 추가 모달리티를 원활하게 통합하여 특별한 주의 메커니즘을 사용하여 텍스트와 보조 모달 정보를 효과적으로 통합합니다. 원래의 T2I 확산 모델의 모든 매개변수를 고정하고 일부 추가 레이어만 조정함으로써, 우리는 사전 훈련된 T2I 확산 모델이 비밀리에 다중 모달 프롬프트를 수용할 수 있다는 흥미로운 발견을 했습니다. 이 흥미로운 특성은 다양한 기존 프레임워크에 쉽게 적응할 수 있게 하여 EMMA를 개인화되고 상황 인식적인 이미지와 심지어 비디오를 생성하는 데 유연하고 효과적인 도구로 만듭니다. 또한, 우리는 학습된 EMMA 모듈을 조립하여 여러 모달리티를 동시에 조건으로 하는 이미지를 생성하는 전략을 소개하며, 혼합된 다중 모달 프롬프트에 대한 추가 훈련이 필요 없게 합니다. 광범위한 실험을 통해 EMMA가 생성된 이미지에서 높은 충실도와 세부 사항을 유지하는 데 효과적임을 입증하며, 고급 다중 모달 조건 이미지 생성 작업을 위한 강력한 솔루션으로서의 잠재력을 보여줍니다.
우리는 모든 모달리티를 이해하고 보편적 표현을 학습할 수 있는 오므니모달(omni-modal) 인공지능을 구축하고자 제안한다. 구체적으로, 우리는 Multimodal Context(MiCo)라는 확장 가능한 사전 학습 패러다임을 제안하는데, 이는 사전 학습 과정에서 모달리티의 수와 데이터 양, 그리고 모델 파라미터를 함께 확장할 수 있다. MiCo를 통해 사전 학습된 모델들은 멀티모달 학습에서 상당한 창발적 능력을 보여주며, 이는 다음 작업들에서 평가되었다: i) 10가지 서로 다른 모달리티에 대한 단일 모달리티 인식 벤치마크, ii) 검색, 질의응답, 캡셔닝 등 25개의 교차 모달리티 이해 작업, 그리고 iii) 18개의 멀티모달 대형 언어 모델 벤치마크. 우리의 모델들은 최첨단 성능을 위한 37개의 새로운 기록을 수립했다. 우리의 연구가 오므니모달 인공지능의 발전에 기여할 수 있기를 바란다. 코드와 모델은 https://github.com/invictus717/MiCo에서 확인할 수 있다.
세계 모델(world model)을 학습시키는 주요 방법 중 하나는 시퀀스의 다음 요소를 출력 공간에서 자기회귀적으로 예측하는 것입니다. 자연어 처리(NLP)에서는 대형 언어 모델(LLM)이 다음 토큰을 예측하는 형태로 나타나며, 컴퓨터 비전(CV)에서는 자기회귀 모델이 다음 프레임/토큰/픽셀을 예측하는 형태로 나타납니다. 그러나 이 접근 방식은 인간의 인지와 몇 가지 측면에서 차이가 있습니다. 첫째, 인간의 미래 예측은 내부 인지 과정에 적극적으로 영향을 미칩니다. 둘째, 인간은 미래 상태에 대한 예측의 타당성을 자연스럽게 평가합니다. 이 능력을 바탕으로, 셋째, 예측이 충분한지 평가함으로써 인간은 예측을 위해 동적으로 시간을 할당합니다. 이 적응적 과정은 심리학에서의 시스템 2 사고(System 2 thinking)와 유사합니다. 이러한 모든 능력은 인간이 고수준의 추론과 계획을 성공적으로 수행하는 데 근본적입니다. 따라서 이러한 인간과 유사한 능력이 부족한 전통적인 자기회귀 모델의 한계를 해결하기 위해, 우리는 에너지 기반 세계 모델(Energy-Based World Models, EBWM)을 제안합니다. EBWM은 주어진 맥락과 예측된 미래 상태의 호환성을 예측하도록 에너지 기반 모델(Energy-Based Model, EBM)을 학습시킵니다. 이를 통해 EBWM은 앞서 설명한 인간 인지의 세 가지 측면을 모두 달성할 수 있게 합니다. 더 나아가, 우리는 에너지 기반 모델에 맞게 조정된 전통적인 자기회귀 트랜스포머의 변형인 에너지 기반 트랜스포머(Energy-Based Transformer, EBT)를 개발했습니다. 우리의 실험 결과는 EBWM이 CV에서 전통적인 자기회귀 트랜스포머보다 데이터와 GPU 시간에 대해 더 나은 확장성을 보이며, NLP에서도 유망한 초기 확장성을 제공함을 보여줍니다. 결과적으로, 이 접근 방식은 시스템 2 사고와 상태 공간을 지능적으로 탐색할 수 있는 미래 모델을 학습시키는 흥미로운 길을 제시합니다.
GPT-4와 Claude와 같은 모델로 대표되는 대규모 언어 모델(LLMs)의 발전에도 불구하고, Llama와 Mistral과 같은 소규모 LLMs는 깊이 있고 일관된 대화를 생성하는 데 어려움을 겪는 경우가 많습니다. 본 논문은 소규모 LLMs의 대화 및 분석 능력에 내재된 한계를 해결하기 위해 새로운 두 단계의 Coarse-to-Fine Actor 모델을 제시합니다. 우리의 접근 방식은 "Continuous Maximization"이라는 기술을 사용하는 Policy-based Coarse Actor로 시작합니다. Coarse Actor는 인간의 선호 스타일에 맞춘 분석 및 추론에 능숙한, 지식이 풍부한 강화된 풀을 구축합니다. RLHF(Reinforcement Learning from Human Feedback) 과정을 통해, Continuous Maximization 전략을 사용하여 출력 길이 제한을 동적이고 적응적으로 확장함으로써 더 상세하고 분석적인 콘텐츠를 생성할 수 있게 합니다. 이후, Fine Actor는 Coarse Actor에서 생성된 과도하게 중복된 정보의 생성을 해결하며 이 분석적 콘텐츠를 정제합니다. 우리는 "Knowledge Residue Merger" 접근 방식을 도입하여 Coarse Actor의 콘텐츠를 정제하고 기존의 Instruction 모델과 병합함으로써 품질과 정확성을 향상시키고 중복을 줄입니다. 우리는 이 방법론을 인기 있는 Mistral 모델에 적용하여 Mistral-C2F를 생성했으며, 이 모델은 11개의 일반 언어 작업과 MT-Bench 대화 작업에서 유사한 규모의 모델뿐만 아니라 13B 및 30B 매개변수를 가진 더 큰 모델을 능가하는 탁월한 성능을 보여주었습니다. 우리의 모델은 대화 및 분석적 추론 능력을 크게 향상시켰습니다.
우리는 텍스트-이미지(T2I) 생성 모델이 실생활의 상식을 반영한 이미지를 생성할 수 있는 능력을 평가하기 위한 새로운 과제와 벤치마크를 제안하며, 이를 Commonsense-T2I라고 명명합니다. "전기가 없는 전구" vs. "전기가 있는 전구"와 같이 동일한 동사 집합을 포함하지만 미묘한 차이가 있는 두 개의 적대적 텍스트 프롬프트가 주어졌을 때, T2I 모델이 시각적 상식 추론을 수행할 수 있는지 평가합니다. 예를 들어, "전구가 꺼져 있다" vs. "전구가 켜져 있다"에 맞는 이미지를 생성할 수 있는지를 확인합니다. Commonsense-T2I는 적대적 도전 과제를 제시하며, 쌍으로 구성된 텍스트 프롬프트와 예상 출력을 제공합니다. 이 데이터셋은 전문가들이 신중하게 수작업으로 선별하고, 상식 유형 및 예상 출력의 가능성과 같은 세분화된 레이블로 주석 처리되어 모델 동작 분석을 지원합니다. 우리는 다양한 최신 T2I 모델을 벤치마크했으며, 놀랍게도 이미지 합성과 실생활 사진 간에는 여전히 큰 격차가 있음을 발견했습니다. 심지어 DALL-E 3 모델도 Commonsense-T2I에서 48.92%에 그쳤으며, Stable Diffusion XL 모델은 24.92%의 정확도만 달성했습니다. 우리의 실험은 GPT로 강화된 프롬프트가 이 도전 과제를 해결할 수 없음을 보여주며, 이러한 결핍의 가능한 원인에 대한 상세한 분석을 포함합니다. 우리는 Commonsense-T2I가 T2I 상식 검사를 위한 고품질 평가 벤치마크로 활용되어 실생활 이미지 생성의 발전을 촉진하기를 기대합니다.
비디오 생성은 이미지 생성과는 다른 독특한 도전 과제들을 가지고 있습니다. 시간적 차원은 프레임 간 광범위한 변화 가능성을 도입하며, 이로 인해 일관성과 연속성이 위반될 수 있습니다. 본 연구에서는 단순한 동작 평가를 넘어, 생성된 비디오가 실제 세계의 비디오처럼 시간이 지남에 따라 새로운 개념의 출현과 그 관계 전이를 포함해야 한다고 주장합니다. 비디오 생성 모델의 시간적 구성성(Temporal Compositionality)을 평가하기 위해, 우리는 TC-Bench라는 벤치마크를 제안합니다. 이 벤치마크는 세심하게 설계된 텍스트 프롬프트, 해당하는 실제 비디오, 그리고 강력한 평가 지표로 구성되어 있습니다. 프롬프트는 장면의 초기 상태와 최종 상태를 명확히 표현함으로써 프레임 개발의 모호성을 줄이고 전이 완료 평가를 단순화합니다. 또한, 프롬프트에 부합하는 실제 비디오를 수집함으로써, TC-Bench의 적용 범위를 텍스트 조건 모델에서 생성적 프레임 보간을 수행할 수 있는 이미지 조건 모델로 확장합니다. 우리는 또한 생성된 비디오에서 구성 요소 전이의 완전성을 측정하기 위한 새로운 지표를 개발했으며, 이 지표는 기존 지표보다 인간 판단과 훨씬 높은 상관 관계를 보여줍니다. 우리의 포괄적인 실험 결과는 대부분의 비디오 생성기가 구성적 변화의 20% 미만을 달성함을 보여주며, 이는 향후 개선을 위한 엄청난 여지를 강조합니다. 우리의 분석은 현재의 비디오 생성 모델이 구성적 변화에 대한 설명을 해석하고 다양한 시간 단계에 걸쳐 여러 구성 요소를 합성하는 데 어려움을 겪고 있음을 나타냅니다.
단일 뷰 대형 재구성 모델(Large Reconstruction Models, LRMs)을 훈련하기 위한 기본 전략은 대규모 합성 3D 자산 데이터셋이나 다중 뷰 캡처 데이터를 사용한 완전 지도 학습을 따릅니다. 이러한 자원들은 훈련 과정을 단순화하지만, 기존 데이터셋을 넘어 확장하기 어렵고 실제 물체 형태 분포를 반드시 대표하지는 않습니다. 이러한 한계를 해결하기 위해, 본 논문에서는 단일 뷰 실세계 이미지를 사용하여 훈련할 수 있는 최초의 LRM 시스템인 Real3D를 소개합니다. Real3D는 기존의 합성 데이터와 다양한 단일 뷰 실세계 이미지 모두를 활용할 수 있는 새로운 자기 훈련 프레임워크를 도입합니다. 우리는 픽셀 수준과 의미 수준에서 LRM을 지도할 수 있는 두 가지 비지도 손실 함수를 제안하며, 이는 3D 그라운드 트루나 새로운 뷰가 없는 훈련 예제에서도 적용 가능합니다. 성능을 더욱 개선하고 이미지 데이터를 확장하기 위해, 우리는 야생 이미지에서 고품질 예제를 수집하는 자동 데이터 큐레이션 접근법을 개발했습니다. 실험 결과, Real3D는 실세계 및 합성 데이터를 포함한 네 가지 다양한 평가 설정에서 이전 연구를 꾸준히 능가하는 성능을 보여줍니다. 여기에는 인-도메인 및 아웃-오브-도메인 형태 모두가 포함됩니다. 코드와 모델은 다음 링크에서 확인할 수 있습니다: https://hwjiang1510.github.io/Real3D/
이 연구는 생성형 AI를 활용한 문맥 학습(In-Context Learning, ICL)에서의 환각(hallucination) 발생률을 추정하는 것에 관한 것이다. ICL에서는 조건부 생성 모델(Conditional Generative Model, CGM)이 데이터셋을 입력받아 이를 기반으로 예측을 수행한다. ICL의 베이지안 해석은 CGM이 잠재 매개변수와 데이터에 대한 알려지지 않은 베이지안 모델의 사후 예측 분포를 계산한다고 가정한다. 이러한 관점에서, 우리는 환각을 실제 잠재 매개변수 하에서 낮은 확률을 가지는 생성된 예측으로 정의한다. 우리는 ICL 문제(즉, CGM, 데이터셋, 예측 질문)를 입력받아 CGM이 환각을 생성할 확률을 추정하는 새로운 방법을 개발한다. 우리의 방법은 모델로부터 질의와 응답을 생성하고, 그 응답의 로그 확률을 평가하는 것만으로도 충분하다. 우리는 이 방법을 대규모 언어 모델을 사용한 합성 회귀 및 자연어 ICL 작업에 대해 실증적으로 평가한다.
트랜스포머의 자기회귀적 추론은 Key-Value(KV) 캐싱을 통해 큰 이점을 얻지만, 모델 크기, 배치 크기, 시퀀스 길이가 증가함에 따라 메모리 병목 현상이 심각해질 수 있습니다. 본 연구에서는 Multi-Query Attention(MQA) 및 Grouped-Query Attention(GQA)을 넘어서는 메모리 사용량 감소를 위해 트랜스포머 레이어 간에 KV 공유를 확장한 새로운 접근 방식인 Multi-Layer Key-Value(MLKV) 공유를 소개합니다. 다양한 NLP 벤치마크와 업트레이닝된 Pythia-160M 변형 모델을 사용한 추론 지표 평가를 통해 MLKV가 최소한의 성능 손실로 메모리 사용량을 크게 줄이며, MQA 대비 KV 캐시 크기를 최대 6배까지 감소시킬 수 있음을 입증했습니다. 이러한 결과는 MLKV가 트랜스포머 모델의 효율적인 대규모 배포에 있어 잠재력을 가지고 있음을 보여줍니다. 코드는 https://github.com/zaydzuhri/pythia-mlkv에서 제공됩니다.
대규모 언어 모델(LLM)의 급속한 발전은 강력하고 도전적인 벤치마크의 필요성을 요구하고 있습니다. Chatbot Arena와 같은 리더보드는 LLM의 응답이 인간의 선호도와 얼마나 잘 일치하는지에 따라 순위를 매깁니다. 그러나 감성 지능, 창의적 글쓰기, 설득력 등과 관련된 많은 작업은 매우 주관적이며 종종 다수의 인간 합의가 부족합니다. 심사위원들은 더 나은 응답이 무엇인지에 대해 화해할 수 없는 의견 차이를 보일 수 있습니다. 이러한 고도로 주관적인 작업에서 LLM의 순위를 매기는 문제를 해결하기 위해, 우리는 새로운 벤치마킹 프레임워크인 '언어 모델 위원회(Language Model Council, LMC)'를 제안합니다. LMC는 민주적 절차를 통해 운영됩니다: 1) 동등한 참여를 통해 테스트 세트를 구성하고, 2) 위원회 구성원 간에 테스트를 실시하며, 3) 집단 배심원으로서 응답을 평가합니다. 우리는 20개의 최신 LLM으로 구성된 위원회를 개방형 감성 지능 작업(대인관계 딜레마에 응답하기)에 배치했습니다. 결과적으로 LMC는 개별 LLM 심사위원보다 더 분리 가능하고, 강건하며, 편향이 적은 순위를 생성하며, 다른 벤치마크에 비해 인간이 설정한 리더보드와 더 일치하는 것으로 나타났습니다.
시각 질의응답(Visual Question Answering, VQA)은 다중모달 AI에서 중요한 과제로, 시각-언어 모델이 시각적 및 텍스트 데이터에 존재하는 지식을 이해하고 추론하는 능력을 테스트하는 데 자주 사용됩니다. 그러나 현재 대부분의 VQA 모델은 주로 영어와 몇 가지 주요 세계 언어에 초점을 맞춘 데이터셋을 사용하며, 이미지도 일반적으로 서구 중심적입니다. 최근 VQA 데이터셋의 언어 범위를 확장하려는 노력이 있었지만, 여전히 저자원 언어의 다양성이 부족합니다. 더 중요한 것은, 이러한 데이터셋이 번역이나 기타 방법을 통해 언어 범위를 확장하더라도 일반적으로 이미지는 동일하게 유지되어 문화적 표현이 제한적이라는 점입니다. 이러한 한계를 해결하기 위해, 우리는 새로운 문화적으로 다양한 다국어 시각 질의응답 벤치마크인 CVQA를 구축했습니다. CVQA는 풍부한 언어와 문화를 포괄하도록 설계되었으며, 데이터 수집 과정에서 원어민과 문화 전문가를 참여시켰습니다. 결과적으로 CVQA는 4개 대륙의 28개 국가에서 수집된 문화 중심의 이미지와 질문을 포함하며, 11개의 문자 체계를 사용하는 26개 언어를 다루고 총 9,000개의 질문을 제공합니다. 그런 다음 여러 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 CVQA에서 벤치마킹했으며, 이 데이터셋이 현재 최첨단 모델들에게도 도전적임을 보여줍니다. 이 벤치마크는 다중모달 모델의 문화적 능력과 편향을 평가하기 위한 탐색적 평가 도구로 사용될 수 있으며, 이 분야에서 문화적 인식과 언어적 다양성을 증진하기 위한 더 많은 연구 노력을 촉진할 것으로 기대됩니다.
우리는 합성된 3D 데이터만으로 학습된 대규모 재구성 모델(LRM)인 LRM-Zero를 소개하며, 이를 통해 고품질의 희소 뷰(sparse-view) 3D 재구성을 달성했습니다. LRM-Zero의 핵심은 단순한 기본 도형에서 무작위 텍스처링 및 증강(예: 높이 필드, 불리언 차이, 와이어프레임 등)을 통해 자동으로 합성된 절차적 3D 데이터셋인 Zeroverse입니다. 이전의 3D 데이터셋(예: Objaverse)이 실제 3D 데이터를 근사하기 위해 인간에 의해 캡처되거나 제작된 것과 달리, Zeroverse는 현실적인 전역 의미론을 완전히 무시하지만, 실제 물체와 유사하거나 그 이상으로 복잡한 기하학적 및 텍스처 세부 사항을 풍부하게 포함합니다. 우리는 완전히 합성된 Zeroverse로 학습된 LRM-Zero가 실제 물체의 재구성에서 Objaverse로 학습된 모델과 경쟁할 만한 높은 시각적 품질을 달성할 수 있음을 입증합니다. 또한, LRM-Zero의 능력과 학습 안정성에 기여하는 Zeroverse의 몇 가지 중요한 설계 선택을 분석합니다. 우리의 연구는 3D 비전의 핵심 작업 중 하나인 3D 재구성이 실제 물체의 의미론 없이도 해결될 수 있는 가능성을 보여줍니다. Zeroverse의 절차적 합성 코드와 인터랙티브 시각화는 https://desaixie.github.io/lrm-zero/에서 확인할 수 있습니다.
일반적으로 말해서, 확산 과정(diffusion process)에 기반한 이미지 생성 모델은 훈련 데이터에서 절대 발생할 수 없는 샘플, 즉 "환각(hallucination)"을 보이는 경우가 많다고 알려져 있습니다. 하지만 이러한 환각은 어디에서 오는 것일까요? 본 논문에서는 우리가 '모드 보간(mode interpolation)'이라고 명명한 확산 모델의 특정 실패 모드를 연구합니다. 구체적으로, 확산 모델이 훈련 세트 내의 인접한 데이터 모드 사이를 부드럽게 "보간"하여 원래 훈련 분포의 지지 집합(support)을 완전히 벗어난 샘플을 생성한다는 사실을 발견했습니다. 이러한 현상은 확산 모델이 실제 데이터에는 존재하지 않는 아티팩트(즉, 환각)를 생성하게 만듭니다. 우리는 이 현상의 원인과 그 발현을 체계적으로 연구합니다. 1차원 및 2차원 가우시안 분포에 대한 실험을 통해, 확산 모델의 디코더에서 불연속적인 손실 경관(loss landscape)이 이러한 환각을 유발하는 영역을 어떻게 만드는지 보여줍니다. 다양한 형태의 인공 데이터셋에 대한 실험을 통해, 환각이 실제로는 존재하지 않는 형태의 조합을 생성하게 되는 과정을 설명합니다. 마지막으로, 확산 모델이 실제로 지지 집합을 벗어나 환각을 생성할 때 이를 알고 있다는 사실을 보여줍니다. 이는 생성된 샘플의 궤적에서 최종 몇 단계의 역방향 샘플링 과정 동안 높은 분산으로 포착됩니다. 이러한 분산을 측정하는 간단한 지표를 사용하여, 생성 시점에서 95% 이상의 환각을 제거하면서도 지지 집합 내 샘플의 96%를 유지할 수 있습니다. 우리는 MNIST와 2차원 가우시안 데이터셋에 대한 실험을 통해, 이러한 환각(및 그 제거)이 합성 데이터에 대한 재귀적 훈련의 붕괴(및 안정화)에 미치는 영향을 보여주며 탐구를 마무리합니다. 코드는 https://github.com/locuslab/diffusion-model-hallucination에서 공개합니다.
초저비트레이트 이미지 압축은 도전적이고 요구 사항이 높은 주제입니다. 대형 멀티모달 모델(Large Multimodal Models, LMMs)의 발전과 함께, 이미지-텍스트-이미지의 교차 모달리티 압축(Cross Modality Compression, CMC) 패러다임이 등장했습니다. 이는 전통적인 코덱에 비해 이미지 데이터 크기를 0.1% 이하로 줄일 수 있는 의미 수준의 압축 방식으로, 강력한 응용 가능성을 지니고 있습니다. 그러나 CMC는 원본 이미지와의 일관성 및 지각적 품질 측면에서 일부 결점을 가지고 있습니다. 이를 해결하기 위해, 우리는 이미지-텍스트(Image-to-Text, I2T) 및 텍스트-이미지(Text-to-Image, T2I) 모델의 협력 성능을 평가하기 위한 벤치마크인 CMC-Bench를 소개합니다. 이 벤치마크는 각각 18,000개와 40,000개의 이미지를 포함하며, 6개의 주요 I2T 모델과 12개의 T2I 모델을 검증하고, 전문가가 주석을 단 160,000개의 주관적 선호도 점수를 포함합니다. 초저비트레이트에서, 본 논문은 일부 I2T와 T2I 모델의 조합이 최첨단 시각 신호 코덱을 능가함을 입증하며, 동시에 LMMs가 압축 작업을 위해 더 최적화될 수 있는 부분을 강조합니다. 우리는 LMM 개발자들이 이 테스트에 참여하여 시각 신호 코덱 프로토콜의 진화를 촉진할 것을 권장합니다.
주체 기반 텍스트-이미지 생성 분야에서 최근 연구들은 수많은 이미지 쌍을 포함한 합성 데이터셋을 통해 모델을 학습시켜 우수한 성능을 달성했습니다. 이러한 데이터셋으로 학습된 생성 모델은 특정 주체에 대해 임의의 테스트 이미지에서 텍스트와 정렬된 이미지를 제로샷 방식으로 생성할 수 있습니다. 이는 테스트 이미지에 대한 추가 미세 조정이 필요한 방법들보다도 더 나은 성능을 보입니다. 그러나 이러한 데이터셋을 생성하는 비용은 대부분의 연구자들에게 부담이 됩니다. 단일 학습 쌍을 생성하기 위해, 현재의 방법들은 미리 학습된 텍스트-이미지 모델을 주체 이미지에 대해 미세 조정하여 세부 사항을 포착한 후, 이 미세 조정된 모델을 사용하여 창의적인 텍스트 프롬프트를 기반으로 동일한 주체의 이미지를 생성합니다. 결과적으로 수백만 개의 주체를 포함하는 대규모 데이터셋을 구축하려면 수십만 GPU 시간이 필요할 수 있습니다. 이 문제를 해결하기 위해, 우리는 주체 기반 편집 및 생성을 위한 데이터셋을 효율적으로 구축하는 방법인 Toffee를 제안합니다. 구체적으로, 우리의 데이터셋 구축은 주체 수준의 미세 조정이 필요하지 않습니다. 두 개의 생성 모델을 사전 학습한 후, 우리는 무한한 수의 고품질 샘플을 생성할 수 있습니다. 우리는 주체 기반 이미지 편집 및 생성을 위한 첫 번째 대규모 데이터셋을 구축했으며, 이 데이터셋은 500만 개의 이미지 쌍, 텍스트 프롬프트, 그리고 마스크를 포함합니다. 우리의 데이터셋은 이전 최대 데이터셋의 5배 크기이지만, 우리의 비용은 수만 GPU 시간 더 적습니다. 제안된 데이터셋을 테스트하기 위해, 우리는 주체 기반 이미지 편집 및 생성을 모두 수행할 수 있는 모델도 제안합니다. 우리가 제안한 데이터셋으로 모델을 간단히 학습시킴으로써, 경쟁력 있는 결과를 얻었으며, 이는 제안된 데이터셋 구축 프레임워크의 효과를 입증합니다.