번역이 포함된 일일 선별된 AI 연구 논문
확산 모델(Diffusion models)은 이미지 및 비디오 합성 분야의 주요 발전 동력이지만, 느린 추론 속도가 문제로 지적되어 왔습니다. 최근 도입된 적대적 확산 증류(Adversarial Diffusion Distillation, ADD)와 같은 증류 방법은 다단계 추론에서 단일 단계 추론으로 모델을 전환하는 것을 목표로 하지만, 고정된 사전 학습된 DINOv2 판별자에 의존하기 때문에 비용이 많이 들고 최적화가 어려운 단점이 있습니다. 우리는 이러한 ADD의 한계를 극복한 새로운 증류 접근법인 잠재적 적대적 확산 증류(Latent Adversarial Diffusion Distillation, LADD)를 소개합니다. 픽셀 기반의 ADD와 달리, LADD는 사전 학습된 잠재 확산 모델의 생성적 특징을 활용합니다. 이 접근법은 훈련을 단순화하고 성능을 향상시켜 고해상도 다중 종횡비 이미지 합성을 가능하게 합니다. 우리는 LADD를 Stable Diffusion 3 (8B)에 적용하여 SD3-Turbo를 개발했으며, 이는 최첨단 텍스트-이미지 생성기의 성능을 단 4번의 비지도 샘플링 단계만으로도 달성하는 빠른 모델입니다. 또한, 우리는 LADD의 스케일링 동작을 체계적으로 조사하고 이미지 편집 및 인페인팅과 같은 다양한 응용 분야에서의 효과를 입증합니다.
인간 피드백을 통한 강화 학습(RLHF)은 사전 학습된 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 강력한 방법으로 입증되었습니다. 그러나 RLHF로 모델을 학습시키는 것은 계산 비용이 많이 들고 전반적으로 복잡한 과정입니다. 본 연구에서는 Hu et al. [2021]이 제안한 매개변수 효율적 방법인 Low-Rank Adaptation(LoRA)를 사용하여 기본 모델을 학습시키는 RLHF를 연구합니다. 우리는 LoRA를 사용하여 보상 모델 학습과 강화 학습을 수행하는 "매개변수 효율적 강화 학습"(PERL) 설정을 조사합니다. PERL을 기존의 미세 조정(전체 조정)과 비교하여 보상 모델링 및 강화 학습을 위한 2개의 새로운 데이터셋을 포함한 7개의 벤치마크에서 다양한 구성을 평가합니다. 우리는 PERL이 기존 RLHF 설정과 동등한 성능을 보이면서도 더 빠르고 적은 메모리로 학습할 수 있음을 발견했습니다. 이를 통해 RLHF의 높은 성능을 유지하면서도 대규모 언어 모델에 대한 정렬 기술로의 채택을 제한하는 계산 부담을 줄일 수 있습니다. 또한 RLHF 연구를 촉진하기 위해 "Taskmaster Coffee"와 "Taskmaster Ticketing"이라는 두 가지 새로운 선호도 데이터셋을 공개합니다.
대규모 언어 모델(LLM)에 저장된 지식을 효율적이고 정확하게 업데이트하는 것은 현재 가장 시급한 연구 과제 중 하나입니다. 본 논문은 분산된 에피소드 메모리를 통해 LLM을 강화하는 새로운 뇌 영감 아키텍처인 라리마(Larimar)를 제안합니다. 라리마의 메모리는 계산 비용이 많이 드는 재학습이나 미세 조정 없이도 지식을 동적으로 원샷(one-shot) 업데이트할 수 있게 해줍니다. 여러 사실 편집 벤치마크에서의 실험 결과는 라리마가 도전적인 순차 편집 설정에서도 가장 경쟁력 있는 기준 모델들과 비슷한 정확도를 달성할 뿐만 아니라, 속도 면에서도 우수함을 보여줍니다. 기본 LLM에 따라 4~10배의 속도 향상을 이루며, 제안된 아키텍처가 단순하고 LLM에 구애받지 않아 일반적으로 적용 가능하다는 점에서 유연성도 뛰어납니다. 또한, 라리마를 통한 선택적 사실 삭제 및 입력 컨텍스트 길이 일반화 메커니즘을 제시하고 그 효과를 입증합니다.
우리는 3D 객체 주위를 도는 궤도 비디오의 고해상도 이미지-투-다중뷰 생성을 위한 잠재 비디오 확산 모델인 Stable Video 3D(SV3D)를 소개합니다. 최근 3D 생성 연구에서는 새로운 뷰 합성(NVS)과 3D 최적화를 위해 2D 생성 모델을 적용하는 기술을 제안했습니다. 그러나 이러한 방법들은 제한된 뷰나 일관되지 않은 NVS로 인해 여러 단점을 가지고 있어 3D 객체 생성의 성능에 영향을 미칩니다. 본 연구에서는 비디오 모델의 일반화 및 다중뷰 일관성을 활용하면서 NVS를 위한 명시적 카메라 제어를 추가하여, 이미지-투-비디오 확산 모델을 새로운 다중뷰 합성 및 3D 생성에 적용하는 SV3D를 제안합니다. 또한 SV3D와 그 NVS 출력을 이미지-투-3D 생성에 사용하기 위한 개선된 3D 최적화 기술을 제안합니다. 2D 및 3D 메트릭을 포함한 여러 데이터셋에 대한 광범위한 실험 결과와 사용자 연구는 SV3D가 NVS 및 3D 재구성에서 기존 연구 대비 최첨단 성능을 보임을 입증합니다.
텍스트-이미지 생성을 위한 확산 모델의 최근 발전을 바탕으로, 단일 참조 이미지만으로도 특정 정체성을 정확하게 포착하는 정체성 보존 개인화 기술이 상당한 진전을 이루었습니다. 그러나 기존 방법들은 주로 참조 이미지를 텍스트 임베딩 공간 내에서 통합함으로써 이미지와 텍스트 정보가 복잡하게 얽히게 되어, 정체성 충실도와 의미 일관성을 동시에 보존하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 정체성 보존 개인화를 위한 ID-의미 분리 패러다임인 Infinite-ID를 제안합니다. 구체적으로, 우리는 확산 모델의 기존 텍스트 교차 주의 모듈을 비활성화하면서 충분한 ID 정보를 포착하기 위한 추가적인 이미지 교차 주의 모듈을 도입하여 정체성 강화 학습을 소개합니다. 이를 통해 이미지 스트림이 참조 이미지로부터 제공된 정체성을 충실히 표현하면서도 텍스트 입력으로 인한 간섭을 최소화합니다. 또한, 우리는 혼합 주의 모듈과 AdaIN-mean 연산을 결합한 특징 상호작용 메커니즘을 도입하여 두 스트림을 원활하게 통합합니다. 이 메커니즘은 정체성 충실도와 의미 일관성을 강화할 뿐만 아니라 생성된 이미지의 스타일을 편리하게 제어할 수 있게 합니다. 원본 사진 생성과 스타일 이미지 생성에 대한 광범위한 실험 결과는 우리가 제안한 방법의 우수한 성능을 입증합니다.
시각적 인코딩은 대규모 멀티모달 모델(LMMs)이 시각적 세계를 이해하는 데 있어 기초를 이룹니다. 기존의 LMMs는 고정된 크기와 제한된 해상도로 이미지를 처리하는 반면, 이 방향에서의 최근 연구들은 적응성, 효율성, 심지어 정확성 측면에서 제한적입니다. 본 연구에서는 먼저 GPT-4V와 LLaVA-1.5를 대표적인 예로 삼아 그들의 시각적 인코딩 전략에 내재된 체계적인 결함을 드러냅니다. 이러한 문제를 해결하기 위해, 우리는 어떤 종횡비와 높은 해상도의 이미지도 효율적으로 인식할 수 있는 대규모 멀티모달 모델인 LLaVA-UHD를 제안합니다. LLaVA-UHD는 세 가지 주요 구성 요소를 포함합니다: (1) 원본 해상도 이미지를 더 작고 가변 크기의 조각으로 나누어 효율적이고 확장 가능한 인코딩을 가능하게 하는 이미지 모듈화 전략, (2) 시각적 인코더에서 나온 이미지 토큰을 더욱 압축하는 압축 모듈, 그리고 (3) LLM을 위한 조각 토큰을 조직화하는 공간적 스키마. 포괄적인 실험 결과, LLaVA-UHD는 2-3배 더 많은 데이터로 학습된 기존 LMMs를 9개의 벤치마크에서 능가하는 성능을 보여줍니다. 특히, LLaVA-1.5 336x336을 기반으로 구축된 우리의 모델은 6배 더 큰 해상도(즉, 672x1088)의 이미지를 단 94%의 추론 계산량으로 지원하며, TextVQA에서 6.4%의 정확도 향상을 달성합니다. 또한, 이 모델은 학술 환경에서 8개의 A100 GPU를 사용하여 23시간 내에 효율적으로 학습 가능합니다(LLaVA-1.5의 26시간 대비). 우리는 데이터와 코드를 https://github.com/thunlp/LLaVA-UHD에서 공개합니다.
우리는 이미지 생성을 위한 명시적 조명 제어 방법인 LightIt를 소개한다. 최근의 생성 방법들은 조명 제어가 부족한데, 이는 전체 분위기 설정이나 영화적 외관과 같은 이미지 생성의 다양한 예술적 측면에서 중요하다. 이러한 한계를 극복하기 위해, 우리는 생성 과정을 쉐이딩(shading)과 노멀 맵(normal map)에 조건화하는 방법을 제안한다. 우리는 캐스트 섀도우(cast shadows)를 포함한 단일 반사(single bounce) 쉐이딩으로 조명을 모델링한다. 먼저, 실제 이미지와 쉐이딩 쌍의 데이터셋을 생성하기 위해 쉐이딩 추정 모듈을 학습시킨다. 그런 다음, 추정된 쉐이딩과 노멀을 입력으로 사용하여 제어 네트워크를 학습시킨다. 우리의 방법은 다양한 장면에서 고품질의 이미지 생성과 조명 제어를 보여준다. 또한, 우리는 생성된 데이터셋을 사용하여 이미지와 목표 쉐이딩에 조건화된 아이덴티티 보존(identity-preserving) 리라이팅(relighting) 모델을 학습시킨다. 우리의 방법은 일관된 조명을 가진 이미지의 생성을 가능하게 하는 최초의 방법이며, 특화된 최신 리라이팅 방법과 동등한 성능을 보인다.
오픈 도메인 3D 객체 합성은 데이터의 부족과 높은 계산 복잡성으로 인해 이미지 합성에 비해 뒤처져 왔습니다. 이러한 격차를 해소하기 위해 최근 연구들은 멀티뷰 디퓨전을 탐구했지만, 3D 일관성, 시각적 품질 또는 효율성 중 하나 이상에서 부족한 경우가 많았습니다. 본 논문은 SDEdit의 3D 버전으로 기능하는 MVEdit을 제안하며, 멀티뷰 이미지를 공동으로 노이즈 제거하고 고품질의 텍스처 메쉬를 출력하기 위해 ancestral sampling을 사용합니다. 기존의 2D 디퓨전 모델을 기반으로 구축된 MVEdit은 학습이 필요 없는 3D 어댑터를 통해 3D 일관성을 달성합니다. 이 어댑터는 마지막 타임스텝의 2D 뷰를 일관된 3D 표현으로 변환한 다음, 렌더링된 뷰를 사용하여 다음 타임스텝의 2D 뷰를 조건화하며, 시각적 품질을 저하시키지 않습니다. 2-5분의 추론 시간으로 이 프레임워크는 품질과 속도 사이에서 스코어 디스틸레이션보다 더 나은 균형을 달성합니다. MVEdit은 매우 다재다능하고 확장 가능하며, 텍스트/이미지에서 3D 생성, 3D에서 3D 편집, 고품질 텍스처 합성 등 다양한 응용 분야에 적용할 수 있습니다. 특히, 평가 결과 이미지에서 3D 생성 및 텍스트 기반 텍스처 생성 작업에서 최첨단 성능을 보여줍니다. 또한, 제한된 리소스로 작은 3D 데이터셋에서 2D 잠재 디퓨전 모델을 미세 조정하는 방법을 소개하여, 빠른 저해상도 텍스트에서 3D 초기화를 가능하게 합니다.
뇌 활동으로부터 시각적 지각을 재구성하는 기술은 크게 발전했지만, 이러한 방법의 실용적 유용성은 제한적이었습니다. 이는 각 피실험자마다 모델이 독립적으로 훈련되며, 고품질 결과를 얻기 위해 수십 시간의 비용이 많이 드는 fMRI 훈련 데이터가 필요하기 때문입니다. 본 연구는 단 1시간의 fMRI 훈련 데이터만으로도 고품질 재구성을 가능하게 합니다. 우리는 7명의 피실험자에 걸쳐 모델을 사전 훈련한 후, 새로운 피실험자의 최소한의 데이터로 미세 조정을 수행합니다. 우리의 새로운 기능적 정렬 절차는 모든 뇌 데이터를 공통 피실험자 잠재 공간으로 선형 매핑한 후, CLIP 이미지 공간으로의 공유 비선형 매핑을 수행합니다. 그런 다음 CLIP 공간에서 픽셀 공간으로의 매핑은 Stable Diffusion XL을 미세 조정하여 텍스트 대신 CLIP 잠재 변수를 입력으로 받도록 함으로써 이루어집니다. 이 접근 방식은 제한된 훈련 데이터로도 피실험자 간 일반화를 개선하며, 단일 피실험자 접근 방식과 비교하여 최첨단 이미지 검색 및 재구성 지표를 달성합니다. MindEye2는 MRI 시설을 단 한 번 방문하는 것만으로도 정확한 지각 재구성이 가능함을 보여줍니다. 모든 코드는 GitHub에서 확인할 수 있습니다.
여러 파운데이션 모델(대형 언어 모델 및 시각-언어 모델)을 새로운 통합 메모리 메커니즘과 조화시키는 것이 어떻게 도전적인 비디오 이해 문제, 특히 긴 비디오에서의 장기적 시간적 관계를 포착하는 문제를 해결할 수 있는지 탐구합니다. 특히, 제안된 다중모달 에이전트 VideoAgent는: 1) 비디오의 일반적인 시간적 이벤트 설명과 객체 중심 추적 상태를 모두 저장하기 위해 구조화된 메모리를 구축하고; 2) 입력된 작업 쿼리가 주어지면, 비디오 세그먼트 위치 지정 및 객체 메모리 쿼리와 같은 도구를 다른 시각적 파운데이션 모델과 함께 사용하여 작업을 상호작용적으로 해결하며, 이는 LLM의 제로샷 도구 사용 능력을 활용합니다. VideoAgent는 여러 장기적 비디오 이해 벤치마크에서 인상적인 성능을 보여주며, NExT-QA에서 평균 6.6%, EgoSchema에서 26.0%의 성능 향상을 보여주어, 오픈소스 모델과 Gemini 1.5 Pro를 포함한 사설 모델 간의 격차를 줄였습니다.
머신러닝(ML)의 발전은 신경망 모델의 규모 확장에 의해 주도되어 왔습니다. 이러한 규모 확장은 병렬로 작동하는 장치 간의 고대역폭 통신을 필요로 하는 ML 접근법을 수용하기 위해 점점 더 대담한 엔지니어링 업적에 의해 가능해졌습니다. 본 연구에서는 ML 모델을 위한 공동 설계 모듈식 아키텍처와 훈련 접근법을 제안하며, 이를 DIstributed PAth COmposition(DiPaCo)라고 명명합니다. 훈련 과정에서 DiPaCo는 공유 모듈 집합을 통한 경로를 통해 계산을 분산합니다. Local-SGD에서 영감을 받은 최적화 기법(DiLoCo)과 함께, 이 접근법은 통신을 극적으로 줄이면서 모듈을 동기화 상태로 유지함으로써, 연결 상태가 좋지 않고 이질적인 작업자 간의 훈련을 용이하게 합니다. 또한 작업자 장애와 선점에 대한 견고성을 보장하는 설계를 갖추고 있습니다. 추론 시에는 각 입력에 대해 단일 경로만 실행하면 되며, 모델 압축이 필요하지 않습니다. 우리는 이 접근법을 덜 동기적이고 더 모듈화된 대규모 학습 패러다임을 향한 첫 번째 프로토타입으로 간주합니다. 널리 사용되는 C4 벤치마크에서의 실험 결과, 동일한 훈련 스텝 수이지만 더 짧은 실제 시간 동안, DiPaCo는 1억 5천만 개의 매개변수를 가진 256개의 가능한 경로 중 하나를 선택함으로써 10억 개의 매개변수를 가진 밀집 트랜스포머 언어 모델의 성능을 능가하는 것으로 나타났습니다.
신경 렌더링(neural rendering) 분야는 생성 모델(generative models)과 미분 가능 렌더링(differentiable rendering) 기술의 발전으로 상당한 진전을 이루었습니다. 2D 디퓨전(diffusion)은 성공을 거두었지만, 통합된 3D 디퓨전 파이프라인은 아직 확립되지 않았습니다. 본 논문은 이러한 격차를 해소하고 빠르고 고품질이며 일반적인 조건부 3D 생성을 가능하게 하는 LN3Diff라는 새로운 프레임워크를 소개합니다. 우리의 접근 방식은 3D 인식 아키텍처와 변분 오토인코더(VAE)를 활용하여 입력 이미지를 구조화되고 압축된 3D 잠재 공간으로 인코딩합니다. 이 잠재 공간은 트랜스포머 기반 디코더에 의해 고용량 3D 신경 필드로 디코딩됩니다. 이 3D 인식 잠재 공간에서 디퓨전 모델을 학습함으로써, 우리의 방법은 ShapeNet에서 3D 생성에 대해 최첨단 성능을 달성하고 다양한 데이터셋에서 단안 3D 재구성 및 조건부 3D 생성에서 우수한 성능을 보여줍니다. 또한, 인스턴스별 최적화가 필요 없어 기존 3D 디퓨전 방법보다 추론 속도에서 우수합니다. 우리가 제안한 LN3Diff는 3D 생성 모델링에서 중요한 진전을 이루었으며, 3D 비전 및 그래픽 작업에서 다양한 응용 가능성을 가지고 있습니다.
본 논문은 사전 학습된 비디오 확산 모델을 활용하여 확장 가능한 3D 생성 모델을 구축하는 새로운 패러다임을 제시합니다. 기초 3D 생성 모델 개발의 주요 장애물은 3D 데이터의 제한된 가용성입니다. 이미지, 텍스트 또는 비디오와 달리 3D 데이터는 쉽게 접근할 수 없고 획득하기 어렵습니다. 이로 인해 다른 유형의 데이터의 방대한 양에 비해 규모에서 상당한 차이가 발생합니다. 이 문제를 해결하기 위해, 우리는 텍스트, 이미지 및 비디오의 방대한 양으로 학습된 비디오 확산 모델을 3D 데이터의 지식 소스로 사용할 것을 제안합니다. 미세 조정을 통해 다중 뷰 생성 능력을 해제하여 대규모 합성 다중 뷰 데이터셋을 생성하고, 이를 통해 피드포워드 3D 생성 모델을 학습시킵니다. 제안된 모델인 VFusion3D는 약 300만 개의 합성 다중 뷰 데이터로 학습되어 단일 이미지에서 몇 초 만에 3D 자산을 생성할 수 있으며, 현재의 최첨단 피드포워드 3D 생성 모델과 비교하여 우수한 성능을 달성합니다. 사용자들은 70% 이상의 경우에서 우리의 결과를 선호했습니다.