번역이 포함된 일일 선별된 AI 연구 논문
대조 학습(contrastive learning)은 이미지와 텍스트 임베딩의 정렬을 통해 효과적인 시각적 표현을 학습하는 혁신적인 방법으로 부상했습니다. 그러나 이미지와 텍스트 쌍 간의 대조 손실(contrastive loss)에서의 쌍별 유사도 계산은 계산상의 어려움을 야기합니다. 본 논문은 웹 규모의 이미지-텍스트 데이터를 이용한 시각 모델의 새로운 약한 감독(weakly supervised) 사전 학습 방법을 제안합니다. 제안된 방법은 이미지-텍스트 데이터에 대한 사전 학습을 분류 작업으로 재구성합니다. 결과적으로, 대조 손실에서의 쌍별 유사도 계산이 필요 없어져 웹 규모 데이터에 대한 대조 학습 대비 2.7배의 학습 속도 향상을 달성합니다. 탐지(detection) 및 분할(segmentation)을 포함한 다양한 시각 작업에 걸친 광범위한 실험을 통해, 제안된 방법이 높은 표현 품질을 유지함을 입증합니다. 소스 코드와 사전 학습된 모델 가중치 및 학습 레시피는 https://github.com/apple/corenet에서 확인할 수 있습니다.
우리는 텍스트-이미지 생성을 위한 새로운 튜닝 프리 ID 커스터마이제이션 방법인 Pure and Lightning ID 커스터마이제이션(PuLID)을 제안한다. PuLID는 표준 디퓨전 브랜치와 Lightning T2I 브랜치를 통합하여 대조 정렬 손실(contrastive alignment loss)과 정확한 ID 손실(accurate ID loss)을 도입함으로써, 원본 모델에 대한 방해를 최소화하고 높은 ID 충실도를 보장한다. 실험 결과, PuLID는 ID 충실도와 편집 가능성 모두에서 우수한 성능을 달성함을 보여준다. PuLID의 또 다른 매력적인 특징은 ID 삽입 전후의 이미지 요소(예: 배경, 조명, 구도, 스타일)가 가능한 한 일관되게 유지된다는 점이다. 코드와 모델은 https://github.com/ToTheBeginning/PuLID에서 제공될 예정이다.
대조적 언어-이미지 사전 학습(CLIP)의 성공은 이미지와 캡션 간의 짝짓기로부터의 감독에 의존하며, 이는 웹 크롤링 데이터에서 노이즈가 있는 경향이 있습니다. 우리는 데이터 전문가 혼합(Mixture of Data Experts, MoDE)을 제시하고 클러스터링을 통해 CLIP 데이터 전문가 시스템을 학습시킵니다. 각 데이터 전문가는 하나의 데이터 클러스터에서 학습되며, 다른 클러스터의 거짓 부정 노이즈에 덜 민감합니다. 추론 시에는 작업 메타데이터와 클러스터 조건 간의 상관관계를 통해 결정된 가중치를 적용하여 이들의 출력을 앙상블합니다. 상관관계를 정확하게 추정하기 위해, 하나의 클러스터 내 샘플들은 의미적으로 유사해야 하지만, 데이터 전문가의 수는 여전히 학습과 추론에 적절해야 합니다. 이를 위해 우리는 인간 언어의 온톨로지를 고려하고, 각 데이터 전문가를 대략적인 수준에서 표현하기 위해 세분화된 클러스터 중심을 사용할 것을 제안합니다. 실험 연구는 ViT-B/16에서 네 개의 CLIP 데이터 전문가가 OpenAI CLIP와 OpenCLIP의 ViT-L/14보다 제로샷 이미지 분류에서 더 나은 성능을 보이지만, 더 적은 (<35\%) 학습 비용으로 가능함을 보여줍니다. 한편, MoDE는 모든 데이터 전문가를 비동기적으로 학습할 수 있으며, 새로운 데이터 전문가를 유연하게 포함할 수 있습니다. 코드는 https://github.com/facebookresearch/MetaCLIP/tree/main/mode에서 확인할 수 있습니다.
확산 모델의 급속한 발전은 다양한 응용 분야를 촉발시켰다. 특히, ID 보존 텍스트-이미지 생성(ID-T2I)은 AI 초상화 및 광고와 같은 광범위한 응용 시나리오로 인해 상당한 주목을 받고 있다. 기존의 ID-T2I 방법들이 인상적인 결과를 보여주었지만, 몇 가지 주요 과제가 여전히 남아 있다: (1) 참조 초상화의 ID 특성을 정확하게 유지하기 어렵고, (2) 생성된 이미지가 특히 ID 보존을 강제할 때 미적 매력이 부족하며, (3) LoRA 기반 및 Adapter 기반 방법을 동시에 호환할 수 없는 한계가 있다. 이러한 문제를 해결하기 위해, 우리는 ID-T2I 성능을 향상시키기 위한 일반적인 피드백 학습 프레임워크인 ID-Aligner를 제안한다. ID 특성 손실 문제를 해결하기 위해, 우리는 얼굴 탐지 및 인식 모델의 피드백을 활용하여 생성된 ID 보존을 개선하는 ID 일관성 보상 미세 조정을 도입한다. 더 나아가, 인간이 주석을 단 선호도 데이터와 자동으로 구성된 캐릭터 구조 생성에 대한 피드백을 활용하여 미적 조정 신호를 제공하는 ID 미적 보상 미세 조정을 제안한다. 보편적인 피드백 미세 조정 프레임워크 덕분에, 우리의 방법은 LoRA 및 Adapter 모델 모두에 쉽게 적용될 수 있으며, 일관된 성능 향상을 달성한다. SD1.5 및 SDXL 확산 모델에 대한 광범위한 실험을 통해 우리 접근법의 효과성을 검증하였다. 프로젝트 페이지: \url{https://idaligner.github.io/}
확산 모델의 등장은 이미지 및 비디오 생성 분야의 발전을 크게 촉진했습니다. 최근에는 텍스트-투-비디오 생성 및 비디오 모션 제어를 포함한 제어 가능한 비디오 생성에 대한 여러 연구가 진행되었으며, 그 중 카메라 모션 제어는 중요한 주제 중 하나입니다. 그러나 기존의 카메라 모션 제어 방법들은 시간적 카메라 모듈을 학습하는 데 의존하며, 비디오 생성 모델의 방대한 파라미터 양으로 인해 상당한 계산 자원이 필요합니다. 또한, 기존 방법들은 학습 과정에서 카메라 모션 유형을 미리 정의하므로 카메라 제어의 유연성이 제한됩니다. 따라서 학습 비용을 줄이고 유연한 카메라 제어를 달성하기 위해, 우리는 학습이 필요 없는 새로운 비디오 모션 전이 모델인 COMD를 제안합니다. 이 모델은 소스 비디오에서 카메라 모션과 객체 모션을 분리하고, 추출된 카메라 모션을 새로운 비디오에 전이합니다. 먼저, 단일 소스 비디오에서 카메라 모션을 추출하기 위한 원샷 카메라 모션 분리 방법을 제안합니다. 이 방법은 움직이는 객체를 배경으로부터 분리하고, 배경의 모션을 기반으로 움직이는 객체 영역에서의 카메라 모션을 푸아송 방정식을 해결하여 추정합니다. 또한, 유사한 카메라 모션을 가진 여러 비디오에서 공통적인 카메라 모션을 추출하기 위한 퓨샷 카메라 모션 분리 방법을 제안합니다. 이 방법은 윈도우 기반 클러스터링 기술을 사용하여 여러 비디오의 시간적 주의 맵에서 공통적인 특징을 추출합니다. 마지막으로, 다양한 유형의 카메라 모션을 결합하기 위한 모션 결합 방법을 제안하여, 우리 모델이 더욱 제어 가능하고 유연한 카메라 제어를 가능하게 합니다. 광범위한 실험을 통해, 우리의 학습이 필요 없는 접근 방식이 카메라-객체 모션을 효과적으로 분리하고, 분리된 카메라 모션을 다양한 제어 가능한 비디오 생성 작업에 적용하여 유연하고 다양한 카메라 모션 제어를 달성할 수 있음을 입증했습니다.
디퓨전 모델은 텍스트 기반 합성 작업에서 상당한 발전을 이루었습니다. 그러나 사용자가 제공한 이미지를 편집하는 것은 여전히 어려운 과제로 남아 있습니다. 이는 디퓨전 모델의 고차원 노이즈 입력 공간이 이미지 역변환이나 공간적 편집에 자연스럽게 적합하지 않기 때문입니다. 본 연구에서는 디퓨전 모델을 사용하여 입력 이미지의 공간적 편집을 촉진하는 이미지 표현 방식을 제안합니다. 구체적으로, 우리는 입력 이미지를 충실하게 재구성할 수 있는 "이미지 요소"로 인코딩하는 방법을 학습합니다. 이러한 요소는 사용자가 직관적으로 편집할 수 있으며, 디퓨전 모델에 의해 현실적인 이미지로 디코딩됩니다. 우리는 객체 크기 조정, 재배치, 드래그, 가림 제거, 제거, 변형 및 이미지 합성과 같은 다양한 이미지 편집 작업에서 우리의 표현 방식의 효과를 보여줍니다. 프로젝트 페이지: https://jitengmu.github.io/Editable_Image_Elements/
인물 매팅(Matting)은 이미지 및 비디오 처리의 기초적인 작업으로, 입력에서 인물 전경 픽셀을 추출하는 과정입니다. 기존 연구들은 추가적인 지침을 통해 정확도를 개선하거나 단일 인스턴스에 대한 프레임 간 시간적 일관성을 향상시키는 데 초점을 맞췄습니다. 본 논문에서는 새로운 프레임워크인 MaGGIe(Masked Guided Gradual Human Instance Matting)를 제안합니다. 이 프레임워크는 각 인물 인스턴스에 대해 점진적으로 알파 매트(alpha matte)를 예측하면서도 계산 비용, 정밀도, 일관성을 유지합니다. 우리의 방법은 트랜스포머 어텐션(transformer attention)과 희소 컨볼루션(sparse convolution)을 포함한 현대적인 아키텍처를 활용하여 메모리와 지연 시간을 폭발적으로 증가시키지 않으면서도 모든 인스턴스 매트를 동시에 출력합니다. 다중 인스턴스 시나리오에서도 일정한 추론 비용을 유지하면서, 우리의 프레임워크는 제안된 합성 벤치마크에서 강력하고 다재다능한 성능을 달성합니다. 더 높은 품질의 이미지 및 비디오 매팅 벤치마크와 함께, 공개적으로 이용 가능한 소스로부터의 새로운 다중 인스턴스 합성 접근법을 도입하여 실제 시나리오에서 모델의 일반화 능력을 향상시켰습니다.
스펙티브 디코딩(speculative decoding)은 대규모 언어 모델의 호스팅에서 지연 시간과 처리량을 개선하기 위한 강력한 방법으로 부상했습니다. 그러나 기존 구현 대부분은 단일 시퀀스 생성에 초점을 맞추고 있습니다. 실제 생성형 AI 애플리케이션은 종종 다중 응답을 요구하며, 스펙티브 디코딩을 배치 설정에서 수행하면서도 지연 시간 이점을 유지하는 것은 사소하지 않은 과제입니다. 본 논문은 다중 시퀀스 생성 지연 시간에서 새로운 최첨단 기술을 제시하는 배치 스펙티브 디코딩 시스템을 설명하며, 시간 예산 내에서 우수한 GPU 활용률과 생성 품질을 입증합니다. 예를 들어, 단일 A100 GPU에서 7.8B 크기의 모델을 사용하고 배치 크기가 8일 때, 각 시퀀스는 토큰당 평균 5.8ms의 속도로 생성되며, 전체 처리량은 초당 1.1K 토큰입니다. 이러한 결과는 최첨단 지연 시간을 나타내며, 최적화된 일반 디코딩 대비 2.15배의 속도 향상을 보여줍니다. 일반 디코딩이 완료하지 못하는 시간 예산 내에서, 우리 시스템은 HumanEval Pass@First 43%와 Pass@All 61%의 시퀀스를 생성할 수 있으며, 이는 단일 시퀀스 스펙티브 디코딩으로 가능한 것을 훨씬 능가합니다. 디코딩 중 최대 GPU 활용률은 15.8%에 달하며, 이는 일반 디코딩의 최고치보다 3배 이상, 단일 시퀀스 스펙티브 디코딩의 약 10배에 해당합니다.
컨텍스트 내 학습(In-context learning, ICL) 접근법은 일반적으로 프롬프팅을 활용하여 디코더 전용 언어 모델의 생성을 참조 정보에 맞게 조정합니다. 컨텍스트를 실시간으로 처리하는 것은 자기 주의(self-attention) 연산의 이차 비용으로 인해 비효율적이며, 캐싱이 바람직합니다. 그러나 트랜스포머 상태를 캐싱하는 것은 모델 파라미터만큼의 공간을 쉽게 요구할 수 있습니다. 적절한 컨텍스트가 사전에 알려지지 않은 경우, ICL을 캐싱하는 것은 어려울 수 있습니다. 본 연구는 이러한 한계를 해결하기 위해 인코더-디코더 아키텍처에서 영감을 받아, 프롬프트 없이 참조 텍스트에 기반한 생성을 위해 교차 주의(cross-attention)를 사용하는 모델을 소개합니다. 보다 구체적으로, 우리는 사전 학습된 디코더 전용 모델을 활용하고 추가된 소수의 레이어만을 학습합니다. 질문-응답(Question-Answering, QA)을 테스트베드로 사용하여 우리 모델의 조건부 생성 능력을 평가한 결과, ICL을 능가하고, 프롬프트를 사용한 미세 조정된 대형 언어 모델(LLM)과 비슷한 성능을 보이며, 표준 키-값(Key-Value, KV) 캐싱에 비해 공간 점유율을 두 자릿수로 크게 줄이는 것을 관찰했습니다.