번역이 포함된 일일 선별된 AI 연구 논문
개인화는 생성형 AI 분야에서 두드러진 측면으로 부상하며, 다양한 맥락과 스타일에서 개인을 합성하면서도 그들의 정체성을 높은 충실도로 유지할 수 있게 해주었습니다. 그러나 개인화 과정은 시간과 메모리 요구 사항 측면에서 본질적인 도전 과제를 안고 있습니다. 각 개인화된 모델을 미세 조정하려면 상당한 GPU 시간 투자가 필요하며, 주체별로 개인화된 모델을 저장하는 것은 저장 용량 측면에서 부담이 될 수 있습니다. 이러한 도전 과제를 극복하기 위해, 우리는 HyperDreamBooth를 제안합니다. 이는 단일 인물 이미지로부터 소규모의 개인화된 가중치를 효율적으로 생성할 수 있는 하이퍼네트워크입니다. 이러한 가중치를 확산 모델에 결합하고 빠른 미세 조정을 통해, HyperDreamBooth는 다양한 맥락과 스타일에서 개인의 얼굴을 생성할 수 있으며, 높은 주체 세부 사항을 유지하면서도 다양한 스타일과 의미론적 수정에 대한 모델의 중요한 지식을 보존합니다. 우리의 방법은 약 20초 만에 얼굴 개인화를 달성하며, 이는 DreamBooth보다 25배 빠르고 Textual Inversion보다 125배 빠른 속도입니다. 단 하나의 참조 이미지를 사용하면서도 DreamBooth와 동일한 품질과 스타일 다양성을 유지합니다. 또한 우리의 방법은 일반적인 DreamBooth 모델보다 10000배 작은 모델을 생성합니다. 프로젝트 페이지: https://hyperdreambooth.github.io
텍스트-이미지(T2I) 개인화는 사용자가 자연어 프롬프트에 자신의 시각적 개념을 결합하여 창의적인 이미지 생성 과정을 안내할 수 있게 합니다. 최근, 인코더 기반 기술이 T2I 개인화를 위한 새로운 효과적인 접근 방식으로 등장하며, 다수의 이미지와 긴 학습 시간의 필요성을 줄였습니다. 그러나 대부분의 기존 인코더는 단일 클래스 도메인에 국한되어 있어 다양한 개념을 처리하는 능력이 제한됩니다. 본 연구에서는 특수화된 데이터셋이나 개인화된 개념에 대한 사전 정보가 필요 없는 도메인-불가지론적 방법을 제안합니다. 우리는 예측된 토큰을 기존 CLIP 토큰 중 가장 가까운 토큰으로 밀어내어, 목표 개념 특성에 대한 높은 충실도를 유지하면서도 예측된 임베딩이 편집 가능한 잠재 공간 영역에 가깝게 유지되도록 하는 새로운 대조 기반 정규화 기법을 소개합니다. 실험 결과는 우리의 접근 방식의 효과를 입증하며, 정규화되지 않은 모델에 의해 예측된 토큰보다 학습된 토큰이 더 의미론적임을 보여줍니다. 이는 이전 방법들보다 더 유연하면서도 최첨단 성능을 달성하는 더 나은 표현을 가능하게 합니다.
시각적 스토리텔링을 위한 비디오 생성은 일반적으로 실사 촬영이나 그래픽 애니메이션 렌더링이 필요한 번거롭고 복잡한 과정일 수 있습니다. 이러한 문제를 우회하기 위해, 우리의 핵심 아이디어는 기존의 풍부한 비디오 클립을 활용하고 그들의 외관을 맞춤화하여 일관된 스토리텔링 비디오를 합성하는 것입니다. 이를 위해 우리는 두 가지 기능적 모듈로 구성된 프레임워크를 개발했습니다: (i) 쿼리 텍스트로 설명된 원하는 장면 또는 동작 컨텍스트를 제공하는 비디오 후보를 제공하는 모션 구조 검색(Motion Structure Retrieval)과 (ii) 모션 구조와 텍스트 프롬프트의 지도 하에 플롯에 맞는 비디오를 생성하는 구조 기반 텍스트-투-비디오 합성(Structure-Guided Text-to-Video Synthesis)입니다. 첫 번째 모듈을 위해, 우리는 기존의 비디오 검색 시스템을 활용하고 비디오 깊이를 모션 구조로 추출합니다. 두 번째 모듈을 위해, 우리는 구조와 캐릭터에 대한 유연한 제어를 제공하는 제어 가능한 비디오 생성 모델을 제안합니다. 비디오는 구조적 지도와 외관 지시를 따라 합성됩니다. 클립 간의 시각적 일관성을 보장하기 위해, 우리는 텍스트 프롬프트를 통해 원하는 캐릭터 신원을 지정할 수 있는 효과적인 개념 개인화 접근 방식을 제안합니다. 광범위한 실험을 통해 우리의 접근 방식이 다양한 기존 베이스라인에 비해 상당한 이점을 보임을 입증했습니다.
본 논문에서는 대규모 사전 학습 언어 모델(LLMs)의 생성 품질과 일관성을 향상시키기 위한 새로운 접근 방식을 제시한다. 자기 일관성(self-consistency)은 고정된 답변이 있는 프롬프트에 대해 가장 많은 투표를 받은 답변을 선택하는 효과적인 방법으로 부상했다. 본 논문에서는 고정 답변이 있는 문제를 넘어서는 자기 일관성의 적용 범위를 확장하는 일반화된 프레임워크를 소개한다. 광범위한 시뮬레이션을 통해 우리의 접근 방식이 후보 집단에서 최적 또는 근접한 최적의 생성을 일관되게 복구함을 입증한다. 또한, 토큰 로그 확률에 접근하지 않더라도 코드 생성, 자동 형식화, 요약 작업에서 유의미하고 일관된 개선을 보이는 경량의 파라미터 없는 유사도 함수를 제안한다. 우리의 방법은 보조 리랭커 모델이나 기존 모델의 수정 없이도 최소한의 계산 오버헤드만을 요구한다.