번역이 포함된 일일 선별된 AI 연구 논문
Segment Anything Model(SAM)은 점과 같은 인터랙티브 프롬프트를 사용하여 마스크를 생성하는 강력한 제로샷 이미지 세그멘테이션 모델로 자리 잡았습니다. 본 논문은 SAM의 기능을 동적 비디오에서의 추적 및 세그멘테이션으로 확장하는 SAM-PT 방법을 소개합니다. SAM-PT는 마스크 생성을 위해 강력하고 희소한 점 선택 및 전파 기술을 활용하며, SAM 기반의 세그멘테이션 트래커가 DAVIS, YouTube-VOS, MOSE와 같은 인기 있는 비디오 객체 세그멘테이션 벤치마크에서 강력한 제로샷 성능을 보일 수 있음을 입증합니다. 전통적인 객체 중심의 마스크 전파 전략과 비교하여, 우리는 객체 의미론에 구애받지 않는 지역 구조 정보를 활용하기 위해 점 전파를 독창적으로 사용합니다. 제로샷 오픈 월드 Unidentified Video Objects(UVO) 벤치마크에 대한 직접 평가를 통해 점 기반 추적의 장점을 강조합니다. 우리의 접근 방식을 더욱 강화하기 위해, K-Medoids 클러스터링을 사용하여 점 초기화를 수행하고, 대상 객체를 명확히 구분하기 위해 양성 및 음성 점을 모두 추적합니다. 또한, 마스크 정제를 위해 다중 마스크 디코딩 패스를 사용하고, 추적 정확도를 향상시키기 위해 점 재초기화 전략을 고안합니다. 우리의 코드는 다양한 점 트래커와 비디오 세그멘테이션 벤치마크를 통합하며, https://github.com/SysCV/sam-pt에서 공개될 예정입니다.
최근 대규모 텍스트 기반 확산 모델(Diffusion Model)은 강력한 이미지 생성 능력을 제공하고 있습니다. 현재, 이러한 이미지를 텍스트만으로 수정할 수 있도록 하여 직관적이고 다용도로 편집할 수 있도록 하는 데 상당한 노력이 기울여지고 있습니다. 그러나 생성 모델의 경우, 원본 이미지의 특정 콘텐츠를 보존해야 하는 편집 기술의 본질적인 특성 때문에 편집이 어려운 것으로 나타났습니다. 반면, 텍스트 기반 모델에서는 텍스트 프롬프트에 사소한 수정만 가해도 완전히 다른 결과가 나오는 경우가 많아, 사용자의 의도를 정확히 반영한 원샷(one-shot) 생성 결과를 얻는 것이 매우 어려운 실정입니다. 또한, 최신 도구를 사용하여 실제 이미지를 편집하려면 먼저 이미지를 사전 학습된 모델의 도메인으로 역변환(inversion)해야 하며, 이는 편집 품질과 지연 시간에 영향을 미치는 또 다른 요소로 작용합니다. 본 탐색적 보고서에서는 실제 이미지 편집을 위한 경량화된 통합 접근법인 LEDITS를 제안합니다. 이 방법은 Edit Friendly DDPM 역변환 기술과 의미적 지도(Semantic Guidance)를 결합하여, 의미적 지도를 실제 이미지 편집으로 확장함과 동시에 DDPM 역변환의 편집 기능을 활용합니다. 이 접근법은 아키텍처 확장이나 최적화 없이도 미세한 편집부터 대규모 편집, 그리고 구성 및 스타일 변경에 이르기까지 다양한 편집을 가능하게 합니다.
생성형 AI는 특히 텍스트 설명에 기반한 이미지/비디오 합성 분야에서 컴퓨터 비전에 있어 상당한 진전을 이루었습니다. 그러나 이러한 발전에도 불구하고, 특히 춤 합성과 같은 인간 중심 콘텐츠의 생성은 여전히 어려운 과제로 남아 있습니다. 기존의 춤 합성 방법들은 합성된 콘텐츠와 실제 춤 시나리오 간의 격차를 극복하는 데 어려움을 겪고 있습니다. 본 논문에서는 실제 춤 시나리오에 초점을 맞춘 새로운 문제 설정인 '참조 인간 춤 생성(Referring Human Dance Generation)'을 정의합니다. 이 설정은 다음과 같은 세 가지 중요한 특성을 갖습니다: (i) 충실성(Faithfulness): 합성 결과는 참조 이미지의 인간 주체 전경과 배경의 외관을 유지하고, 목표 자세를 정확히 따라야 합니다; (ii) 일반화 가능성(Generalizability): 모델은 보지 못한 인간 주체, 배경, 자세에 대해서도 일반화할 수 있어야 합니다; (iii) 구성 가능성(Compositionality): 서로 다른 출처에서 본/보지 못한 주체, 배경, 자세를 조합할 수 있어야 합니다. 이러한 과제를 해결하기 위해, 우리는 DISCO라는 새로운 접근 방식을 제안합니다. DISCO는 춤 합성의 충실성과 구성 가능성을 개선하기 위한 분리된 제어를 포함한 새로운 모델 아키텍처와, 보지 못한 인간에 대한 일반화 가능성을 높이기 위한 효과적인 인간 속성 사전 학습을 포함합니다. 광범위한 정성적 및 정량적 결과는 DISCO가 다양한 외관과 유연한 동작을 가진 고품질의 인간 춤 이미지와 비디오를 생성할 수 있음을 보여줍니다. 코드, 데모, 비디오 및 시각화 자료는 https://disco-dance.github.io/에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 등장은 자연어 처리 분야에 혁신을 가져왔으며, 일관성 있고 문맥에 맞는 텍스트 생성을 가능하게 하였습니다. LLM이 대화형 에이전트를 점점 더 주도함에 따라, 이러한 모델들이 방대한 양의 인간 생성 데이터를 학습함으로써 내재된 합성된 성격이 주목받고 있습니다. 성격은 의사소통의 효과를 결정하는 중요한 요소이기 때문에, 우리는 널리 사용되는 LLM에서 생성된 텍스트에 나타나는 성격 특성을 검증된 심리 측정 테스트를 통해 관리하고, 정량화, 분석, 형성하는 포괄적인 방법을 제시합니다. 우리는 다음과 같은 사실을 발견했습니다: 1) 특정 프롬프트 설정 하에서 일부 LLM의 출력에서 시뮬레이션된 성격은 신뢰할 수 있고 타당하며; 2) LLM 시뮬레이션된 성격의 신뢰성과 타당성에 대한 증거는 더 크고 지시 미세 조정된 모델에서 더 강력하며; 3) LLM 출력의 성격은 특정 성격 프로파일을 모방하기 위해 원하는 차원을 따라 형성될 수 있습니다. 또한, 우리는 측정 및 형성 프레임워크의 잠재적 응용과 윤리적 함의, 특히 LLM의 책임 있는 사용에 대해 논의합니다.
최근 비전-언어 모델의 발전이 다중 모달 이해를 혁신적으로 변화시켰음에도 불구하고, 이러한 모델들이 생성된 이미지를 이해할 수 있는 능력을 갖추고 있는지는 여전히 불분명합니다. 실제 데이터와 비교할 때, 합성 이미지는 내용과 스타일 모두에서 더 높은 수준의 다양성을 보이며, 이는 모델이 이를 완전히 이해하는 데 상당한 어려움을 초래합니다. 이를 위해 우리는 생성된 이미지에 대한 다중 모달 시각적 이해를 위한 대규모 데이터셋인 JourneyDB를 제안합니다. 우리가 정제한 이 데이터셋은 400만 개의 다양하고 고품질의 생성된 이미지와 이를 생성하는 데 사용된 텍스트 프롬프트를 포함하고 있습니다. 또한, 우리는 생성된 이미지 이해의 성능을 내용과 스타일 해석 측면에서 정량화하기 위해 4가지 벤치마크를 설계했습니다. 이러한 벤치마크에는 프롬프트 역변환, 스타일 검색, 이미지 캡셔닝 및 시각적 질의응답이 포함됩니다. 마지막으로, 우리는 JourneyDB에 적용된 현재 최첨단 다중 모달 모델들의 성능을 평가하고, 생성된 콘텐츠 이해에서의 강점과 한계에 대한 심층 분석을 제공합니다. 우리는 제안된 데이터셋과 벤치마크가 생성 콘텐츠 이해 분야의 연구를 촉진할 수 있기를 바랍니다. 이 데이터셋은 https://journeydb.github.io에서 이용 가능할 것입니다.
본 논문은 픽셀 간 대응 관계가 제공되는 시나리오, 예를 들어 파노라마 또는 기하학적 정보(깊이 맵과 포즈)가 주어진 다중 시점 이미지에서의 원근적 크롭과 같은 경우에 적용 가능한 간단하면서도 효과적인 다중 시점 이미지 생성 방법인 MVDiffusion을 소개한다. 기존 모델들이 반복적인 이미지 와핑과 인페인팅에 의존하는 것과 달리, MVDiffusion은 전역적 인식을 통해 모든 이미지를 동시에 생성하며, 고해상도와 풍부한 콘텐츠를 포괄하여 선행 모델들에서 흔히 발생하는 오류 누적 문제를 효과적으로 해결한다. MVDiffusion은 특히 대응 관계를 인지하는 어텐션 메커니즘을 도입하여 효과적인 시점 간 상호작용을 가능하게 한다. 이 메커니즘은 세 가지 핵심 모듈을 지원한다: 1) 전역적 대응 관계를 유지하면서 저해상도 이미지를 생성하는 생성 모듈, 2) 이미지 간 공간적 커버리지를 밀도 있게 만드는 보간 모듈, 3) 고해상도 출력으로 업스케일링하는 초해상도 모듈. 파노라마 이미지의 경우, MVDiffusion은 최대 1024×1024 픽셀의 고해상도 포토리얼리스틱 이미지를 생성할 수 있다. 기하학적 조건이 부여된 다중 시점 이미지 생성에서는, MVDiffusion은 장면 메시의 텍스처 맵을 생성할 수 있는 최초의 방법을 보여준다. 프로젝트 페이지는 https://mvdiffusion.github.io에서 확인할 수 있다.
단안(monocular) 모션 캡처에 대한 학습 기반 접근법은 최근 데이터 주도 방식으로 회귀(regression)를 학습함으로써 유망한 결과를 보여주고 있다. 그러나 데이터 수집과 네트워크 설계의 어려움으로 인해, 기존 솔루션들은 세계 좌표계(world space)에서 정확하면서도 실시간 전신 캡처를 달성하는 데 여전히 어려움을 겪고 있다. 본 연구에서는 2D 골격 시퀀스와 3D 회전 모션을 포함한 프록시 데이터셋과 함께 순차적 프록시-모션 학습 기법을 제안한다. 이러한 프록시 데이터는 정확한 전신 감독(supervision)을 통해 학습 기반 네트워크를 구축할 수 있게 하며, 일반화 문제를 완화하는 데도 기여한다. 더 정확하고 물리적으로 타당한 예측을 위해, 본 네트워크에서는 발-지면 접촉과 프록시 관측치와의 모션 불일치를 인지할 수 있는 접촉 인식 신경 모션 하강(contact-aware neural motion descent) 모듈을 제안한다. 또한, 전신 모델과 더 호환 가능한 손목 자세 복구를 위해 네트워크 내에서 신체-손 컨텍스트 정보를 공유한다. 제안된 학습 기반 솔루션을 통해, 세계 좌표계에서 타당한 발-지면 접촉을 갖춘 최초의 실시간 단안 전신 캡처 시스템을 구현하였다. 더 많은 비디오 결과는 프로젝트 페이지(https://liuyebin.com/proxycap)에서 확인할 수 있다.
사전 학습된 언어 모델(PLM)은 현재 자연어 처리의 주요 모델로 자리 잡고 있습니다. 이러한 모델들이 다운스트림 작업에서 인상적인 성능을 보이지만, 새로운 언어에 PLM을 적용하는 것은 어려울 수 있으며, 이는 그들의 능력을 보편적으로 접근 가능하게 만드는 데 걸림돌이 됩니다. 기존 연구에서는 새로운 언어를 위해 새로운 임베딩 레이어를 학습함으로써 이 문제를 해결할 수 있음을 보여주었지만, 이 방법은 데이터와 계산 효율성 측면에서 비효율적입니다. 우리는 사전 학습 과정에서 능동적 망각 메커니즘을 사용하여 새로운 언어에 빠르게 적응할 수 있는 PLM을 만드는 간단한 방법을 제안합니다. 구체적으로, 사전 학습 중 매 K번의 업데이트마다 임베딩 레이어를 재설정함으로써, PLM이 제한된 수의 업데이트 내에서 새로운 임베딩을 학습하는 능력을 향상시키도록 유도하며, 이는 메타러닝 효과와 유사합니다. RoBERTa를 사용한 실험 결과, 우리의 망각 메커니즘으로 사전 학습된 모델들은 언어 적응 과정에서 더 빠른 수렴을 보일 뿐만 아니라, 특히 영어와 거리가 먼 언어들에 대해 저데이터 환경에서 표준 모델들을 능가하는 성능을 보였습니다.
대규모 언어 모델은 소수 샷(few-shot) NLP 과제에서 인상적인 성과를 보여줍니다. 그러나 이러한 모델은 메모리와 계산 자원을 많이 소모합니다. 메타 학습(meta-training)을 통해 도메인 일반적이고 과제에 구애받지 않는 방식으로 소규모 모델을 활용하여 소수 샷 일반화를 달성할 수 있지만, 이러한 방법만으로는 다양한 과제에 빠르게 적응하기에 충분한 매개변수화나 지식을 갖춘 모델을 얻기 어렵습니다. 이 문제를 해결하기 위해, 우리는 시연 검색(demonstration retrieval)을 결합한 메타 학습을 제안합니다. 여기서는 밀집 문단 검색기(dense passage retriever)를 사용하여 각 예제와 의미적으로 유사한 레이블이 달린 시연을 검색하여 더 다양한 지도를 제공합니다. 외부 지식을 모델 매개변수와 분리함으로써, 메타 학습을 통해 매개변수 효율적이면서도 다양한 과제에서 잘 일반화되는 모델을 훈련할 수 있습니다. 우리는 UnifiedQA와 CrossFit에서 메타 학습 데이터셋을 구성하고, UnifiedQA 과제를 기반으로 한 시연 은행(demonstration bank)을 제안합니다. 우리가 아는 한, 이 연구는 검색과 메타 학습을 결합한 첫 번째 시도이며, DPR 모델을 사용하여 시연을 검색하고, 대상 과제의 훈련 세트에서 무작위로 시연을 샘플링하는 대신 여러 과제의 시연을 동시에 활용하는 최초의 연구입니다. 우리의 접근 방식은 QA, NLI, 텍스트 분류 과제(예: SQuAD, QNLI, TREC 등)에서 다양한 매개변수 효율적 및 검색 보강 소수 샷 방법을 능가합니다. 또한, 우리의 접근 방식은 단일 GPU에서 빠르게 메타 학습 및 미세 조정이 가능합니다.
우리의 목표는 로봇이 "수건을 전자레인지 옆에 놓아라"와 같은 자연어 명령을 따르도록 하는 것입니다. 그러나 작업 시연과 언어 명령이 함께 레이블링된 대량의 데이터를 확보하는 것은 매우 어렵습니다. 반면, 이미지 목표에 반응하는 정책을 얻는 것은 훨씬 쉬운데, 이는 모든 자율적인 시도나 시연이 사후에 최종 상태를 목표로 레이블링될 수 있기 때문입니다. 본 연구에서는 소량의 언어 데이터만을 사용하여 이미지와 목표 조건화 정책을 언어와 결합하는 방법을 제안합니다. 기존 연구에서는 비전-언어 모델을 사용하거나 언어-목표 조건화 정책을 공동으로 훈련함으로써 이 문제에 대한 진전을 이루었지만, 아직까지는 상당한 인간 주석 없이 실제 로봇 작업에 효과적으로 확장되지 못했습니다. 우리의 방법은 레이블링된 데이터에서 언어를 목표 이미지가 아니라 명령에 해당하는 시작 이미지와 목표 이미지 사이의 원하는 변화에 정렬하는 임베딩을 학습함으로써 실제 환경에서 견고한 성능을 달성합니다. 그런 다음 이 임베딩을 기반으로 정책을 훈련시킵니다: 정책은 모든 레이블링되지 않은 데이터의 이점을 누리지만, 정렬된 임베딩은 언어가 정책을 조종할 수 있는 인터페이스를 제공합니다. 우리는 다양한 장면에서의 조작 작업에 걸쳐 명령을 따르는 것을 보여주며, 레이블링된 데이터 외부의 언어 명령에 대한 일반화도 가능함을 입증합니다. 우리의 접근 방식에 대한 비디오와 코드는 웹사이트(http://tiny.cc/grif)에서 확인할 수 있습니다.
3D 아바타 모델링은 AR/VR, 게임, 영화 제작 등 다양한 응용 시나리오에서 유용하게 활용된다. 캐릭터의 얼굴은 아바타의 중요한 구성 요소로서 다양성과 생동감을 크게 기여한다. 그러나 3D 캐릭터 얼굴 모델을 구축하는 것은 상용 도구를 사용하더라도 숙련된 아티스트에게도 상당한 작업 부담을 요구한다. 기존의 다양한 스케치 기반 도구들은 아마추어 사용자가 다양한 얼굴 형태와 풍부한 기하학적 디테일을 모델링하는 데 필요한 지원을 제공하지 못한다. 본 논문에서는 아마추어 사용자가 단 몇 분 만에 고품질의 3D 얼굴을 모델링할 수 있도록 지원하는 스케치 기반 시스템인 SketchMetaFace를 소개한다. 우리는 사용자 인터페이스와 내부 알고리즘을 세심하게 설계하였다. 첫째, 곡률 인식 스트로크를 도입하여 얼굴 디테일을 조각하는 데 있어 제어성을 향상시켰다. 둘째, 2D 스케치 맵을 3D 모델로 매핑하는 핵심 문제를 고려하여, "Implicit and Depth Guided Mesh Modeling"(IDGMM)이라는 새로운 학습 기반 방법을 개발하였다. 이 방법은 메시, 임플리시트, 깊이 표현의 장점을 융합하여 고품질의 결과를 효율적으로 달성한다. 또한, 사용성을 더욱 지원하기 위해, 거친 스케치에서 세밀한 스케치로 이어지는 2D 스케칭 인터페이스 설계와 데이터 기반 스트로크 제안 도구를 제시한다. 사용자 연구를 통해 우리의 시스템이 기존 모델링 도구 대비 사용 편의성과 시각적 품질 면에서 우수함을 입증하였다. 실험 분석 또한 IDGMM이 정확도와 효율성 사이에서 더 나은 균형을 달성함을 보여준다. SketchMetaFace는 https://zhongjinluo.github.io/SketchMetaFace/에서 확인할 수 있다.