번역이 포함된 일일 선별된 AI 연구 논문
온라인 도메인 적응(Online Domain Adaptation)의 목표는 배포 중에 발생하는 갑작스러운 기상 변화와 같은 예측 불가능한 도메인 변화를 처리하는 것입니다. 그러나 무차별적 적응 방식과 관련된 높은 계산 비용으로 인해 이 패러다임은 실제 응용 프로그램에서 실행하기 어렵습니다. 본 논문에서는 실시간 도메인 적응을 위한 하드웨어 인지형 모듈식 최소 비용 학습 프레임워크인 HAMLET을 제안합니다. 우리의 접근 방식은 하드웨어 인지형 역전파 조정 에이전트(HAMT)와 모델이 언제, 어떻게 적응할지 활성적으로 제어할 수 있는 전용 도메인 변화 탐지기를 포함합니다. 이러한 발전 덕분에 우리의 접근 방식은 단일 소비자용 GPU에서 29FPS 이상의 속도로 동시에 적응하며 시맨틱 세그멘테이션을 수행할 수 있습니다. 우리 프레임워크의 우수한 정확도와 속도의 균형은 OnDA 및 SHIFT 벤치마크를 통해 실험 결과로 입증되었습니다.
우리는 포즈가 지정된 RGB 이미지를 입력으로 사용하여 실내 3D 검출을 위한 새로운 방법인 NeRF-Det를 제안합니다. 기존의 실내 3D 검출 방법들이 장면 기하학을 모델링하는 데 어려움을 겪는 반면, 우리의 방법은 NeRF를 종단 간 방식으로 활용하여 3D 기하학을 명시적으로 추정함으로써 3D 검출 성능을 향상시킵니다. 구체적으로, NeRF의 장면별 최적화와 관련된 상당한 추가 지연을 피하기 위해, 우리는 NeRF-MLP의 일반화 능력을 강화하기 위해 충분한 기하학적 사전 지식을 도입합니다. 더 나아가, 우리는 검출과 NeRF 분기를 공유 MLP를 통해 미묘하게 연결함으로써 NeRF가 검출에 효율적으로 적응할 수 있게 하고, 3D 검출을 위한 기하학 인식 볼륨 표현을 생성합니다. 우리의 방법은 ScanNet과 ARKITScenes 벤치마크에서 각각 3.9 mAP와 3.1 mAP로 최신 기술을 능가합니다. 우리는 NeRF-Det가 어떻게 작동하는지에 대한 광범위한 분석을 제공합니다. 우리의 공동 학습 설계의 결과로, NeRF-Det는 장면별 최적화 없이도 객체 검출, 뷰 합성, 깊이 추정 작업에서 보이지 않는 장면에 대해 잘 일반화할 수 있습니다. 코드는 https://github.com/facebookresearch/NeRF-Det에서 확인할 수 있습니다.
단안 깊이 추정을 위한 MiDaS v3.1을 출시하며, 다양한 인코더 백본 기반의 새로운 모델들을 제공합니다. 이번 릴리스는 컴퓨터 비전 분야에서 트랜스포머의 성공과 함께 현재 다양한 사전 학습된 비전 트랜스포머가 이용 가능해짐에 따라 기획되었습니다. 우리는 가장 유망한 비전 트랜스포머를 이미지 인코더로 사용했을 때 MiDaS 아키텍처의 깊이 추정 품질과 실행 시간에 미치는 영향을 탐구했습니다. 또한, 이미지 분류 작업에서 비전 트랜스포머와 비슷한 품질을 달성하는 최신 컨볼루션 접근법도 조사에 포함했습니다. 이전 버전인 MiDaS v3.0이 기본 비전 트랜스포머인 ViT만 활용한 반면, MiDaS v3.1은 BEiT, Swin, SwinV2, Next-ViT, LeViT를 기반으로 한 추가 모델들을 제공합니다. 이러한 모델들은 성능과 실행 시간 간의 다양한 트레이드오프를 제공합니다. 최고의 모델은 깊이 추정 품질을 28% 향상시키는 반면, 효율적인 모델들은 높은 프레임 속도를 요구하는 다운스트림 작업을 가능하게 합니다. 또한, 새로운 백본을 통합하는 일반적인 과정에 대해서도 설명합니다. 이 작업을 요약한 동영상은 https://youtu.be/UjaeNNFf9sE에서 확인할 수 있으며, 코드는 https://github.com/isl-org/MiDaS에서 이용 가능합니다.
배치 크기 간 훈련 역학을 보존하는 것은 실용적인 머신러닝에서 중요한 도구입니다. 이는 배치 크기와 실제 소요 시간 간의 트레이드오프를 가능하게 하기 때문입니다. 이러한 트레이드오프는 일반적으로 스케일링 규칙을 통해 가능해지는데, 예를 들어 확률적 경사 하강법(SGD)에서는 학습률을 배치 크기에 선형적으로 스케일링해야 합니다. 실용적인 머신러닝을 위한 또 다른 중요한 도구는 모델 지수 이동 평균(EMA)입니다. 이는 그래디언트 정보를 받지 않지만 일정한 모멘텀으로 대상 모델을 따라가는 모델 복사본입니다. 이 모델 EMA는 지도 학습의 견고성과 일반화 성능을 향상시키고, 의사 레이블링을 안정화하며, 자기 지도 학습(SSL)을 위한 학습 신호를 제공할 수 있습니다. 기존 연구들은 모델 EMA를 최적화와 별도로 다루어 배치 크기 간 훈련 역학이 달라지고 모델 성능이 저하되는 문제가 있었습니다. 본 연구에서는 모델 EMA가 존재할 때의 최적화를 위한 스케일링 규칙을 제시하고, 다양한 아키텍처, 최적화 알고리즘, 데이터 모달리티에서 그 유효성을 입증합니다. 또한 모델 EMA가 대상 모델의 최적화에 기여하는 경우에도 이 규칙의 유효성을 보여, 작은 배치 크기와 큰 배치 크기 모두에서 EMA 기반 의사 레이블링 및 SSL 방법을 훈련할 수 있게 합니다. SSL의 경우, BYOL을 성능 저하 없이 배치 크기 24,576까지 훈련할 수 있게 하여 최적의 경우 실제 소요 시간을 6배 단축할 수 있습니다.
샘플을 작은 단위로 점진적으로 합성하는 확산 과정의 점진적 특성은 Denoising Diffusion Probabilistic Models(DDPM)의 핵심 요소로, 이는 이미지 합성에서 전례 없는 품질을 보여주며 최근 모션 도메인에서도 탐구되고 있습니다. 본 연구에서는 확산 시간 축을 따라 작동하는 점진적 확산 개념을 모션 시퀀스의 시간 축에 적용하는 것을 제안합니다. 우리의 핵심 아이디어는 DDPM 프레임워크를 확장하여 시간적으로 변화하는 노이즈 제거를 지원함으로써 두 축을 결합하는 것입니다. 우리의 특수한 공식을 사용하여, 점점 더 노이즈가 추가된 포즈 세트를 포함하는 모션 버퍼를 반복적으로 노이즈 제거함으로써 임의의 길이의 프레임 스트림을 자동 회귀적으로 생성합니다. 고정된 확산 시간 축을 사용하여 각 확산 단계에서 모션의 시간 축만 증가시켜 프레임워크가 새로운 깨끗한 프레임을 생성하도록 하고, 이 프레임은 버퍼의 시작 부분에서 제거된 후 새로 추출된 노이즈 벡터가 버퍼 끝에 추가됩니다. 이 새로운 메커니즘은 캐릭터 애니메이션 및 기타 도메인에 적용 가능한 장기 모션 합성을 위한 새로운 프레임워크로의 길을 열어줍니다.