번역이 포함된 일일 선별된 AI 연구 논문
본 연구는 강력한 단안 깊이 추정을 위한 고도로 실용적인 솔루션인 Depth Anything을 소개한다. 새로운 기술 모듈을 추구하기보다, 우리는 어떠한 상황에서도 모든 이미지를 처리할 수 있는 간단하지만 강력한 기반 모델을 구축하는 것을 목표로 한다. 이를 위해, 우리는 대규모의 레이블이 없는 데이터(~62M)를 수집하고 자동으로 주석을 달기 위한 데이터 엔진을 설계하여 데이터셋을 확장하였다. 이는 데이터 커버리지를 크게 늘려 일반화 오류를 줄일 수 있게 한다. 우리는 데이터 확장을 가능하게 하는 두 가지 간단하지만 효과적인 전략을 탐구한다. 첫째, 데이터 증강 도구를 활용하여 더 도전적인 최적화 목표를 생성한다. 이는 모델이 추가적인 시각적 지식을 적극적으로 탐구하고 강력한 표현을 획득하도록 강제한다. 둘째, 사전 훈련된 인코더로부터 풍부한 의미론적 사전 지식을 상속받도록 모델을 강제하는 보조 감독을 개발한다. 우리는 6개의 공개 데이터셋과 무작위로 캡처한 사진을 포함하여 제로샷 능력을 광범위하게 평가한다. 이는 인상적인 일반화 능력을 보여준다. 더 나아가, NYUv2와 KITTI의 미터법 깊이 정보를 사용하여 미세 조정함으로써 새로운 SOTA(State-of-the-Art)를 달성한다. 우리의 더 나은 깊이 모델은 또한 더 나은 깊이 조건부 ControlNet을 결과로 낳는다. 우리의 모델은 https://github.com/LiheYoung/Depth-Anything에서 공개되었다.
파이프라인 병렬화는 대규모 분산 학습의 핵심 요소 중 하나이지만, 그 효율성은 불가피하다고 여겨졌던 파이프라인 버블로 인해 저하됩니다. 본 연구에서는 우리가 아는 한 동기식 학습 의미론 하에서 파이프라인 버블을 성공적으로 제로로 만드는 최초의 스케줄링 전략을 소개합니다. 이러한 개선의 핵심 아이디어는 역전파 계산을 입력에 대한 그래디언트를 계산하는 부분과 파라미터에 대한 그래디언트를 계산하는 부분으로 나누는 것입니다. 이 아이디어를 바탕으로, 우리는 기존 방법들을 크게 능가하는 새로운 파이프라인 스케줄을 수작업으로 설계했습니다. 또한, 특정 모델 구성과 메모리 제한에 따라 최적의 스케줄을 자동으로 찾는 알고리즘을 개발했습니다. 더 나아가, 진정한 제로 버블을 달성하기 위해 옵티마이저 단계에서의 동기화를 우회하는 새로운 기술을 도입했습니다. 실험 평가 결과, 우리의 방법은 유사한 메모리 제한 하에서 1F1B 스케줄보다 최대 23% 더 높은 처리량을 보였습니다. 메모리 제약이 완화되면 이 수치는 31%까지 더 높아질 수 있습니다. 우리는 이러한 결과가 파이프라인 병렬화의 진정한 잠재력을 활용하는 데 있어 큰 진전을 이뤘다고 믿습니다. 우리는 인기 있는 Megatron-LM 저장소를 기반으로 한 구현을 https://github.com/sail-sg/zero-bubble-pipeline-parallelism에서 오픈소스로 공개했습니다.
전경 피사체의 움직임에 맞춰 비디오 배경을 생성하는 것은 영화 산업과 시각 효과 커뮤니티에서 중요한 문제입니다. 이 작업은 전경 피사체의 움직임과 외관에 맞춰 배경을 합성하면서도 아티스트의 창의적 의도를 준수하는 것을 포함합니다. 우리는 이 과정을 자동화하는 생성 모델인 ActAnywhere를 소개합니다. 이 모델은 전통적으로 수작업이 필요한 과정을 대체하며, 대규모 비디오 확산 모델의 힘을 활용하여 이 작업에 특화되었습니다. ActAnywhere는 전경 피사체의 분할 시퀀스를 입력으로 받고, 원하는 장면을 설명하는 이미지를 조건으로 사용하여 조건 프레임을 준수하면서도 현실적인 전경-배경 상호작용을 가진 일관된 비디오를 생성합니다. 우리는 인간-장면 상호작용 비디오로 구성된 대규모 데이터셋에서 모델을 학습시켰습니다. 광범위한 평가를 통해 우리 모델의 우수한 성능을 입증했으며, 기준선 모델을 크게 능가하는 결과를 보였습니다. 또한, ActAnywhere는 비인간 피사체를 포함한 다양한 분포 외 샘플에도 일반화되는 것을 보여줍니다. 자세한 내용은 프로젝트 웹페이지(https://actanywhere.github.io)를 방문해 주세요.
본 논문에서는 단일 이미지와 주어진 3D 모션 시퀀스를 기반으로 사람을 애니메이션화하기 위한 확산 모델 기반 프레임워크를 제시합니다. 우리의 접근 방식은 두 가지 핵심 구성 요소로 이루어져 있습니다: a) 인간 신체와 의류의 보이지 않는 부분에 대한 사전 지식을 학습하는 것, b) 적절한 의류와 질감을 갖춘 새로운 신체 자세를 렌더링하는 것. 첫 번째 부분에서는 단일 이미지를 기반으로 사람의 보이지 않는 부분을 상상할 수 있는 인필링(in-filling) 확산 모델을 학습합니다. 이 모델은 포즈와 시점에 불변하기 때문에 샘플 효율성이 높은 텍스처 맵 공간에서 학습합니다. 두 번째로, 3D 인간 포즈로 제어되는 확산 기반 렌더링 파이프라인을 개발합니다. 이를 통해 의류, 머리카락, 그리고 보이지 않는 영역의 그럴듯한 인필링을 포함한 사람의 새로운 포즈를 사실적으로 렌더링합니다. 이러한 분리된 접근 방식은 우리의 방법이 3D 포즈에서 목표 모션에 충실하고, 입력 이미지와 시각적 유사성을 유지하는 일련의 이미지를 생성할 수 있게 합니다. 또한, 3D 제어를 통해 다양한 합성 카메라 궤적을 사용하여 사람을 렌더링할 수 있습니다. 우리의 실험 결과는 기존 방법에 비해 장기간의 모션과 다양한 도전적이고 복잡한 포즈를 생성하는 데 있어 우리의 방법이 탄력적임을 보여줍니다. 자세한 내용은 웹사이트를 참조하십시오: https://boyiliee.github.io/3DHM.github.io/.
딕테이션은 모바일 기기에서 효율적인 텍스트 입력을 가능하게 합니다. 그러나 음성으로 글을 작성할 때는 불완전하고 장황하며 일관성이 없는 텍스트가 생성될 수 있어, 심각한 후처리가 필요합니다. 본 논문은 LLM(대형 언어 모델) 기반의 그래픽 사용자 인터페이스인 Rambler를 소개합니다. Rambler는 딕테이션된 텍스트를 요약 수준에서 조작할 수 있도록 두 가지 주요 기능 세트를 제공합니다: 요약 추출과 대규모 수정입니다. 요약 추출은 키워드와 요약을 생성하여 음성 텍스트의 검토 및 상호작용을 지원하는 앵커 역할을 합니다. LLM 지원 대규모 수정 기능을 통해 사용자는 정확한 편집 위치를 지정하지 않고도 딕테이션된 텍스트를 다시 말하거나, 분할하거나, 병합하거나, 변형할 수 있습니다. 이러한 기능들은 자발적인 음성 발화와 잘 구조화된 글쓰기 사이의 간극을 줄이는 데 도움을 주는 인터랙티브 딕테이션 및 수정의 길을 열어줍니다. 12명의 참가자가 구두 작문 과제를 수행한 비교 연구에서, Rambler는 음성-텍스트 편집기 + ChatGPT의 기준선을 능가했습니다. Rambler는 사용자가 콘텐츠에 대한 강화된 제어력을 유지하면서 반복적인 수정을 더 잘 지원하며, 놀라울 정도로 다양한 사용자 전략을 가능하게 합니다.
본 논문은 비디오를 위한 트랜스포머 표현의 개념 기반 해석 가능성 문제를 연구한다. 구체적으로, 우리는 자동으로 발견된 고차원의 시공간적 개념을 기반으로 비디오 트랜스포머의 의사결정 과정을 설명하고자 한다. 개념 기반 해석 가능성에 대한 기존 연구는 주로 이미지 수준의 작업에 집중되어 있었다. 반면, 비디오 모델은 추가된 시간 차원을 다루며, 시간에 따른 동적 개념을 식별하는 데 있어 복잡성을 증가시키고 도전 과제를 제기한다. 본 연구에서는 이러한 도전 과제를 체계적으로 해결하기 위해 최초의 비디오 트랜스포머 개념 발견(VTCD) 알고리즘을 소개한다. 이를 위해, 우리는 비디오 트랜스포머 표현의 단위인 개념을 비지도 방식으로 효율적으로 식별하고, 모델 출력에 대한 이들의 중요도를 순위 매기는 접근법을 제안한다. 그 결과 도출된 개념은 매우 해석 가능하며, 비정형 비디오 모델에서 시공간적 추론 메커니즘과 객체 중심 표현을 드러낸다. 다양한 지도 및 자기 지도 표현 집합에 대해 이 분석을 공동으로 수행함으로써, 이러한 메커니즘 중 일부가 비디오 트랜스포머에서 보편적임을 발견한다. 마지막으로, VTCD가 세분화된 작업에서 모델 성능을 개선하는 데 사용될 수 있음을 입증한다.