번역이 포함된 일일 선별된 AI 연구 논문
1350억 개의 파라미터와 고밀도 트랜스포머 모듈을 갖춘 대규모 언어 모델(LLM)인 Pangu Ultra를 소개합니다. 이 모델은 Ascend 신경 처리 장치(NPU)에서 학습되었습니다. 최근 몇 년간 LLM 분야에서는 모델의 규모와 능력을 끌어올리는 데 있어 전례 없는 발전이 이루어졌지만, 이렇게 대규모 모델을 학습시키는 것은 여전히 상당한 최적화와 시스템적 도전을 수반합니다. 학습 과정을 안정화하기 위해, 우리는 깊이 스케일링 샌드위치 정규화(depth-scaled sandwich normalization)를 제안하며, 이는 깊은 모델의 학습 과정에서 발생하는 손실 급증(loss spike)을 효과적으로 제거합니다. 우리는 13.2조 개의 다양하고 고품질의 토큰으로 모델을 사전 학습시켰으며, 사후 학습 과정에서 추론 능력을 더욱 강화했습니다. 이렇게 대규모 학습을 효율적으로 수행하기 위해, 우리는 8,192개의 Ascend NPU와 일련의 시스템 최적화를 활용했습니다. 다양한 벤치마크에서의 평가 결과, Pangu Ultra는 Llama 405B와 Mistral Large 2와 같은 고밀도 LLM의 최신 기술 수준을 크게 앞질렀으며, 훨씬 더 많은 파라미터를 포함하는 희소 모델 구조를 가진 DeepSeek-R1과도 경쟁력 있는 결과를 달성했습니다. 우리의 탐구는 Ascend NPU가 1000억 개 이상의 파라미터를 가진 고밀도 모델을 효율적이고 효과적으로 학습시킬 수 있음을 입증합니다. 우리의 모델과 시스템은 상업적 고객에게 제공될 예정입니다.
우리는 효율적인 오픈소스 Mixture-of-Experts(MoE) 비전-언어 모델(VLM)인 Kimi-VL을 소개합니다. 이 모델은 고급 다중모달 추론, 장문맥 이해, 그리고 강력한 에이전트 능력을 제공하면서도 언어 디코더에서 단 2.8B 파라미터만 활성화합니다(Kimi-VL-A3B). Kimi-VL은 다양한 도전적인 영역에서 강력한 성능을 보여줍니다: 범용 VLM으로서, Kimi-VL은 OSWorld와 같은 다중 턴 에이전트 작업에서 플래그십 모델과 견줄 만한 성능을 발휘합니다. 또한, 대학 수준의 이미지 및 비디오 이해, OCR, 수학적 추론, 다중 이미지 이해 등 다양한 도전적인 비전 언어 작업에서도 뛰어난 능력을 보여줍니다. 비교 평가에서 Kimi-VL은 GPT-4o-mini, Qwen2.5-VL-7B, Gemma-3-12B-IT와 같은 최첨단 효율적 VLMs과 효과적으로 경쟁하며, 여러 주요 영역에서 GPT-4o를 능가합니다. Kimi-VL은 또한 장문맥 처리와 명확한 인식에서도 진보를 이루었습니다. 128K 확장 문맥 창을 통해 Kimi-VL은 다양한 장문 입력을 처리할 수 있으며, LongVideoBench에서 64.5, MMLongBench-Doc에서 35.1의 인상적인 점수를 달성했습니다. 네이티브 해상도 비전 인코더인 MoonViT는 초고해상도 시각 입력을 보고 이해할 수 있게 하여, InfoVQA에서 83.2, ScreenSpot-Pro에서 34.5의 점수를 달성하면서도 일반 작업에서 더 낮은 계산 비용을 유지합니다. Kimi-VL을 기반으로, 우리는 고급 장기 사고 변형인 Kimi-VL-Thinking을 소개합니다. 이 모델은 장기 사슬 사고(CoT) 지도 미세 조정(SFT)과 강화 학습(RL)을 통해 개발되었으며, 강력한 장기 추론 능력을 보여줍니다. MMMU에서 61.7, MathVision에서 36.8, MathVista에서 71.3의 점수를 달성하면서도 컴팩트한 2.8B 활성화 LLM 파라미터를 유지하여, 효율적인 다중모달 사고 모델의 새로운 표준을 세웠습니다. 코드와 모델은 https://github.com/MoonshotAI/Kimi-VL에서 공개적으로 접근 가능합니다.
DeepSeek-R1과 같은 대규모 추론 모델은 LLM(Large Language Model)이 복잡한 문제에 접근하는 방식에 근본적인 변화를 가져왔습니다. DeepSeek-R1은 주어진 입력에 대해 직접 답을 생성하는 대신, 문제를 "생각"하는 것처럼 상세한 다단계 추론 체인을 생성합니다. 이 추론 과정은 사용자에게 공개되어 있어, 모델의 추론 행동을 연구하고 '사고학(Thoughtology)'이라는 새로운 분야를 개척할 수 있는 무한한 기회를 제공합니다. DeepSeek-R1의 기본 추론 구성 요소에 대한 분류 체계를 바탕으로, 우리는 DeepSeek-R1의 사고 길이의 영향과 제어 가능성, 길거나 혼란스러운 문맥의 관리, 문화적 및 안전 문제, 그리고 인간과 유사한 언어 처리 및 세계 모델링과 같은 인지 현상에 대한 DeepSeek-R1의 상태를 분석했습니다. 우리의 연구 결과는 미묘한 그림을 그립니다. 특히, DeepSeek-R1은 추가 추론 시간이 모델 성능을 저하시킬 수 있는 '스위트 스팟'을 가지고 있음을 보여줍니다. 또한, DeepSeek-R1은 이전에 탐색한 문제 공식을 지속적으로 고민하는 경향이 있어 추가 탐색을 방해할 수 있음을 발견했습니다. 또한, DeepSeek-R1은 비추론 대응 모델에 비해 강력한 안전 취약점을 가지고 있으며, 이는 안전 정렬된 LLM에도 영향을 미칠 수 있음을 확인했습니다.
전문가 혼합(Mixture-of-Experts, MoE) 대형 언어 모델(Large Language Models, LLMs)은 심각하게 최적화되지 않은 전문가 경로 문제를 겪고 있습니다. 우리의 연구는 사전 학습을 통해 학습된 단순한 전문가 선택이 놀랍게도 10-20%의 정확도 향상 여지를 남겨둔다는 것을 밝혀냈습니다. 이러한 관찰에 동기를 받아, 우리는 각 테스트 샘플에 대해 서로 다른 계층의 전문가들을 재가중하거나 "재혼합"하는 새로운 테스트 시점 최적화 방법론을 개발했습니다. 테스트 샘플의 실제 정답을 알 수 없기 때문에, 우리는 참조 샘플 집합에서 해당 샘플의 "성공적인 이웃"을 기반으로 한 대리 목적 함수를 최적화하는 방식을 제안합니다. 우리는 모드 탐색, 커널 회귀, 그리고 유사한 참조 샘플/태스크의 평균 손실을 기반으로 한 세 가지 대리 목적 함수와 알고리즘을 소개합니다. 전체 경로를 최적화하는 비용을 줄이기 위해, 우리는 알고리즘을 핵심 전문가들의 혼합 가중치에만 적용하며, 이는 비슷한 성능을 유지하면서도 상당한 계산 비용을 절약합니다. 이를 통해 "중요 계층, 핵심 전문가, 협력적 경로 최적화(Critical-Layer, Core-Expert, Collaborative Pathway Optimization, C3PO)"를 도출했습니다. 우리는 C3PO를 최근의 두 MoE LLM에 적용하고, 널리 사용되는 여섯 가지 벤치마크에서 이를 검증했습니다. C3PO는 기본 모델의 정확도를 7-15% 향상시키며, 테스트 시점 학습의 대표적인 기법들(예: 컨텍스트 내 학습, 프롬프트/프리픽스 튜닝)을 큰 차이로 능가했습니다. 더 나아가, C3PO는 1-3B 활성 파라미터를 가진 MoE LLM이 7-9B 파라미터의 LLM을 능가하도록 하여, MoE의 효율성 장점을 더욱 강화했습니다. 우리의 철저한 제거 연구는 MoE에서 테스트 시점 개선을 달성하는 데 대한 새로운 통찰을 제공합니다.
최근 확산 모델의 발전은 다양한 이미지 생성 작업을 크게 진전시켰습니다. 그러나 현재 주류 접근 방식은 여전히 특정 작업에 특화된 모델 구축에 초점을 맞추고 있어, 다양한 요구를 지원하는 데 있어 효율성이 제한적입니다. 범용 모델은 이러한 한계를 해결하려고 시도하지만, 일반화 가능한 작업 지시, 적절한 작업 분포, 통합된 아키텍처 설계 등 중요한 과제에 직면해 있습니다. 이러한 과제를 해결하기 위해, 우리는 VisualCloze라는 범용 이미지 생성 프레임워크를 제안합니다. 이 프레임워크는 다양한 도메인 내 작업을 지원하고, 보이지 않는 작업으로의 일반화, 여러 작업의 통합, 역생성 등을 가능하게 합니다. 기존의 언어 기반 작업 지시에 의존하여 작업 모호성과 약한 일반화를 초래하는 방법과 달리, 우리는 시각적 문맥 학습을 통합하여 모델이 시각적 데모에서 작업을 식별할 수 있도록 합니다. 한편, 시각적 작업 분포의 고유한 희소성은 작업 간 전이 가능한 지식 학습을 방해합니다. 이를 위해, 우리는 다양한 상호 연관된 작업을 설정하여 작업 밀도와 전이 가능한 지식을 향상시키는 그래프 구조 데이터셋인 Graph200K를 소개합니다. 더 나아가, 우리의 통합 이미지 생성 공식이 이미지 인필링과 일관된 목표를 공유한다는 점을 발견하여, 아키텍처를 수정하지 않고도 사전 훈련된 인필링 모델의 강력한 생성 사전 지식을 활용할 수 있게 되었습니다.
체인 오브 사고(Chain-of-Thought, CoT) 추론의 발전은 대규모 언어 모델(Large Language Models, LLMs)과 대규모 시각-언어 모델(Large Vision-Language Models, LVLMs)의 능력을 크게 향상시켰습니다. 그러나 비디오 CoT 추론을 위한 엄격한 평가 프레임워크는 아직 부재한 상태입니다. 현재의 비디오 벤치마크는 추론 과정을 충분히 평가하지 못하며, 실패가 인지 능력의 결함에서 비롯된 것인지 아니면 추론 능력의 부족에서 비롯된 것인지를 명확히 드러내지 못합니다. 따라서 우리는 LVLMs의 비디오 체인 오브 사고 추론 능력을 종합적으로 평가하기 위한 새로운 벤치마크인 VCR-Bench를 소개합니다. VCR-Bench는 다양한 비디오 콘텐츠와 길이를 아우르는 859개의 비디오와 1,034개의 고품질 질문-답변 쌍으로 구성되어 있습니다. 각 쌍은 단계별 CoT 근거와 함께 수동으로 주석 처리되었으며, 각 단계는 인지 또는 추론 능력과의 연관성을 나타내는 태그가 지정되어 있습니다. 더불어, 우리는 7개의 독특한 작업 차원을 설계하고, 단계별로 태그가 지정된 CoT 근거를 기반으로 전체 CoT 과정을 평가하기 위한 CoT 점수를 제안합니다. VCR-Bench에서 수행된 광범위한 실험은 현재 LVLMs의 상당한 한계를 드러냈습니다. 최고 성능 모델인 o1조차도 CoT 점수 62.8%와 정확도 56.7%를 달성하는 데 그쳤으며, 대부분의 모델은 40% 미만의 점수를 기록했습니다. 실험 결과, 대부분의 모델이 추론 단계보다 인지 단계에서 더 낮은 점수를 기록했는데, 이는 복잡한 비디오 추론을 위한 시공간 정보 처리에서 LVLMs의 주요 병목 현상을 보여줍니다. CoT 점수와 정확도 간의 강력한 양의 상관관계는 우리의 평가 프레임워크의 타당성을 확인하고, 복잡한 비디오 추론 과제를 해결하는 데 있어 CoT 추론의 중요한 역할을 강조합니다. 우리는 VCR-Bench가 표준화된 평가 프레임워크로 자리 잡고, 복잡한 비디오 추론 과제에서의 실제 결점을 드러내기를 바랍니다.
명령어 수행(Instruction Following, IF) 능력은 다중 모드 대형 언어 모델(Multi-modal Large Language Models, MLLMs)이 사용자가 전달하는 내용을 정확히 이해하고 올바르게 수행하는지를 측정합니다. 기존의 다중 모드 명령어 수행 학습 데이터는 부족하며, 벤치마크는 단순한 원자적 명령어로 구성되어 있고, 정확한 출력 제약이 필요한 작업에 대한 평가 전략은 부정확합니다. 이를 해결하기 위해, 우리는 고품질의 이미지-명령어 쌍을 생성하는 효과적인 파이프라인인 MM-IFEngine을 제시합니다. 우리의 MM-IFEngine 파이프라인은 대규모, 다양성, 고품질의 학습 데이터인 MM-IFInstruct-23k를 생성하며, 이는 지도 미세 조정(Supervised Fine-Tuning, SFT)에 적합하고, 직접 선호 최적화(Direct Preference Optimization, DPO)를 위한 MM-IFDPO-23k로 확장됩니다. 또한, 우리는 도전적이고 다양한 다중 모드 명령어 수행 벤치마크인 MM-IFEval을 소개합니다. 이 벤치마크는 (1) 출력 응답에 대한 구성 수준의 제약과 입력 이미지에 연결된 인지 수준의 제약을 모두 포함하며, (2) 규칙 기반 평가와 판단 모델을 통합한 포괄적인 평가 파이프라인을 포함합니다. 우리는 SFT와 DPO 실험을 수행하고, MM-IFInstruct-23k와 MM-IFDPO-23k로 MLLMs를 미세 조정함으로써 MM-IFEval(+10.2%), MIA(+7.6%), IFEval(+12.3%) 등 다양한 IF 벤치마크에서 상당한 성능 향상을 달성함을 입증합니다. 전체 데이터와 평가 코드는 https://github.com/SYuan03/MM-IFEngine에서 공개될 예정입니다.
다양한 모달리티 신호를 통해 세계를 효과적으로 인지할 수 있는 범용 모델을 구축하는 것은 오랜 기간 동안 추구되어 온 목표입니다. 현재의 접근 방식은 시각 인코더를 대형 언어 모델(LLM)에 연결하고 다중 모달리티 학습을 계속하는 등 별도로 사전 학습된 구성 요소를 통합하는 것을 포함합니다. 이러한 접근 방식은 놀라운 샘플 효율성을 보여주지만, 이러한 후기 융합(late-fusion) 아키텍처가 본질적으로 우월한지 여부는 여전히 열린 질문으로 남아 있습니다. 본 연구에서는 모든 모달리티를 처음부터 학습하는 네이티브 다중 모달리티 모델(NMM)의 아키텍처 설계를 재검토하고, 다양한 아키텍처와 학습 혼합을 가진 457개의 학습된 모델을 대상으로 광범위한 스케일링 법칙 연구를 수행했습니다. 우리의 연구 결과, 후기 융합 아키텍처가 이미지 인코더에 의존하지 않는 조기 융합(early-fusion) 아키텍처에 비해 본질적인 우위를 가지지 않음을 밝혔습니다. 오히려, 조기 융합은 더 적은 매개변수 수에서 더 강력한 성능을 보이며, 학습 효율성이 높고 배포가 더 쉽습니다. 조기 융합 아키텍처의 강력한 성능에 고무되어, 우리는 전문가 혼합(Mixture of Experts, MoE)을 도입하여 모달리티별 가중치를 학습하는 모델이 성능을 크게 향상시킬 수 있음을 보여줍니다.
3D 부분 비가시적 분할(amodal segmentation)은 가려진 부분까지 포함하여 3D 형태를 완전하고 의미론적으로 의미 있는 부분으로 분해하는 작업으로, 3D 콘텐츠 생성 및 이해를 위한 도전적이면서도 중요한 과제입니다. 기존의 3D 부분 분할 방법은 가시적인 표면 패치만을 식별하므로 그 유용성이 제한적이었습니다. 2D 비가시적 분할에서 영감을 받아, 우리는 이 새로운 과제를 3D 영역에 도입하고, 가려진 3D 형상을 추론하고, 전반적인 형태 일관성을 유지하며, 제한된 학습 데이터로 다양한 형태를 처리하는 핵심 과제를 해결하는 실용적인 두 단계 접근 방식을 제안합니다. 먼저, 기존의 3D 부분 분할을 활용하여 초기 불완전한 부분 세그먼트를 얻습니다. 두 번째로, 이러한 세그먼트를 완전한 3D 부분으로 완성하기 위해 새로운 확산 기반 모델인 HoloPart를 소개합니다. HoloPart는 세밀한 부분 형상을 포착하기 위한 지역적 주의 메커니즘과 전반적인 형태 일관성을 보장하기 위한 전역적 형태 문맥 주의 메커니즘을 갖춘 특수한 아키텍처를 활용합니다. 우리는 ABO 및 PartObjaverse-Tiny 데이터셋을 기반으로 새로운 벤치마크를 도입하고, HoloPart가 최신 형상 완성 방법을 크게 능가함을 입증합니다. HoloPart를 기존 분할 기술과 결합함으로써, 3D 부분 비가시적 분할에서 유망한 결과를 달성하며, 형상 편집, 애니메이션, 재질 할당 등 다양한 응용 분야에 새로운 가능성을 열었습니다.
본 논문에서는 지식 증류 없이 순수한 자기 개선을 통해 훨씬 적은 수의 학습 샘플로 시각적 추론 능력을 향상시키는 효과적인 방법을 제시합니다. 우리의 핵심 통찰은 강화 미세 조정(Reinforcement Fine-Tuning, RFT) 과정에서 학습 데이터의 난이도가 매우 중요하다는 것입니다. 적절히 도전적인 샘플은 데이터셋이 작더라도 추론 능력을 크게 향상시킬 수 있습니다. 직관적이지만, 주요 과제는 효과적인 데이터 필터링을 위해 샘플 난이도를 정확하게 정량화하는 데 있습니다. 이를 위해 우리는 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 재활용하는 새로운 방법을 제안합니다. 우리가 선별한 70,000개의 오픈소스 학습 샘플을 시작으로, MCTS 기반 선택 방법을 도입하여 VLM이 각 문제를 해결하는 데 필요한 반복 횟수를 기반으로 샘플 난이도를 정량화합니다. MCTS에서의 명시적인 단계별 추론은 모델이 더 오래 생각하도록 강제하며, 진정으로 도전적인 샘플을 더 잘 식별합니다. 우리는 11,000개의 샘플을 필터링하여 Qwen2.5-VL-7B-Instruct에 RFT를 수행하고, 최종 모델인 ThinkLite-VL을 얻었습니다. 8개의 벤치마크에서의 평가 결과, ThinkLite-VL은 Qwen2.5-VL-7B-Instruct의 평균 성능을 7% 향상시켰으며, 지식 증류 없이 단 11,000개의 학습 샘플만을 사용했습니다. 이는 모든 기존 7B 수준의 추론 VLM과 정확도 기반 필터링과 같은 전통적인 선택 방법을 사용한 비교 가능한 베이스라인을 크게 능가합니다. 특히, MathVista에서 ThinkLite-VL-7B는 75.1의 SoTA 정확도를 달성하며, Qwen2.5-VL-72B, GPT-4o, O1을 능가했습니다. 우리의 코드, 데이터 및 모델은 https://github.com/si0wang/ThinkLite-VL에서 확인할 수 있습니다.
우리는 새로운 오픈소스 소셜 네트워크 시뮬레이션 프레임워크인 MOSAIC을 소개합니다. 이 프레임워크에서는 생성형 언어 에이전트가 콘텐츠에 대한 좋아요, 공유, 신고와 같은 사용자 행동을 예측합니다. 이 시뮬레이션은 LLM(Large Language Model) 에이전트와 방향성 소셜 그래프를 결합하여, 사용자가 온라인 소셜 콘텐츠의 진위를 어떻게 판단하는지에 대한 이해를 높이고, 발생하는 기만 행동을 분석합니다. 다양한 세분화된 페르소나로부터 사용자 표현을 구성함으로써, 우리 시스템은 대규모로 콘텐츠 전파 및 참여 역학을 모델링하는 다중 에이전트 시뮬레이션을 가능하게 합니다. 이 프레임워크 내에서, 우리는 시뮬레이션된 허위 정보 전파를 통해 세 가지 다른 콘텐츠 중재 전략을 평가하고, 이러한 전략들이 비사실적 콘텐츠의 확산을 완화할 뿐만 아니라 사용자 참여를 증가시킨다는 것을 발견했습니다. 또한, 우리는 시뮬레이션에서 인기 있는 콘텐츠의 궤적을 분석하고, 시뮬레이션 에이전트들이 소셜 상호작용에 대해 명시적으로 제시한 이유가 실제로 그들의 집단적 참여 패턴과 일치하는지 탐구합니다. 우리는 AI와 사회과학 분야의 추가 연구를 장려하기 위해 시뮬레이션 소프트웨어를 오픈소스로 공개합니다.
멀티모달 대형 언어 모델(MLLMs)의 기존 진화에도 불구하고, 특히 문서와 같은 텍스트가 풍부한 이미지에서 시각적 텍스트 그라운딩(visual text grounding)에 어려움을 겪는 중요한 한계가 여전히 존재합니다. 스캔된 양식과 인포그래픽과 같은 문서 이미지는 복잡한 레이아웃과 텍스트 콘텐츠로 인해 중요한 도전 과제를 강조합니다. 그러나 현재의 벤치마크는 이러한 도전 과제를 충분히 다루지 못하고 있으며, 대부분 자연 이미지에 대한 시각적 그라운딩에 초점을 맞추고 있습니다. 따라서 이러한 격차를 해소하기 위해, 우리는 문서 질문-응답에서 MLLMs의 텍스트가 풍부한 이미지 그라운딩 능력을 벤치마킹하고 개선하기 위한 새로운 작업인 TRIG와 새롭게 설계된 명령어 데이터셋을 소개합니다. 구체적으로, 우리는 OCR-LLM-인간 상호작용 파이프라인을 제안하여 800개의 수동으로 주석이 달린 질문-응답 쌍을 벤치마크로 생성하고, 네 가지 다양한 데이터셋을 기반으로 90$의 대규모 합성 데이터셋을 학습 세트로 구성했습니다. 우리가 제안한 벤치마크에 대한 다양한 MLLMs의 종합적인 평가는 텍스트가 풍부한 이미지에서의 그라운딩 능력에 상당한 한계를 드러냈습니다. 또한, 우리는 일반적인 명령어 튜닝과 플러그 앤 플레이 효율적 임베딩을 기반으로 한 두 가지 간단하고 효과적인 TRIG 방법을 제안합니다. 합성 데이터셋에서 MLLMs를 미세 조정함으로써, 공간 추론 및 그라운딩 능력이 유망하게 개선되었습니다.
기존의 텍스트-이미지 확산 모델 제어 방법은 강력하지만, 객체 방향의 정밀한 제어와 같은 명시적인 3D 객체 중심 제어를 허용하지 않습니다. 본 연구에서는 텍스트-이미지 확산 모델에서 다중 객체 방향 제어 문제를 해결합니다. 이를 통해 각 객체에 대한 정밀한 방향 제어가 가능한 다양한 다중 객체 장면을 생성할 수 있습니다. 핵심 아이디어는 확산 모델을 텍스트 토큰과 함께 각 객체에 대한 방향 인식 나침반 토큰 세트로 조건화하는 것입니다. 경량 인코더 네트워크는 객체 방향을 입력으로 받아 이러한 나침반 토큰을 예측합니다. 이 모델은 단순한 배경 위에 하나 또는 두 개의 3D 자산이 포함된 절차적으로 생성된 장면으로 구성된 합성 데이터셋에서 훈련됩니다. 그러나 이 프레임워크를 직접 훈련하면 방향 제어가 미흡하고 객체 간에 얽힘이 발생합니다. 이를 완화하기 위해 생성 과정에 개입하여 각 나침반 토큰의 교차 주의 맵을 해당 객체 영역으로 제한합니다. 훈련된 모델은 a) 훈련 중 보지 못한 복잡한 객체와 b) 두 개 이상의 객체가 포함된 다중 객체 장면에 대해 정밀한 방향 제어를 달성할 수 있어 강력한 일반화 능력을 보여줍니다. 또한, 개인화 방법과 결합할 경우 우리의 방법은 다양한 맥락에서 새로운 객체의 방향을 정밀하게 제어합니다. 우리의 방법은 광범위한 평가와 사용자 연구를 통해 정량화된 최첨단 방향 제어와 텍스트 정렬을 달성합니다.
우리는 동적 장면의 단안 3D 재구성을 위해 비디오 확산 모델을 재활용하는 Geo4D 방법을 소개한다. Geo4D는 이러한 비디오 모델이 포착한 강력한 동적 사전 지식을 활용하여, 합성 데이터만으로도 훈련이 가능하면서도 실제 데이터에 대해 제로샷 방식으로 잘 일반화된다. Geo4D는 점(point), 깊이(depth), 광선(ray) 맵과 같은 여러 보완적인 기하학적 모달리티를 예측한다. 또한, 추론 시점에서 이러한 모달리티와 여러 슬라이딩 윈도우를 정렬 및 융합하기 위해 새로운 다중 모달리티 정렬 알고리즘을 사용함으로써, 긴 비디오의 강건하고 정확한 4D 재구성을 달성한다. 다양한 벤치마크에서 수행된 광범위한 실험 결과, Geo4D는 동적 장면을 처리하도록 설계된 MonST3R와 같은 최신 방법을 포함하여 최첨단 비디오 깊이 추정 방법들을 크게 능가하는 것으로 나타났다.
현재의 단안(monocular) 3D 검출기는 실제 세계 데이터셋의 제한된 다양성과 규모로 인해 발전에 한계를 겪고 있습니다. 데이터 증강(data augmentation)이 확실히 도움이 되지만, 특히 야외 환경에서 현실적인 장면 인식(scene-aware) 증강 데이터를 생성하는 것은 매우 어려운 문제입니다. 현재 대부분의 합성 데이터 생성 접근법은 개선된 렌더링 기술을 통해 현실적인 객체 외관에 초점을 맞추고 있습니다. 그러나 우리는 효과적인 단안 3D 검출기를 훈련시키기 위해 객체가 어디에, 어떻게 위치하는지가 동등하게 중요하다는 것을 보여줍니다. 주요 장애물은 실제 장면에 합성 객체를 도입할 때 현실적인 객체 배치 매개변수(위치, 크기, 방향 정렬 등)를 자동으로 결정하는 데 있습니다. 이를 해결하기 위해, 우리는 3D 장면 내용을 고려하여 현실적인 증강을 생성하는 새로운 시스템인 MonoPlace3D를 소개합니다. 구체적으로, MonoPlace3D는 주어진 배경 장면에서 가능성 있는 3D 바운딩 박스(bounding box)에 대한 분포를 학습합니다. 이후, 학습된 분포에서 샘플링된 위치에 따라 현실적인 객체를 렌더링하고 배치합니다. KITTI와 NuScenes라는 두 가지 표준 데이터셋에 대한 포괄적인 평가를 통해, MonoPlace3D가 여러 기존 단안 3D 검출기의 정확도를 크게 향상시키면서도 데이터 효율성이 매우 높음을 입증했습니다.
비디오에서 임의의 점(Tracking Any Point, TAP)을 추적하는 것은 로보틱스, 비디오 편집, 3D 재구성 등 다양한 응용 분야에서 활용되는 어려운 컴퓨터 비전 문제입니다. 기존의 TAP 방법들은 복잡한 추적 특화 귀납적 편향(inductive biases)과 휴리스틱에 크게 의존하여 일반성과 확장성이 제한되었습니다. 이러한 문제를 해결하기 위해, 우리는 TAP를 순차적 마스크 토큰 디코딩(sequential masked token decoding)으로 재구성한 새로운 접근법인 TAPNext를 제안합니다. 우리의 모델은 인과적(causal)이며 순수 온라인 방식으로 추적을 수행하고, 추적 특화 귀납적 편향을 제거합니다. 이를 통해 TAPNext는 최소의 지연 시간으로 실행될 수 있으며, 기존의 최첨단 추적기들이 필요로 하는 시간적 윈도잉(temporal windowing)을 제거합니다. 단순함에도 불구하고, TAPNext는 온라인 및 오프라인 추적기 모두에서 새로운 최첨단 추적 성능을 달성합니다. 마지막으로, 우리는 널리 사용되는 많은 추적 휴리스틱들이 TAPNext에서 종단 간(end-to-end) 학습을 통해 자연스럽게 나타난다는 증거를 제시합니다.