ChatPaper.aiChatPaper

이상에서 현실로: 실세계 시나리오를 위한 통합적이고 데이터 효율적인 밀집 예측

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

June 25, 2025
저자: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI

초록

밀집 예측(dense prediction) 작업은 컴퓨터 비전에서 중요한 위치를 차지하며, 입력 이미지에 대해 픽셀 단위로 주석이 달린 레이블을 학습하는 것을 목표로 합니다. 이 분야의 발전에도 불구하고, 기존 방법들은 주로 이상적인 조건에 초점을 맞추고 있어 실제 시나리오로의 일반화가 제한적이며, 실제 데이터의 부족이라는 어려움에 직면해 있습니다. 이 문제를 체계적으로 연구하기 위해, 우리는 먼저 DenseWorld를 소개합니다. 이는 긴급한 실제 응용 프로그램에 해당하는 25개의 다양한 밀집 예측 작업을 아우르는 벤치마크로, 작업 간 통일된 평가를 특징으로 합니다. 그런 다음, 우리는 생성 모델의 시각적 사전 지식을 최대한 활용하여 다양한 실제 밀집 예측 작업을 통일된 전략으로 수행하는 DenseDiT를 제안합니다. DenseDiT는 매개변수 재사용 메커니즘과 다중 스케일 컨텍스트를 적응적으로 통합하는 두 개의 경량 분기를 결합하여, 추가 매개변수를 0.1% 미만으로 사용합니다. DenseWorld에 대한 평가 결과, 기존의 일반적 및 특수화된 베이스라인들이 현저한 성능 하락을 보이며, 이들의 실제 일반화 능력이 제한적임을 확인했습니다. 반면, DenseDiT는 베이스라인의 0.01% 미만의 학습 데이터를 사용하여 우수한 결과를 달성하며, 실제 배포를 위한 실용적 가치를 입증했습니다. 우리의 데이터, 체크포인트 및 코드는 https://xcltql666.github.io/DenseDiTProj에서 확인할 수 있습니다.
English
Dense prediction tasks hold significant importance of computer vision, aiming to learn pixel-wise annotated label for an input image. Despite advances in this field, existing methods primarily focus on idealized conditions, with limited generalization to real-world scenarios and facing the challenging scarcity of real-world data. To systematically study this problem, we first introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction tasks that correspond to urgent real-world applications, featuring unified evaluation across tasks. Then, we propose DenseDiT, which maximally exploits generative models' visual priors to perform diverse real-world dense prediction tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism and two lightweight branches that adaptively integrate multi-scale context, working with less than 0.1% additional parameters. Evaluations on DenseWorld reveal significant performance drops in existing general and specialized baselines, highlighting their limited real-world generalization. In contrast, DenseDiT achieves superior results using less than 0.01% training data of baselines, underscoring its practical value for real-world deployment. Our data, and checkpoints and codes are available at https://xcltql666.github.io/DenseDiTProj
PDF171June 30, 2025