ChatPaper.aiChatPaper

Del ideal a lo real: Predicción densa unificada y eficiente en datos para escenarios del mundo real

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

June 25, 2025
Autores: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI

Resumen

Las tareas de predicción densa tienen una importancia significativa en la visión por computadora, ya que buscan aprender etiquetas anotadas a nivel de píxel para una imagen de entrada. A pesar de los avances en este campo, los métodos existentes se centran principalmente en condiciones idealizadas, con una generalización limitada a escenarios del mundo real y enfrentando la desafiante escasez de datos del mundo real. Para estudiar sistemáticamente este problema, primero presentamos DenseWorld, un punto de referencia que abarca un amplio conjunto de 25 tareas de predicción densa que corresponden a aplicaciones urgentes del mundo real, con una evaluación unificada entre tareas. Luego, proponemos DenseDiT, que maximiza el aprovechamiento de los conocimientos previos visuales de los modelos generativos para realizar diversas tareas de predicción densa del mundo real mediante una estrategia unificada. DenseDiT combina un mecanismo de reutilización de parámetros y dos ramas ligeras que integran adaptativamente el contexto a múltiples escalas, funcionando con menos del 0.1% de parámetros adicionales. Las evaluaciones en DenseWorld revelan caídas significativas en el rendimiento de las líneas base generales y especializadas existentes, destacando su limitada generalización en el mundo real. En contraste, DenseDiT logra resultados superiores utilizando menos del 0.01% de los datos de entrenamiento de las líneas base, subrayando su valor práctico para la implementación en el mundo real. Nuestros datos, puntos de control y códigos están disponibles en https://xcltql666.github.io/DenseDiTProj.
English
Dense prediction tasks hold significant importance of computer vision, aiming to learn pixel-wise annotated label for an input image. Despite advances in this field, existing methods primarily focus on idealized conditions, with limited generalization to real-world scenarios and facing the challenging scarcity of real-world data. To systematically study this problem, we first introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction tasks that correspond to urgent real-world applications, featuring unified evaluation across tasks. Then, we propose DenseDiT, which maximally exploits generative models' visual priors to perform diverse real-world dense prediction tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism and two lightweight branches that adaptively integrate multi-scale context, working with less than 0.1% additional parameters. Evaluations on DenseWorld reveal significant performance drops in existing general and specialized baselines, highlighting their limited real-world generalization. In contrast, DenseDiT achieves superior results using less than 0.01% training data of baselines, underscoring its practical value for real-world deployment. Our data, and checkpoints and codes are available at https://xcltql666.github.io/DenseDiTProj
PDF171June 30, 2025