LocateAnything: Grounding Visión-Lenguaje Rápido y de Alta Calidad con Decodificación Paralela de Cajas

Resumen

Los modelos visión-lenguaje (VLM) suelen formular la localización visual y la detección como un problema de generación de tokens de coordenadas, serializando cada cuadro 2D en múltiples tokens 1D que se aprenden y decodifican en gran medida de forma independiente. Esta decodificación token por token no se ajusta a la estructura acoplada de la geometría del cuadro y crea un cuello de botella práctico en la inferencia debido a la generación estrictamente secuencial. Presentamos LocateAnything, un marco unificado de localización y detección generativa basado en el Decodificación Paralela de Cuadros (PBD, por sus siglas en inglés). Al decodificar elementos geométricos como cuadros delimitadores y puntos como unidades atómicas en un solo paso, LocateAnything preserva la coherencia geométrica intra-cuadro y desbloquea un paralelismo sustancial. Demostramos que PBD mejora tanto el rendimiento de decodificación como la precisión de localización. Además, desarrollamos un motor de datos escalable y curamos LocateAnything-Data, un conjunto de datos a gran escala con más de 138 millones de muestras de entrenamiento, lo que aumenta sustancialmente la diversidad de datos para la localización de alta precisión. Evaluaciones exhaustivas muestran que LocateAnything avanza en la frontera velocidad-precisión, logrando un rendimiento de decodificación significativamente mayor al tiempo que mejora la calidad de localización con alto IoU en diversos puntos de referencia. Los resultados destacan los beneficios complementarios de la Decodificación Paralela de Cuadros y los datos de entrenamiento a gran escala para permitir una localización y detección visual unificada, eficiente y precisa.

English

Vision-language models (VLMs) commonly formulate visual grounding and detection as a coordinate-token generation problem, serializing each 2D box into multiple 1D tokens that are learned and decoded largely independently. This token-by-token decoding mismatches the coupled structure of box geometry and creates a practical inference bottleneck due to strictly sequential generation. We introduce LocateAnything, a unified generative grounding and detection framework based on Parallel Box Decoding (PBD). By decoding geometric elements such as bounding boxes and points as atomic units in a single step, LocateAnything preserves intra-box geometric coherence and unlocks substantial parallelism. We show that PBD improves both decoding throughput and localization accuracy. We further develop a scalable data engine and curate LocateAnything-Data, a large-scale dataset with more than 138 million training samples, substantially increasing data diversity for high-precision localization. Extensive evaluations show that LocateAnything advances the speed-accuracy frontier, achieving significantly higher decoding throughput while improving high-IoU localization quality across diverse benchmarks. The results highlight the complementary benefits of Parallel Box Decoding and large-scale training data in enabling efficient and precise unified visual grounding and detection.