Percepción del Halcón

Resumen

Los sistemas centrados en la percepción suelen implementarse con una arquitectura modular de codificador-decodificador: un *backbone* de visión para la extracción de características y un decodificador separado (o módulo de fusión tardía) para la predicción de tareas. Esto plantea una cuestión central: ¿es esta separación arquitectónica esencial o puede una única pila de fusión temprana realizar tanto el modelado de la percepción como el de la tarea a escala? Presentamos Falcon Perception, un Transformer denso unificado que procesa *patches* de imagen y tokens de texto en un espacio de parámetros compartido desde la primera capa, utilizando un patrón de atención híbrido (bidireccional entre tokens de imagen, causal para tokens de predicción) para combinar el contexto visual global con una generación de instancias autoregresiva y de longitud variable. Para mantener la viabilidad de las salidas densas, Falcon Perception conserva una interfaz de tokens ligera y decodifica salidas espaciales continuas con cabezales especializados, permitiendo la predicción paralela de máscaras de alta resolución. Nuestro diseño promueve la simplicidad: mantenemos un único *backbone* escalable y desplazamos la complejidad hacia los datos y las señales de entrenamiento, añadiendo solo pequeños cabezales donde las salidas son continuas y densas. En SA-Co, Falcon Perception mejora la calidad de las máscaras a 68.0 de Macro-F_1 en comparación con el 62.3 de SAM3. También presentamos PBench, un benchmark dirigido a instrucciones composicionales (OCR, restricciones espaciales, relaciones) y regímenes de contexto largo y denso, donde el modelo muestra mejores ganancias. Finalmente, extendemos la misma receta de fusión temprana a Falcon OCR: un modelo compacto de 300 millones de parámetros que alcanza un 80.3% en olmOCR y un 88.64 en OmniDocBench.

English

Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction. Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F_1 compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.