Percezione Falcon

Abstract

I sistemi incentrati sulla percezione sono tipicamente implementati con una pipeline modulare encoder-decoder: un backbone visivo per l'estrazione di caratteristiche e un decoder separato (o modulo di fusione tardiva) per la previsione del compito. Ciò solleva una domanda centrale: questa separazione architetturale è essenziale o può un singolo stack a fusione precoce svolgere sia la modellazione della percezione che quella del compito su larga scala? Introduciamo Falcon Perception, un Transformer denso unificato che elabora patch di immagini e token di testo in uno spazio dei parametri condiviso fin dal primo strato, utilizzando uno schema di attenzione ibrido (bidirezionale tra i token immagine, causale per i token di previsione) per combinare il contesto visivo globale con una generazione di istanze autoregressiva e a lunghezza variabile. Per mantenere pratici gli output densi, Falcon Perception conserva un'interfaccia token leggera e decodifica output spaziali continui con testine specializzate, consentendo la previsione parallela di maschere ad alta risoluzione. Il nostro design promuove la semplicità: manteniamo un unico backbone scalabile e spostiamo la complessità verso i dati e i segnali di addestramento, aggiungendo solo piccole testine dove gli output sono continui e densi. Su SA-Co, Falcon Perception migliora la qualità delle maschere portandola a 68.0 Macro-F_1 rispetto al 62.3 di SAM3. Introduciamo anche PBench, un benchmark che si concentra su prompt composizionali (OCR, vincoli spaziali, relazioni) e regimi di contesto lungo denso, dove il modello mostra migliori guadagni. Infine, estendiamo la stessa ricetta a fusione precoce a Falcon OCR: un modello compatto da 300 milioni di parametri che raggiunge l'80.3% su olmOCR e 88.64 su OmniDocBench.

English

Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction. Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F_1 compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.