Falcon-Wahrnehmung

Zusammenfassung

Perzeptionszentrierte Systeme werden typischerweise mit einer modularen Encoder-Decoder-Pipeline implementiert: einem Vision-Backbone zur Merkmalsextraktion und einem separaten Decoder (oder Spätfusion-Modul) für die Aufgabenprognose. Dies wirft eine zentrale Frage auf: Ist diese architektonische Trennung wesentlich, oder kann ein einziger Early-Fusion-Stack sowohl die Wahrnehmung als auch die Aufgabenmodellierung im großen Maßstab übernehmen? Wir stellen Falcon Perception vor, einen vereinheitlichten dichten Transformer, der Bildpatches und Text-Tokens ab der ersten Ebene in einem gemeinsamen Parameterraum verarbeitet. Dabei nutzt er ein hybrides Aufmerksamkeitsmuster (bidirektional zwischen Bild-Tokens, kausal für Prognose-Tokens), um globalen visuellen Kontext mit autoregressiver, variabler Längen-Instanzerzeugung zu kombinieren. Um dichte Ausgaben praktikabel zu halten, behält Falcon Perception eine schlanke Token-Schnittstelle bei und dekodiert kontinuierliche räumliche Ausgaben mit spezialisierten Heads, was eine parallele Hochauflösungs-Maskenprognose ermöglicht. Unser Design fördert Einfachheit: Wir behalten einen einzigen skalierbaren Backbone bei und verlagern die Komplexität auf Daten und Trainingssignale, wobei wir nur kleine Heads hinzufügen, wo die Ausgaben kontinuierlich und dicht sind. Auf SA-Co verbessert Falcon Perception die Maskenqualität auf 68,0 Macro-F_1 im Vergleich zu 62,3 von SAM3. Wir führen außerdem PBench ein, einen Benchmark, der auf kompositionelle Prompts (OCR, räumliche Einschränkungen, Relationen) und dichte Long-Context-Regime abzielt, wo das Modell größere Gewinne zeigt. Schließlich erweitern wir das gleiche Early-Fusion-Rezept auf Falcon OCR: ein kompaktes 300-Millionen-Parameter-Modell, das 80,3 % auf olmOCR und 88,64 auf OmniDocBench erreicht.

English

Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction. Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F_1 compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.