ChatPaper.aiChatPaper

Falcon-Wahrnehmung

Falcon Perception

March 28, 2026
Autoren: Aviraj Bevli, Sofian Chaybouti, Yasser Dahou, Hakim Hacid, Ngoc Dung Huynh, Phuc H. Le Khac, Sanath Narayan, Wamiq Reyaz Para, Ankit Singh
cs.AI

Zusammenfassung

Perzeptionszentrierte Systeme werden typischerweise mit einer modularen Encoder-Decoder-Pipeline implementiert: einem Vision-Backbone zur Merkmalsextraktion und einem separaten Decoder (oder Spätfusion-Modul) für die Aufgabenprognose. Dies wirft eine zentrale Frage auf: Ist diese architektonische Trennung wesentlich, oder kann ein einziger Early-Fusion-Stack sowohl die Wahrnehmung als auch die Aufgabenmodellierung im großen Maßstab übernehmen? Wir stellen Falcon Perception vor, einen vereinheitlichten dichten Transformer, der Bildpatches und Text-Tokens ab der ersten Ebene in einem gemeinsamen Parameterraum verarbeitet. Dabei nutzt er ein hybrides Aufmerksamkeitsmuster (bidirektional zwischen Bild-Tokens, kausal für Prognose-Tokens), um globalen visuellen Kontext mit autoregressiver, variabler Längen-Instanzerzeugung zu kombinieren. Um dichte Ausgaben praktikabel zu halten, behält Falcon Perception eine schlanke Token-Schnittstelle bei und dekodiert kontinuierliche räumliche Ausgaben mit spezialisierten Heads, was eine parallele Hochauflösungs-Maskenprognose ermöglicht. Unser Design fördert Einfachheit: Wir behalten einen einzigen skalierbaren Backbone bei und verlagern die Komplexität auf Daten und Trainingssignale, wobei wir nur kleine Heads hinzufügen, wo die Ausgaben kontinuierlich und dicht sind. Auf SA-Co verbessert Falcon Perception die Maskenqualität auf 68,0 Macro-F_1 im Vergleich zu 62,3 von SAM3. Wir führen außerdem PBench ein, einen Benchmark, der auf kompositionelle Prompts (OCR, räumliche Einschränkungen, Relationen) und dichte Long-Context-Regime abzielt, wo das Modell größere Gewinne zeigt. Schließlich erweitern wir das gleiche Early-Fusion-Rezept auf Falcon OCR: ein kompaktes 300-Millionen-Parameter-Modell, das 80,3 % auf olmOCR und 88,64 auf OmniDocBench erreicht.
English
Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction. Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F_1 compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.
PDF71April 2, 2026