Perception du Faucon

Résumé

Les systèmes centrés sur la perception sont généralement mis en œuvre avec un pipeline modulaire encodeur-décodeur : un backbone visuel pour l'extraction de caractéristiques et un décodeur séparé (ou module de fusion tardive) pour la prédiction des tâches. Cela soulève une question centrale : cette séparation architecturale est-elle essentielle, ou une pile unique de fusion précoce peut-elle réaliser à la fois la modélisation de la perception et des tâches à grande échelle ? Nous présentons Falcon Perception, un Transformer dense unifié qui traite les patches d'image et les tokens de texte dans un espace paramétrique partagé dès la première couche, en utilisant un motif d'attention hybride (bidirectionnel pour les tokens d'image, causal pour les tokens de prédiction) pour combiner le contexte visuel global avec une génération d'instances autoregressive à longueur variable. Pour maintenir la praticité des sorties denses, Falcon Perception conserve une interface légère de tokens et décode les sorties spatiales continues avec des têtes spécialisées, permettant une prédiction de masques à haute résolution en parallèle. Notre conception privilégie la simplicité : nous conservons un seul backbone scalable et déplaçons la complexité vers les données et les signaux d'entraînement, en n'ajoutant que de petites têtes là où les sorties sont continues et denses. Sur SA-Co, Falcon Perception améliore la qualité des masques à 68,0 Macro-F_1 contre 62,3 pour SAM3. Nous présentons également PBench, un benchmark ciblant les invites compositionnelles (OCR, contraintes spatiales, relations) et les régimes à contexte long et dense, où le modèle montre de meilleurs gains. Enfin, nous étendons la même recette de fusion précoce à Falcon OCR : un modèle compact de 300 millions de paramètres qui atteint 80,3 % sur olmOCR et 88,64 sur OmniDocBench.

English

Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction. Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F_1 compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.