Фалкон Персепшн
Falcon Perception
March 28, 2026
Авторы: Aviraj Bevli, Sofian Chaybouti, Yasser Dahou, Hakim Hacid, Ngoc Dung Huynh, Phuc H. Le Khac, Sanath Narayan, Wamiq Reyaz Para, Ankit Singh
cs.AI
Аннотация
Системы, ориентированные на восприятие, обычно реализуются по модульному принципу кодировщик-декодер: базовый визуальный блок для извлечения признаков и отдельный декодер (или модуль позднего слияния) для прогнозирования задачи. Это поднимает ключевой вопрос: является ли такое архитектурное разделение необходимым, или же единый стек с ранним слиянием может масштабируемо выполнять как восприятие, так и моделирование задачи? Мы представляем Falcon Perception — унифицированный плотный трансформер, который обрабатывает патчи изображений и текстовые токены в общем пространстве параметров, начиная с первого слоя, используя гибридный механизм внимания (двунаправленный для токенов изображения, каузальный для токенов прогнозирования) для объединения глобального визуального контекста с авторегрессионным генерацией экземпляров переменной длины. Чтобы сохранить практичность плотных выходов, Falcon Perception сохраняет легковесный токенный интерфейс и декодирует непрерывные пространственные выходы с помощью специализированных головок, обеспечивая параллельное прогнозирование масок высокого разрешения.
Наш дизайн ориентирован на простоту: мы используем единый масштабируемый базовый блок и переносим сложность в сторону данных и обучающих сигналов, добавляя лишь небольшие головки там, где выходы являются непрерывными и плотными. На наборе данных SA-Co Falcon Perception улучшает качество масок до 68.0 Macro-F₁ по сравнению с 62.3 у SAM3. Мы также представляем PBench — бенчмарк, ориентированный на композитные промпты (OCR, пространственные ограничения, отношения) и режимы плотного длинного контекста, где модель демонстрирует более значительный прогресс. Наконец, мы расширяем тот же рецепт раннего слияния до Falcon OCR: компактной модели на 300 миллионов параметров, которая достигает 80.3% на olmOCR и 88.64 на OmniDocBench.
English
Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction.
Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F_1 compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.