Фалкон Персепшн

Аннотация

Системы, ориентированные на восприятие, обычно реализуются по модульному принципу кодировщик-декодер: базовый визуальный блок для извлечения признаков и отдельный декодер (или модуль позднего слияния) для прогнозирования задачи. Это поднимает ключевой вопрос: является ли такое архитектурное разделение необходимым, или же единый стек с ранним слиянием может масштабируемо выполнять как восприятие, так и моделирование задачи? Мы представляем Falcon Perception — унифицированный плотный трансформер, который обрабатывает патчи изображений и текстовые токены в общем пространстве параметров, начиная с первого слоя, используя гибридный механизм внимания (двунаправленный для токенов изображения, каузальный для токенов прогнозирования) для объединения глобального визуального контекста с авторегрессионным генерацией экземпляров переменной длины. Чтобы сохранить практичность плотных выходов, Falcon Perception сохраняет легковесный токенный интерфейс и декодирует непрерывные пространственные выходы с помощью специализированных головок, обеспечивая параллельное прогнозирование масок высокого разрешения. Наш дизайн ориентирован на простоту: мы используем единый масштабируемый базовый блок и переносим сложность в сторону данных и обучающих сигналов, добавляя лишь небольшие головки там, где выходы являются непрерывными и плотными. На наборе данных SA-Co Falcon Perception улучшает качество масок до 68.0 Macro-F₁ по сравнению с 62.3 у SAM3. Мы также представляем PBench — бенчмарк, ориентированный на композитные промпты (OCR, пространственные ограничения, отношения) и режимы плотного длинного контекста, где модель демонстрирует более значительный прогресс. Наконец, мы расширяем тот же рецепт раннего слияния до Falcon OCR: компактной модели на 300 миллионов параметров, которая достигает 80.3% на olmOCR и 88.64 на OmniDocBench.

English

Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction. Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F_1 compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.