Percepção Falcon

Resumo

Os sistemas centrados na percepção são tipicamente implementados com um pipeline modular de codificador-decodificador: um *backbone* de visão para extração de características e um decodificador separado (ou módulo de fusão tardia) para previsão de tarefas. Isso levanta uma questão central: esta separação arquitetônica é essencial ou pode uma única pilha de fusão precoce realizar tanto a modelagem de percepção quanto a de tarefas em escala? Apresentamos o Falcon Perception, um Transformer denso unificado que processa *patches* de imagem e *tokens* de texto em um espaço de parâmetros compartilhado desde a primeira camada, usando um padrão de atenção híbrido (bidirecional entre *tokens* de imagem, causal para *tokens* de previsão) para combinar contexto visual global com geração autoregressiva de instâncias de comprimento variável. Para manter as saídas densas práticas, o Falcon Perception mantém uma interface de *token* leve e decodifica saídas espaciais contínuas com cabeças especializadas, permitindo a previsão paralela de máscaras de alta resolução. Nosso projeto prioriza a simplicidade: mantemos um único *backbone* escalável e transferimos a complexidade para os dados e sinais de treinamento, adicionando apenas pequenas cabeças onde as saídas são contínuas e densas. No SA-Co, o Falcon Perception melhora a qualidade da máscara para 68,0 Macro-F_1 em comparação com 62,3 do SAM3. Também apresentamos o PBench, um *benchmark* focado em *prompts* composicionais (OCR, restrições espaciais, relações) e regimes de contexto longo e denso, onde o modelo mostra ganhos superiores. Por fim, estendemos a mesma receita de fusão precoce para o Falcon OCR: um modelo compacto de 300 milhões de parâmetros que atinge 80,3% no olmOCR e 88,64 no OmniDocBench.

English

Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction. Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F_1 compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.