ChatPaper.aiChatPaper

Percepção Falcon

Falcon Perception

March 28, 2026
Autores: Aviraj Bevli, Sofian Chaybouti, Yasser Dahou, Hakim Hacid, Ngoc Dung Huynh, Phuc H. Le Khac, Sanath Narayan, Wamiq Reyaz Para, Ankit Singh
cs.AI

Resumo

Os sistemas centrados na percepção são tipicamente implementados com um pipeline modular de codificador-decodificador: um *backbone* de visão para extração de características e um decodificador separado (ou módulo de fusão tardia) para previsão de tarefas. Isso levanta uma questão central: esta separação arquitetônica é essencial ou pode uma única pilha de fusão precoce realizar tanto a modelagem de percepção quanto a de tarefas em escala? Apresentamos o Falcon Perception, um Transformer denso unificado que processa *patches* de imagem e *tokens* de texto em um espaço de parâmetros compartilhado desde a primeira camada, usando um padrão de atenção híbrido (bidirecional entre *tokens* de imagem, causal para *tokens* de previsão) para combinar contexto visual global com geração autoregressiva de instâncias de comprimento variável. Para manter as saídas densas práticas, o Falcon Perception mantém uma interface de *token* leve e decodifica saídas espaciais contínuas com cabeças especializadas, permitindo a previsão paralela de máscaras de alta resolução. Nosso projeto prioriza a simplicidade: mantemos um único *backbone* escalável e transferimos a complexidade para os dados e sinais de treinamento, adicionando apenas pequenas cabeças onde as saídas são contínuas e densas. No SA-Co, o Falcon Perception melhora a qualidade da máscara para 68,0 Macro-F_1 em comparação com 62,3 do SAM3. Também apresentamos o PBench, um *benchmark* focado em *prompts* composicionais (OCR, restrições espaciais, relações) e regimes de contexto longo e denso, onde o modelo mostra ganhos superiores. Por fim, estendemos a mesma receita de fusão precoce para o Falcon OCR: um modelo compacto de 300 milhões de parâmetros que atinge 80,3% no olmOCR e 88,64 no OmniDocBench.
English
Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction. Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F_1 compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.
PDF71April 2, 2026