Reconhecimento de Objetos como Predição do Próximo Token
Object Recognition as Next Token Prediction
December 4, 2023
Autores: Kaiyu Yue, Bor-Chun Chen, Jonas Geiping, Hengduo Li, Tom Goldstein, Ser-Nam Lim
cs.AI
Resumo
Apresentamos uma abordagem para formular o reconhecimento de objetos como predição do próximo token. A ideia é aplicar um decodificador de linguagem que prevê autoregressivamente os tokens de texto a partir de embeddings de imagem para formar rótulos. Para fundamentar esse processo de predição na autoregressão, personalizamos uma máscara de atenção não causal para o decodificador, incorporando duas características principais: modelar tokens de diferentes rótulos como independentes e tratar os tokens de imagem como um prefixo. Esse mecanismo de mascaramento inspira um método eficiente - amostragem em uma única etapa - para amostrar simultaneamente tokens de múltiplos rótulos em paralelo e classificar os rótulos gerados por suas probabilidades durante a inferência. Para aprimorar ainda mais a eficiência, propomos uma estratégia simples para construir um decodificador compacto, descartando simplesmente os blocos intermediários de um modelo de linguagem pré-treinado. Essa abordagem resulta em um decodificador que corresponde ao desempenho do modelo completo, sendo notavelmente mais eficiente. O código está disponível em https://github.com/kaiyuyue/nxtp.
English
We present an approach to pose object recognition as next token prediction.
The idea is to apply a language decoder that auto-regressively predicts the
text tokens from image embeddings to form labels. To ground this prediction
process in auto-regression, we customize a non-causal attention mask for the
decoder, incorporating two key features: modeling tokens from different labels
to be independent, and treating image tokens as a prefix. This masking
mechanism inspires an efficient method - one-shot sampling - to simultaneously
sample tokens of multiple labels in parallel and rank generated labels by their
probabilities during inference. To further enhance the efficiency, we propose a
simple strategy to construct a compact decoder by simply discarding the
intermediate blocks of a pretrained language model. This approach yields a
decoder that matches the full model's performance while being notably more
efficient. The code is available at https://github.com/kaiyuyue/nxtp