Reconhecimento de Objetos como Predição do Próximo Token

Resumo

Apresentamos uma abordagem para formular o reconhecimento de objetos como predição do próximo token. A ideia é aplicar um decodificador de linguagem que prevê autoregressivamente os tokens de texto a partir de embeddings de imagem para formar rótulos. Para fundamentar esse processo de predição na autoregressão, personalizamos uma máscara de atenção não causal para o decodificador, incorporando duas características principais: modelar tokens de diferentes rótulos como independentes e tratar os tokens de imagem como um prefixo. Esse mecanismo de mascaramento inspira um método eficiente - amostragem em uma única etapa - para amostrar simultaneamente tokens de múltiplos rótulos em paralelo e classificar os rótulos gerados por suas probabilidades durante a inferência. Para aprimorar ainda mais a eficiência, propomos uma estratégia simples para construir um decodificador compacto, descartando simplesmente os blocos intermediários de um modelo de linguagem pré-treinado. Essa abordagem resulta em um decodificador que corresponde ao desempenho do modelo completo, sendo notavelmente mais eficiente. O código está disponível em https://github.com/kaiyuyue/nxtp.

English

We present an approach to pose object recognition as next token prediction. The idea is to apply a language decoder that auto-regressively predicts the text tokens from image embeddings to form labels. To ground this prediction process in auto-regression, we customize a non-causal attention mask for the decoder, incorporating two key features: modeling tokens from different labels to be independent, and treating image tokens as a prefix. This masking mechanism inspires an efficient method - one-shot sampling - to simultaneously sample tokens of multiple labels in parallel and rank generated labels by their probabilities during inference. To further enhance the efficiency, we propose a simple strategy to construct a compact decoder by simply discarding the intermediate blocks of a pretrained language model. This approach yields a decoder that matches the full model's performance while being notably more efficient. The code is available at https://github.com/kaiyuyue/nxtp

Reconhecimento de Objetos como Predição do Próximo Token

Object Recognition as Next Token Prediction

Resumo

Support