Riconoscimento degli oggetti come previsione del token successivo

Abstract

Presentiamo un approccio che formula il riconoscimento di oggetti come previsione del token successivo. L'idea è applicare un decodificatore linguistico che prevede in modo auto-regressivo i token testuali a partire dagli embedding delle immagini per formare le etichette. Per ancorare questo processo di previsione all'auto-regressione, personalizziamo una maschera di attenzione non causale per il decodificatore, incorporando due caratteristiche chiave: modellare i token provenienti da etichette diverse come indipendenti e trattare i token delle immagini come un prefisso. Questo meccanismo di mascheramento ispira un metodo efficiente - campionamento one-shot - per campionare simultaneamente in parallelo i token di più etichette e classificare le etichette generate in base alle loro probabilità durante l'inferenza. Per migliorare ulteriormente l'efficienza, proponiamo una strategia semplice per costruire un decodificatore compatto scartando semplicemente i blocchi intermedi di un modello linguistico preaddestrato. Questo approccio produce un decodificatore che eguaglia le prestazioni del modello completo pur essendo notevolmente più efficiente. Il codice è disponibile all'indirizzo https://github.com/kaiyuyue/nxtp.

English

We present an approach to pose object recognition as next token prediction. The idea is to apply a language decoder that auto-regressively predicts the text tokens from image embeddings to form labels. To ground this prediction process in auto-regression, we customize a non-causal attention mask for the decoder, incorporating two key features: modeling tokens from different labels to be independent, and treating image tokens as a prefix. This masking mechanism inspires an efficient method - one-shot sampling - to simultaneously sample tokens of multiple labels in parallel and rank generated labels by their probabilities during inference. To further enhance the efficiency, we propose a simple strategy to construct a compact decoder by simply discarding the intermediate blocks of a pretrained language model. This approach yields a decoder that matches the full model's performance while being notably more efficient. The code is available at https://github.com/kaiyuyue/nxtp

Riconoscimento degli oggetti come previsione del token successivo

Object Recognition as Next Token Prediction

Abstract

Support