Prevedere numeri interi a partire da parametri continui

Abstract

Studiamo il problema della previsione di etichette numeriche vincolate agli interi o a un sottoinsieme degli interi. Ad esempio, il numero di like su post dei social media, o il numero di biciclette disponibili in una stazione di noleggio pubblico. Sebbene sia possibile modellarli come valori continui e applicare la regressione tradizionale, questo approccio modifica la distribuzione sottostante delle etichette da discreta a continua. Le distribuzioni discrete presentano determinati vantaggi, il che ci porta a chiederci se tali etichette intere possano essere modellate direttamente da una distribuzione discreta, i cui parametri siano previsti a partire dalle caratteristiche di una determinata istanza. Inoltre, ci concentriamo sul caso d'uso delle distribuzioni di output delle reti neurali, il che aggiunge il requisito che i parametri della distribuzione siano continui, in modo che la retropropagazione e la discesa del gradiente possano essere utilizzate per apprendere i pesi della rete. Investigiamo diverse opzioni per tali distribuzioni, alcune esistenti e alcune nuove, e le testiamo su una serie di compiti, inclusi l'apprendimento su dati tabellari, la previsione sequenziale e la generazione di immagini. Rileviamo che, complessivamente, le migliori prestazioni provengono da due distribuzioni: Bitwise, che rappresenta l'intero target in bit e pone una distribuzione di Bernoulli su ciascuno di essi, e un analogo discreto della distribuzione di Laplace, che utilizza una distribuzione con code a decadimento esponenziale attorno a una media continua.

English

We study the problem of predicting numeric labels that are constrained to the integers or to a subrange of the integers. For example, the number of up-votes on social media posts, or the number of bicycles available at a public rental station. While it is possible to model these as continuous values, and to apply traditional regression, this approach changes the underlying distribution on the labels from discrete to continuous. Discrete distributions have certain benefits, which leads us to the question whether such integer labels can be modeled directly by a discrete distribution, whose parameters are predicted from the features of a given instance. Moreover, we focus on the use case of output distributions of neural networks, which adds the requirement that the parameters of the distribution be continuous so that backpropagation and gradient descent may be used to learn the weights of the network. We investigate several options for such distributions, some existing and some novel, and test them on a range of tasks, including tabular learning, sequential prediction and image generation. We find that overall the best performance comes from two distributions: Bitwise, which represents the target integer in bits and places a Bernoulli distribution on each, and a discrete analogue of the Laplace distribution, which uses a distribution with exponentially decaying tails around a continuous mean.

Prevedere numeri interi a partire da parametri continui

Predicting integers from continuous parameters

Abstract

Support