Prédire des entiers à partir de paramètres continus

Résumé

Nous étudions le problème de la prédiction d'étiquettes numériques contraintes aux entiers ou à un sous-ensemble d'entiers. Par exemple, le nombre de votes positifs sur des publications de médias sociaux, ou le nombre de vélos disponibles dans une station de location publique. Bien qu'il soit possible de modéliser ces valeurs comme continues et d'appliquer une régression traditionnelle, cette approche modifie la distribution sous-jacente des étiquettes, la faisant passer d'une distribution discrète à une distribution continue. Les distributions discrètes présentent certains avantages, ce qui nous amène à nous demander si de telles étiquettes entières peuvent être modélisées directement par une distribution discrète, dont les paramètres sont prédits à partir des caractéristiques d'une instance donnée. De plus, nous nous concentrons sur le cas d'utilisation des distributions de sortie des réseaux de neurones, ce qui ajoute l'exigence que les paramètres de la distribution soient continus afin que la rétropropagation et la descente de gradient puissent être utilisées pour apprendre les poids du réseau. Nous étudions plusieurs options pour de telles distributions, certaines existantes et d'autres nouvelles, et les testons sur une gamme de tâches, incluant l'apprentissage sur données tabulaires, la prédiction séquentielle et la génération d'images. Nous constatons que dans l'ensemble, les meilleures performances proviennent de deux distributions : la distribution « Bitwise », qui représente l'entier cible en bits et place une distribution de Bernoulli sur chacun d'eux, et un analogue discret de la distribution de Laplace, qui utilise une distribution avec des queues à décroissance exponentielle autour d'une moyenne continue.

English

We study the problem of predicting numeric labels that are constrained to the integers or to a subrange of the integers. For example, the number of up-votes on social media posts, or the number of bicycles available at a public rental station. While it is possible to model these as continuous values, and to apply traditional regression, this approach changes the underlying distribution on the labels from discrete to continuous. Discrete distributions have certain benefits, which leads us to the question whether such integer labels can be modeled directly by a discrete distribution, whose parameters are predicted from the features of a given instance. Moreover, we focus on the use case of output distributions of neural networks, which adds the requirement that the parameters of the distribution be continuous so that backpropagation and gradient descent may be used to learn the weights of the network. We investigate several options for such distributions, some existing and some novel, and test them on a range of tasks, including tabular learning, sequential prediction and image generation. We find that overall the best performance comes from two distributions: Bitwise, which represents the target integer in bits and places a Bernoulli distribution on each, and a discrete analogue of the Laplace distribution, which uses a distribution with exponentially decaying tails around a continuous mean.

Prédire des entiers à partir de paramètres continus

Predicting integers from continuous parameters

Résumé

Support