Predicción de números enteros a partir de parámetros continuos

Resumen

Estudiamos el problema de predecir etiquetas numéricas que están restringidas a los enteros o a un subrango de los enteros. Por ejemplo, el número de votos positivos en publicaciones de redes sociales, o el número de bicicletas disponibles en una estación pública de alquiler. Si bien es posible modelar estos valores como continuos y aplicar regresión tradicional, este enfoque cambia la distribución subyacente de las etiquetas de discreta a continua. Las distribuciones discretas presentan ciertas ventajas, lo que nos lleva a cuestionar si dichas etiquetas enteras pueden modelarse directamente mediante una distribución discreta, cuyos parámetros se predigan a partir de las características de una instancia dada. Además, nos centramos en el caso de uso de distribuciones de salida de redes neuronales, lo que añade el requisito de que los parámetros de la distribución sean continuos para que la retropropagación y el descenso de gradiente puedan utilizarse para aprender los pesos de la red. Investigamos varias opciones para tales distribuciones, algunas existentes y otras novedosas, y las evaluamos en una variedad de tareas, incluyendo aprendizaje tabular, predicción secuencial y generación de imágenes. Encontramos que, en general, el mejor rendimiento proviene de dos distribuciones: Bitwise, que representa el entero objetivo en bits y asigna una distribución de Bernoulli a cada uno, y un análogo discreto de la distribución de Laplace, que utiliza una distribución con colas de decaimiento exponencial alrededor de una media continua.

English

We study the problem of predicting numeric labels that are constrained to the integers or to a subrange of the integers. For example, the number of up-votes on social media posts, or the number of bicycles available at a public rental station. While it is possible to model these as continuous values, and to apply traditional regression, this approach changes the underlying distribution on the labels from discrete to continuous. Discrete distributions have certain benefits, which leads us to the question whether such integer labels can be modeled directly by a discrete distribution, whose parameters are predicted from the features of a given instance. Moreover, we focus on the use case of output distributions of neural networks, which adds the requirement that the parameters of the distribution be continuous so that backpropagation and gradient descent may be used to learn the weights of the network. We investigate several options for such distributions, some existing and some novel, and test them on a range of tasks, including tabular learning, sequential prediction and image generation. We find that overall the best performance comes from two distributions: Bitwise, which represents the target integer in bits and places a Bernoulli distribution on each, and a discrete analogue of the Laplace distribution, which uses a distribution with exponentially decaying tails around a continuous mean.

Predicción de números enteros a partir de parámetros continuos

Predicting integers from continuous parameters

Resumen

Support