Предсказание целых чисел по непрерывным параметрам

Аннотация

Мы изучаем задачу прогнозирования числовых меток, ограниченных целыми числами или их поддиапазоном. Например, количество голосов «за» в постах социальных сетей или число доступных велосипедов на станциях общественного проката. Хотя можно моделировать их как непрерывные величины и применять традиционную регрессию, такой подход изменяет исходное распределение меток с дискретного на непрерывное. Дискретные распределения обладают определёнными преимуществами, что подводит нас к вопросу: можно ли такие целочисленные метки напрямую моделировать с помощью дискретного распределения, параметры которого прогнозируются на основе признаков данного объекта. Более того, мы фокусируемся на сценарии использования выходных распределений нейронных сетей, что добавляет требование непрерывности параметров распределения, чтобы обратное распространение ошибки и градиентный спуск могли использоваться для обучения весов сети. Мы исследуем несколько вариантов таких распределений, как существующих, так и новых, и тестируем их на ряде задач, включая табличное обучение, последовательное прогнозирование и генерацию изображений. Мы обнаруживаем, что в целом наилучшие результаты демонстрируют два распределения: Bitwise, которое представляет целевое целое число в битовом виде и задает распределение Бернулли для каждого бита, и дискретный аналог распределения Лапласа, использующий распределение с экспоненциально убывающими хвостами вокруг непрерывного среднего значения.

English

We study the problem of predicting numeric labels that are constrained to the integers or to a subrange of the integers. For example, the number of up-votes on social media posts, or the number of bicycles available at a public rental station. While it is possible to model these as continuous values, and to apply traditional regression, this approach changes the underlying distribution on the labels from discrete to continuous. Discrete distributions have certain benefits, which leads us to the question whether such integer labels can be modeled directly by a discrete distribution, whose parameters are predicted from the features of a given instance. Moreover, we focus on the use case of output distributions of neural networks, which adds the requirement that the parameters of the distribution be continuous so that backpropagation and gradient descent may be used to learn the weights of the network. We investigate several options for such distributions, some existing and some novel, and test them on a range of tasks, including tabular learning, sequential prediction and image generation. We find that overall the best performance comes from two distributions: Bitwise, which represents the target integer in bits and places a Bernoulli distribution on each, and a discrete analogue of the Laplace distribution, which uses a distribution with exponentially decaying tails around a continuous mean.

Предсказание целых чисел по непрерывным параметрам

Predicting integers from continuous parameters

Аннотация

Support