Предсказание вознаграждений наряду с токенами: недеструктивное вставление параметров для эффективного вмешательства в вывод в больших языковых моделях.

Аннотация

Модели на основе трансформеров (LLM) обнаруживают ограничения, такие как генерация небезопасных ответов, ненадежное рассуждение и т. д. Существующие подходы к вмешательству в вывод пытаются смягчить эти проблемы, донастраивая дополнительные модели для создания калибровочных сигналов (например, вознаграждений), которые направляют процесс декодирования LLM. Однако данное решение вносит существенные временные и пространственные накладные из-за необходимости отдельных моделей. В данной работе предлагается метод вставки недеструктивных параметров (Otter), вставляющий дополнительные параметры в архитектуру трансформера для предсказания калибровочных сигналов наряду с исходным выводом LLM. Otter обеспечивает передовые показатели на нескольких сложных задачах, при этом экономя до 86.5\% дополнительного пространства и 98.5\% дополнительного времени. Более того, Otter легко интегрируется с существующими механизмами вывода, требуя лишь изменения одной строки кода, и исходный ответ модели остаётся доступным после вставки параметров. Наш код общедоступен по адресу https://github.com/chenhan97/Otter

English

Transformer-based large language models (LLMs) exhibit limitations such as generating unsafe responses, unreliable reasoning, etc. Existing inference intervention approaches attempt to mitigate these issues by finetuning additional models to produce calibration signals (such as rewards) that guide the LLM's decoding process. However, this solution introduces substantial time and space overhead due to the separate models required. This work proposes Non-disruptive parameters insertion (Otter), inserting extra parameters into the transformer architecture to predict calibration signals along with the original LLM output. Otter offers state-of-the-art performance on multiple demanding tasks while saving up to 86.5\% extra space and 98.5\% extra time. Furthermore, Otter seamlessly integrates with existing inference engines, requiring only a one-line code change, and the original model response remains accessible after the parameter insertion. Our code is publicly available at https://github.com/chenhan97/Otter

Предсказание вознаграждений наряду с токенами: недеструктивное вставление параметров для эффективного вмешательства в вывод в больших языковых моделях.

Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model

Аннотация

Support