Цепочка рассуждений без явного заданияChain-of-Thought Reasoning Without Prompting
В улучшении способностей к рассуждению у крупных языковых моделей (LLMs) предыдущие исследования в основном сосредоточены на специфических методах подсказок, таких как few-shot или zero-shot chain-of-thought (CoT) подсказки. Эти методы, хотя и эффективны, часто требуют трудоемкого ручного проектирования подсказок. Наше исследование предлагает новый подход, задавая вопрос: Могут ли LLMs рассуждать эффективно без подсказок? Наши результаты показывают, что, что интересно, пути рассуждения CoT могут быть вызваны у предварительно обученных LLMs просто путем изменения процесса декодирования. Вместо традиционного жадного декодирования мы исследуем топ-k альтернативных токенов, обнаруживая, что пути CoT часто присущи этим последовательностям. Этот подход не только позволяет избежать влияния подсказок, но и дает возможность оценить внутренние способности LLMs к рассуждению. Более того, мы наблюдаем, что наличие CoT в пути декодирования коррелирует с более высокой уверенностью модели в декодированном ответе. Этот показатель уверенности эффективно различает пути с CoT и без CoT. Обширные эмпирические исследования на различных тестах рассуждения показывают, что предложенное CoT-декодирование существенно превосходит стандартное жадное декодирование.