Размышляя, чтобы вспомнить: как рассуждения раскрывают параметрические знания в больших языковых моделях

Аннотация

Хотя рассуждения в больших языковых моделях естественным образом играют важную роль в решении математических задач, генерации кода и ответах на многошаговые фактологические вопросы, их влияние на простые одношаговые фактологические вопросы остается неясным. Такие вопросы не требуют пошагового логического разложения, что делает полезность рассуждений крайне контр-интуитивной. Тем не менее, мы обнаруживаем, что активация рассуждений существенно расширяет границы возможностей модели по извлечению параметрических знаний, открывая доступ к правильным ответам, которые в противном случае остаются практически недостижимыми. Почему рассуждения помогают извлекать параметрические знания, когда сложные логические шаги не требуются? Чтобы ответить на этот вопрос, мы разработали серию контролируемых экспериментов, проверяющих гипотезы, и выявили два ключевых механизма: (1) эффект вычислительного буфера, при котором модель использует сгенерированные токены рассуждений для выполнения скрытых вычислений, независимо от их семантического содержания; и (2) фактологический прайминг, при котором генерация тематически связанных фактов служит семантическим мостом, облегчающим извлечение правильного ответа. Важно отметить, что последний механизм генеративного само-извлечения несет в себе inherent risks: мы демонстрируем, что галлюцинации промежуточных фактов в ходе рассуждений повышают вероятность галлюцинаций в конечном ответе. Наконец, мы показываем, что наши выводы можно использовать для непосредственного повышения точности модели путем приоритизации траекторий рассуждений, содержащих фактические утверждения, свободные от галлюцинаций.

English

While reasoning in LLMs plays a natural role in math, code generation, and multi-hop factual questions, its effect on simple, single-hop factual questions remains unclear. Such questions do not require step-by-step logical decomposition, making the utility of reasoning highly counterintuitive. Nevertheless, we find that enabling reasoning substantially expands the capability boundary of the model's parametric knowledge recall, unlocking correct answers that are otherwise effectively unreachable. Why does reasoning aid parametric knowledge recall when there are no complex reasoning steps to be done? To answer this, we design a series of hypothesis-driven controlled experiments, and identify two key driving mechanisms: (1) a computational buffer effect, where the model uses the generated reasoning tokens to perform latent computation independent of their semantic content; and (2) factual priming, where generating topically related facts acts as a semantic bridge that facilitates correct answer retrieval. Importantly, this latter generative self-retrieval mechanism carries inherent risks: we demonstrate that hallucinating intermediate facts during reasoning increases the likelihood of hallucinations in the final answer. Finally, we show that our insights can be harnessed to directly improve model accuracy by prioritizing reasoning trajectories that contain hallucination-free factual statements.

Размышляя, чтобы вспомнить: как рассуждения раскрывают параметрические знания в больших языковых моделях

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Аннотация

Support