ChatPaper.aiChatPaper

BARREL: Гранично-ориентированное рассуждение для фактологически точных и надежных LRM

BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs

May 18, 2025
Авторы: Junxiao Yang, Jinzhe Tu, Haoran Liu, Xiaoce Wang, Chujie Zheng, Zhexin Zhang, Shiyao Cui, Caishun Chen, Tiantian He, Hongning Wang, Yew-Soon Ong, Minlie Huang
cs.AI

Аннотация

Последние достижения в области крупных моделей рассуждений (Large Reasoning Models, LRMs) продемонстрировали впечатляющие способности в математическом и логическом мышлении. Однако современные LRMs редко признают незнание или отвечают "Я не знаю". Вместо этого они часто выдают неверные ответы, проявляя излишнюю уверенность, что вызывает опасения относительно их фактической надежности. В данной работе мы выявляем два патологических шаблона рассуждений, характеризующихся чрезмерным анализом, которые способствуют появлению излишне уверенных и ошибочных ответов: догадки в последний момент и спираль переосмысления. Для решения этих проблем мы предлагаем BARREL — новую структуру, которая способствует краткому и гранично-осознанному фактическому рассуждению. Наши эксперименты показывают, что обучение с использованием BARREL повышает надежность модели DeepSeek-R1-Distill-Llama-8B с 39,33% до 61,48%, сохраняя при этом точность, сопоставимую с моделями, дообученными на данных рассуждений, сгенерированных R1. Эти результаты демонстрируют, что наше пилотное исследование вдохновляет на создание более надежных и фактически точных LRMs Системы 2.
English
Recent advances in Large Reasoning Models (LRMs) have shown impressive capabilities in mathematical and logical reasoning. However, current LRMs rarely admit ignorance or respond with "I don't know". Instead, they often produce incorrect answers while showing undue confidence, raising concerns about their factual reliability. In this work, we identify two pathological reasoning patterns characterized by overthinking that contribute to the overconfident and incorrect answers: last-minute guessing and second-thought spiraling. To address these issues, we propose BARREL-a novel framework that promotes concise and boundary-aware factual reasoning. Our experiments show that BARREL-training increases the reliability of DeepSeek-R1-Distill-Llama-8B from 39.33% to 61.48%, while still achieving accuracy comparable to models finetuned on reasoning data generated by R1. These results demonstrate that our pilot study is inspiring to build more reliable and factual System 2 LRMs.

Summary

AI-Generated Summary

PDF102May 22, 2025