ChatPaper.aiChatPaper

Los modelos de pago por búsqueda son modelos de abstención.

Pay-Per-Search Models are Abstention Models

October 1, 2025
Autores: Mustafa Omer Gul, Claire Cardie, Tanya Goyal
cs.AI

Resumen

Los LLM (Modelos de Lenguaje de Gran Escala) no pueden reconocer de manera confiable los límites de su conocimiento paramétrico y a menudo generan respuestas alucinadas para preguntas que están fuera de su alcance. En contraste, los humanos reconocen sus limitaciones y pueden buscar ayuda externa para tales preguntas o abstenerse de responder. En este artículo, presentamos MASH (Modeling Abstention via Selective Help-seeking), un marco de entrenamiento que extrae fácilmente abstenciones de los LLM. Nuestra idea clave es que cualquier búsqueda de ayuda externa por parte de un LLM, es decir, el uso de herramientas de búsqueda, puede servir como un indicador de abstención si la ayuda externa (búsqueda) se penaliza adecuadamente mientras se recompensa simultáneamente la precisión de la respuesta. MASH opera esta idea utilizando aprendizaje por refuerzo con una recompensa de pago por búsqueda. Realizamos experimentos en tres conjuntos de datos de preguntas y respuestas intensivas en conocimiento. Nuestros resultados muestran que MASH mejora sustancialmente el rendimiento de búsqueda selectiva de ayuda en comparación con enfoques de búsqueda eficiente anteriores; en conjuntos de datos multi-hop, MASH mejora la precisión de las respuestas en un 7.6%. Además, MASH demuestra una fuerte capacidad de abstención inmediata: puede distinguir entre preguntas no respondibles/respondibles y generar respuestas selectivamente para preguntas respondibles, mostrando un comportamiento análogo a enfoques especializados de abstención. Destacamos que, a diferencia de los métodos de abstención anteriores, MASH no requiere predeterminar los límites del conocimiento para construir datos de entrenamiento. En cambio, las abstenciones de MASH son un subproducto del entrenamiento para la tarea auxiliar de búsqueda selectiva de ayuda. En general, demostramos que el entrenamiento de MASH alinea efectivamente el uso de herramientas de búsqueda con el conocimiento paramétrico, lo que puede aprovecharse con éxito para tomar decisiones de abstención.
English
LLMs cannot reliably recognize their parametric knowledge boundaries and often hallucinate answers to outside-of-boundary questions. In contrast, humans recognize their limitations and can either seek external help for such questions or abstain. In this paper, we introduce MASH (Modeling Abstention via Selective Help-seeking), a training framework that readily extracts abstentions from LLMs. Our key idea is that any external help-seeking by an LLM, i.e. search tool use, can serve as a proxy for abstention if the external help (search) is appropriately penalized while simultaneously rewarding answer accuracy. MASH operationalizes this idea using reinforcement learning with a pay-per-search reward. We run experiments on three knowledge-intensive QA datasets. Our results show that MASH substantially improves upon the selective help-seeking performance of prior efficient search approaches; on multi-hop datasets, MASH improves answer accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf abstention -- it can distinguish between unanswerable/answerable questions and selectively generate responses for answerable questions -- showcasing behavior analogous to specialized abstention approaches. We emphasize that contrary to prior abstention methods, MASH does not require pre-determining knowledge boundaries to construct training data. Instead, MASH's abstentions are a by-product of training for the auxiliary selective help-seeking task. Overall, we show that MASH training effectively aligns search tool use with parametric knowledge, which can be successfully leveraged for making abstention decisions.
PDF52October 2, 2025