Доверяй, но проверяй: представление DAVinCI — системы двойной атрибуции и верификации при выводе утверждений в языковых моделях

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющую беглость и универсальность в решении широкого спектра задач NLP, однако они по-прежнему склонны к фактическим неточностям и галлюцинациям. Это ограничение создает значительные риски в таких критически важных областях, как здравоохранение, юриспруденция и научная коммуникация, где доверие и проверяемость имеют первостепенное значение. В данной статье мы представляем DAVinCI — фреймворк двойной атрибуции и верификации, предназначенный для повышения фактической достоверности и интерпретируемости выходных данных LLM. DAVinCI функционирует в два этапа: (i) атрибуция сгенерированных утверждений к внутренним компонентам модели и внешним источникам; (ii) верификация каждого утверждения с использованием логического вывода на основе энтейлмента и калибровки уверенности. Мы оцениваем DAVinCI на нескольких наборах данных, включая FEVER и CLIMATE-FEVER, и сравниваем его производительность со стандартными базовыми методами, основанными только на верификации. Наши результаты показывают, что DAVinCI значительно улучшает точность классификации, а также точность, полноту и F1-меру атрибуции на 5–20%. В ходе расширенного ablation-анализа мы определяем вклад отдельных компонентов: выбора релевантных фрагментов свидетельств, порогов повторной калибровки и качества поиска. Мы также публикуем модульную реализацию DAVinCI, которую можно интегрировать в существующие конвейеры LLM. Объединяя атрибуцию и верификацию, DAVinCI предлагает масштабируемый путь к созданию аудируемых и надежных систем ИИ. Данная работа вносит вклад в растущие усилия по созданию LLM, которые являются не только мощными, но и подотчетными.

English

Large Language Models (LLMs) have demonstrated remarkable fluency and versatility across a wide range of NLP tasks, yet they remain prone to factual inaccuracies and hallucinations. This limitation poses significant risks in high-stakes domains such as healthcare, law, and scientific communication, where trust and verifiability are paramount. In this paper, we introduce DAVinCI - a Dual Attribution and Verification framework designed to enhance the factual reliability and interpretability of LLM outputs. DAVinCI operates in two stages: (i) it attributes generated claims to internal model components and external sources; (ii) it verifies each claim using entailment-based reasoning and confidence calibration. We evaluate DAVinCI across multiple datasets, including FEVER and CLIMATE-FEVER, and compare its performance against standard verification-only baselines. Our results show that DAVinCI significantly improves classification accuracy, attribution precision, recall, and F1-score by 5-20%. Through an extensive ablation study, we isolate the contributions of evidence span selection, recalibration thresholds, and retrieval quality. We also release a modular DAVinCI implementation that can be integrated into existing LLM pipelines. By bridging attribution and verification, DAVinCI offers a scalable path to auditable, trustworthy AI systems. This work contributes to the growing effort to make LLMs not only powerful but also accountable.

Доверяй, но проверяй: представление DAVinCI — системы двойной атрибуции и верификации при выводе утверждений в языковых моделях

Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

Аннотация

Support