Doc-PP: Бенчмарк сохранения политики документов для больших мультимодальных моделей
Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models
January 7, 2026
Авторы: Haeun Jang, Hwan Chang, Hwanhee Lee
cs.AI
Аннотация
Развертывание больших визуально-языковых моделей (LVLM) для решения реальных задач вопросно-ответных систем по документам часто ограничивается динамическими, определяемыми пользователем политиками, которые диктуют раскрытие информации в зависимости от контекста. Хотя обеспечение соблюдения этих явных ограничений является критически важным, существующие исследования в области безопасности в основном сосредоточены на неявных социальных нормах или текстовых сценариях, упуская из виду сложность мультимодальных документов. В данной статье мы представляем Doc-PP (Benchmark для сохранения политик работы с документами) — новый бенчмарк, созданный на основе реальных отчетов, требующих логического вывода по разнородным визуальным и текстовым элементам в условиях строгих политик неразглашения. Наша оценка выявляет системный пробел безопасности, индуцированный логическим выводом: модели часто раскрывают конфиденциальную информацию, когда ответ должен быть получен путем сложного синтеза или агрегации данных по модальностям, что эффективно обходит существующие ограничения безопасности. Кроме того, мы установили, что предоставление извлеченного текста улучшает восприятие, но непреднамеренно способствует утечке. Для устранения этих уязвимостей мы предлагаем DVA (Разложение-Проверка-Агрегация) — структурную框架 логического вывода, которая разделяет рассуждение и проверку соответствия политикам. Экспериментальные результаты демонстрируют, что DVA значительно превосходит стандартные методы защиты на основе промптов, предлагая надежный базовый уровень для соответствующего политикам понимания документов.
English
The deployment of Large Vision-Language Models (LVLMs) for real-world document question answering is often constrained by dynamic, user-defined policies that dictate information disclosure based on context. While ensuring adherence to these explicit constraints is critical, existing safety research primarily focuses on implicit social norms or text-only settings, overlooking the complexities of multimodal documents. In this paper, we introduce Doc-PP (Document Policy Preservation Benchmark), a novel benchmark constructed from real-world reports requiring reasoning across heterogeneous visual and textual elements under strict non-disclosure policies. Our evaluation highlights a systemic Reasoning-Induced Safety Gap: models frequently leak sensitive information when answers must be inferred through complex synthesis or aggregated across modalities, effectively circumventing existing safety constraints. Furthermore, we identify that providing extracted text improves perception but inadvertently facilitates leakage. To address these vulnerabilities, we propose DVA (Decompose-Verify-Aggregation), a structural inference framework that decouples reasoning from policy verification. Experimental results demonstrate that DVA significantly outperforms standard prompting defenses, offering a robust baseline for policy-compliant document understanding