За пределами сетки: многокомпонентное извлечение с учетом компоновки на основе проанализированных визуальных представлений документов
Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations
March 2, 2026
Авторы: Yibo Yan, Mingdong Ou, Yi Cao, Xin Zou, Shuliang Liu, Jiahao Huo, Yu Huang, James Kwok, Xuming Hu
cs.AI
Аннотация
Для полного раскрытия потенциала визуально насыщенных документов необходимы системы поиска, которые понимают не только текст, но и сложные макеты, что является ключевой проблемой в визуальном поиске документов (VDR). Преобладающие мультивекторные архитектуры, будучи мощными, сталкиваются с критической проблемой объема хранения данных, которую современные стратегии оптимизации, такие как слияние эмбеддингов, их прореживание или использование абстрактных токенов, не могут решить без ущерба для производительности или игнорирования важных визуальных подсказок макета. Чтобы решить эту проблему, мы представляем ColParse — новую парадигму, которая использует модель парсинга документа для генерации небольшого набора информированных о макете эмбеддингов подизображений, которые затем объединяются с глобальным векторным представлением на уровне страницы для создания компактного и структурно-осознанного мультивекторного представления. Многочисленные эксперименты демонстрируют, что наш метод сокращает требования к объему хранения более чем на 95%, одновременно обеспечивая значительный прирост производительности на множестве тестовых наборов и базовых моделей. Таким образом, ColParse устраняет критический разрыв между высокой точностью мультивекторного поиска и практическими требованиями крупномасштабного развертывания, открывая новый путь к созданию эффективных и интерпретируемых мультимодальных информационных систем.
English
Harnessing the full potential of visually-rich documents requires retrieval systems that understand not just text, but intricate layouts, a core challenge in Visual Document Retrieval (VDR). The prevailing multi-vector architectures, while powerful, face a crucial storage bottleneck that current optimization strategies, such as embedding merging, pruning, or using abstract tokens, fail to resolve without compromising performance or ignoring vital layout cues. To address this, we introduce ColParse, a novel paradigm that leverages a document parsing model to generate a small set of layout-informed sub-image embeddings, which are then fused with a global page-level vector to create a compact and structurally-aware multi-vector representation. Extensive experiments demonstrate that our method reduces storage requirements by over 95% while simultaneously yielding significant performance gains across numerous benchmarks and base models. ColParse thus bridges the critical gap between the fine-grained accuracy of multi-vector retrieval and the practical demands of large-scale deployment, offering a new path towards efficient and interpretable multimodal information systems.