Понимание, измерение и манипулирование документами с использованием теории категорий
Document Understanding, Measurement, and Manipulation Using Category Theory
October 24, 2025
Авторы: Jared Claypoole, Yunye Gong, Noson S. Yanofsky, Ajay Divakaran
cs.AI
Аннотация
Мы применяем теорию категорий для извлечения мультимодальной структуры документа, что позволяет нам разработать информационно-теоретические меры, методы суммаризации и расширения содержания, а также самоконтролируемое улучшение больших предобученных моделей. Сначала мы разрабатываем математическое представление документа как категории пар "вопрос-ответ". Во-вторых, мы разрабатываем процедуру ортогонализации для разделения информации, содержащейся в одном или нескольких документах, на непересекающиеся части. Структуры, извлеченные на первом и втором этапах, позволяют нам разработать методы измерения и перечисления информации, содержащейся в документе. Мы также опираемся на эти этапы для разработки новых методов суммаризации, а также для решения новой проблемы — экзегезы, приводящей к расширению исходного документа. Наша методология пар "вопрос-ответ" позволяет провести новый анализ методов суммаризации с помощью теории нормы искажения. Мы реализуем наши методы с использованием больших предобученных моделей и предлагаем мультимодальное расширение нашей общей математической框架. Наконец, мы разрабатываем новый самоконтролируемый метод с использованием RLVR для улучшения больших предобученных моделей, применяя ограничения согласованности, такие как композируемость и замкнутость относительно определенных операций, которые естественным образом вытекают из нашей категориальной теоретической рамки.
English
We apply category theory to extract multimodal document structure which leads
us to develop information theoretic measures, content summarization and
extension, and self-supervised improvement of large pretrained models. We first
develop a mathematical representation of a document as a category of
question-answer pairs. Second, we develop an orthogonalization procedure to
divide the information contained in one or more documents into non-overlapping
pieces. The structures extracted in the first and second steps lead us to
develop methods to measure and enumerate the information contained in a
document. We also build on those steps to develop new summarization techniques,
as well as to develop a solution to a new problem viz. exegesis resulting in an
extension of the original document. Our question-answer pair methodology
enables a novel rate distortion analysis of summarization techniques. We
implement our techniques using large pretrained models, and we propose a
multimodal extension of our overall mathematical framework. Finally, we develop
a novel self-supervised method using RLVR to improve large pretrained models
using consistency constraints such as composability and closure under certain
operations that stem naturally from our category theoretic framework.