Comprensión, Medición y Manipulación de Documentos mediante Teoría de Categorías
Document Understanding, Measurement, and Manipulation Using Category Theory
October 24, 2025
Autores: Jared Claypoole, Yunye Gong, Noson S. Yanofsky, Ajay Divakaran
cs.AI
Resumen
Aplicamos teoría de categorías para extraer la estructura multimodal de documentos, lo que nos lleva a desarrollar medidas de teoría de la información, resumen y extensión de contenido, y mejora autosupervisada de modelos grandes preentrenados. Primero, desarrollamos una representación matemática de un documento como una categoría de pares pregunta-respuesta. Segundo, desarrollamos un procedimiento de ortogonalización para dividir la información contenida en uno o más documentos en partes no superpuestas. Las estructuras extraídas en el primer y segundo paso nos llevan a desarrollar métodos para medir y enumerar la información contenida en un documento. También nos basamos en esos pasos para desarrollar nuevas técnicas de resumen, así como para desarrollar una solución a un nuevo problema, a saber, la exégesis que resulta en una extensión del documento original. Nuestra metodología de pares pregunta-respuesta permite un novedoso análisis de tasa-distorsión de las técnicas de resumen. Implementamos nuestras técnicas utilizando modelos grandes preentrenados y proponemos una extensión multimodal de nuestro marco matemático general. Finalmente, desarrollamos un método novedoso autosupervisado utilizando RLVR para mejorar modelos grandes preentrenados mediante restricciones de consistencia, como la componibilidad y el cierre bajo ciertas operaciones que surgen naturalmente de nuestro marco de teoría de categorías.
English
We apply category theory to extract multimodal document structure which leads
us to develop information theoretic measures, content summarization and
extension, and self-supervised improvement of large pretrained models. We first
develop a mathematical representation of a document as a category of
question-answer pairs. Second, we develop an orthogonalization procedure to
divide the information contained in one or more documents into non-overlapping
pieces. The structures extracted in the first and second steps lead us to
develop methods to measure and enumerate the information contained in a
document. We also build on those steps to develop new summarization techniques,
as well as to develop a solution to a new problem viz. exegesis resulting in an
extension of the original document. Our question-answer pair methodology
enables a novel rate distortion analysis of summarization techniques. We
implement our techniques using large pretrained models, and we propose a
multimodal extension of our overall mathematical framework. Finally, we develop
a novel self-supervised method using RLVR to improve large pretrained models
using consistency constraints such as composability and closure under certain
operations that stem naturally from our category theoretic framework.