Compreensão, Medição e Manipulação de Documentos Usando Teoria das Categorias
Document Understanding, Measurement, and Manipulation Using Category Theory
October 24, 2025
Autores: Jared Claypoole, Yunye Gong, Noson S. Yanofsky, Ajay Divakaran
cs.AI
Resumo
Aplicamos a teoria das categorias para extrair a estrutura multimodal de documentos, o que nos leva a desenvolver medidas de teoria da informação, sumarização e extensão de conteúdo, e aprimoramento auto supervisionado de grandes modelos pré-treinados. Primeiro, desenvolvemos uma representação matemática de um documento como uma categoria de pares pergunta-resposta. Segundo, desenvolvemos um procedimento de ortogonalização para dividir a informação contida em um ou mais documentos em partes não sobrepostas. As estruturas extraídas no primeiro e no segundo passos nos levam a desenvolver métodos para medir e enumerar a informação contida em um documento. Também nos baseamos nessas etapas para desenvolver novas técnicas de sumarização, bem como para desenvolver uma solução para um novo problema, a saber, a exegese que resulta numa extensão do documento original. Nossa metodologia de pares pergunta-resposta permite uma nova análise de taxa de distorção de técnicas de sumarização. Implementamos nossas técnicas usando grandes modelos pré-treinados e propomos uma extensão multimodal de nossa estrutura matemática geral. Finalmente, desenvolvemos um novo método auto supervisionado usando RLVR para melhorar grandes modelos pré-treinados usando restrições de consistência, como composicionalidade e fechamento sob certas operações que decorrem naturalmente de nossa estrutura de teoria das categorias.
English
We apply category theory to extract multimodal document structure which leads
us to develop information theoretic measures, content summarization and
extension, and self-supervised improvement of large pretrained models. We first
develop a mathematical representation of a document as a category of
question-answer pairs. Second, we develop an orthogonalization procedure to
divide the information contained in one or more documents into non-overlapping
pieces. The structures extracted in the first and second steps lead us to
develop methods to measure and enumerate the information contained in a
document. We also build on those steps to develop new summarization techniques,
as well as to develop a solution to a new problem viz. exegesis resulting in an
extension of the original document. Our question-answer pair methodology
enables a novel rate distortion analysis of summarization techniques. We
implement our techniques using large pretrained models, and we propose a
multimodal extension of our overall mathematical framework. Finally, we develop
a novel self-supervised method using RLVR to improve large pretrained models
using consistency constraints such as composability and closure under certain
operations that stem naturally from our category theoretic framework.