ChatPaper.aiChatPaper

Comprensione, Misurazione e Manipolazione dei Documenti mediante la Teoria delle Categorie

Document Understanding, Measurement, and Manipulation Using Category Theory

October 24, 2025
Autori: Jared Claypoole, Yunye Gong, Noson S. Yanofsky, Ajay Divakaran
cs.AI

Abstract

Applichiamo la teoria delle categorie per estrarre la struttura multimodale dei documenti, il che ci porta a sviluppare misure di teoria dell'informazione, tecniche di summarizzazione ed estensione dei contenuti, e un miglioramento auto-supervisionato di grandi modelli preaddestrati. In primo luogo, sviluppiamo una rappresentazione matematica di un documento come una categoria di coppie domanda-risposta. In secondo luogo, sviluppiamo una procedura di ortogonalizzazione per suddividere l'informazione contenuta in uno o più documenti in parti non sovrapposte. Le strutture estratte nel primo e nel secondo passaggio ci permettono di sviluppare metodi per misurare ed enumerare l'informazione contenuta in un documento. Basandoci su questi passi, sviluppiamo anche nuove tecniche di summarizzazione, nonché una soluzione a un nuovo problema, ovvero l'esegesi che risulta in un'estensione del documento originale. La nostra metodologia basata su coppie domanda-risposta consente una nuova analisi di rate-distortion delle tecniche di summarizzazione. Implementiamo le nostre tecniche utilizzando grandi modelli preaddestrati e proponiamo un'estensione multimodale del nostro quadro matematico complessivo. Infine, sviluppiamo un nuovo metodo auto-supervisionato che utilizza RLVR per migliorare i grandi modelli preaddestrati sfruttando vincoli di consistenza come la componibilità e la chiusura rispetto a determinate operazioni che scaturiscono naturalmente dal nostro quadro di teoria delle categorie.
English
We apply category theory to extract multimodal document structure which leads us to develop information theoretic measures, content summarization and extension, and self-supervised improvement of large pretrained models. We first develop a mathematical representation of a document as a category of question-answer pairs. Second, we develop an orthogonalization procedure to divide the information contained in one or more documents into non-overlapping pieces. The structures extracted in the first and second steps lead us to develop methods to measure and enumerate the information contained in a document. We also build on those steps to develop new summarization techniques, as well as to develop a solution to a new problem viz. exegesis resulting in an extension of the original document. Our question-answer pair methodology enables a novel rate distortion analysis of summarization techniques. We implement our techniques using large pretrained models, and we propose a multimodal extension of our overall mathematical framework. Finally, we develop a novel self-supervised method using RLVR to improve large pretrained models using consistency constraints such as composability and closure under certain operations that stem naturally from our category theoretic framework.
PDF42December 17, 2025