Compréhension, Mesure et Manipulation de Documents à l'aide de la Théorie des Catégories
Document Understanding, Measurement, and Manipulation Using Category Theory
October 24, 2025
papers.authors: Jared Claypoole, Yunye Gong, Noson S. Yanofsky, Ajay Divakaran
cs.AI
papers.abstract
Nous appliquons la théorie des catégories pour extraire la structure multimodale des documents, ce qui nous conduit à développer des mesures informationnelles, la synthèse et l'extension de contenu, ainsi que l'amélioration auto-supervisée de grands modèles pré-entraînés. Nous développons d'abord une représentation mathématique d'un document comme une catégorie de paires question-réponse. Deuxièmement, nous élaborons une procédure d'orthogonalisation pour diviser l'information contenue dans un ou plusieurs documents en parties non chevauchantes. Les structures extraites lors des première et deuxième étapes nous permettent de développer des méthodes pour mesurer et énumérer l'information contenue dans un document. Nous nous appuyons également sur ces étapes pour développer de nouvelles techniques de résumé, ainsi que pour proposer une solution à un nouveau problème, à savoir l'exégèse conduisant à une extension du document original. Notre méthodologie basée sur les paires question-réponse permet une analyse de distorsion-débit novatrice des techniques de synthèse. Nous implémentons nos techniques à l'aide de grands modèles pré-entraînés, et nous proposons une extension multimodale de notre cadre mathématique global. Enfin, nous développons une méthode auto-supervisée innovante utilisant RLVR pour améliorer les grands modèles pré-entraînés en exploitant des contraintes de cohérence telles que la composabilité et la clôture sous certaines opérations qui découlent naturellement de notre cadre théorique des catégories.
English
We apply category theory to extract multimodal document structure which leads
us to develop information theoretic measures, content summarization and
extension, and self-supervised improvement of large pretrained models. We first
develop a mathematical representation of a document as a category of
question-answer pairs. Second, we develop an orthogonalization procedure to
divide the information contained in one or more documents into non-overlapping
pieces. The structures extracted in the first and second steps lead us to
develop methods to measure and enumerate the information contained in a
document. We also build on those steps to develop new summarization techniques,
as well as to develop a solution to a new problem viz. exegesis resulting in an
extension of the original document. Our question-answer pair methodology
enables a novel rate distortion analysis of summarization techniques. We
implement our techniques using large pretrained models, and we propose a
multimodal extension of our overall mathematical framework. Finally, we develop
a novel self-supervised method using RLVR to improve large pretrained models
using consistency constraints such as composability and closure under certain
operations that stem naturally from our category theoretic framework.