Documentbegrip, Meting en Manipulatie met Behulp van Categorietheorie
Document Understanding, Measurement, and Manipulation Using Category Theory
October 24, 2025
Auteurs: Jared Claypoole, Yunye Gong, Noson S. Yanofsky, Ajay Divakaran
cs.AI
Samenvatting
Wij passen categorietheorie toe om de multimodale documentstructuur te extraheren, wat ons leidt tot de ontwikkeling van informatie-theoretische maten, inhoudssamenvatting en -uitbreiding, en zelfgesuperviseerde verbetering van grote voorgetrainde modellen. We ontwikkelen eerst een wiskundige representatie van een document als een categorie van vraag-antwoordparen. Ten tweede ontwikkelen we een orthogonalisatieprocedure om de informatie in één of meer documenten op te delen in niet-overlappende stukken. De structuren die in de eerste en tweede stap zijn geëxtraheerd, leiden tot de ontwikkeling van methoden om de informatie in een document te meten en te enumereren. We bouwen verder op deze stappen om nieuwe samenvattingstechnieken te ontwikkelen, evenals een oplossing voor een nieuw probleem, namelijk exegese, wat resulteert in een uitbreiding van het oorspronkelijke document. Onze vraag-antwoordpaarmethodologie maakt een nieuwe ratedistortie-analyse van samenvattingstechnieken mogelijk. We implementeren onze technieken met behulp van grote voorgetrainde modellen en stellen een multimodale uitbreiding van ons algemene wiskundige kader voor. Tot slot ontwikkelen we een nieuwe zelfgesuperviseerde methode met RLVR om grote voorgetrainde modellen te verbeteren met behulp van consistentiebeperkingen zoals composeerbaarheid en geslotenheid onder bepaalde operaties die natuurlijk voortvloeien uit ons categorietheoretische kader.
English
We apply category theory to extract multimodal document structure which leads
us to develop information theoretic measures, content summarization and
extension, and self-supervised improvement of large pretrained models. We first
develop a mathematical representation of a document as a category of
question-answer pairs. Second, we develop an orthogonalization procedure to
divide the information contained in one or more documents into non-overlapping
pieces. The structures extracted in the first and second steps lead us to
develop methods to measure and enumerate the information contained in a
document. We also build on those steps to develop new summarization techniques,
as well as to develop a solution to a new problem viz. exegesis resulting in an
extension of the original document. Our question-answer pair methodology
enables a novel rate distortion analysis of summarization techniques. We
implement our techniques using large pretrained models, and we propose a
multimodal extension of our overall mathematical framework. Finally, we develop
a novel self-supervised method using RLVR to improve large pretrained models
using consistency constraints such as composability and closure under certain
operations that stem naturally from our category theoretic framework.