범주론을 활용한 문서의 이해, 측정 및 조작
Document Understanding, Measurement, and Manipulation Using Category Theory
October 24, 2025
저자: Jared Claypoole, Yunye Gong, Noson S. Yanofsky, Ajay Divakaran
cs.AI
초록
범주론을 적용하여 다중모드 문서 구조를 추출하며, 이를 통해 정보 이론적 측정 방법, 콘텐츠 요약 및 확장, 그리고 대규모 사전 학습 모델의 자기 지도적 개선 기법을 개발합니다. 첫 번째로, 문서를 질문-응답 쌍의 범주로 수학적으로 표현하는 방법을 고안합니다. 두 번째로, 하나 이상의 문서에 포함된 정보를 중복되지 않는 조각으로 분리하는 직교화 절차를 개발합니다. 첫 번째와 두 번째 단계에서 추출된 구조를 바탕으로 문서가 포함한 정보를 측정하고 열거하는 방법을 도출합니다. 또한 이러한 단계들을 확장하여 새로운 요약 기술을 개발하고, 원본 문서의 확장을 결과로 하는 해석(exegesis)이라는 새로운 문제에 대한 해결책을 제시합니다. 우리의 질문-응답 쌍 방법론은 요약 기술에 대한 새로운 율-왜곡 분석을 가능하게 합니다. 대규모 사전 학습 모델을 활용하여 기법들을 구현하고, 전체 수학적 프레임워크의 다중모드 확장을 제안합니다. 마지막으로, 범주론적 프레임워크에서 자연스럽게 도출되는 구성 가능성(composability) 및 특정 연산에 대한 닫힘(closure)과 같은 일관성 제약 조건을 활용하여 RLVR을 이용한 새로운 자기 지도적 방법을 개발하여 대규모 사전 학습 모델을 개선합니다.
English
We apply category theory to extract multimodal document structure which leads
us to develop information theoretic measures, content summarization and
extension, and self-supervised improvement of large pretrained models. We first
develop a mathematical representation of a document as a category of
question-answer pairs. Second, we develop an orthogonalization procedure to
divide the information contained in one or more documents into non-overlapping
pieces. The structures extracted in the first and second steps lead us to
develop methods to measure and enumerate the information contained in a
document. We also build on those steps to develop new summarization techniques,
as well as to develop a solution to a new problem viz. exegesis resulting in an
extension of the original document. Our question-answer pair methodology
enables a novel rate distortion analysis of summarization techniques. We
implement our techniques using large pretrained models, and we propose a
multimodal extension of our overall mathematical framework. Finally, we develop
a novel self-supervised method using RLVR to improve large pretrained models
using consistency constraints such as composability and closure under certain
operations that stem naturally from our category theoretic framework.