일반 OCR 이론: 통합 엔드투엔드 모델을 통한 OCR-2.0으로의 진화General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
전통적인 OCR 시스템 (OCR-1.0)은 인공 광학 문자의 지능적 처리에 대한 증가하는 수요로 인해 사람들의 사용 요구를 점점 더 충족시키기 어려워지고 있습니다. 본 논문에서는 모든 인공 광학 신호 (예: 일반 텍스트, 수학/분자식, 표, 차트, 악보, 심지어 기하학적 모양)을 "문자"로 통칭하고 일반 OCR 이론과 GOT라는 우수한 모델을 제안하여 OCR-2.0의 도래를 촉진합니다. 580M 개의 매개변수를 가진 GOT은 고압축 인코더와 장문맥 디코더로 구성된 통합적이고 우아하며 end-to-end 모델입니다. OCR-2.0 모델로 GOT은 다양한 OCR 작업에서 상기 "문자"를 모두 처리할 수 있습니다. 입력 측면에서 모델은 잘려진 이미지와 전체 페이지 스타일의 일반적으로 사용되는 장면 및 문서 형식을 지원합니다. 출력 측면에서 GOT은 간단한 프롬프트를 통해 일반 또는 서식이 있는 결과 (마크다운/tikz/smiles/kern)를 생성할 수 있습니다. 또한 모델은 좌표 또는 색상에 의해 안내되는 영역 수준 인식을 통한 대화식 OCR 기능을 지원합니다. 더불어, 우리는 GOT에 동적 해상도 및 다중 페이지 OCR 기술을 적용하여 실용성을 높였습니다. 실험에서 우리의 모델의 우월성을 증명하기 위해 충분한 결과를 제시합니다.