Teoria Geral de OCR: Rumo ao OCR-2.0 por meio de um Modelo Unificado de Ponta a PontaGeneral OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
Os sistemas tradicionais de OCR (OCR-1.0) estão cada vez mais incapazes de atender às necessidades das pessoas devido à crescente demanda por processamento inteligente de caracteres ópticos artificiais. Neste artigo, referimo-nos coletivamente a todos os sinais ópticos artificiais (por exemplo, textos simples, fórmulas matemáticas/moleculares, tabelas, gráficos, partituras e até formas geométricas) como "caracteres" e propomos a Teoria Geral de OCR juntamente com um excelente modelo, denominado GOT, para promover a chegada do OCR-2.0. O GOT, com 580 milhões de parâmetros, é um modelo unificado, elegante e ponta a ponta, composto por um codificador de alta compressão e um decodificador de contextos longos. Como um modelo OCR-2.0, o GOT pode lidar com todos os "caracteres" mencionados em várias tarefas de OCR. Do lado de entrada, o modelo suporta imagens de cena e de documento em estilos de fatia e página inteira comumente utilizados. Do lado de saída, o GOT pode gerar resultados simples ou formatados (markdown/tikz/smiles/kern) por meio de um prompt fácil. Além disso, o modelo conta com recursos interativos de OCR, ou seja, reconhecimento em nível de região guiado por coordenadas ou cores. Além disso, adaptamos tecnologias de resolução dinâmica e OCR de várias páginas ao GOT para uma melhor praticidade. Nos experimentos, fornecemos resultados suficientes para comprovar a superioridade do nosso modelo.