ScreenAI: UI 및 인포그래픽 이해를 위한 시각-언어 모델
ScreenAI: A Vision-Language Model for UI and Infographics Understanding
February 7, 2024
저자: Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma
cs.AI
초록
스크린 사용자 인터페이스(UI)와 인포그래픽은 유사한 시각적 언어와 디자인 원칙을 공유하며, 인간 커뮤니케이션과 인간-기계 상호작용에서 중요한 역할을 합니다. 본 연구에서는 UI와 인포그래픽 이해에 특화된 비전-언어 모델인 ScreenAI를 소개합니다. 우리의 모델은 PaLI 아키텍처를 기반으로 pix2struct의 유연한 패칭 전략을 도입하여 개선되었으며, 독특한 데이터셋 조합으로 학습되었습니다. 이 조합의 핵심은 모델이 UI 요소의 유형과 위치를 식별해야 하는 새로운 스크린 주석 작업입니다. 이러한 텍스트 주석을 사용하여 대형 언어 모델에 스크린을 설명하고, 질문-응답(QA), UI 탐색, 요약 훈련 데이터셋을 대규모로 자동 생성합니다. 이러한 설계 선택의 영향을 입증하기 위해 제거 실험을 수행합니다. 단 50억 개의 파라미터로 ScreenAI는 UI 및 인포그래픽 기반 작업(Multi-page DocVQA, WebSRC, MoTIF 및 Widget Captioning)에서 새로운 최첨단 결과를 달성하고, 유사한 크기의 모델과 비교하여 다른 작업(Chart QA, DocVQA, InfographicVQA)에서 최고 수준의 성능을 보입니다. 마지막으로, 스크린 주석 작업에 초점을 맞춘 하나의 데이터셋과 질문-응답에 초점을 맞춘 두 개의 새로운 데이터셋을 공개합니다.
English
Screen user interfaces (UIs) and infographics, sharing similar visual
language and design principles, play important roles in human communication and
human-machine interaction. We introduce ScreenAI, a vision-language model that
specializes in UI and infographics understanding. Our model improves upon the
PaLI architecture with the flexible patching strategy of pix2struct and is
trained on a unique mixture of datasets. At the heart of this mixture is a
novel screen annotation task in which the model has to identify the type and
location of UI elements. We use these text annotations to describe screens to
Large Language Models and automatically generate question-answering (QA), UI
navigation, and summarization training datasets at scale. We run ablation
studies to demonstrate the impact of these design choices. At only 5B
parameters, ScreenAI achieves new state-of-the-artresults on UI- and
infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget
Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and
InfographicVQA) compared to models of similar size. Finally, we release three
new datasets: one focused on the screen annotation task and two others focused
on question answering.