ChatPaper.aiChatPaper

LayoutNUWA: 대규모 언어 모델의 숨겨진 레이아웃 전문성 탐구

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

September 18, 2023
저자: Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
cs.AI

초록

그래픽 레이아웃 생성은 사용자 참여와 정보 인식에 중요한 역할을 하는 성장 중인 연구 분야입니다. 기존 방법들은 주로 레이아웃 생성을 수치 최적화 작업으로 취급하며, 각 레이아웃 요소 간의 관계와 같은 레이아웃의 의미론적 정보를 간과하고 양적 측면에 초점을 맞추었습니다. 본 논문에서는 레이아웃 생성을 코드 생성 작업으로 처리하여 의미론적 정보를 강화하고 대형 언어 모델(LLMs)의 숨겨진 레이아웃 전문성을 활용하는 첫 번째 모델인 LayoutNUWA를 제안합니다. 보다 구체적으로, 우리는 세 가지 상호 연결된 모듈로 구성된 Code Instruct Tuning(CIT) 접근법을 개발했습니다: 1) Code Initialization(CI) 모듈은 수치적 조건을 정량화하고 전략적으로 배치된 마스크와 함께 HTML 코드로 초기화합니다; 2) Code Completion(CC) 모듈은 LLMs의 포맷팅 지식을 활용하여 HTML 코드 내의 마스크된 부분을 채웁니다; 3) Code Rendering(CR) 모듈은 완성된 코드를 최종 레이아웃 출력으로 변환하여 코드를 시각화된 레이아웃에 직접 매핑하는 고도로 해석 가능하고 투명한 레이아웃 생성 절차를 보장합니다. 우리는 여러 데이터셋에서 최신 기술을 크게 능가하는 성능(50% 이상의 개선)을 달성하며 LayoutNUWA의 강력한 능력을 입증했습니다. 우리의 코드는 https://github.com/ProjectNUWA/LayoutNUWA에서 확인할 수 있습니다.
English
Graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the semantic information of layout, such as the relationship between each layout element. In this paper, we propose LayoutNUWA, the first model that treats layout generation as a code generation task to enhance semantic information and harness the hidden layout expertise of large language models~(LLMs). More concretely, we develop a Code Instruct Tuning (CIT) approach comprising three interconnected modules: 1) the Code Initialization (CI) module quantifies the numerical conditions and initializes them as HTML code with strategically placed masks; 2) the Code Completion (CC) module employs the formatting knowledge of LLMs to fill in the masked portions within the HTML code; 3) the Code Rendering (CR) module transforms the completed code into the final layout output, ensuring a highly interpretable and transparent layout generation procedure that directly maps code to a visualized layout. We attain significant state-of-the-art performance (even over 50\% improvements) on multiple datasets, showcasing the strong capabilities of LayoutNUWA. Our code is available at https://github.com/ProjectNUWA/LayoutNUWA.
PDF151December 15, 2024