LayoutNUWA: 大規模言語モデルが秘めるレイアウト専門性の解明
LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models
September 18, 2023
著者: Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
cs.AI
要旨
グラフィックレイアウト生成は、ユーザーエンゲージメントや情報の認知において重要な役割を果たす、成長著しい研究分野です。既存の手法は主にレイアウト生成を数値最適化タスクとして扱い、定量的な側面に焦点を当てる一方で、各レイアウト要素間の関係性といったセマンティックな情報を見落としていました。本論文では、セマンティック情報を強化し、大規模言語モデル(LLMs)が持つレイアウトに関する暗黙知を活用するため、レイアウト生成をコード生成タスクとして扱う初のモデルであるLayoutNUWAを提案します。具体的には、3つの相互接続されたモジュールからなるCode Instruct Tuning(CIT)アプローチを開発しました:1)Code Initialization(CI)モジュールは数値条件を定量化し、戦略的に配置されたマスクを含むHTMLコードとして初期化します;2)Code Completion(CC)モジュールはLLMsのフォーマット知識を活用して、HTMLコード内のマスク部分を埋めます;3)Code Rendering(CR)モジュールは完成したコードを最終的なレイアウト出力に変換し、コードから視覚化されたレイアウトへの直接的なマッピングを保証することで、高い解釈可能性と透明性を備えたレイアウト生成プロセスを実現します。複数のデータセットにおいて、LayoutNUWAの強力な能力を示す最新の性能(50%以上の改善)を達成しました。コードはhttps://github.com/ProjectNUWA/LayoutNUWAで公開されています。
English
Graphic layout generation, a growing research field, plays a significant role
in user engagement and information perception. Existing methods primarily treat
layout generation as a numerical optimization task, focusing on quantitative
aspects while overlooking the semantic information of layout, such as the
relationship between each layout element. In this paper, we propose LayoutNUWA,
the first model that treats layout generation as a code generation task to
enhance semantic information and harness the hidden layout expertise of large
language models~(LLMs). More concretely, we develop a Code Instruct Tuning
(CIT) approach comprising three interconnected modules: 1) the Code
Initialization (CI) module quantifies the numerical conditions and initializes
them as HTML code with strategically placed masks; 2) the Code Completion (CC)
module employs the formatting knowledge of LLMs to fill in the masked portions
within the HTML code; 3) the Code Rendering (CR) module transforms the
completed code into the final layout output, ensuring a highly interpretable
and transparent layout generation procedure that directly maps code to a
visualized layout. We attain significant state-of-the-art performance (even
over 50\% improvements) on multiple datasets, showcasing the strong
capabilities of LayoutNUWA. Our code is available at
https://github.com/ProjectNUWA/LayoutNUWA.