ChatPaper.aiChatPaper

SketchAgent: 言語駆動シーケンシャルスケッチ生成

SketchAgent: Language-Driven Sequential Sketch Generation

November 26, 2024
著者: Yael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba
cs.AI

要旨

スケッチは、アイデアを具体化し、さまざまな分野にわたる迅速な探索とビジュアルコミュニケーションを可能にする多目的ツールとして機能します。人工システムはコンテンツ作成や人間とコンピュータのインタラクションにおいて大きな進歩を遂げてきましたが、人間のスケッチの動的で抽象的な性質を捉えることは依然として難しい課題です。本研究では、ユーザーが動的で対話的なやり取りを通じてスケッチを作成、修正、洗練させることができる、言語駆動型の連続スケッチ生成手法であるSketchAgentを紹介します。当手法はトレーニングや微調整を必要としません。代わりに、市販のマルチモーダル大規模言語モデル(LLM)の連続的な性質と豊富な事前知識を活用します。モデルに導入される直感的なスケッチ言語は、コンテキスト内の例を通じて導入され、文字列ベースのアクションを使用して「描く」ことができるようになります。これらはベクトルグラフィックに変換され、その後、ピクセルキャンバス上にスケッチを作成するためにレンダリングされます。その後、さらなるタスクのために再度アクセスできます。ストロークごとに描画することで、当エージェントはスケッチに固有の進化する動的な特性を捉えます。SketchAgentは多様なプロンプトからスケッチを生成し、対話に基づいた描画を行い、人間のユーザーと意味のある協力関係を築くことができることを示しています。
English
Sketching serves as a versatile tool for externalizing ideas, enabling rapid exploration and visual communication that spans various disciplines. While artificial systems have driven substantial advances in content creation and human-computer interaction, capturing the dynamic and abstract nature of human sketching remains challenging. In this work, we introduce SketchAgent, a language-driven, sequential sketch generation method that enables users to create, modify, and refine sketches through dynamic, conversational interactions. Our approach requires no training or fine-tuning. Instead, we leverage the sequential nature and rich prior knowledge of off-the-shelf multimodal large language models (LLMs). We present an intuitive sketching language, introduced to the model through in-context examples, enabling it to "draw" using string-based actions. These are processed into vector graphics and then rendered to create a sketch on a pixel canvas, which can be accessed again for further tasks. By drawing stroke by stroke, our agent captures the evolving, dynamic qualities intrinsic to sketching. We demonstrate that SketchAgent can generate sketches from diverse prompts, engage in dialogue-driven drawing, and collaborate meaningfully with human users.

Summary

AI-Generated Summary

PDF194November 27, 2024