SketchAgent: Taalgestuurde Opeenvolgende Schetsgeneratie
SketchAgent: Language-Driven Sequential Sketch Generation
November 26, 2024
Auteurs: Yael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba
cs.AI
Samenvatting
Schetsen dient als een veelzijdig instrument voor het externaliseren van ideeën, waardoor snelle verkenning en visuele communicatie mogelijk zijn die verschillende disciplines bestrijken. Hoewel kunstmatige systemen aanzienlijke vooruitgang hebben geboekt in contentcreatie en mens-computerinteractie, blijft het vastleggen van de dynamische en abstracte aard van menselijk schetsen een uitdaging. In dit werk introduceren we SketchAgent, een op taal gebaseerde, sequentiële schetsgeneratiemethode die gebruikers in staat stelt om schetsen te maken, aan te passen en te verfijnen via dynamische, conversatiegerichte interacties. Onze benadering vereist geen training of fijnafstemming. In plaats daarvan maken we gebruik van de sequentiële aard en rijke voorkennis van kant-en-klare multimodale grote taalmodellen (LLM's). We presenteren een intuïtieve schets-taal, geïntroduceerd bij het model via in-context voorbeelden, waardoor het kan "tekenen" met op string gebaseerde acties. Deze worden verwerkt tot vectorafbeeldingen en vervolgens gerenderd om een schets te maken op een pixeldoek, die vervolgens opnieuw kan worden gebruikt voor verdere taken. Door slag voor slag te tekenen, legt onze agent de zich ontwikkelende, dynamische kwaliteiten vast die inherent zijn aan schetsen. We tonen aan dat SketchAgent schetsen kan genereren van diverse prompts, kan deelnemen aan op dialoog gebaseerd tekenen, en op een zinvolle manier kan samenwerken met menselijke gebruikers.
English
Sketching serves as a versatile tool for externalizing ideas, enabling rapid
exploration and visual communication that spans various disciplines. While
artificial systems have driven substantial advances in content creation and
human-computer interaction, capturing the dynamic and abstract nature of human
sketching remains challenging. In this work, we introduce SketchAgent, a
language-driven, sequential sketch generation method that enables users to
create, modify, and refine sketches through dynamic, conversational
interactions. Our approach requires no training or fine-tuning. Instead, we
leverage the sequential nature and rich prior knowledge of off-the-shelf
multimodal large language models (LLMs). We present an intuitive sketching
language, introduced to the model through in-context examples, enabling it to
"draw" using string-based actions. These are processed into vector graphics and
then rendered to create a sketch on a pixel canvas, which can be accessed again
for further tasks. By drawing stroke by stroke, our agent captures the
evolving, dynamic qualities intrinsic to sketching. We demonstrate that
SketchAgent can generate sketches from diverse prompts, engage in
dialogue-driven drawing, and collaborate meaningfully with human users.Summary
AI-Generated Summary