SketchAgent: Taalgestuurde Opeenvolgende Schetsgeneratie

Samenvatting

Schetsen dient als een veelzijdig instrument voor het externaliseren van ideeën, waardoor snelle verkenning en visuele communicatie mogelijk zijn die verschillende disciplines bestrijken. Hoewel kunstmatige systemen aanzienlijke vooruitgang hebben geboekt in contentcreatie en mens-computerinteractie, blijft het vastleggen van de dynamische en abstracte aard van menselijk schetsen een uitdaging. In dit werk introduceren we SketchAgent, een op taal gebaseerde, sequentiële schetsgeneratiemethode die gebruikers in staat stelt om schetsen te maken, aan te passen en te verfijnen via dynamische, conversatiegerichte interacties. Onze benadering vereist geen training of fijnafstemming. In plaats daarvan maken we gebruik van de sequentiële aard en rijke voorkennis van kant-en-klare multimodale grote taalmodellen (LLM's). We presenteren een intuïtieve schets-taal, geïntroduceerd bij het model via in-context voorbeelden, waardoor het kan "tekenen" met op string gebaseerde acties. Deze worden verwerkt tot vectorafbeeldingen en vervolgens gerenderd om een schets te maken op een pixeldoek, die vervolgens opnieuw kan worden gebruikt voor verdere taken. Door slag voor slag te tekenen, legt onze agent de zich ontwikkelende, dynamische kwaliteiten vast die inherent zijn aan schetsen. We tonen aan dat SketchAgent schetsen kan genereren van diverse prompts, kan deelnemen aan op dialoog gebaseerd tekenen, en op een zinvolle manier kan samenwerken met menselijke gebruikers.

English

Sketching serves as a versatile tool for externalizing ideas, enabling rapid exploration and visual communication that spans various disciplines. While artificial systems have driven substantial advances in content creation and human-computer interaction, capturing the dynamic and abstract nature of human sketching remains challenging. In this work, we introduce SketchAgent, a language-driven, sequential sketch generation method that enables users to create, modify, and refine sketches through dynamic, conversational interactions. Our approach requires no training or fine-tuning. Instead, we leverage the sequential nature and rich prior knowledge of off-the-shelf multimodal large language models (LLMs). We present an intuitive sketching language, introduced to the model through in-context examples, enabling it to "draw" using string-based actions. These are processed into vector graphics and then rendered to create a sketch on a pixel canvas, which can be accessed again for further tasks. By drawing stroke by stroke, our agent captures the evolving, dynamic qualities intrinsic to sketching. We demonstrate that SketchAgent can generate sketches from diverse prompts, engage in dialogue-driven drawing, and collaborate meaningfully with human users.

SketchAgent: Taalgestuurde Opeenvolgende Schetsgeneratie

SketchAgent: Language-Driven Sequential Sketch Generation

Samenvatting

Support