GenClaw: Code-gestuurde agentische beeldgeneratie

Samenvatting

Beeldgeneratiemodellen zijn geëvolueerd van tekstgestuurde pixelsynthese naar multimodale agenten die beschikken over visueel begrip en mogelijkheden voor het aanroepen van tools. Toch blijven bestaande agenten overgeleverd aan de onderliggende black-box-beeldmodellen. Hun workflow zit gevangen in een repetitieve cyclus van prompt-herschrijven voor generatieverfijning, zonder dat er een mechanisme is om het canvas direct te manipuleren. In essentie blijft het potentieel van LLM's om als een echte 'penseel' te dienen voor precieze visuele constructie grotendeels onbenut. In dit artikel stellen we GenClaw voor, een codegestuurd agentisch beeldgeneratieparadigma dat de agent in staat stelt te creëren als een menselijke kunstenaar: eerst conceptualiseren, dan schetsen, en ten slotte inkleuren. Specifiek bouwt de agent eerst de conceptuele kennis en context op via zoeken en redeneren. Vervolgens gebruikt het code (bijv. SVG, HTML, Three.js) om uitvoerbare visuele schetsen te renderen. Ten slotte gebruikt het een beeldgeneratiemodel om texturen, materialen en fotorealisme toe te voegen. In deze workflow dient code als een controleerbaar tussenliggend canvas dat taalkundig redeneren en pixelsynthese overbrugt, en programmatische logica naadloos integreert met de visuele expressiviteit van generatieve modellen. Door beeldgeneratie te transformeren van een black-boxparadigma naar een gefaseerd proces dat lijkt op authentieke menselijke creatie, biedt GenClaw een stap richting hoogst controleerbare en interpreteerbare visuele generatiesystemen.

English

Image generation models have evolved from text-conditioned pixel synthesis toward multimodal agents endowed with visual comprehension and tool invocation capabilities. Yet, existing agents remain at the mercy of underlying black-box image models. Their workflow is trapped in a repetitive cycle of prompt rewriting for generation refinement, leaving them with no mechanism to directly manipulate the canvas. In essence, the potential of LLMs to serve as a genuine "brush" for precise visual construction remains largely untapped. In this paper, we propose GenClaw, a code-driven agentic image generation paradigm that empowers the agent to create like a human artist: first conceptualizing, then sketching, and finally coloring. Specifically, the agent first constructs the conceptual knowledge and context through search and reasoning. It then utilizes code (e.g., SVG, HTML, Three.js) to render executable visual sketches. Finally, it employs an image generation model to supplement textures, materials, and photorealism. In this workflow, code serves as a controllable intermediate canvas bridging linguistic reasoning and pixel synthesis, seamlessly integrating programmatic logic with the visual expressiveness of generative models. By transforming image generation from a black-box paradigm into a staged process akin to authentic human creation, GenClaw offers a step toward for highly controllable and interpretable visual generation systems.