GenClaw : Génération d'images agentive pilotée par code

Résumé

Les modèles de génération d'images ont évolué, passant d'une synthèse de pixels conditionnée par du texte à des agents multimodaux dotés de capacités de compréhension visuelle et d'invocation d'outils. Pourtant, les agents existants restent à la merci des modèles d'images en boîte noire sous-jacents. Leur workflow est piégé dans un cycle répétitif de réécriture de prompts pour affiner la génération, sans mécanisme leur permettant de manipuler directement le canevas. En substance, le potentiel des LLM à servir de véritable « pinceau » pour une construction visuelle précise reste largement inexploité. Dans cet article, nous proposons GenClaw, un paradigme de génération d'images agentif piloté par le code, qui permet à l'agent de créer comme un artiste humain : d'abord conceptualiser, puis esquisser, et enfin coloriser. Plus précisément, l'agent construit d'abord la connaissance conceptuelle et le contexte par la recherche et le raisonnement. Il utilise ensuite du code (par exemple, SVG, HTML, Three.js) pour produire des esquisses visuelles exécutables. Enfin, il emploie un modèle de génération d'images pour ajouter textures, matériaux et photoréalisme. Dans ce workflow, le code sert de canevas intermédiaire contrôlable, faisant le pont entre le raisonnement linguistique et la synthèse de pixels, intégrant de manière fluide la logique programmatique et l'expressivité visuelle des modèles génératifs. En transformant la génération d'images d'un paradigme en boîte noire en un processus par étapes semblable à la création humaine authentique, GenClaw franchit une étape vers des systèmes de génération visuelle hautement contrôlables et interprétables.

English

Image generation models have evolved from text-conditioned pixel synthesis toward multimodal agents endowed with visual comprehension and tool invocation capabilities. Yet, existing agents remain at the mercy of underlying black-box image models. Their workflow is trapped in a repetitive cycle of prompt rewriting for generation refinement, leaving them with no mechanism to directly manipulate the canvas. In essence, the potential of LLMs to serve as a genuine "brush" for precise visual construction remains largely untapped. In this paper, we propose GenClaw, a code-driven agentic image generation paradigm that empowers the agent to create like a human artist: first conceptualizing, then sketching, and finally coloring. Specifically, the agent first constructs the conceptual knowledge and context through search and reasoning. It then utilizes code (e.g., SVG, HTML, Three.js) to render executable visual sketches. Finally, it employs an image generation model to supplement textures, materials, and photorealism. In this workflow, code serves as a controllable intermediate canvas bridging linguistic reasoning and pixel synthesis, seamlessly integrating programmatic logic with the visual expressiveness of generative models. By transforming image generation from a black-box paradigm into a staged process akin to authentic human creation, GenClaw offers a step toward for highly controllable and interpretable visual generation systems.