GenClaw: Geração Agentiva de Imagens Orientada por Código

Resumo

Os modelos de geração de imagens evoluíram da síntese de pixels condicionada por texto para agentes multimodais dotados de compreensão visual e capacidade de invocação de ferramentas. No entanto, os agentes existentes permanecem à mercê de modelos de imagem de caixa preta subjacentes. Seu fluxo de trabalho fica preso em um ciclo repetitivo de reescrita de prompts para refinamento da geração, sem qualquer mecanismo para manipular diretamente a tela. Em essência, o potencial dos LLMs de servirem como um verdadeiro "pincel" para a construção visual precisa permanece amplamente inexplorado. Neste artigo, propomos o GenClaw, um paradigma de geração de imagens agentivo orientado por código que capacita o agente a criar como um artista humano: primeiro conceituando, depois esboçando e, finalmente, colorindo. Especificamente, o agente primeiro constrói o conhecimento conceitual e o contexto por meio de busca e raciocínio. Em seguida, utiliza código (por exemplo, SVG, HTML, Three.js) para renderizar esboços visuais executáveis. Por fim, emprega um modelo de geração de imagens para complementar texturas, materiais e fotorrealismo. Nesse fluxo de trabalho, o código serve como uma tela intermediária controlável que une o raciocínio linguístico e a síntese de pixels, integrando perfeitamente a lógica programática com a expressividade visual dos modelos generativos. Ao transformar a geração de imagens de um paradigma de caixa preta em um processo em etapas análogo à criação humana autêntica, o GenClaw oferece um passo em direção a sistemas de geração visual altamente controláveis e interpretáveis.

English

Image generation models have evolved from text-conditioned pixel synthesis toward multimodal agents endowed with visual comprehension and tool invocation capabilities. Yet, existing agents remain at the mercy of underlying black-box image models. Their workflow is trapped in a repetitive cycle of prompt rewriting for generation refinement, leaving them with no mechanism to directly manipulate the canvas. In essence, the potential of LLMs to serve as a genuine "brush" for precise visual construction remains largely untapped. In this paper, we propose GenClaw, a code-driven agentic image generation paradigm that empowers the agent to create like a human artist: first conceptualizing, then sketching, and finally coloring. Specifically, the agent first constructs the conceptual knowledge and context through search and reasoning. It then utilizes code (e.g., SVG, HTML, Three.js) to render executable visual sketches. Finally, it employs an image generation model to supplement textures, materials, and photorealism. In this workflow, code serves as a controllable intermediate canvas bridging linguistic reasoning and pixel synthesis, seamlessly integrating programmatic logic with the visual expressiveness of generative models. By transforming image generation from a black-box paradigm into a staged process akin to authentic human creation, GenClaw offers a step toward for highly controllable and interpretable visual generation systems.