ChatPaper.aiChatPaper

3D-GPT: Modelagem Procedural 3D com Modelos de Linguagem de Grande Escala

3D-GPT: Procedural 3D Modeling with Large Language Models

October 19, 2023
Autores: Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, Stephen Gould
cs.AI

Resumo

Na busca por uma criação automatizada e eficiente de conteúdo, a geração procedural, que utiliza parâmetros modificáveis e sistemas baseados em regras, surge como uma abordagem promissora. No entanto, pode ser uma tarefa desafiadora, dada sua natureza complexa que exige um profundo entendimento de regras, algoritmos e parâmetros. Para reduzir a carga de trabalho, introduzimos o 3D-GPT, um framework que utiliza modelos de linguagem de grande escala (LLMs) para modelagem 3D orientada por instruções. O 3D-GPT posiciona os LLMs como solucionadores de problemas proficientes, dividindo as tarefas de modelagem 3D procedural em segmentos acessíveis e designando o agente adequado para cada tarefa. O 3D-GPT integra três agentes principais: o agente de despacho de tarefas, o agente de conceituação e o agente de modelagem. Eles colaboram para alcançar dois objetivos. Primeiro, aprimora descrições iniciais concisas de cenas, evoluindo-as para formas detalhadas enquanto adapta dinamicamente o texto com base em instruções subsequentes. Segundo, integra a geração procedural, extraindo valores de parâmetros do texto enriquecido para interagir facilmente com softwares 3D na criação de ativos. Nossas investigações empíricas confirmam que o 3D-GPT não apenas interpreta e executa instruções, entregando resultados confiáveis, mas também colabora efetivamente com designers humanos. Além disso, ele se integra perfeitamente ao Blender, desbloqueando possibilidades expandidas de manipulação. Nosso trabalho destaca o potencial dos LLMs na modelagem 3D, oferecendo um framework básico para avanços futuros na geração de cenas e animação.
English
In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given its intricate nature necessitating a deep understanding of rules, algorithms, and parameters. To reduce workload, we introduce 3D-GPT, a framework utilizing large language models~(LLMs) for instruction-driven 3D modeling. 3D-GPT positions LLMs as proficient problem solvers, dissecting the procedural 3D modeling tasks into accessible segments and appointing the apt agent for each task. 3D-GPT integrates three core agents: the task dispatch agent, the conceptualization agent, and the modeling agent. They collaboratively achieve two objectives. First, it enhances concise initial scene descriptions, evolving them into detailed forms while dynamically adapting the text based on subsequent instructions. Second, it integrates procedural generation, extracting parameter values from enriched text to effortlessly interface with 3D software for asset creation. Our empirical investigations confirm that 3D-GPT not only interprets and executes instructions, delivering reliable results but also collaborates effectively with human designers. Furthermore, it seamlessly integrates with Blender, unlocking expanded manipulation possibilities. Our work highlights the potential of LLMs in 3D modeling, offering a basic framework for future advancements in scene generation and animation.
PDF602February 7, 2026