Artigos de pesquisa em IA selecionados diariamente com traduções
Na busca por uma criação automatizada e eficiente de conteúdo, a geração procedural, que utiliza parâmetros modificáveis e sistemas baseados em regras, surge como uma abordagem promissora. No entanto, pode ser uma tarefa desafiadora, dada sua natureza complexa que exige um profundo entendimento de regras, algoritmos e parâmetros. Para reduzir a carga de trabalho, introduzimos o 3D-GPT, um framework que utiliza modelos de linguagem de grande escala (LLMs) para modelagem 3D orientada por instruções. O 3D-GPT posiciona os LLMs como solucionadores de problemas proficientes, dividindo as tarefas de modelagem 3D procedural em segmentos acessíveis e designando o agente adequado para cada tarefa. O 3D-GPT integra três agentes principais: o agente de despacho de tarefas, o agente de conceituação e o agente de modelagem. Eles colaboram para alcançar dois objetivos. Primeiro, aprimora descrições iniciais concisas de cenas, evoluindo-as para formas detalhadas enquanto adapta dinamicamente o texto com base em instruções subsequentes. Segundo, integra a geração procedural, extraindo valores de parâmetros do texto enriquecido para interagir facilmente com softwares 3D na criação de ativos. Nossas investigações empíricas confirmam que o 3D-GPT não apenas interpreta e executa instruções, entregando resultados confiáveis, mas também colabora efetivamente com designers humanos. Além disso, ele se integra perfeitamente ao Blender, desbloqueando possibilidades expandidas de manipulação. Nosso trabalho destaca o potencial dos LLMs na modelagem 3D, oferecendo um framework básico para avanços futuros na geração de cenas e animação.
Modelos de linguagem grandes (LLMs) abertos com excelente desempenho em diversas tarefas têm avançado significativamente o desenvolvimento de LLMs. No entanto, eles são muito inferiores a modelos comerciais como ChatGPT e GPT-4 ao atuarem como agentes para lidar com tarefas complexas no mundo real. Essas tarefas de agente utilizam LLMs como o controlador central responsável por planejamento, memorização e utilização de ferramentas, exigindo tanto métodos de prompt refinados quanto LLMs robustos para alcançar um desempenho satisfatório. Embora muitos métodos de prompt tenham sido propostos para completar tarefas específicas de agente, há uma falta de pesquisas focadas em melhorar as capacidades de agente dos próprios LLMs sem comprometer suas habilidades gerais. Neste trabalho, apresentamos o AgentTuning, um método simples e geral para aprimorar as habilidades de agente dos LLMs enquanto mantém suas capacidades gerais de LLM. Construímos o AgentInstruct, um conjunto de dados leve de ajuste de instruções contendo trajetórias de interação de alta qualidade. Empregamos uma estratégia híbrida de ajuste de instruções combinando o AgentInstruct com instruções de código aberto de domínios gerais. O AgentTuning é usado para ajustar por instruções a série Llama 2, resultando no AgentLM. Nossas avaliações mostram que o AgentTuning habilita as capacidades de agente dos LLMs sem comprometer as habilidades gerais. O AgentLM-70B é comparável ao GPT-3.5-turbo em tarefas de agente não vistas, demonstrando capacidades de agente generalizadas. Disponibilizamos o AgentInstruct e os modelos AgentLM-7B, 13B e 70B em https://github.com/THUDM/AgentTuning, servindo como alternativas abertas e poderosas aos LLMs comerciais para tarefas de agente.
Com o desenvolvimento de grandes modelos de linguagem (LLMs), encontrar um equilíbrio entre o desempenho e a segurança dos sistemas de IA nunca foi tão crucial. No entanto, a tensão inerente entre os objetivos de utilidade e inofensividade representa um desafio significativo durante o treinamento de LLMs. Para abordar essa questão, propomos o Aprendizado por Reforço Seguro com Feedback Humano (Safe RLHF), um algoritmo inovador para alinhamento de valores humanos. O Safe RLHF desacopla explicitamente as preferências humanas em relação à utilidade e à inofensividade, evitando efetivamente a confusão dos trabalhadores sobre essa tensão e permitindo que treinemos modelos de recompensa e custo separadamente. Formalizamos a preocupação com a segurança dos LLMs como uma tarefa de otimização que maximiza a função de recompensa enquanto satisfaz restrições de custo especificadas. Utilizando o método Lagrangiano para resolver esse problema restrito, o Safe RLHF ajusta dinamicamente o equilíbrio entre os dois objetivos durante o ajuste fino. Por meio de três rodadas de ajuste fino usando o Safe RLHF, demonstramos uma capacidade superior de mitigar respostas prejudiciais enquanto melhoramos o desempenho do modelo em comparação com algoritmos existentes de alinhamento de valores. Experimentalmente, ajustamos o Alpaca-7B usando o Safe RLHF e o alinhamos com preferências humanas coletadas, melhorando significativamente sua utilidade e inofensividade de acordo com avaliações humanas.
Os Modelos de Linguagem de Grande Escala (LLMs) têm se destacado como planejadores semânticos de alto nível para tarefas de tomada de decisão sequencial. No entanto, utilizá-los para aprender tarefas complexas de manipulação de baixo nível, como girar uma caneta com destreza, continua sendo um problema em aberto. Nós preenchemos essa lacuna fundamental e apresentamos o Eureka, um algoritmo de design de recompensa de nível humano impulsionado por LLMs. O Eureka explora as notáveis capacidades de geração zero-shot, escrita de código e melhoria em contexto dos LLMs de última geração, como o GPT-4, para realizar otimização evolutiva sobre o código de recompensa. As recompensas resultantes podem então ser usadas para adquirir habilidades complexas por meio de aprendizado por reforço. Sem nenhum prompt específico para a tarefa ou modelos predefinidos de recompensa, o Eureka gera funções de recompensa que superam as recompensas projetadas por especialistas humanos. Em um conjunto diversificado de 29 ambientes de RL de código aberto que incluem 10 morfologias distintas de robôs, o Eureka supera especialistas humanos em 83% das tarefas, resultando em uma melhoria normalizada média de 52%. A generalidade do Eureka também permite uma nova abordagem de aprendizado em contexto sem gradientes para o aprendizado por reforço a partir de feedback humano (RLHF), incorporando prontamente entradas humanas para melhorar a qualidade e a segurança das recompensas geradas sem atualização do modelo. Por fim, usando recompensas do Eureka em um cenário de aprendizado curricular, demonstramos pela primeira vez uma Shadow Hand simulada capaz de realizar truques de girar uma caneta, manipulando habilmente uma caneta em círculos em alta velocidade.
O aprendizado por reforço (RL) requer a especificação manual de uma função de recompensa, o que muitas vezes é inviável, ou o aprendizado de um modelo de recompensa a partir de uma grande quantidade de feedback humano, o que geralmente é muito caro. Estudamos uma alternativa mais eficiente em termos de amostragem: o uso de modelos de visão e linguagem pré-treinados (VLMs) como modelos de recompensa de "zero-shot" (RMs) para especificar tarefas por meio de linguagem natural. Propomos uma abordagem natural e geral para usar VLMs como modelos de recompensa, que chamamos de VLM-RMs. Utilizamos VLM-RMs baseados em CLIP para treinar um humanoide MuJoCo a aprender tarefas complexas sem uma função de recompensa especificada manualmente, como ajoelhar-se, fazer o espacate e sentar-se na posição de lótus. Para cada uma dessas tarefas, fornecemos apenas uma única frase de prompt de texto descrevendo a tarefa desejada, com engenharia de prompt mínima. Fornecemos vídeos dos agentes treinados em: https://sites.google.com/view/vlm-rm. Podemos melhorar o desempenho fornecendo um segundo prompt de "linha de base" e projetando partes do espaço de incorporação do CLIP irrelevantes para distinguir entre o objetivo e a linha de base. Além disso, encontramos um forte efeito de escala para VLM-RMs: VLMs maiores treinados com mais recursos computacionais e dados são melhores modelos de recompensa. Os modos de falha dos VLM-RMs que encontramos estão todos relacionados a limitações conhecidas dos VLMs atuais, como capacidade limitada de raciocínio espacial ou ambientes visualmente irreais que estão muito fora da distribuição para o VLM. Descobrimos que os VLM-RMs são notavelmente robustos, desde que o VLM seja grande o suficiente. Isso sugere que os VLMs futuros se tornarão cada vez mais úteis como modelos de recompensa para uma ampla gama de aplicações de RL.
A criação de música é um processo iterativo, exigindo métodos variados em cada etapa. No entanto, os sistemas de IA existentes para música não conseguem orquestrar múltiplos subsistemas para atender a diversas necessidades. Para preencher essa lacuna, apresentamos o Loop Copilot, um sistema inovador que permite aos usuários gerar e refinar música iterativamente por meio de uma interface de diálogo interativa e multi-etapas. O sistema utiliza um modelo de linguagem de grande escala para interpretar as intenções do usuário e selecionar os modelos de IA apropriados para a execução das tarefas. Cada modelo de backend é especializado em uma tarefa específica, e suas saídas são agregadas para atender às necessidades do usuário. Para garantir a coerência musical, atributos essenciais são mantidos em uma tabela centralizada. Avaliamos a eficácia do sistema proposto por meio de entrevistas semiestruturadas e questionários, destacando sua utilidade não apenas na facilitação da criação musical, mas também seu potencial para aplicações mais amplas.
Modelos de linguagem de grande escala (LLMs) estão agora disponíveis em vários tamanhos e configurações por meio de provedores de API na nuvem. Embora essa diversidade ofereça um amplo espectro de escolhas, aproveitar efetivamente as opções para otimizar o custo computacional e o desempenho continua sendo um desafio. Neste trabalho, apresentamos o AutoMix, uma abordagem que roteia estrategicamente consultas para LLMs maiores, com base na correção aproximada das saídas de um LLM menor. Central ao AutoMix é um mecanismo de autoverificação few-shot, que estima a confiabilidade de suas próprias saídas sem exigir treinamento. Dado que as verificações podem ser ruidosas, empregamos um metaverificador no AutoMix para refinar a precisão dessas avaliações. Nossos experimentos utilizando LLAMA2-13/70B, em cinco conjuntos de dados de raciocínio contextualizado, demonstram que o AutoMix supera as linhas de base estabelecidas, melhorando o benefício incremental por custo em até 89%. Nosso código e dados estão disponíveis em https://github.com/automix-llm/automix.
A Inversão Textural, um método de aprendizado por prompts, apreende uma incorporação singular para uma nova "palavra" que representa o estilo e a aparência de uma imagem, permitindo que seja integrada em sentenças de linguagem natural para gerar novas imagens sintetizadas. No entanto, identificar e integrar múltiplos conceitos em nível de objeto em uma única cena apresenta desafios significativos, mesmo quando as incorporações para conceitos individuais são alcançáveis. Isso é confirmado por nossos testes empíricos. Para enfrentar esse desafio, introduzimos um framework para Aprendizado de Múltiplos Conceitos por Prompts (MCPL, na sigla em inglês), no qual múltiplas "palavras" novas são aprendidas simultaneamente a partir de um único par sentença-imagem. Para aprimorar a precisão da correlação palavra-conceito, propomos três técnicas de regularização: Mascaramento de Atenção (AttnMask) para concentrar o aprendizado em áreas relevantes; Perda Contrastiva de Prompts (PromptCL) para separar as incorporações de diferentes conceitos; e Adjetivo de Vinculação (Bind adj.) para associar novas "palavras" a palavras conhecidas. Avaliamos por meio de geração de imagens, edição e visualização de atenção com imagens diversas. Comparações quantitativas extensivas demonstram que nosso método pode aprender conceitos semanticamente mais desacoplados com uma correlação palavra-conceito aprimorada. Além disso, introduzimos um novo conjunto de dados e protocolo de avaliação especialmente desenvolvidos para essa nova tarefa de aprendizado de conceitos em nível de objeto.
Modelos de linguagem (LMs) amplamente utilizados são tipicamente construídos por meio da ampliação de um pipeline de treinamento em duas etapas: uma etapa de pré-treinamento que utiliza um conjunto de dados de texto muito grande e diversificado, e uma etapa de ajuste fino (às vezes chamada de "alinhamento") que utiliza exemplos específicos ou outras especificações de comportamentos desejados. Embora tenha sido hipotetizado que o conhecimento e as habilidades vêm do pré-treinamento, e que o ajuste fino principalmente filtra esse conhecimento e conjunto de habilidades, essa intuição não foi extensivamente testada. Para auxiliar nisso, introduzimos uma técnica inovadora para desacoplar o conhecimento e as habilidades adquiridos nessas duas etapas, permitindo uma resposta direta à pergunta: "O que aconteceria se combinássemos o conhecimento aprendido por um modelo grande durante o pré-treinamento com o conhecimento aprendido por um modelo pequeno durante o ajuste fino (ou vice-versa)?" Utilizando um framework baseado em RL derivado de desenvolvimentos recentes em aprendizado a partir de preferências humanas, introduzimos o ajuste fino emulado (EFT), um método prático e fundamentado para amostrar de uma distribuição que aproxima (ou "emula") o resultado do pré-treinamento e do ajuste fino em diferentes escalas. Nossos experimentos com EFT mostram que aumentar a escala do ajuste fino tende a melhorar a utilidade, enquanto aumentar a escala do pré-treinamento tende a melhorar a factualidade. Além de desacoplar a escala, mostramos que o EFT permite o ajuste em tempo de teste de traços comportamentais concorrentes, como utilidade e inofensividade, sem treinamento adicional. Por fim, um caso especial de ajuste fino emulado, que chamamos de up-scaling de LM, evita o ajuste fino intensivo em recursos de modelos grandes pré-treinados, combinando-os com modelos pequenos ajustados, essencialmente emulando o resultado do ajuste fino do modelo grande pré-treinado. O up-scaling melhora consistentemente a utilidade e a factualidade de modelos que seguem instruções nas famílias Llama, Llama-2 e Falcon, sem hiperparâmetros ou treinamento adicionais.
A geração de objetos 3D de alta resolução continua sendo uma tarefa desafiadora, principalmente devido à disponibilidade limitada de dados de treinamento anotados e abrangentes. Avanços recentes têm buscado superar essa limitação ao aproveitar modelos generativos de imagens, pré-treinados em extensos conjuntos de dados da web curados, utilizando técnicas de transferência de conhecimento como o Score Distillation Sampling (SDS). Atender eficientemente aos requisitos de renderização de alta resolução frequentemente exige a adoção de modelos baseados em representações latentes, como o Latent Diffusion Model (LDM). Nesse contexto, surge um desafio significativo: para calcular gradientes para pixels individuais de imagem, é necessário retropropagar gradientes do espaço latente designado através dos componentes congelados do modelo de imagem, como o codificador VAE utilizado no LDM. No entanto, esse caminho de propagação de gradientes nunca foi otimizado, permanecendo descontrolado durante o treinamento. Descobrimos que os gradientes não regulados afetam negativamente a capacidade do modelo 3D de adquirir informações relacionadas à textura a partir do modelo generativo de imagens, resultando em uma síntese de aparência de baixa qualidade. Para enfrentar esse desafio abrangente, propomos uma operação inovadora denominada Pixel-wise Gradient Clipping (PGC), projetada para integração perfeita em modelos generativos 3D existentes, melhorando assim sua qualidade de síntese. Especificamente, controlamos a magnitude dos gradientes estocásticos ao recortar eficientemente os gradientes por pixel, preservando direções cruciais dos gradientes relacionados à textura. Apesar dessa simplicidade e custo extra mínimo, experimentos extensivos demonstram a eficácia do nosso PGC em melhorar o desempenho de modelos generativos 3D existentes para renderização de objetos de alta resolução.