Artigos de pesquisa em IA selecionados diariamente com traduções
A edição de imagens guiada por texto é amplamente necessária no cotidiano, variando de uso pessoal a aplicações profissionais como o Photoshop. No entanto, os métodos existentes são ou de execução única (zero-shot) ou treinados em um conjunto de dados sintetizado automaticamente, que contém um alto volume de ruído. Assim, eles ainda exigem muito ajuste manual para produzir resultados desejáveis na prática. Para resolver esse problema, apresentamos o MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), o primeiro conjunto de dados em grande escala e anotado manualmente para edição de imagens reais guiada por instruções, que abrange diversos cenários: edição de única etapa, múltiplas etapas, com máscara fornecida e sem máscara. O MagicBrush compreende mais de 10 mil triplas anotadas manualmente (imagem de origem, instrução, imagem de destino), que suportam o treinamento de modelos de edição de imagens guiada por texto em grande escala. Ajustamos o InstructPix2Pix no MagicBrush e mostramos que o novo modelo pode produzir imagens muito melhores de acordo com a avaliação humana. Além disso, realizamos experimentos extensivos para avaliar as abordagens atuais de edição de imagens em múltiplas dimensões, incluindo avaliações quantitativas, qualitativas e humanas. Os resultados revelam a natureza desafiadora do nosso conjunto de dados e a lacuna entre as abordagens atuais e as necessidades de edição do mundo real.
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o Processamento de Linguagem Natural (PLN), mas exigem recursos massivos de GPU para treinamento. Reduzir o limiar para o treinamento de LLMs incentivaria uma maior participação de pesquisadores, beneficiando tanto a academia quanto a sociedade. Embora as abordagens existentes tenham se concentrado no ajuste fino eficiente em parâmetros, que ajusta ou adiciona um pequeno número de parâmetros, poucas abordaram o desafio de ajustar todos os parâmetros dos LLMs com recursos limitados. Neste trabalho, propomos um novo otimizador, LOw-Memory Optimization (LOMO), que funde o cálculo do gradiente e a atualização dos parâmetros em uma única etapa para reduzir o uso de memória. Ao integrar o LOMO com técnicas existentes de economia de memória, reduzimos o uso de memória para 10,8% em comparação com a abordagem padrão (solução DeepSpeed). Consequentemente, nossa abordagem permite o ajuste fino de todos os parâmetros de um modelo de 65B em uma única máquina com 8 RTX 3090, cada uma com 24GB de memória.
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) demonstraram uma aptidão notável na geração de código, mas ainda enfrentam dificuldades em tarefas de programação desafiadoras. O autorreparo -- no qual o modelo depura e corrige erros em seu próprio código -- tornou-se recentemente uma abordagem popular para impulsionar o desempenho nesses cenários. No entanto, existem apenas estudos muito limitados na literatura sobre como e quando o autorreparo funciona de forma eficaz, e pode-se questionar até que ponto um modelo é realmente capaz de fornecer feedback preciso sobre por que o código está errado quando esse código foi gerado pelo mesmo modelo. Neste artigo, analisamos a capacidade do GPT-3.5 e do GPT-4 de realizar autorreparo no APPS, um conjunto de dados desafiador composto por diversos problemas de codificação. Para isso, primeiro estabelecemos uma nova estratégia de avaliação chamada pass@t, que mede a taxa de acerto das tarefas em relação ao número total de tokens amostrados do modelo, permitindo uma comparação justa com abordagens baseadas exclusivamente em amostragem. Com essa estratégia de avaliação, descobrimos que a eficácia do autorreparo só é observada no GPT-4. Também observamos que o autorreparo é limitado pela etapa de feedback; ao usar o GPT-4 para fornecer feedback sobre os programas gerados pelo GPT-3.5 e ao usar programadores humanos especializados para fornecer feedback sobre os programas gerados pelo GPT-4, desbloqueamos ganhos significativos de desempenho.
Apresentamos o AvatarBooth, um método inovador para gerar avatares 3D de alta qualidade utilizando prompts de texto ou imagens específicas. Diferentemente de abordagens anteriores que só conseguiam sintetizar avatares com base em descrições textuais simples, nosso método permite a criação de avatares personalizados a partir de imagens casuais do rosto ou do corpo, ao mesmo tempo em que ainda suporta a geração e edição de modelos baseados em texto. Nossa principal contribuição é o controle preciso da geração de avatares por meio do uso de dois modelos de difusão ajustados separadamente para o rosto e o corpo humano. Isso nos permite capturar detalhes intrincados da aparência facial, roupas e acessórios, resultando em gerações de avatares altamente realistas. Além disso, introduzimos uma restrição de consistência de pose no processo de otimização para melhorar a consistência multi-visual das imagens de cabeça sintetizadas pelo modelo de difusão, eliminando assim interferências de poses humanas não controladas. Adicionalmente, apresentamos uma estratégia de renderização multi-resolução que facilita a supervisão de grosseira a fina na geração de avatares 3D, aprimorando o desempenho do sistema proposto. O modelo de avatar resultante pode ser ainda mais editado usando descrições textuais adicionais e animado por sequências de movimento. Experimentos mostram que o AvatarBooth supera métodos anteriores de texto-para-3D em termos de qualidade de renderização e geometria, seja a partir de prompts de texto ou de imagens específicas. Confira nosso site do projeto em https://zeng-yifei.github.io/avatarbooth_page/.
A detecção de objetos de vocabulário aberto tem se beneficiado muito dos modelos pré-treinados de visão e linguagem, mas ainda é limitada pela quantidade de dados de treinamento de detecção disponíveis. Embora os dados de treinamento de detecção possam ser expandidos usando pares de imagem-texto da web como supervisão fraca, isso não foi feito em escalas comparáveis ao pré-treinamento em nível de imagem. Aqui, ampliamos os dados de detecção com auto-treinamento, que utiliza um detector existente para gerar anotações de pseudo-caixas em pares de imagem-texto. Os principais desafios na ampliação do auto-treinamento são a escolha do espaço de rótulos, a filtragem de pseudo-anotações e a eficiência do treinamento. Apresentamos o modelo OWLv2 e a receita de auto-treinamento OWL-ST, que abordam esses desafios. O OWLv2 supera o desempenho dos detectores de vocabulário aberto de última geração já em escalas de treinamento comparáveis (~10M exemplos). No entanto, com o OWL-ST, podemos escalar para mais de 1 bilhão de exemplos, resultando em uma melhoria ainda maior: Com uma arquitetura L/14, o OWL-ST melhora o AP nas classes raras do LVIS, para as quais o modelo não viu nenhuma anotação de caixa humana, de 31,2% para 44,6% (melhoria relativa de 43%). O OWL-ST desbloqueia o treinamento em escala da web para localização em mundo aberto, semelhante ao que foi visto para classificação de imagens e modelagem de linguagem.
Apresentamos uma abordagem de pré-treinamento sensorimotor auto-supervisionado para robótica. Nosso modelo, chamado RPT, é um Transformer que opera em sequências de tokens sensorimotores. Dada uma sequência de imagens de câmera, estados proprioceptivos do robô e ações passadas, codificamos a sequência intercalada em tokens, ocultamos um subconjunto aleatório e treinamos um modelo para prever o conteúdo oculto. Nossa hipótese é que, se o robô conseguir prever o conteúdo ausente, ele adquiriu um bom modelo do mundo físico que pode capacitá-lo a agir. O RPT foi projetado para operar em representações visuais latentes, o que torna a previsão viável, permite a escalabilidade para modelos 10 vezes maiores e a inferência em 10 Hz em um robô real. Para avaliar nossa abordagem, coletamos um conjunto de dados de 20.000 trajetórias do mundo real ao longo de 9 meses, utilizando uma combinação de algoritmos de planejamento de movimento e de agarramento baseado em modelo. Descobrimos que o pré-treinamento nesses dados consistentemente supera o treinamento a partir do zero, leva a melhorias de 2x na tarefa de empilhamento de blocos e possui propriedades de escalabilidade favoráveis.
Modelos de espaço de estados (SSMs, do inglês *State Space Models*) têm demonstrado resultados impressionantes em tarefas que exigem a modelagem de dependências de longo alcance e escalam eficientemente para sequências longas, graças à sua complexidade de tempo de execução subquadrática. Originalmente projetados para sinais contínuos, os SSMs têm mostrado desempenho superior em uma variedade de tarefas, tanto em visão quanto em áudio; no entanto, os SSMs ainda ficam aquém do desempenho dos Transformers em tarefas de modelagem de linguagem. Neste trabalho, propomos uma camada híbrida denominada *Block-State Transformer* (BST), que combina internamente uma subcamada SSM para contextualização de longo alcance e uma subcamada *Block Transformer* para a representação de curto prazo de sequências. Estudamos três variantes diferentes e completamente paralelizáveis que integram SSMs e atenção em blocos. Mostramos que nosso modelo supera arquiteturas baseadas em Transformers semelhantes em termos de perplexidade na modelagem de linguagem e generaliza para sequências mais longas. Além disso, o *Block-State Transformer* demonstra um aumento de mais de dez vezes na velocidade no nível da camada em comparação com o *Block-Recurrent Transformer* quando a paralelização do modelo é empregada.
Pesquisas sobre leis de escalonamento descobriram que modelos de linguagem de grande porte (LMs) apresentam melhorias previsíveis na perda geral com o aumento da escala (tamanho do modelo, dados de treinamento e capacidade computacional). Aqui, apresentamos evidências para a afirmação de que LMs podem exibir escalonamento inverso, ou seja, pior desempenho em tarefas com o aumento da escala, por exemplo, devido a falhas no objetivo de treinamento e nos dados. Apresentamos evidências empíricas de escalonamento inverso em 11 conjuntos de dados coletados por meio de um concurso público, o Inverse Scaling Prize, com um prêmio substancial. Através da análise desses conjuntos de dados, juntamente com outros exemplos encontrados na literatura, identificamos quatro causas potenciais para o escalonamento inverso: (i) preferência por repetir sequências memorizadas em vez de seguir instruções no contexto, (ii) imitação de padrões indesejáveis nos dados de treinamento, (iii) tarefas que contêm uma tarefa distratora fácil na qual os LMs podem se concentrar, em vez da tarefa real mais difícil, e (iv) demonstrações corretas, mas enganosas, de poucos exemplos da tarefa. Disponibilizamos os conjuntos de dados vencedores em https://inversescaling.com/data para permitir investigações adicionais sobre o escalonamento inverso. Nossas tarefas ajudaram a impulsionar a descoberta de tendências de escalonamento em forma de U e U invertido, onde uma tendência inicial se reverte, sugerindo que as tendências de escalonamento são menos confiáveis para prever o comportamento de modelos em maior escala do que se entendia anteriormente. No geral, nossos resultados sugerem que existem tarefas para as quais o aumento da escala do modelo por si só pode não levar a progressos, e que é necessário um pensamento mais cuidadoso sobre os dados e objetivos para o treinamento de modelos de linguagem.
Trabalhos recentes têm estudado a síntese de texto para áudio utilizando grandes quantidades de dados pareados de texto e áudio. No entanto, gravações de áudio com anotações textuais de alta qualidade podem ser difíceis de adquirir. Neste trabalho, abordamos a síntese de texto para áudio utilizando vídeos não rotulados e modelos pré-treinados de linguagem-visão. Propomos aprender a correspondência desejada entre texto e áudio aproveitando a modalidade visual como uma ponte. Treinamos um modelo de difusão condicional para gerar a trilha sonora de um vídeo, dado um quadro de vídeo codificado por um modelo pré-treinado de aprendizado contrastivo de linguagem-imagem (CLIP). No momento do teste, primeiro exploramos a realização de uma transferência de modalidade zero-shot e condicionamos o modelo de difusão com uma consulta de texto codificada pelo CLIP. No entanto, observamos uma queda perceptível no desempenho em relação às consultas de imagem. Para reduzir essa lacuna, adotamos ainda um modelo de difusão pré-treinado para gerar uma incorporação de imagem CLIP dada uma incorporação de texto CLIP. Nossos resultados mostram a eficácia do método proposto e que o modelo de difusão pré-treinado pode reduzir a lacuna de transferência de modalidade. Embora nos concentremos na síntese de texto para áudio, o modelo proposto também pode gerar áudio a partir de consultas de imagem e mostra desempenho competitivo em relação a um modelo state-of-the-art de síntese de imagem para áudio em um teste de escuta subjetivo. Este estudo oferece uma nova direção para abordar a síntese de texto para áudio que aproveita a correspondência áudio-visual naturalmente presente em vídeos e o poder dos modelos pré-treinados de linguagem-visão.
A implantação de modelos de linguagem de grande escala (LLMs) pode apresentar riscos devido a saídas prejudiciais, como discursos tóxicos ou desonestos. Trabalhos anteriores introduziram ferramentas que provocam saídas prejudiciais para identificar e mitigar esses riscos. Embora isso seja um passo valioso para garantir a segurança dos modelos de linguagem, essas abordagens geralmente dependem de um classificador pré-existente para saídas indesejadas. Isso limita sua aplicação a situações em que o tipo de comportamento prejudicial é conhecido com precisão antecipadamente. No entanto, isso ignora um desafio central do red teaming: desenvolver uma compreensão contextual dos comportamentos que um modelo pode exibir. Além disso, quando tal classificador já existe, o red teaming tem valor marginal limitado, pois o classificador poderia simplesmente ser usado para filtrar dados de treinamento ou saídas do modelo. Neste trabalho, consideramos o red teaming sob a suposição de que o adversário está trabalhando a partir de uma especificação abstrata e de alto nível de comportamento indesejado. Espera-se que a equipe de red team refine/estenda essa especificação e identifique métodos para provocar esse comportamento no modelo. Nosso framework de red teaming consiste em três etapas: 1) Explorar o comportamento do modelo no contexto desejado; 2) Estabelecer uma medida de comportamento indesejado (por exemplo, um classificador treinado para refletir avaliações humanas); e 3) Explorar as falhas do modelo usando essa medida e uma metodologia estabelecida de red teaming. Aplicamos essa abordagem para realizar red teaming nos modelos GPT-2 e GPT-3, a fim de descobrir sistematicamente classes de prompts que provocam declarações tóxicas e desonestas. Ao fazer isso, também construímos e disponibilizamos o conjunto de dados CommonClaim, que contém 20.000 declarações rotuladas por sujeitos humanos como verdadeiras de conhecimento comum, falsas de conhecimento comum ou nenhuma das duas. O código está disponível em https://github.com/thestephencasper/explore_establish_exploit_llms. O CommonClaim está disponível em https://github.com/thestephencasper/common_claim.
Os seres humanos possuem a capacidade cognitiva de compreender cenas de maneira composicional. Para capacitar sistemas de IA com habilidades semelhantes, o aprendizado de representação centrado em objetos visa adquirir representações de objetos individuais a partir de cenas visuais sem qualquer supervisão. Embora avanços recentes no aprendizado de representação centrado em objetos tenham alcançado progressos notáveis em conjuntos de dados de síntese complexos, há um grande desafio para a aplicação em cenas complexas do mundo real. Uma das razões essenciais é a escassez de conjuntos de dados do mundo real especificamente adaptados para métodos de aprendizado de representação centrado em objetos. Para resolver esse problema, propomos um conjunto de dados versátil de cenas de mesa para aprendizado centrado em objetos chamado OCTScenes, que foi meticulosamente projetado para servir como um benchmark para comparar, avaliar e analisar métodos de aprendizado de representação centrado em objetos. O OCTScenes contém 5000 cenas de mesa com um total de 15 objetos do cotidiano. Cada cena é capturada em 60 quadros, cobrindo uma perspectiva de 360 graus. Consequentemente, o OCTScenes é um conjunto de dados de benchmark versátil que pode simultaneamente satisfazer a avaliação de métodos de aprendizado de representação centrado em objetos em tarefas de cenas estáticas, dinâmicas e de múltiplas visões. Experimentos extensivos de métodos de aprendizado de representação centrado em objetos para cenas estáticas, dinâmicas e de múltiplas visões foram conduzidos no OCTScenes. Os resultados demonstram as deficiências dos métodos state-of-the-art para aprender representações significativas a partir de dados do mundo real, apesar de seu desempenho impressionante em conjuntos de dados de síntese complexos. Além disso, o OCTScenes pode servir como um catalisador para avançar os métodos state-of-the-art existentes, inspirando-os a se adaptarem a cenas do mundo real. O conjunto de dados e o código estão disponíveis em https://huggingface.co/datasets/Yinxuan/OCTScenes.
Apresentamos o CAJun, uma nova estrutura hierárquica de aprendizado e controle que permite que robôs com pernas realizem saltos contínuos com distâncias adaptáveis. O CAJun consiste em uma política de alto nível centrada no centroide e um controlador de baixo nível para as pernas. Em particular, utilizamos aprendizado por reforço (RL) para treinar a política centrada no centroide, que especifica o tempo da marcha, a velocidade da base e a posição do pé em balanço para o controlador das pernas. O controlador das pernas otimiza os comandos dos motores para as pernas em balanço e de apoio de acordo com o tempo da marcha, rastreando o alvo do pé em balanço e os comandos de velocidade da base usando controle ótimo. Além disso, reformulamos o otimizador da perna de apoio no controlador das pernas para acelerar o treinamento da política em uma ordem de magnitude. Nosso sistema combina a versatilidade do aprendizado com a robustez do controle ótimo. Ao combinar RL com métodos de controle ótimo, nosso sistema alcança a versatilidade do aprendizado enquanto desfruta da robustez dos métodos de controle, tornando-o facilmente transferível para robôs reais. Demonstramos que, após 20 minutos de treinamento em uma única GPU, o CAJun pode realizar saltos contínuos e longos com distâncias adaptáveis em um robô Go1, com pequenas lacunas de simulação para realidade. Além disso, o robô pode saltar sobre vãos com uma largura máxima de 70 cm, o que é mais de 40% maior do que os métodos existentes.