Artigos de pesquisa em IA selecionados diariamente com traduções
Este trabalho apresenta uma análise da eficácia do uso de redes neurais feed-forward rasas padrão para imitar o comportamento do mecanismo de atenção no modelo Transformer original, uma arquitetura de ponta para tarefas de sequência para sequência. Substituímos elementos-chave do mecanismo de atenção no Transformer por redes feed-forward simples, treinadas usando os componentes originais por meio de destilação de conhecimento. Nossos experimentos, conduzidos no conjunto de dados IWSLT2017, revelam a capacidade desses "Transformers sem atenção" de rivalizar com o desempenho da arquitetura original. Através de estudos de ablação rigorosos e da experimentação com vários tipos e tamanhos de redes de substituição, oferecemos insights que apoiam a viabilidade de nossa abordagem. Isso não apenas esclarece a adaptabilidade das redes feed-forward rasas na emulação de mecanismos de atenção, mas também ressalta seu potencial para simplificar arquiteturas complexas em tarefas de sequência para sequência.
Modelos generativos para síntese de objetos 3D têm apresentado avanços significativos com a incorporação de conhecimento prévio extraído de modelos de difusão 2D. No entanto, desafios persistem na forma de inconsistências geométricas multi-visão e velocidades lentas de geração dentro dos frameworks existentes de síntese 3D. Isso pode ser atribuído a dois fatores: primeiro, a deficiência de conhecimento geométrico a priori abundante na otimização, e segundo, o problema de entrelaçamento entre geometria e textura nos métodos convencionais de geração 3D. Em resposta, introduzimos o MetaDreammer, uma abordagem de otimização em duas etapas que aproveita o rico conhecimento prévio 2D e 3D. Na primeira etapa, nosso foco é otimizar a representação geométrica para garantir consistência multi-visão e precisão dos objetos 3D. Na segunda etapa, concentramo-nos em ajustar finamente a geometria e otimizar a textura, alcançando assim um objeto 3D mais refinado. Ao aproveitar o conhecimento prévio 2D e 3D em duas etapas, respectivamente, mitigamos efetivamente a interdependência entre geometria e textura. O MetaDreammer estabelece objetivos claros de otimização para cada etapa, resultando em uma economia significativa de tempo no processo de geração 3D. Por fim, o MetaDreamer pode gerar objetos 3D de alta qualidade com base em prompts textuais em até 20 minutos e, até onde sabemos, é o método mais eficiente de geração de texto para 3D. Além disso, introduzimos o controle por imagem no processo, aumentando a controlabilidade da geração 3D. Evidências empíricas extensas confirmam que nosso método não é apenas altamente eficiente, mas também alcança um nível de qualidade que está na vanguarda das técnicas atuais de geração 3D state-of-the-art.
Neste trabalho, demonstramos que modelos generativos de texto para imagem podem ser "invertidos" para avaliar suas próprias capacidades de compreensão entre texto e imagem de maneira completamente automatizada. Nosso método, chamado SelfEval, utiliza o modelo generativo para calcular a probabilidade de imagens reais dadas prompts de texto, tornando o modelo generativo diretamente aplicável a tarefas discriminativas. Usando o SelfEval, reutilizamos conjuntos de dados padrão criados para avaliar modelos discriminativos multimodais de texto e imagem para avaliar modelos generativos de maneira refinada: medindo seu desempenho em tarefas como vinculação de atributos, reconhecimento de cores, contagem, reconhecimento de formas e compreensão espacial. Até onde sabemos, o SelfEval é a primeira métrica automatizada a mostrar um alto grau de concordância com avaliações humanas padrão-ouro para medir a fidelidade ao texto em múltiplos modelos e benchmarks. Além disso, o SelfEval nos permite avaliar modelos generativos em tarefas desafiadoras, como a pontuação de imagens no Winoground, onde eles demonstram desempenho competitivo em relação a modelos discriminativos. Também mostramos sérias limitações de métricas automatizadas padrão, como o CLIP-score, para medir a fidelidade ao texto em benchmarks como o DrawBench, e como o SelfEval contorna esses problemas. Esperamos que o SelfEval permita uma avaliação automatizada fácil e confiável para modelos de difusão.
Apesar do desempenho escalável dos vision transformers (ViTs), os custos computacionais densos (treinamento e inferência) comprometem sua posição em aplicações industriais. A quantização pós-treinamento (PTQ), que ajusta os ViTs com um pequeno conjunto de dados e os executa em um formato de baixa precisão, resolve bem o problema de custo, mas infelizmente resulta em quedas de desempenho mais significativas em casos de baixa precisão. Neste artigo, apresentamos o I&S-ViT, um método novo que regula a PTQ dos ViTs de forma inclusiva e estável. O I&S-ViT primeiro identifica dois problemas na PTQ dos ViTs: (1) Ineficiência de quantização no quantizador log2 prevalente para ativações pós-Softmax; (2) Paisagem de perda acidentada e amplificada na granularidade de quantização de grão grosso para ativações pós-LayerNorm. Em seguida, o I&S-ViT aborda esses problemas introduzindo: (1) Um novo quantizador shift-uniform-log2 (SULQ) que incorpora um mecanismo de deslocamento seguido de quantização uniforme para alcançar tanto uma representação de domínio inclusiva quanto uma aproximação precisa da distribuição; (2) Uma estratégia de otimização suave em três estágios (SOS) que combina as vantagens da quantização por canal e por camada para permitir um aprendizado estável. Avaliações abrangentes em diversas tarefas de visão validam a superioridade do I&S-ViT sobre os métodos existentes de PTQ para ViTs, particularmente em cenários de baixa precisão. Por exemplo, o I&S-ViT eleva o desempenho do ViT-B de 3 bits em impressionantes 50,68%.
Os grandes modelos de linguagem (LLMs, na sigla em inglês) têm demonstrado melhorias significativas em habilidades de raciocínio e tomada de decisão, além de serem capazes de manter conversas naturais com os usuários. Muitos trabalhos recentes buscam aprimorar assistentes baseados em LLMs com ferramentas externas, permitindo que eles acessem informações privadas ou atualizadas e realizem ações em nome dos usuários. Para medir melhor o desempenho desses assistentes, este artigo apresenta o ToolTalk, um benchmark composto por intenções complexas do usuário que exigem o uso de múltiplas etapas de ferramentas especificadas por meio de diálogo. O ToolTalk contém 28 ferramentas agrupadas em 7 plugins e inclui uma implementação simulada completa de cada ferramenta, permitindo uma avaliação totalmente automatizada de assistentes que dependem de feedback de execução. O ToolTalk também enfatiza ferramentas que afetam externamente o mundo, em vez de apenas ferramentas para consulta ou busca de informações. Avaliamos o GPT-3.5 e o GPT-4 no ToolTalk, resultando em taxas de sucesso de 26% e 50%, respectivamente. Nossa análise dos erros revela três categorias principais e sugere algumas direções futuras para melhorias. Disponibilizamos o ToolTalk em https://github.com/microsoft/ToolTalk.
As políticas de robôs atuais apresentam desempenho insatisfatório quando confrontadas com o desafio de generalizar para novos ambientes. O feedback corretivo humano é uma forma crucial de orientação para permitir tal generalização. No entanto, adaptar-se e aprender com correções humanas online é uma tarefa não trivial: os robôs não apenas precisam lembrar do feedback humano ao longo do tempo para recuperar as informações corretas em novos cenários e reduzir a taxa de intervenção, mas também precisam ser capazes de responder a feedbacks que podem variar desde correções arbitrárias sobre preferências humanas de alto nível até ajustes de baixo nível em parâmetros de habilidades. Neste trabalho, apresentamos o Distillation and Retrieval of Online Corrections (DROC), um sistema baseado em modelos de linguagem de grande escala (LLM) que pode responder a formas arbitrárias de feedback em linguagem natural, destilar conhecimento generalizável a partir de correções e recuperar experiências passadas relevantes com base em similaridade textual e visual para melhorar o desempenho em novos cenários. O DROC é capaz de responder a uma sequência de correções online em linguagem natural que abordam falhas tanto em planos de tarefas de alto nível quanto em primitivas de habilidades de baixo nível. Demonstramos que o DROC destila efetivamente as informações relevantes da sequência de correções online em uma base de conhecimento e recupera esse conhecimento em cenários com novas instâncias de tarefas ou objetos. O DROC supera outras técnicas que geram diretamente código de robô via LLMs, utilizando apenas metade do número total de correções necessárias na primeira rodada e exigindo poucas ou nenhuma correção após duas iterações. Mostramos mais resultados, vídeos, prompts e código em https://sites.google.com/stanford.edu/droc.