Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala tornaram-se a base do processamento de linguagem natural, mas seu uso vem com custos substanciais em termos de recursos de computação e memória. A esparsificação oferece uma solução para aliviar essas restrições de recursos, e trabalhos recentes mostraram que modelos treinados podem ser esparsificados após o treinamento. As técnicas de esparsificação existentes enfrentam desafios, pois precisam de estruturas de dados adicionais e oferecem aceleração limitada com o hardware atual. Neste artigo, apresentamos o SliceGPT, um novo esquema de esparsificação pós-treinamento que substitui cada matriz de pesos por uma matriz menor (densa), reduzindo a dimensão de incorporação da rede. Por meio de experimentação extensiva, mostramos que o SliceGPT pode remover até 25% dos parâmetros do modelo (incluindo embeddings) para os modelos LLAMA2-70B, OPT 66B e Phi-2, mantendo 99%, 99% e 90% do desempenho em tarefas zero-shot do modelo denso, respectivamente. Nossos modelos fatiados rodam em menos GPUs e executam mais rapidamente sem qualquer otimização de código adicional: em GPUs de 24GB, reduzimos o total de computação para inferência no LLAMA2-70B para 64% do modelo denso; em GPUs A100 de 40GB, reduzimos para 66%. Oferecemos uma nova visão, a invariância computacional em redes de transformadores, que possibilita o SliceGPT e esperamos que inspire e habilite futuras abordagens para reduzir as demandas de memória e computação para modelos pré-treinados. O código está disponível em: https://github.com/microsoft/TransformerCompression
O meta-aprendizado surgiu como uma abordagem poderosa para treinar redes neurais a aprender novas tarefas rapidamente a partir de dados limitados. A exposição ampla a diferentes tarefas leva a representações versáteis que permitem a resolução geral de problemas. Mas quais são os limites do meta-aprendizado? Neste trabalho, exploramos o potencial de amortizar o preditor universal mais poderoso, a Indução de Solomonoff (SI), em redes neurais, levando o meta-aprendizado ao seu limite. Utilizamos Máquinas de Turing Universais (MTUs) para gerar dados de treinamento usados para expor as redes a uma ampla gama de padrões. Fornecemos uma análise teórica dos processos de geração de dados das MTUs e dos protocolos de meta-treinamento. Realizamos experimentos abrangentes com arquiteturas neurais (por exemplo, LSTMs, Transformers) e geradores de dados algorítmicos de complexidade e universalidade variadas. Nossos resultados sugerem que os dados das MTUs são um recurso valioso para o meta-aprendizado e que podem ser usados para treinar redes neurais capazes de aprender estratégias universais de predição.
A decodagem auto-regressiva torna a inferência de Modelos de Linguagem de Grande Escala (LLMs) demorada. Propomos um framework simples, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), para aceleração sem perdas. Diferente dos métodos tradicionais de amostragem especulativa, o EAGLE opera o processo de rascunho de forma auto-regressiva no nível de características mais regulares (segunda camada superior) e aborda as incertezas de amostragem nos problemas de previsão da próxima característica ao integrar tokens de um passo à frente. A aceleração proporcionada pelo EAGLE é sem perdas: não envolve ajuste fino do LLM alvo, e o texto gerado mantém a mesma distribuição da decodagem auto-regressiva tradicional. Na data de submissão deste artigo, o EAGLE é o framework mais rápido conhecido dentro da família de amostragem especulativa. No MT-bench, o EAGLE é 3x mais rápido que a decodagem tradicional, 2x mais rápido que o Lookahead e 1,6x mais rápido que o Medusa. Usando o gpt-fast, o EAGLE atinge, em média, 160 tokens/s com o LLaMA2-Chat 13B em uma única GPU RTX 3090, comparado aos 24 tokens/s das implementações do Huggingface.
Os avanços recentes em modelos de texto para imagem têm aprimorado significativamente as capacidades de geração de imagens, mas ainda persiste uma lacuna notável de modelos de código aberto com suporte a idiomas bilíngues ou chinês. Para atender a essa necessidade, apresentamos o Taiyi-Diffusion-XL, um novo modelo bilíngue de texto para imagem em chinês e inglês, desenvolvido ao estender as capacidades do CLIP e do Stable-Diffusion-XL por meio de um processo de pré-treinamento contínuo bilíngue. Essa abordagem inclui a expansão eficiente do vocabulário ao integrar os caracteres chineses mais utilizados no tokenizer e nas camadas de embedding do CLIP, juntamente com uma expansão da codificação de posição absoluta. Além disso, enriquecemos os prompts de texto com um grande modelo de visão e linguagem, resultando em legendas de imagens melhores e com maior qualidade visual. Esses aprimoramentos são subsequentemente aplicados a modelos de texto para imagem de downstream. Nossos resultados empíricos indicam que o modelo CLIP desenvolvido se destaca na recuperação bilíngue de imagem-texto. Além disso, as capacidades de geração de imagens bilíngues do Taiyi-Diffusion-XL superam os modelos anteriores. Esta pesquisa leva ao desenvolvimento e à disponibilização em código aberto do modelo Taiyi-Diffusion-XL, representando um avanço notável no campo da geração de imagens, particularmente para aplicações em língua chinesa. Esta contribuição é um passo à frente para atender à necessidade de suporte a idiomas mais diversos na pesquisa multimodal. O modelo e a demonstração estão disponíveis publicamente em https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{este https URL}, promovendo mais pesquisas e colaborações nesse domínio.
A edição de cenas 3D orientada por texto tem ganhado atenção significativa devido à sua conveniência e facilidade de uso. No entanto, os métodos existentes ainda carecem de controle preciso sobre a aparência e a localização especificadas do resultado da edição, devido às limitações inerentes da descrição textual. Para isso, propomos um framework de edição de cenas 3D, chamado TIPEditor, que aceita tanto prompts de texto quanto de imagem, além de uma caixa delimitadora 3D para especificar a região de edição. Com o prompt de imagem, os usuários podem especificar convenientemente a aparência/estilo detalhada do conteúdo alvo, complementando a descrição textual e permitindo um controle preciso da aparência. Especificamente, o TIPEditor emprega uma estratégia de personalização 2D passo a passo para aprender melhor a representação da cena existente e da imagem de referência, na qual uma função de perda de localização é proposta para incentivar o posicionamento correto do objeto conforme especificado pela caixa delimitadora. Além disso, o TIPEditor utiliza o splatting de Gaussianas 3D explícito e flexível como representação 3D para facilitar a edição local, mantendo o fundo inalterado. Experimentos extensivos demonstraram que o TIPEditor realiza edições precisas seguindo os prompts de texto e imagem na região especificada pela caixa delimitadora, superando consistentemente as abordagens de referência em qualidade de edição e alinhamento aos prompts, tanto qualitativa quanto quantitativamente.
As pessoas empregam comportamentos expressivos para se comunicar e coordenar suas ações com outras de forma eficaz, como acenar com a cabeça para reconhecer alguém que as olha ou dizer "com licença" para passar por pessoas em um corredor movimentado. Gostaríamos que os robôs também demonstrassem comportamentos expressivos na interação humano-robô. Trabalhos anteriores propõem métodos baseados em regras que têm dificuldade em escalar para novas modalidades de comunicação ou situações sociais, enquanto métodos baseados em dados exigem conjuntos de dados especializados para cada situação social em que o robô é utilizado. Propomos aproveitar o rico contexto social disponível em modelos de linguagem de grande escala (LLMs) e sua capacidade de gerar movimento com base em instruções ou preferências do usuário, para gerar movimentos expressivos do robô que sejam adaptáveis e composicionais, construindo uns sobre os outros. Nossa abordagem utiliza prompts de cadeia de pensamento com poucos exemplos para traduzir instruções em linguagem humana em código de controle parametrizado, utilizando as habilidades disponíveis e aprendidas do robô. Por meio de estudos com usuários e experimentos de simulação, demonstramos que nossa abordagem produz comportamentos que os usuários consideraram competentes e fáceis de entender. Material suplementar pode ser encontrado em https://generative-expressive-motion.github.io/.