Artigos de pesquisa em IA selecionados diariamente com traduções
Há muito tempo está estabelecido que modelos preditivos podem ser transformados em compressores sem perdas e vice-versa. Coincidentemente, nos últimos anos, a comunidade de aprendizado de máquina tem se concentrado no treinamento de modelos (de linguagem) auto-supervisionados cada vez maiores e mais poderosos. Como esses grandes modelos de linguagem exibem capacidades preditivas impressionantes, eles estão bem posicionados para serem compressores robustos. Neste trabalho, defendemos a visão do problema de predição através da lente da compressão e avaliamos as capacidades de compressão de grandes modelos (fundacionais). Mostramos que grandes modelos de linguagem são preditores de propósito geral poderosos e que a perspectiva da compressão fornece novos insights sobre leis de escalabilidade, tokenização e aprendizado em contexto. Por exemplo, o Chinchilla 70B, embora treinado principalmente em texto, comprime patches do ImageNet para 43,4% e amostras do LibriSpeech para 16,4% de seu tamanho original, superando compressores específicos de domínio como PNG (58,5%) ou FLAC (30,3%), respectivamente. Por fim, mostramos que a equivalência entre predição e compressão nos permite usar qualquer compressor (como gzip) para construir um modelo generativo condicional.
Neste trabalho, apresentamos um método escalável de aprendizado por reforço para treinar políticas multitarefa a partir de grandes conjuntos de dados offline que podem aproveitar tanto demonstrações humanas quanto dados coletados de forma autônoma. Nosso método utiliza um Transformer para fornecer uma representação escalável para funções Q treinadas por meio de backups de diferença temporal offline. Portanto, nos referimos ao método como Q-Transformer. Ao discretizar cada dimensão da ação e representar o valor Q de cada dimensão da ação como tokens separados, podemos aplicar técnicas eficazes de modelagem de sequência de alta capacidade para o aprendizado Q. Apresentamos várias decisões de projeto que permitem um bom desempenho com o treinamento de RL offline e mostramos que o Q-Transformer supera algoritmos anteriores de RL offline e técnicas de aprendizado por imitação em um conjunto diversificado e extenso de tarefas de manipulação robótica do mundo real. O site do projeto e os vídeos podem ser encontrados em https://q-transformer.github.io.
Modelos de linguagem de grande escala (LLMs) com bilhões de parâmetros têm demonstrado desempenho excepcional em diversas tarefas de processamento de linguagem natural. Este relatório apresenta o OpenBA, um modelo seq2seq bilíngue assimétrico de 15B de código aberto, contribuindo com uma variante de LLM para a comunidade de modelos de código aberto voltados para o chinês. Aprimoramos o OpenBA com técnicas eficazes e eficientes, além de adotar uma estratégia de treinamento em três estágios para treinar o modelo do zero. Nossa solução também pode alcançar um desempenho muito competitivo com apenas 380B de tokens, superando o LLaMA-70B no benchmark BELEBELE, o BLOOM-176B no benchmark MMLU e o GLM-130B no benchmark C-Eval (hard). Este relatório fornece os principais detalhes para pré-treinar um modelo análogo, incluindo o processamento de dados de pré-treinamento, a coleta de dados Bilingual Flan, as observações empíricas que inspiraram o design da arquitetura do nosso modelo, os objetivos de treinamento em diferentes estágios e outras técnicas de aprimoramento. Refatoramos nosso código para seguir os princípios de design da Biblioteca Huggingface Transformers, tornando-o mais conveniente para os desenvolvedores usarem, e liberamos checkpoints de diferentes estágios de treinamento em https://huggingface.co/openBA. Mais detalhes do nosso projeto estão disponíveis em https://github.com/OpenNLG/openBA.git.
Este artigo tem como objetivo compreender os impactos de várias combinações de dados (por exemplo, texto da web, Wikipedia, GitHub, livros) no treinamento de modelos de linguagem de grande escala utilizando o SlimPajama. O SlimPajama é um conjunto de dados multi-fonte rigorosamente deduplicado, que foi refinado e ainda mais deduplicado para 627 bilhões de tokens a partir do extenso conjunto de dados RedPajama de 1,2 trilhão de tokens, contribuído pela Together. Denominamos nossa pesquisa como SlimPajama-DC, uma análise empírica projetada para revelar características fundamentais e melhores práticas associadas ao uso do SlimPajama no treinamento de modelos de linguagem de grande escala. Durante nossa pesquisa com o SlimPajama, duas observações cruciais surgiram: (1) Deduplicação global vs. deduplicação local. Analisamos e discutimos como as deduplicações global (entre diferentes fontes de conjuntos de dados) e local (dentro de uma única fonte de conjunto de dados) afetam o desempenho dos modelos treinados. (2) Proporções de conjuntos de dados multi-fonte de alta qualidade/altamente deduplicados na combinação. Para estudar isso, construímos seis configurações do conjunto de dados SlimPajama e treinamos cada uma delas utilizando o modelo Cerebras-GPT de 1,3 bilhão de parâmetros com Alibi e SwiGLU. Nossa melhor configuração supera significativamente o modelo de 1,3 bilhão treinado no RedPajama utilizando o mesmo número de tokens de treinamento. Todos os nossos modelos de 1,3 bilhão foram treinados no cluster Cerebras 16x CS-2 com um total de 80 PFLOP/s em precisão mista bf16. Estendemos ainda nossas descobertas (como o aumento da diversidade de dados ser crucial após a deduplicação global) em um modelo de 7 bilhões com treinamento de grande tamanho de lote. Nossos modelos e os conjuntos de dados separados do SlimPajama-DC estão disponíveis em: https://huggingface.co/MBZUAI-LLM e https://huggingface.co/datasets/cerebras/SlimPajama-627B.
Os avanços recentes na geração de áudio têm sido impulsionados pela evolução de modelos de aprendizado profundo em grande escala e conjuntos de dados extensos. No entanto, a tarefa de geração de vídeo para áudio (V2A) continua a ser um desafio, principalmente devido à relação complexa entre os dados visuais e auditivos de alta dimensionalidade e às dificuldades associadas à sincronização temporal. Neste estudo, apresentamos o FoleyGen, um sistema de geração V2A de domínio aberto baseado em um paradigma de modelagem de linguagem. O FoleyGen utiliza um codec neural de áudio pronto para uso para conversão bidirecional entre formas de onda e tokens discretos. A geração de tokens de áudio é facilitada por um único modelo Transformer, que é condicionado por características visuais extraídas de um codificador visual. Um problema comum na geração V2A é o desalinhamento do áudio gerado com as ações visíveis no vídeo. Para resolver isso, exploramos três novos mecanismos de atenção visual. Além disso, realizamos uma avaliação exaustiva de vários codificadores visuais, cada um pré-treinado em tarefas unimodais ou multimodais. Os resultados experimentais no conjunto de dados VGGSound mostram que o nosso FoleyGen proposto supera os sistemas anteriores em todas as métricas objetivas e avaliações humanas.
Apresentamos o POP3D, uma nova estrutura que cria um modelo 3D de visão completa de 360° a partir de uma única imagem. O POP3D resolve dois problemas proeminentes que limitam a reconstrução de visão única. Em primeiro lugar, o POP3D oferece uma generalização substancial para categorias arbitrárias, uma característica que métodos anteriores têm dificuldade em alcançar. Em segundo lugar, o POP3D melhora ainda mais a fidelidade e a naturalidade da reconstrução, um aspecto crucial em que trabalhos contemporâneos ficam aquém. Nossa abordagem combina as forças de quatro componentes principais: (1) um preditor de profundidade e normal monoculares que serve para prever pistas geométricas cruciais, (2) um método de escultura espacial capaz de demarcar as porções potencialmente não vistas do objeto alvo, (3) um modelo generativo pré-treinado em um grande conjunto de dados de imagens que pode completar regiões não vistas do alvo, e (4) um método de reconstrução de superfície implícita neural adaptado para reconstruir objetos usando imagens RGB juntamente com pistas geométricas monoculares. A combinação desses componentes permite que o POP3D generalize prontamente em várias imagens do mundo real e gere reconstruções de última geração, superando trabalhos semelhantes por uma margem significativa. Página do projeto: http://cg.postech.ac.kr/research/POP3D