Artigos de pesquisa em IA selecionados diariamente com traduções
O projeto BigCode, uma colaboração científico-aberta focada no desenvolvimento responsável de Modelos de Linguagem de Grande Escala para Código (Code LLMs), apresenta o StarCoder2. Em parceria com o Software Heritage (SWH), construímos o The Stack v2 sobre os bens comuns digitais de seu arquivo de código-fonte. Além dos repositórios do SWH, que abrangem 619 linguagens de programação, selecionamos cuidadosamente outras fontes de dados de alta qualidade, como pull requests do GitHub, notebooks do Kaggle e documentação de código. Isso resulta em um conjunto de treinamento 4 vezes maior que o primeiro conjunto de dados do StarCoder. Treinamos os modelos StarCoder2 com 3B, 7B e 15B de parâmetros em 3,3 a 4,3 trilhões de tokens e os avaliamos minuciosamente em um conjunto abrangente de benchmarks para Code LLMs. Descobrimos que nosso modelo pequeno, o StarCoder2-3B, supera outros Code LLMs de tamanho similar na maioria dos benchmarks e também supera o StarCoderBase-15B. Nosso modelo grande, o StarCoder2-15B, supera significativamente outros modelos de tamanho comparável. Além disso, ele iguala ou supera o CodeLlama-34B, um modelo mais que o dobro de seu tamanho. Embora o DeepSeekCoder-33B seja o modelo de melhor desempenho na conclusão de código para linguagens de alta disponibilidade de recursos, descobrimos que o StarCoder2-15B o supera em benchmarks de raciocínio matemático e de código, bem como em várias linguagens de baixa disponibilidade de recursos. Disponibilizamos os pesos do modelo sob uma licença OpenRAIL e garantimos total transparência em relação aos dados de treinamento, liberando os Identificadores Persistentes do Software Heritage (SWHIDs) dos dados de código-fonte.
Redes neurais recorrentes (RNNs) possuem inferência rápida e escalam eficientemente em sequências longas, mas são difíceis de treinar e complicadas de escalar. Propomos o Hawk, uma RNN com recorrências lineares com portas, e o Griffin, um modelo híbrido que mistura recorrências lineares com portas e atenção local. O Hawk supera o desempenho relatado do Mamba em tarefas subsequentes, enquanto o Griffin iguala o desempenho do Llama-2 apesar de ter sido treinado com mais de 6 vezes menos tokens. Também mostramos que o Griffin consegue extrapolar em sequências significativamente mais longas do que as vistas durante o treinamento. Nossos modelos igualam a eficiência de hardware dos Transformers durante o treinamento e, durante a inferência, possuem menor latência e uma taxa de transferência significativamente maior. Escalamos o Griffin até 14 bilhões de parâmetros e explicamos como particionar nossos modelos para um treinamento distribuído eficiente.
O aprendizado profundo tradicional frequentemente ignora os bytes, as unidades básicas do mundo digital, onde todas as formas de informação e operações são codificadas e manipuladas em formato binário. Inspirados pelo sucesso da previsão do próximo token no processamento de linguagem natural, introduzimos o bGPT, um modelo com previsão do próximo byte para simular o mundo digital. O bGPT iguala o desempenho de modelos especializados em várias modalidades, incluindo texto, áudio e imagens, e oferece novas possibilidades para prever, simular e diagnosticar o comportamento de algoritmos ou hardware. Ele replicou quase perfeitamente o processo de conversão de dados musicais simbólicos, alcançando uma taxa de erro baixa de 0,0011 bits por byte na conversão da notação ABC para o formato MIDI. Além disso, o bGPT demonstra capacidades excepcionais na simulação do comportamento da CPU, com uma precisão superior a 99,99% na execução de várias operações. Aproveitando a previsão do próximo byte, modelos como o bGPT podem aprender diretamente de vastos dados binários, simulando efetivamente os padrões intrincados do mundo digital.
A qualidade dos dados e das anotações define o limite superior da qualidade de um modelo subsequente. Embora existam grandes corpora de texto e pares de imagem-texto, dados de vídeo-texto de alta qualidade são muito mais difíceis de coletar. Primeiramente, a rotulagem manual é mais demorada, pois exige que um anotador assista a um vídeo inteiro. Em segundo lugar, os vídeos possuem uma dimensão temporal, consistindo em várias cenas empilhadas e mostrando múltiplas ações. Assim, para criar um conjunto de dados de vídeo com legendas de alta qualidade, propomos uma abordagem automática que aproveita entradas multimodais, como descrição textual do vídeo, legendas e quadros individuais do vídeo. Especificamente, selecionamos 3,8 milhões de vídeos de alta resolução do conjunto de dados publicamente disponível HD-VILA-100M. Em seguida, dividimos esses vídeos em clipes semanticamente consistentes e aplicamos múltiplos modelos de professor de cross-modalidade para obter legendas para cada vídeo. Depois, ajustamos um modelo de recuperação em um pequeno subconjunto onde a melhor legenda de cada vídeo é selecionada manualmente e, em seguida, empregamos o modelo em todo o conjunto de dados para selecionar a melhor legenda como anotação. Dessa forma, obtemos 70 milhões de vídeos pareados com legendas de texto de alta qualidade. Denominamos esse conjunto de dados como Panda-70M. Demonstramos o valor do conjunto de dados proposto em três tarefas subsequentes: legendagem de vídeo, recuperação de vídeo e texto, e geração de vídeo orientada por texto. Os modelos treinados com os dados propostos obtêm pontuações substancialmente melhores na maioria das métricas em todas as tarefas.
Nós abordamos o controle de humanoides no mundo real como um problema de previsão do próximo token, semelhante à previsão da próxima palavra em linguagem. Nosso modelo é um transformer causal treinado via previsão autoregressiva de trajetórias sensorimotoras. Para lidar com a natureza multimodal dos dados, realizamos a previsão de forma alinhada por modalidade, e para cada token de entrada, prevemos o próximo token da mesma modalidade. Essa formulação geral nos permite aproveitar dados com modalidades ausentes, como trajetórias de vídeo sem ações. Treinamos nosso modelo em uma coleção de trajetórias simuladas provenientes de políticas de redes neurais anteriores, controladores baseados em modelos, dados de captura de movimento e vídeos do YouTube de humanos. Mostramos que nosso modelo permite que um humanoide em tamanho real caminhe em São Francisco de forma zero-shot. Nosso modelo pode ser transferido para o mundo real mesmo quando treinado com apenas 27 horas de dados de caminhada, e pode generalizar para comandos não vistos durante o treinamento, como caminhar para trás. Esses achados sugerem um caminho promissor para aprender tarefas desafiadoras de controle no mundo real por meio da modelagem generativa de trajetórias sensorimotoras.
Apresentamos o MOSAIC, uma arquitetura modular para robôs domésticos realizarem tarefas colaborativas complexas, como cozinhar com usuários cotidianos. O MOSAIC colabora estreitamente com humanos, interage com usuários por meio de linguagem natural, coordena múltiplos robôs e gerencia um vocabulário aberto de objetos do dia a dia. Em sua essência, o MOSAIC emprega modularidade: ele aproveita múltiplos modelos pré-treinados em larga escala para tarefas gerais, como reconhecimento de linguagem e imagens, enquanto utiliza módulos simplificados projetados para controle específico de tarefas. Avaliamos extensivamente o MOSAIC em 60 testes de ponta a ponta, onde dois robôs colaboram com um usuário humano para cozinhar uma combinação de 6 receitas. Também testamos amplamente módulos individuais com 180 episódios de coleta visuomotora, 60 episódios de previsão de movimento humano e 46 avaliações online de usuários do planejador de tarefas. Demonstramos que o MOSAIC é capaz de colaborar eficientemente com humanos ao executar o sistema completo de ponta a ponta com um usuário humano real, completando 68,3% (41/60) dos testes de cozinhar colaborativo de 6 receitas diferentes, com uma taxa de conclusão de subtarefas de 91,6%. Por fim, discutimos as limitações do sistema atual e os desafios empolgantes e em aberto neste domínio. O site do projeto está disponível em https://portal-cornell.github.io/MOSAIC/.
Modelos de difusão têm alcançado grande sucesso na síntese de imagens de alta qualidade. No entanto, gerar imagens de alta resolução com modelos de difusão ainda é desafiador devido aos enormes custos computacionais, resultando em uma latência proibitiva para aplicações interativas. Neste artigo, propomos o DistriFusion para enfrentar esse problema aproveitando o paralelismo em múltiplas GPUs. Nosso método divide a entrada do modelo em vários patches e atribui cada patch a uma GPU. No entanto, implementar tal algoritmo de forma ingênua quebra a interação entre os patches e resulta em perda de fidelidade, enquanto incorporar essa interação acarretaria um enorme overhead de comunicação. Para superar esse dilema, observamos a alta similaridade entre as entradas de passos de difusão adjacentes e propomos o paralelismo de patches deslocados, que aproveita a natureza sequencial do processo de difusão reutilizando mapas de características pré-computados do passo anterior para fornecer contexto para o passo atual. Assim, nosso método suporta comunicação assíncrona, que pode ser encadeada com a computação. Experimentos extensivos mostram que nosso método pode ser aplicado ao recente Stable Diffusion XL sem degradação de qualidade e alcançar um speedup de até 6,1 vezes em oito NVIDIA A100s em comparação com uma. Nosso código está publicamente disponível em https://github.com/mit-han-lab/distrifuser.
Trabalhos recentes demonstraram que modelos de linguagem baseados em atenção se destacam na capacidade de recall, ou seja, na habilidade de fundamentar gerações em tokens previamente vistos no contexto. No entanto, a eficiência desses modelos baseados em atenção é limitada durante a inferência pelo consumo agressivo de memória do cache KV. Neste trabalho, exploramos se é possível melhorar a eficiência dos modelos de linguagem (por exemplo, reduzindo o consumo de memória) sem comprometer o recall. Aplicando experimentos e teoria a um amplo conjunto de arquiteturas, identificamos uma troca fundamental entre o tamanho do estado do modelo e sua capacidade de recall. Mostramos que alternativas eficientes à atenção (por exemplo, H3, Mamba, RWKV) mantêm um estado recorrente de tamanho fixo, mas têm dificuldades com o recall. Propomos o BASED, uma arquitetura simples que combina atenção linear e atenção por janela deslizante. Variando o tamanho da janela do BASED e a dimensão das características da atenção linear, podemos ajustar o tamanho do estado e percorrer a fronteira de Pareto da curva de troca entre recall e memória, recuperando a qualidade total da atenção em um extremo e o pequeno tamanho de estado das alternativas à atenção no outro. Treinamos modelos de linguagem com até 1,3 bilhão de parâmetros e mostramos que o BASED iguala os modelos subquadráticos mais fortes (por exemplo, Mamba) em perplexidade e os supera em tarefas do mundo real intensivas em recall por 6,22 pontos de precisão. Implementações de atenção linear costumam ser menos eficientes do que implementações otimizadas de atenção padrão. Para tornar o BASED competitivo, desenvolvemos algoritmos conscientes de E/S que permitem um throughput 24 vezes maior na geração de linguagem do que o FlashAttention-2, ao gerar 1024 tokens usando modelos de 1,3 bilhão de parâmetros. O código deste trabalho está disponível em: https://github.com/HazyResearch/based.
Modelos de linguagem de grande escala demonstram grande potencial na geração e otimização de código. Métodos de amostragem amplamente utilizados, como o Nucleus Sampling, aumentam a diversidade da geração, mas frequentemente produzem amostras repetidas para temperaturas baixas e amostras incoerentes para temperaturas altas. Além disso, o coeficiente de temperatura precisa ser ajustado para cada tarefa, limitando sua usabilidade. Apresentamos o Priority Sampling, uma técnica de amostragem simples e determinística que produz amostras únicas ordenadas pela confiança do modelo. Cada nova amostra expande o token não expandido com a maior probabilidade na árvore de busca aumentada. Adicionalmente, o Priority Sampling suporta geração baseada em expressões regulares, proporcionando um processo de exploração controlado e estruturado. O Priority Sampling supera o Nucleus Sampling para qualquer número de amostras, aumentando o desempenho do modelo original de 2,87% para 5% de melhoria em relação ao -Oz. Além disso, ele supera o autotuner utilizado para a geração de rótulos no treinamento do modelo original em apenas 30 amostras.
O Latent Consistency Model (LCM) estende o Consistency Model para o espaço latente e aproveita a técnica de destilação de consistência guiada para alcançar um desempenho impressionante na aceleração da síntese de texto para imagem. No entanto, observamos que o LCM enfrenta dificuldades para gerar imagens com clareza e detalhes intrincados. Para abordar essa limitação, inicialmente investigamos e elucidamos as causas subjacentes. Nossa investigação identifica que o principal problema decorre de erros em três áreas distintas. Consequentemente, introduzimos o Trajectory Consistency Distillation (TCD), que abrange a função de consistência de trajetória e a amostragem estocástica estratégica. A função de consistência de trajetória reduz os erros de destilação ao ampliar o escopo da condição de limite de auto-consistência e dotar o TCD da capacidade de rastrear com precisão toda a trajetória da EDO de Fluxo de Probabilidade. Além disso, a amostragem estocástica estratégica foi especificamente projetada para evitar os erros acumulados inerentes à amostragem de consistência de múltiplos passos, sendo meticulosamente adaptada para complementar o modelo TCD. Experimentos demonstram que o TCD não apenas melhora significativamente a qualidade da imagem em baixos NFEs, mas também produz resultados mais detalhados em comparação com o modelo professor em altos NFEs.
A síntese de novas perspectivas através de modelos de difusão tem demonstrado um potencial notável para gerar imagens diversas e de alta qualidade. No entanto, o processo independente de geração de imagens nesses métodos predominantes leva a desafios na manutenção da consistência entre múltiplas perspectivas. Para abordar isso, introduzimos o ViewFusion, um algoritmo novo e livre de treinamento que pode ser integrado de forma contínua em modelos de difusão pré-treinados existentes. Nossa abordagem adota um método auto-regressivo que implicitamente aproveita perspectivas previamente geradas como contexto para a geração da próxima perspectiva, garantindo uma consistência robusta de múltiplas perspectivas durante o processo de geração de novas visões. Por meio de um processo de difusão que funde informações de perspectivas conhecidas via desnaturação interpolada, nosso framework estende com sucesso modelos condicionados por uma única perspectiva para funcionar em configurações condicionadas por múltiplas perspectivas, sem qualquer ajuste fino adicional. Resultados experimentais extensivos demonstram a eficácia do ViewFusion na geração de novas perspectivas consistentes e detalhadas.