Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo aborda a crescente necessidade de modelos de linguagem de grande escala (LLMs) eficientes em dispositivos móveis, impulsionada pelo aumento dos custos e preocupações com latência na nuvem. Nosso foco é projetar LLMs de alta qualidade com menos de um bilhão de parâmetros, uma escolha prática para implantação em dispositivos móveis. Contrariamente à crença predominante que enfatiza o papel crucial da quantidade de dados e parâmetros na determinação da qualidade do modelo, nossa investigação destaca a importância da arquitetura do modelo para LLMs em escala sub-bilionária. Aproveitando arquiteturas profundas e estreitas, juntamente com o compartilhamento de embeddings e mecanismos de atenção com consultas agrupadas, estabelecemos uma rede de base robusta denominada MobileLLM, que alcança um notável aumento de 2,7%/4,3% na precisão em relação aos modelos state-of-the-art anteriores de 125M/350M. Além disso, propomos uma abordagem imediata de compartilhamento de pesos em blocos, sem aumento no tamanho do modelo e com apenas um pequeno overhead de latência. Os modelos resultantes, denominados MobileLLM-LS, demonstram um aprimoramento adicional de 0,7%/0,8% na precisão em relação ao MobileLLM 125M/350M. Além disso, a família de modelos MobileLLM mostra melhorias significativas em comparação com modelos sub-bilionários anteriores em benchmarks de chat e demonstra uma correção próxima ao LLaMA-v2 7B em tarefas de chamada de API, destacando a capacidade de modelos pequenos para casos de uso comuns em dispositivos.
Apresentamos o Genie, o primeiro ambiente interativo generativo treinado de maneira não supervisionada a partir de vídeos da Internet sem rótulos. O modelo pode ser instruído a gerar uma variedade infinita de mundos virtuais controláveis por ações, descritos por meio de texto, imagens sintéticas, fotografias e até esboços. Com 11 bilhões de parâmetros, o Genie pode ser considerado um modelo fundamental de mundo. Ele é composto por um tokenizador de vídeo espaço-temporal, um modelo de dinâmica autorregressiva e um modelo de ação latente simples e escalável. O Genie permite que os usuários ajam nos ambientes gerados quadro a quadro, apesar de ter sido treinado sem rótulos de ação verdadeiros ou outros requisitos específicos de domínio tipicamente encontrados na literatura de modelos de mundo. Além disso, o espaço de ação latente aprendido facilita o treinamento de agentes para imitar comportamentos a partir de vídeos nunca vistos, abrindo caminho para o treinamento de agentes generalistas do futuro.
Este artigo investiga a radioatividade de textos gerados por LLMs, ou seja, se é possível detectar que tais dados foram utilizados como conjunto de treinamento. Métodos convencionais, como inferência de associação, podem realizar essa detecção com algum nível de precisão. Mostramos que dados de treinamento marcados com "watermark" deixam vestígios mais fáceis de detectar e muito mais confiáveis do que a inferência de associação. Relacionamos o nível de contaminação à robustez do "watermark", sua proporção no conjunto de treinamento e ao processo de ajuste fino. Demonstramos, em particular, que o treinamento com instruções sintéticas marcadas pode ser detectado com alta confiança (p-valor < 1e-5) mesmo quando apenas 5% do texto de treinamento está marcado. Assim, a marcação de "watermark" em LLMs, originalmente projetada para detectar textos gerados por máquinas, permite identificar facilmente se as saídas de um LLM marcado foram usadas para ajustar outro LLM.
Métodos recentes demonstraram que os Modelos de Linguagem de Grande Escala (LLMs) podem resolver tarefas de raciocínio de forma mais eficaz quando são incentivados a resolver subtarefas da tarefa principal primeiro. Neste artigo, elaboramos uma estratégia semelhante que divide tarefas de raciocínio em uma fase de decomposição do problema e uma fase de resolução do problema, e mostramos que essa estratégia é capaz de superar uma solução de estágio único. Além disso, hipotetizamos que a decomposição deve ser mais fácil de destilar em um modelo menor em comparação com a resolução do problema, pois esta última requer grandes quantidades de conhecimento específico do domínio, enquanto a primeira exige apenas a aprendizagem de estratégias gerais de resolução de problemas. Propomos métodos para destilar essas duas capacidades e avaliamos seu impacto nos resultados de raciocínio e no custo de inferência. Descobrimos que podemos destilar a fase de decomposição do problema e, ao mesmo tempo, alcançar uma boa generalização entre tarefas, conjuntos de dados e modelos. No entanto, é mais difícil destilar a capacidade de resolução de problemas sem perder desempenho, e o modelo resultante destilado enfrenta dificuldades com a generalização. Esses resultados indicam que, ao usar modelos menores e destilados de decomposição de problemas em combinação com LLMs de resolução de problemas, podemos alcançar raciocínio com inferência de custo eficiente e adaptação local.
Neste trabalho, demonstramos que a relação entre tamanho e precisão na quantização de redes neurais pode ser significativamente melhorada ao aumentar a dimensionalidade da quantização. Propomos o método GPTVQ, uma nova técnica rápida para quantização vetorial pós-treinamento (VQ) que escala bem para Modelos de Linguagem de Grande Porte (LLMs). Nosso método intercala a quantização de uma ou mais colunas com atualizações dos pesos restantes não quantizados, utilizando informações da Hessiana do erro quadrático médio (MSE) de reconstrução da saída por camada. Os codebooks de quantização são inicializados usando uma versão eficiente e baseada em dados do algoritmo EM. Os codebooks são então atualizados e posteriormente comprimidos por meio de quantização inteira e compressão baseada em SVD. O GPTVQ estabelece um novo estado da arte na relação entre tamanho e precisão em uma ampla gama de LLMs, como Llama-v2 e Mistral. Além disso, nosso método é eficiente: em um único H100, leva entre 3 e 11 horas para processar um modelo Llamav2-70B, dependendo da configuração de quantização. Por fim, com tempos de descompressão VQ em um CPU móvel, mostramos que a VQ resulta em uma latência melhorada em comparação com o uso de um formato inteiro de 4 bits.
A auto-atenção é um componente essencial dos grandes modelos de linguagem (LLMs), mas também uma fonte significativa de latência de inferência para sequências longas. Em cenários de serviço multi-inquilino de LLMs, o custo computacional e de operação de memória da auto-atenção pode ser otimizado utilizando a probabilidade de que múltiplas requisições de LLM compartilhem prompts de sistema em seus prefixos. Neste artigo, introduzimos o ChunkAttention, um módulo de auto-atenção consciente de prefixos que pode detectar prefixos de prompts correspondentes em múltiplas requisições e compartilhar seus tensores de chave/valor na memória durante a execução, melhorando a utilização da memória do cache KV. Isso é alcançado dividindo tensores monolíticos de chave/valor em blocos menores e estruturando-os em uma árvore de prefixos auxiliar. Consequentemente, sobre o cache KV baseado em árvore de prefixos, projetamos um kernel de auto-atenção eficiente, onde um algoritmo de partição em duas fases é implementado para melhorar a localidade dos dados durante o cálculo da auto-atenção na presença de prompts de sistema compartilhados. Experimentos mostram que o ChunkAttention pode acelerar o kernel de auto-atenção em 3,2 a 4,8 vezes em comparação com a implementação state-of-the-art, com o comprimento do prompt de sistema variando de 1024 a 4096.
Este artigo explora o impacto da extensão do comprimento de entrada nas capacidades dos Modelos de Linguagem de Grande Escala (LLMs). Apesar dos avanços recentes dos LLMs, a consistência de seu desempenho em diferentes comprimentos de entrada não é bem compreendida. Investigamos esse aspecto introduzindo uma nova estrutura de raciocínio de perguntas e respostas (QA), especificamente projetada para avaliar o impacto do comprimento de entrada. Isolamos o efeito do comprimento de entrada utilizando múltiplas versões da mesma amostra, cada uma estendida com preenchimentos de diferentes comprimentos, tipos e localizações. Nossos resultados mostram uma degradação notável no desempenho de raciocínio dos LLMs em comprimentos de entrada muito menores que seu máximo técnico. Demonstramos que a tendência de degradação aparece em todas as versões do nosso conjunto de dados, embora com intensidades diferentes. Além disso, nosso estudo revela que as métricas tradicionais de perplexidade não se correlacionam com o desempenho dos LLMs em tarefas de raciocínio com entradas longas. Analisamos nossos resultados e identificamos modos de falha que podem servir como guias úteis para pesquisas futuras, potencialmente informando estratégias para abordar as limitações observadas nos LLMs.
Agentes autônomos impulsionados por modelos de linguagem de grande escala (LLMs) têm atraído significativa atenção da pesquisa. No entanto, aproveitar plenamente o potencial dos LLMs para tarefas baseadas em agentes apresenta desafios inerentes devido à natureza heterogênea de diversas fontes de dados que apresentam trajetórias de múltiplos turnos. Neste artigo, introduzimos o AgentOhana como uma solução abrangente para abordar esses desafios. O AgentOhana agrega trajetórias de agentes de ambientes distintos, abrangendo uma ampla variedade de cenários. Ele padroniza e unifica meticulosamente essas trajetórias em um formato consistente, simplificando a criação de um carregador de dados genérico otimizado para o treinamento de agentes. Aproveitando a unificação dos dados, nosso pipeline de treinamento mantém o equilíbrio entre diferentes fontes de dados e preserva a aleatoriedade independente entre dispositivos durante a divisão do conjunto de dados e o treinamento do modelo. Além disso, apresentamos o xLAM-v0.1, um modelo de ação de grande escala projetado para agentes de IA, que demonstra desempenho excepcional em vários benchmarks.
Há uma crescente necessidade de que os Modelos de Linguagem de Grande Escala (LLMs) utilizem ferramentas e Interfaces de Programação de Aplicativos (APIs) externas de forma eficaz para planejar e concluir tarefas. Diante disso, há um interesse significativo em métodos que possam adquirir quantidades suficientes de dados de treinamento e teste que envolvam chamadas a ferramentas/APIs. Duas linhas de pesquisa emergiram como as estratégias predominantes para enfrentar esse desafio. A primeira concentrou-se em técnicas de geração de dados sintéticos, enquanto a segunda envolveu a curadoria de conjuntos de dados adjacentes a tarefas, que podem ser transformados em tarefas baseadas em APIs/ferramentas. Neste artigo, focamos na tarefa de identificar, curar e transformar conjuntos de dados existentes e, por sua vez, apresentamos o API-BLEND, um grande corpus para treinamento e teste sistemático de LLMs aumentados por ferramentas. Os conjuntos de dados simulam cenários do mundo real envolvendo tarefas de APIs, como detecção de APIs/ferramentas, preenchimento de slots e sequenciamento das APIs detectadas. Demonstramos a utilidade do conjunto de dados API-BLEND tanto para treinamento quanto para benchmarking.
A geração condicional de movimento humano é um tópico importante com diversas aplicações em realidade virtual, jogos e robótica. Embora trabalhos anteriores tenham se concentrado na geração de movimentos guiados por texto, música ou cenas, esses geralmente resultam em movimentos isolados, limitados a durações curtas. Em vez disso, abordamos a geração de sequências longas e contínuas guiadas por uma série de descrições textuais variadas. Nesse contexto, introduzimos o FlowMDM, o primeiro modelo baseado em difusão que gera Composições de Movimento Humano (HMC) contínuas sem qualquer pós-processamento ou etapas redundantes de remoção de ruído. Para isso, apresentamos as Codificações Posicionais Misturadas, uma técnica que aproveita tanto as codificações posicionais absolutas quanto as relativas na cadeia de remoção de ruído. Mais especificamente, a coerência global do movimento é recuperada na etapa absoluta, enquanto transições suaves e realistas são construídas na etapa relativa. Como resultado, alcançamos resultados de ponta em termos de precisão, realismo e suavidade nos conjuntos de dados Babel e HumanML3D. O FlowMDM se destaca quando treinado com apenas uma descrição por sequência de movimento, graças ao seu Mecanismo de Atenção Cruzada Centrado na Pose, que o torna robusto contra variações nas descrições textuais durante a inferência. Por fim, para abordar as limitações das métricas existentes de HMC, propomos duas novas métricas: o Pico de Aceleração e a Área Sob a Curva de Aceleração, para detectar transições abruptas.