HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

10 papers found

MobileLLM: Otimização de Modelos de Linguagem com Sub-bilhões de Parâmetros para Casos de Uso em Dispositivos Locais
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Feb 22

ByZechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra

134

Este artigo aborda a crescente necessidade de modelos de linguagem de grande escala (LLMs) eficientes em dispositivos móveis, impulsionada pelo aumento dos custos e preocupações com latência na nuvem. Nosso foco é projetar LLMs de alta qualidade com menos de um bilhão de parâmetros, uma escolha prática para implantação em dispositivos móveis. Contrariamente à crença predominante que enfatiza o papel crucial da quantidade de dados e parâmetros na determinação da qualidade do modelo, nossa investigação destaca a importância da arquitetura do modelo para LLMs em escala sub-bilionária. Aproveitando arquiteturas profundas e estreitas, juntamente com o compartilhamento de embeddings e mecanismos de atenção com consultas agrupadas, estabelecemos uma rede de base robusta denominada MobileLLM, que alcança um notável aumento de 2,7%/4,3% na precisão em relação aos modelos state-of-the-art anteriores de 125M/350M. Além disso, propomos uma abordagem imediata de compartilhamento de pesos em blocos, sem aumento no tamanho do modelo e com apenas um pequeno overhead de latência. Os modelos resultantes, denominados MobileLLM-LS, demonstram um aprimoramento adicional de 0,7%/0,8% na precisão em relação ao MobileLLM 125M/350M. Além disso, a família de modelos MobileLLM mostra melhorias significativas em comparação com modelos sub-bilionários anteriores em benchmarks de chat e demonstra uma correção próxima ao LLaMA-v2 7B em tarefas de chamada de API, destacando a capacidade de modelos pequenos para casos de uso comuns em dispositivos.

Genie: Ambientes Interativos Generativos
Genie: Generative Interactive Environments

Feb 23

ByJake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Apresentamos o Genie, o primeiro ambiente interativo generativo treinado de maneira não supervisionada a partir de vídeos da Internet sem rótulos. O modelo pode ser instruído a gerar uma variedade infinita de mundos virtuais controláveis por ações, descritos por meio de texto, imagens sintéticas, fotografias e até esboços. Com 11 bilhões de parâmetros, o Genie pode ser considerado um modelo fundamental de mundo. Ele é composto por um tokenizador de vídeo espaço-temporal, um modelo de dinâmica autorregressiva e um modelo de ação latente simples e escalável. O Genie permite que os usuários ajam nos ambientes gerados quadro a quadro, apesar de ter sido treinado sem rótulos de ação verdadeiros ou outros requisitos específicos de domínio tipicamente encontrados na literatura de modelos de mundo. Além disso, o espaço de ação latente aprendido facilita o treinamento de agentes para imitar comportamentos a partir de vídeos nunca vistos, abrindo caminho para o treinamento de agentes generalistas do futuro.

A marca d'água torna os modelos de linguagem radioativos.
Watermarking Makes Language Models Radioactive

Feb 22

ByTom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon

Este artigo investiga a radioatividade de textos gerados por LLMs, ou seja, se é possível detectar que tais dados foram utilizados como conjunto de treinamento. Métodos convencionais, como inferência de associação, podem realizar essa detecção com algum nível de precisão. Mostramos que dados de treinamento marcados com "watermark" deixam vestígios mais fáceis de detectar e muito mais confiáveis do que a inferência de associação. Relacionamos o nível de contaminação à robustez do "watermark", sua proporção no conjunto de treinamento e ao processo de ajuste fino. Demonstramos, em particular, que o treinamento com instruções sintéticas marcadas pode ser detectado com alta confiança (p-valor < 1e-5) mesmo quando apenas 5% do texto de treinamento está marcado. Assim, a marcação de "watermark" em LLMs, originalmente projetada para detectar textos gerados por máquinas, permite identificar facilmente se as saídas de um LLM marcado foram usadas para ajustar outro LLM.

Dividir ou Conquistar? Qual Parte do Seu LLM Você Deve Destilar?
Divide-or-Conquer? Which Part Should You Distill Your LLM?

Feb 22

ByZhuofeng Wu, He Bai, Aonan Zhang, Jiatao Gu, VG Vinod Vydiswaran, Navdeep Jaitly, Yizhe Zhang

Métodos recentes demonstraram que os Modelos de Linguagem de Grande Escala (LLMs) podem resolver tarefas de raciocínio de forma mais eficaz quando são incentivados a resolver subtarefas da tarefa principal primeiro. Neste artigo, elaboramos uma estratégia semelhante que divide tarefas de raciocínio em uma fase de decomposição do problema e uma fase de resolução do problema, e mostramos que essa estratégia é capaz de superar uma solução de estágio único. Além disso, hipotetizamos que a decomposição deve ser mais fácil de destilar em um modelo menor em comparação com a resolução do problema, pois esta última requer grandes quantidades de conhecimento específico do domínio, enquanto a primeira exige apenas a aprendizagem de estratégias gerais de resolução de problemas. Propomos métodos para destilar essas duas capacidades e avaliamos seu impacto nos resultados de raciocínio e no custo de inferência. Descobrimos que podemos destilar a fase de decomposição do problema e, ao mesmo tempo, alcançar uma boa generalização entre tarefas, conjuntos de dados e modelos. No entanto, é mais difícil destilar a capacidade de resolução de problemas sem perder desempenho, e o modelo resultante destilado enfrenta dificuldades com a generalização. Esses resultados indicam que, ao usar modelos menores e destilados de decomposição de problemas em combinação com LLMs de resolução de problemas, podemos alcançar raciocínio com inferência de custo eficiente e adaptação local.

GPTVQ: A Bênção da Dimensionalidade para a Quantização de LLMs
GPTVQ: The Blessing of Dimensionality for LLM Quantization

Feb 23

ByMart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough

Neste trabalho, demonstramos que a relação entre tamanho e precisão na quantização de redes neurais pode ser significativamente melhorada ao aumentar a dimensionalidade da quantização. Propomos o método GPTVQ, uma nova técnica rápida para quantização vetorial pós-treinamento (VQ) que escala bem para Modelos de Linguagem de Grande Porte (LLMs). Nosso método intercala a quantização de uma ou mais colunas com atualizações dos pesos restantes não quantizados, utilizando informações da Hessiana do erro quadrático médio (MSE) de reconstrução da saída por camada. Os codebooks de quantização são inicializados usando uma versão eficiente e baseada em dados do algoritmo EM. Os codebooks são então atualizados e posteriormente comprimidos por meio de quantização inteira e compressão baseada em SVD. O GPTVQ estabelece um novo estado da arte na relação entre tamanho e precisão em uma ampla gama de LLMs, como Llama-v2 e Mistral. Além disso, nosso método é eficiente: em um único H100, leva entre 3 e 11 horas para processar um modelo Llamav2-70B, dependendo da configuração de quantização. Por fim, com tempos de descompressão VQ em um CPU móvel, mostramos que a VQ resulta em uma latência melhorada em comparação com o uso de um formato inteiro de 4 bits.

ChunkAttention: Autoatenção Eficiente com Cache KV Consciente de Prefixo e Partição em Duas Fases
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

Feb 23

ByLu Ye, Ze Tao, Yong Huang, Yang Li

A auto-atenção é um componente essencial dos grandes modelos de linguagem (LLMs), mas também uma fonte significativa de latência de inferência para sequências longas. Em cenários de serviço multi-inquilino de LLMs, o custo computacional e de operação de memória da auto-atenção pode ser otimizado utilizando a probabilidade de que múltiplas requisições de LLM compartilhem prompts de sistema em seus prefixos. Neste artigo, introduzimos o ChunkAttention, um módulo de auto-atenção consciente de prefixos que pode detectar prefixos de prompts correspondentes em múltiplas requisições e compartilhar seus tensores de chave/valor na memória durante a execução, melhorando a utilização da memória do cache KV. Isso é alcançado dividindo tensores monolíticos de chave/valor em blocos menores e estruturando-os em uma árvore de prefixos auxiliar. Consequentemente, sobre o cache KV baseado em árvore de prefixos, projetamos um kernel de auto-atenção eficiente, onde um algoritmo de partição em duas fases é implementado para melhorar a localidade dos dados durante o cálculo da auto-atenção na presença de prompts de sistema compartilhados. Experimentos mostram que o ChunkAttention pode acelerar o kernel de auto-atenção em 3,2 a 4,8 vezes em comparação com a implementação state-of-the-art, com o comprimento do prompt de sistema variando de 1024 a 4096.

Mesma Tarefa, Mais Tokens: O Impacto do Comprimento da Entrada no Desempenho de Raciocínio dos Modelos de Linguagem de Grande Escala
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

Feb 19

ByMosh Levy, Alon Jacoby, Yoav Goldberg

Este artigo explora o impacto da extensão do comprimento de entrada nas capacidades dos Modelos de Linguagem de Grande Escala (LLMs). Apesar dos avanços recentes dos LLMs, a consistência de seu desempenho em diferentes comprimentos de entrada não é bem compreendida. Investigamos esse aspecto introduzindo uma nova estrutura de raciocínio de perguntas e respostas (QA), especificamente projetada para avaliar o impacto do comprimento de entrada. Isolamos o efeito do comprimento de entrada utilizando múltiplas versões da mesma amostra, cada uma estendida com preenchimentos de diferentes comprimentos, tipos e localizações. Nossos resultados mostram uma degradação notável no desempenho de raciocínio dos LLMs em comprimentos de entrada muito menores que seu máximo técnico. Demonstramos que a tendência de degradação aparece em todas as versões do nosso conjunto de dados, embora com intensidades diferentes. Além disso, nosso estudo revela que as métricas tradicionais de perplexidade não se correlacionam com o desempenho dos LLMs em tarefas de raciocínio com entradas longas. Analisamos nossos resultados e identificamos modos de falha que podem servir como guias úteis para pesquisas futuras, potencialmente informando estratégias para abordar as limitações observadas nos LLMs.

AgentOhana: Projetando um Pipeline Unificado de Dados e Treinamento para Aprendizado Eficiente de Agentes
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning

Feb 23

ByJianguo Zhang, Tian Lan, Rithesh Murthy, Zhiwei Liu, Weiran Yao, Juntao Tan, Thai Hoang, Liangwei Yang, Yihao Feng, Zuxin Liu, Tulika Awalgaonkar, Juan Carlos Niebles, Silvio Savarese, Shelby Heinecke, Huan Wang, Caiming Xiong

Agentes autônomos impulsionados por modelos de linguagem de grande escala (LLMs) têm atraído significativa atenção da pesquisa. No entanto, aproveitar plenamente o potencial dos LLMs para tarefas baseadas em agentes apresenta desafios inerentes devido à natureza heterogênea de diversas fontes de dados que apresentam trajetórias de múltiplos turnos. Neste artigo, introduzimos o AgentOhana como uma solução abrangente para abordar esses desafios. O AgentOhana agrega trajetórias de agentes de ambientes distintos, abrangendo uma ampla variedade de cenários. Ele padroniza e unifica meticulosamente essas trajetórias em um formato consistente, simplificando a criação de um carregador de dados genérico otimizado para o treinamento de agentes. Aproveitando a unificação dos dados, nosso pipeline de treinamento mantém o equilíbrio entre diferentes fontes de dados e preserva a aleatoriedade independente entre dispositivos durante a divisão do conjunto de dados e o treinamento do modelo. Além disso, apresentamos o xLAM-v0.1, um modelo de ação de grande escala projetado para agentes de IA, que demonstra desempenho excepcional em vários benchmarks.

API-BLEND: Um Corpus Abrangente para Treinamento e Avaliação de LLMs de API
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs

Feb 23

ByKinjal Basu, Ibrahim Abdelaziz, Subhajit Chaudhury, Soham Dan, Maxwell Crouse, Asim Munawar, Sadhana Kumaravel, Vinod Muthusamy, Pavan Kapanipathi, Luis A. Lastras

Há uma crescente necessidade de que os Modelos de Linguagem de Grande Escala (LLMs) utilizem ferramentas e Interfaces de Programação de Aplicativos (APIs) externas de forma eficaz para planejar e concluir tarefas. Diante disso, há um interesse significativo em métodos que possam adquirir quantidades suficientes de dados de treinamento e teste que envolvam chamadas a ferramentas/APIs. Duas linhas de pesquisa emergiram como as estratégias predominantes para enfrentar esse desafio. A primeira concentrou-se em técnicas de geração de dados sintéticos, enquanto a segunda envolveu a curadoria de conjuntos de dados adjacentes a tarefas, que podem ser transformados em tarefas baseadas em APIs/ferramentas. Neste artigo, focamos na tarefa de identificar, curar e transformar conjuntos de dados existentes e, por sua vez, apresentamos o API-BLEND, um grande corpus para treinamento e teste sistemático de LLMs aumentados por ferramentas. Os conjuntos de dados simulam cenários do mundo real envolvendo tarefas de APIs, como detecção de APIs/ferramentas, preenchimento de slots e sequenciamento das APIs detectadas. Demonstramos a utilidade do conjunto de dados API-BLEND tanto para treinamento quanto para benchmarking.

Composição Contínua de Movimento Humano com Codificações Posicionais Misturadas
Seamless Human Motion Composition with Blended Positional Encodings

Feb 23

ByGerman Barquero, Sergio Escalera, Cristina Palmero

A geração condicional de movimento humano é um tópico importante com diversas aplicações em realidade virtual, jogos e robótica. Embora trabalhos anteriores tenham se concentrado na geração de movimentos guiados por texto, música ou cenas, esses geralmente resultam em movimentos isolados, limitados a durações curtas. Em vez disso, abordamos a geração de sequências longas e contínuas guiadas por uma série de descrições textuais variadas. Nesse contexto, introduzimos o FlowMDM, o primeiro modelo baseado em difusão que gera Composições de Movimento Humano (HMC) contínuas sem qualquer pós-processamento ou etapas redundantes de remoção de ruído. Para isso, apresentamos as Codificações Posicionais Misturadas, uma técnica que aproveita tanto as codificações posicionais absolutas quanto as relativas na cadeia de remoção de ruído. Mais especificamente, a coerência global do movimento é recuperada na etapa absoluta, enquanto transições suaves e realistas são construídas na etapa relativa. Como resultado, alcançamos resultados de ponta em termos de precisão, realismo e suavidade nos conjuntos de dados Babel e HumanML3D. O FlowMDM se destaca quando treinado com apenas uma descrição por sequência de movimento, graças ao seu Mecanismo de Atenção Cruzada Centrado na Pose, que o torna robusto contra variações nas descrições textuais durante a inferência. Por fim, para abordar as limitações das métricas existentes de HMC, propomos duas novas métricas: o Pico de Aceleração e a Área Sob a Curva de Aceleração, para detectar transições abruptas.

MobileLLM: Otimização de Modelos de Linguagem com Sub-bilhões de Parâmetros para Casos de Uso em Dispositivos Locais
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Feb 22

ByZechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra

134