Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o SELF-DISCOVER, um framework geral para LLMs (Large Language Models) autodescobrirem estruturas de raciocínio intrínsecas à tarefa, a fim de resolver problemas complexos de raciocínio que são desafiadores para métodos de prompt tradicionais. O cerne do framework é um processo de autodescoberta no qual os LLMs selecionam múltiplos módulos de raciocínio atômico, como pensamento crítico e pensamento passo a passo, e os compõem em uma estrutura de raciocínio explícita para os LLMs seguirem durante a decodificação. O SELF-DISCOVER melhora substancialmente o desempenho do GPT-4 e do PaLM 2 em benchmarks desafiadores de raciocínio, como BigBench-Hard, raciocínio de agentes fundamentados e MATH, em até 32% em comparação com o Chain of Thought (CoT). Além disso, o SELF-DISCOVER supera métodos intensivos em inferência, como o CoT-Self-Consistency, em mais de 20%, enquanto requer 10 a 40 vezes menos computação de inferência. Por fim, mostramos que as estruturas de raciocínio autodescobertas são universalmente aplicáveis em diferentes famílias de modelos: desde o PaLM 2-L até o GPT-4, e do GPT-4 ao Llama2, e compartilham similaridades com padrões de raciocínio humano.
Modelos de linguagem grandes (LLMs) pré-treinados exibem capacidades excepcionais de processamento geral de linguagem, mas demandam recursos significativos de memória e computação. Como uma poderosa tecnologia de compressão, a binarização pode reduzir extremamente os pesos do modelo para meros 1 bit, diminuindo os custosos requisitos de computação e memória. No entanto, as técnicas de quantização existentes não conseguem manter o desempenho dos LLMs em larguras de bits ultrabaixas. Em resposta a esse desafio, apresentamos o BiLLM, um esquema inovador de quantização pós-treinamento de 1 bit, especialmente projetado para LLMs pré-treinados. Com base na distribuição de pesos dos LLMs, o BiLLM primeiro identifica e seleciona estruturalmente os pesos mais relevantes, e minimiza a perda de compressão por meio de uma estratégia eficaz de aproximação residual binária. Além disso, considerando a distribuição em forma de sino dos pesos não relevantes, propomos uma busca de divisão ótima para agrupá-los e binarizá-los com precisão. O BiLLM alcança, pela primeira vez, inferência de alta precisão (por exemplo, 8,41 de perplexidade no LLaMA2-70B) com apenas 1,08 bit de pesos em várias famílias de LLMs e métricas de avaliação, superando os métodos de quantização SOTA para LLMs por margens significativas. Além disso, o BiLLM permite o processo de binarização de um LLM com 7 bilhões de pesos em menos de 0,5 hora em uma única GPU, demonstrando eficiência temporal satisfatória.
Modelos de espaço de estados (SSMs), como o Mamba proposto por Gu & Dao (2034), foram sugeridos como alternativas às redes Transformer na modelagem de linguagem, incorporando mecanismos de gating, convoluções e seleção de tokens dependente da entrada para mitigar o custo quadrático da atenção multi-head. Embora os SSMs apresentem desempenho competitivo, suas capacidades de aprendizado em contexto (ICL), uma propriedade emergente notável dos modelos de linguagem modernos que permite a execução de tarefas sem otimização de parâmetros, permanecem pouco exploradas em comparação com os Transformers. Neste estudo, avaliamos o desempenho de ICL dos SSMs, com foco no Mamba, em comparação com modelos Transformer em diversas tarefas. Nossos resultados mostram que os SSMs têm desempenho comparável aos Transformers em tarefas padrão de regressão ICL, enquanto superam os Transformers em tarefas como aprendizado de paridade esparsa. No entanto, os SSMs apresentam deficiências em tarefas que envolvem funcionalidades de recuperação não padrão. Para abordar essas limitações, introduzimos um modelo híbrido, \variant, que combina o Mamba com blocos de atenção, superando os modelos individuais em tarefas onde eles têm dificuldades atuando de forma independente. Nossas descobertas sugerem que arquiteturas híbridas oferecem caminhos promissores para aprimorar o ICL em modelos de linguagem.
A ampliação do pré-treinamento contrastivo de linguagem-imagem (CLIP) é crucial para capacitar tanto modelos de visão quanto multimodais. Apresentamos o EVA-CLIP-18B, o maior e mais poderoso modelo CLIP de código aberto até o momento, com 18 bilhões de parâmetros. Com apenas 6 bilhões de amostras de treinamento vistas, o EVA-CLIP-18B alcança uma excepcional precisão zero-shot top-1 de 80,7% em média em 27 benchmarks amplamente reconhecidos de classificação de imagens, superando seu antecessor EVA-CLIP (5 bilhões de parâmetros) e outros modelos CLIP de código aberto por uma grande margem. Notavelmente, observamos uma melhoria consistente de desempenho com o aumento do tamanho do modelo EVA-CLIP, apesar de manter um conjunto de dados de treinamento constante de 2 bilhões de pares imagem-texto do LAION-2B e COYO-700M. Este conjunto de dados está disponível publicamente e é muito menor do que os conjuntos de dados internos (por exemplo, DFN-5B, WebLI-10B) empregados em outros modelos CLIP state-of-the-art. O EVA-CLIP-18B demonstra o potencial da ampliação de modelos visuais fracos para fortes no estilo EVA. Com os pesos do nosso modelo disponibilizados publicamente, esperamos facilitar pesquisas futuras em modelos de base de visão e multimodais.
A geração de imagem para vídeo (I2V) tem como objetivo utilizar o quadro inicial (juntamente com um prompt de texto) para criar uma sequência de vídeo. Um grande desafio na geração I2V é manter a consistência visual ao longo do vídeo: os métodos existentes frequentemente lutam para preservar a integridade do sujeito, do fundo e do estilo do primeiro quadro, além de garantir uma progressão fluida e lógica na narrativa do vídeo. Para mitigar esses problemas, propomos o ConsistI2V, um método baseado em difusão para aprimorar a consistência visual na geração I2V. Especificamente, introduzimos (1) atenção espaço-temporal sobre o primeiro quadro para manter a consistência espacial e de movimento, e (2) inicialização de ruído a partir da banda de baixa frequência do primeiro quadro para melhorar a consistência do layout. Essas duas abordagens permitem que o ConsistI2V gere vídeos altamente consistentes. Também estendemos as abordagens propostas para mostrar seu potencial em melhorar a consistência na geração de vídeos longos autorregressivos e no controle de movimento da câmera. Para verificar a eficácia do nosso método, propomos o I2V-Bench, um benchmark abrangente de avaliação para geração I2V. Nossos resultados de avaliação automática e humana demonstram a superioridade do ConsistI2V em relação aos métodos existentes.
As leis de escalonamento fornecem insights importantes que podem orientar o projeto de grandes modelos de linguagem (LLMs, na sigla em inglês). O trabalho existente tem se concentrado principalmente no estudo das leis de escalonamento para a perda durante o pré-treinamento (fase upstream). No entanto, em cenários de aprendizado por transferência, nos quais os LLMs são pré-treinados em um conjunto de dados não supervisionado e depois ajustados (finetuned) para uma tarefa downstream, frequentemente também nos preocupamos com o desempenho downstream. Neste trabalho, estudamos o comportamento de escalonamento em um cenário de aprendizado por transferência, onde os LLMs são ajustados para tarefas de tradução automática. Especificamente, investigamos como a escolha dos dados de pré-treinamento e seu tamanho afetam o desempenho downstream (qualidade da tradução), conforme avaliado por duas métricas: entropia cruzada downstream e pontuação BLEU. Nossos experimentos indicam que o tamanho do conjunto de dados de ajuste fino e o alinhamento de distribuição entre os dados de pré-treinamento e os dados downstream influenciam significativamente o comportamento de escalonamento. Com alinhamento suficiente, tanto a entropia cruzada downstream quanto a pontuação BLEU melhoram monotonicamente com mais dados de pré-treinamento. Nesses casos, mostramos que é possível prever a pontuação BLEU downstream com boa precisão usando uma lei logarítmica. No entanto, também há casos em que um desalinhamento moderado faz com que a pontuação BLEU flutue ou piore com mais pré-treinamento, enquanto a entropia cruzada downstream melhora monotonicamente. Ao analisar essas observações, fornecemos novos insights práticos para a escolha de dados de pré-treinamento apropriados.
Propomos o MusicRL, o primeiro sistema de geração musical ajustado com base em feedback humano. A apreciação de modelos de texto-para-música é particularmente subjetiva, já que o conceito de musicalidade, assim como a intenção específica por trás de uma legenda, dependem do usuário (por exemplo, uma legenda como "música animada para malhar" pode corresponder a um solo de guitarra retrô ou a uma batida de techno pop). Isso não apenas torna o treinamento supervisionado desses modelos desafiador, mas também exige a integração de feedback humano contínuo em seu ajuste pós-implantação. O MusicRL é um modelo autoregressivo pré-treinado do MusicLM (Agostinelli et al., 2023) de tokens de áudio discretos, ajustado com aprendizado por reforço para maximizar recompensas em nível de sequência. Projetamos funções de recompensa relacionadas especificamente à aderência ao texto e à qualidade do áudio com a ajuda de avaliadores selecionados, e as usamos para ajustar o MusicLM no MusicRL-R. Implantamos o MusicLM para usuários e coletamos um conjunto substancial de dados composto por 300.000 preferências pareadas. Usando Aprendizado por Reforço com Feedback Humano (RLHF), treinamos o MusicRL-U, o primeiro modelo de texto-para-música que incorpora feedback humano em escala. Avaliações humanas mostram que tanto o MusicRL-R quanto o MusicRL-U são preferidos em relação à linha de base. Por fim, o MusicRL-RU combina as duas abordagens e resulta no melhor modelo de acordo com os avaliadores humanos. Estudos de ablação esclarecem os atributos musicais que influenciam as preferências humanas, indicando que a aderência ao texto e a qualidade representam apenas uma parte delas. Isso ressalta a prevalência da subjetividade na apreciação musical e exige um maior envolvimento de ouvintes humanos no ajuste de modelos de geração musical.
Os recentes avanços em modelos de linguagem de grande escala despertaram interesse em suas capacidades extraordinárias e quase sobre-humanas, levando os pesquisadores a explorar métodos para avaliar e otimizar essas habilidades, o que é chamado de superalinhamento. Nesse contexto, nosso artigo mergulha no domínio dos modelos de base visuais, focando no conceito de generalização de fraco para forte, que envolve o uso de um modelo mais fraco para supervisionar um mais forte, visando aprimorar as capacidades do último além dos limites do primeiro. Introduzimos uma nova função de perda ajustável de forma adaptativa para a supervisão de fraco para forte. Nossos experimentos abrangem diversos cenários, incluindo aprendizado com poucos exemplos, transferência de aprendizado, aprendizado com rótulos ruidosos e configurações comuns de destilação de conhecimento. Os resultados são impressionantes: nossa abordagem não apenas supera os benchmarks de desempenho estabelecidos pela generalização de forte para forte, mas também ultrapassa os resultados do ajuste fino de modelos fortes com conjuntos de dados completos. Essa evidência convincente destaca o potencial significativo da generalização de fraco para forte, demonstrando sua capacidade de elevar substancialmente o desempenho dos modelos de base visuais. O código está disponível em https://github.com/ggjy/vision_weak_to_strong.
Apresentamos o MobileVLM V2, uma família de modelos de linguagem visual significativamente aprimorados em relação ao MobileVLM, que demonstra que uma orquestração cuidadosa de novos designs arquitetônicos, um esquema de treinamento melhorado adaptado para VLMs móveis e a curadoria de um conjunto de dados rico e de alta qualidade podem beneficiar substancialmente o desempenho dos VLMs. Especificamente, o MobileVLM V2 1.7B alcança desempenho melhor ou equivalente em benchmarks padrão de VLMs em comparação com VLMs muito maiores na escala de 3B. Notavelmente, nosso modelo de 3B supera uma grande variedade de VLMs na escala de 7B+. Nossos modelos serão disponibilizados em https://github.com/Meituan-AutoML/MobileVLM.
O CodeCompose é uma ferramenta de autoria de código assistida por IA, alimentada por modelos de linguagem de grande escala (LLMs), que fornece sugestões inline para dezenas de milhares de desenvolvedores na Meta. Neste artigo, apresentamos como escalamos o produto de sugestões de uma única linha para sugestões de múltiplas linhas. Essa evolução exigiu que superássemos vários desafios únicos para melhorar a usabilidade dessas sugestões para os desenvolvedores. Primeiro, discutimos como as sugestões de múltiplas linhas podem ter um efeito "desconcertante", já que as sugestões do LLM constantemente reposicionam o código existente do desenvolvedor, o que poderia resultar em diminuição da produtividade e satisfação. Segundo, as sugestões de múltiplas linhas levam significativamente mais tempo para serem geradas; portanto, apresentamos vários investimentos inovadores que fizemos para reduzir a latência percebida pelos usuários. Essas otimizações no hospedamento do modelo aceleraram a latência das sugestões de múltiplas linhas em 2,5 vezes. Por fim, conduzimos experimentos com dezenas de milhares de engenheiros para entender como as sugestões de múltiplas linhas impactam a experiência do usuário e contrastamos isso com as sugestões de uma única linha. Nossos experimentos revelam que (i) as sugestões de múltiplas linhas representam 42% do total de caracteres aceitos (apesar de representarem apenas 16% das sugestões exibidas) e (ii) as sugestões de múltiplas linhas quase dobraram a porcentagem de teclas economizadas pelos usuários, de 9% para 17%. O CodeCompose com sugestões de múltiplas linhas foi implementado para todos os engenheiros na Meta, e menos de 1% dos engenheiros optaram por desativar as sugestões de múltiplas linhas.
Para captura e análise de movimentos faciais, as soluções predominantes geralmente são baseadas em pistas visuais, que não protegem a privacidade e são vulneráveis a oclusões. As unidades de medição inercial (IMUs) servem como potenciais resgates, mas são principalmente adotadas para captura de movimentos corporais completos. Neste artigo, propomos o IMUSIC para preencher essa lacuna, um novo caminho para captura de expressões faciais utilizando exclusivamente sinais de IMU, significativamente distante das soluções visuais anteriores. O design-chave em nosso IMUSIC é uma trilogia. Primeiro, projetamos micro-IMUs adequadas para captura facial, acompanhadas de um esquema de posicionamento de IMU orientado pela anatomia. Em seguida, contribuímos com um novo conjunto de dados IMU-ARKit, que fornece sinais pareados ricos de IMU/visuais para diversas expressões e performances faciais. Essa multimodalidade única traz um enorme potencial para direções futuras, como análise de comportamento facial baseada em IMU. Além disso, utilizando o IMU-ARKit, introduzimos uma abordagem de linha de base robusta para prever com precisão os parâmetros de blendshapes faciais a partir de sinais puramente de IMU. Especificamente, adaptamos um modelo de difusão Transformer com uma estratégia de treinamento em duas etapas para essa nova tarefa de rastreamento. O framework IMUSIC nos capacita a realizar captura facial precisa em cenários onde os métodos visuais falham e, simultaneamente, protege a privacidade do usuário. Realizamos extensos experimentos tanto sobre a configuração da IMU quanto sobre os componentes técnicos para validar a eficácia de nossa abordagem IMUSIC. Notavelmente, o IMUSIC possibilita várias aplicações potenciais e inovadoras, como captura facial com proteção de privacidade, captura híbrida contra oclusões ou detecção de movimentos faciais mínimos que muitas vezes são invisíveis através de pistas visuais. Disponibilizaremos nosso conjunto de dados e implementações para enriquecer mais possibilidades de captura e análise facial em nossa comunidade.
Modelos Visão-Linguagem (VLMs) demonstraram sua ampla viabilidade graças a extensos treinamentos no alinhamento de instruções visuais a respostas. No entanto, esse alinhamento conclusivo leva os modelos a ignorar raciocínios visuais críticos, resultando em falhas em problemas visuais meticulosos e respostas infiéis. Neste artigo, propomos a Cadeia de Manipulações, um mecanismo que permite aos VLMs resolver problemas com uma série de manipulações, onde cada manipulação se refere a uma operação na entrada visual, seja a partir de habilidades intrínsecas (por exemplo, fundamentação) adquiridas por meio de treinamento prévio ou da imitação de comportamentos humanos (por exemplo, zoom). Esse mecanismo incentiva os VLMs a gerar respostas fiéis com raciocínio visual evidenciado e permite que os usuários rastreiem as causas de erros em caminhos interpretáveis. Assim, treinamos o CogCoM, um VLM geral de 17B com uma arquitetura compatível baseada em memória, dotado desse mecanismo de raciocínio. Experimentos mostram que nosso modelo alcança o desempenho de ponta em 8 benchmarks de 3 categorias, e um número limitado de etapas de treinamento com os dados rapidamente obtém um desempenho competitivo. O código e os dados estão publicamente disponíveis em https://github.com/THUDM/CogCoM.
Apresentamos o EscherNet, um modelo de difusão condicionado por múltiplas visões para síntese de vistas. O EscherNet aprende representações 3D implícitas e generativas, acopladas a uma codificação posicional de câmera especializada, permitindo um controle preciso e contínuo da transformação da câmera entre um número arbitrário de visões de referência e visões alvo. O EscherNet oferece excepcional generalidade, flexibilidade e escalabilidade na síntese de vistas — ele pode gerar mais de 100 visões alvo consistentes simultaneamente em uma única GPU de nível consumidor, apesar de ter sido treinado com um número fixo de 3 visões de referência para 3 visões alvo. Como resultado, o EscherNet não apenas aborda a síntese de novas visões em cenários zero-shot, mas também unifica naturalmente a reconstrução 3D com base em uma única imagem e em múltiplas imagens, combinando essas tarefas diversas em um único framework coeso. Nossos extensos experimentos demonstram que o EscherNet alcança desempenho de ponta em múltiplos benchmarks, mesmo quando comparado a métodos especificamente projetados para cada problema individual. Essa notável versatilidade abre novas direções para o projeto de arquiteturas neurais escaláveis para visão 3D. Página do projeto: https://kxhit.github.io/EscherNet.
Propomos o ajuste fino de grandes modelos de linguagem para a geração de materiais estáveis. Embora pouco convencional, o ajuste fino de grandes modelos de linguagem em dados atomísticos codificados em texto é simples de implementar e confiável, com cerca de 90% das estruturas amostradas obedecendo às restrições físicas sobre posições e cargas dos átomos. Utilizando cálculos de energia acima do casco (energy above hull) tanto de potenciais de aprendizado de máquina quanto de cálculos DFT de referência, mostramos que nosso modelo mais robusto (LLaMA-2 70B ajustado) pode gerar materiais previstos como metaestáveis a uma taxa aproximadamente duas vezes maior (49% vs 28%) que o CDVAE, um modelo de difusão concorrente. Devido à flexibilidade inerente do prompting textual, nossos modelos podem ser usados simultaneamente para geração incondicional de materiais estáveis, preenchimento de estruturas parciais e geração condicionada por texto. Por fim, mostramos que a capacidade dos modelos de linguagem de capturar simetrias-chave das estruturas cristalinas melhora com a escala do modelo, sugerindo que os vieses dos LLMs pré-treinados são surpreendentemente adequados para dados atomísticos.
Apresentamos o Modelo de Mundo por Difusão (DWM, na sigla em inglês), um modelo de difusão condicional capaz de prever estados e recompensas futuros em múltiplos passos de forma simultânea. Diferentemente dos modelos dinâmicos tradicionais de um único passo, o DWM oferece previsões de longo horizonte em uma única passagem direta, eliminando a necessidade de consultas recursivas. Integramos o DWM na estimativa de valor baseada em modelos, onde o retorno de curto prazo é simulado por trajetórias futuras amostradas a partir do DWM. No contexto do aprendizado por reforço offline, o DWM pode ser visto como uma regularização conservadora de valor por meio de modelagem generativa. Alternativamente, ele pode ser considerado uma fonte de dados que possibilita o aprendizado Q offline com dados sintéticos. Nossos experimentos no conjunto de dados D4RL confirmam a robustez do DWM para simulações de longo horizonte. Em termos de desempenho absoluto, o DWM supera significativamente os modelos dinâmicos de um único passo, com um ganho de desempenho de 44%, e alcança desempenho de ponta.