Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar das impressionantes capacidades dos Modelos de Linguagem de Grande Escala (LLMs) em diversas tarefas, eles ainda enfrentam dificuldades em cenários que envolvem raciocínio complexo e planejamento. Trabalhos recentes propuseram técnicas avançadas de prompt e a necessidade de ajuste fino com dados de alta qualidade para aprimorar as habilidades de raciocínio dos LLMs. No entanto, essas abordagens são intrinsecamente limitadas pela disponibilidade e qualidade dos dados. Diante disso, a autocorreção e a autoaprendizagem surgem como soluções viáveis, empregando estratégias que permitem aos LLMs refinar suas saídas e aprender com recompensas autoavaliadas. Ainda assim, a eficácia dos LLMs em auto-refinar suas respostas, particularmente em tarefas de raciocínio complexo e planejamento, permanece questionável. Neste artigo, apresentamos o AlphaLLM para a auto-melhoria dos LLMs, que integra a Busca em Árvore de Monte Carlo (MCTS) com os LLMs para estabelecer um ciclo de auto-melhoria, aprimorando assim as capacidades dos LLMs sem anotações adicionais. Inspirado pelo sucesso do AlphaGo, o AlphaLLM aborda os desafios únicos de combinar MCTS com LLM para auto-melhoria, incluindo a escassez de dados, a vastidão dos espaços de busca em tarefas de linguagem e a natureza subjetiva do feedback em tarefas de linguagem. O AlphaLLM é composto por um componente de síntese de prompt, uma abordagem eficiente de MCTS adaptada para tarefas de linguagem e um trio de modelos críticos para feedback preciso. Nossos resultados experimentais em tarefas de raciocínio matemático demonstram que o AlphaLLM melhora significativamente o desempenho dos LLMs sem anotações adicionais, mostrando o potencial de auto-melhoria nos LLMs.
A animação de texto serve como um meio expressivo, transformando a comunicação estática em experiências dinâmicas ao infundir palavras com movimento para evocar emoções, enfatizar significados e construir narrativas cativantes. Criar animações semanticamente conscientes apresenta desafios significativos, exigindo expertise em design gráfico e animação. Apresentamos um esquema automatizado de animação de texto, denominado "Tipografia Dinâmica", que combina duas tarefas desafiadoras. Ele deforma letras para transmitir significado semântico e as infunde com movimentos vibrantes com base em prompts do usuário. Nossa técnica utiliza representações de gráficos vetoriais e uma estrutura baseada em otimização de ponta a ponta. Essa estrutura emprega campos de deslocamento neural para converter letras em formas base e aplica movimento por quadro, incentivando a coerência com o conceito textual pretendido. Técnicas de preservação de forma e regularização de perda perceptual são empregadas para manter a legibilidade e a integridade estrutural durante o processo de animação. Demonstramos a generalizabilidade de nossa abordagem em vários modelos de texto para vídeo e destacamos a superioridade de nossa metodologia de ponta a ponta em relação a métodos de base, que podem compreender tarefas separadas. Por meio de avaliações quantitativas e qualitativas, demonstramos a eficácia de nossa estrutura na geração de animações de texto coerentes que interpretam fielmente os prompts do usuário, mantendo a legibilidade. Nosso código está disponível em: https://animate-your-word.github.io/demo/.
Propomos o MeshLRM, uma nova abordagem baseada em LRM que pode reconstruir uma malha de alta qualidade a partir de apenas quatro imagens de entrada em menos de um segundo. Diferente dos modelos anteriores de reconstrução em larga escala (LRMs) que se concentram na reconstrução baseada em NeRF, o MeshLRM incorpora a extração e renderização diferenciável de malhas dentro do framework LRM. Isso permite a reconstrução de malhas de ponta a ponta ao ajustar finamente um LRM NeRF pré-treinado com renderização de malhas. Além disso, aprimoramos a arquitetura do LRM simplificando vários designs complexos dos LRMs anteriores. A inicialização NeRF do MeshLRM é treinada sequencialmente com imagens de baixa e alta resolução; essa nova estratégia de treinamento de LRM permite uma convergência significativamente mais rápida e, consequentemente, resulta em melhor qualidade com menos computação. Nossa abordagem alcança a reconstrução de malhas de última geração a partir de entradas de visão esparsa e também permite muitas aplicações subsequentes, incluindo geração de texto-para-3D e imagem única-para-3D. Página do projeto: https://sarahweiii.github.io/meshlrm/
A intensa carga computacional do Stable Diffusion (SD) para geração de imagens a partir de texto representa um obstáculo significativo para sua aplicação prática. Para enfrentar esse desafio, pesquisas recentes concentram-se em métodos para reduzir etapas de amostragem, como o Latent Consistency Model (LCM), e na utilização de otimizações arquitetônicas, incluindo poda e destilação de conhecimento. Diferentemente das abordagens existentes, iniciamos de forma única com uma variante compacta do SD, o BK-SDM. Observamos que a aplicação direta do LCM ao BK-SDM com conjuntos de dados rastreados comumente utilizados produz resultados insatisfatórios. Isso nos leva a desenvolver duas estratégias: (1) aproveitar pares de imagem-texto de alta qualidade provenientes de modelos generativos líderes e (2) projetar um processo avançado de destilação personalizado para o LCM. Por meio de nossa exploração detalhada de quantização, perfilamento e implantação em dispositivos, alcançamos a geração rápida de imagens foto-realistas e alinhadas ao texto em apenas duas etapas, com latência inferior a um segundo em dispositivos de borda com recursos limitados.
Com a ampla implantação de modelos de linguagem de grande escala (LLMs) na geração de conteúdo longo recentemente, surgiu uma demanda crescente por suporte eficiente para inferência de sequências longas. No entanto, o cache de chave-valor (KV), que é armazenado para evitar recomputação, tornou-se um gargalo crítico ao crescer linearmente em tamanho com o comprimento da sequência. Devido à natureza autorregressiva dos LLMs, todo o cache KV será carregado para cada token gerado, resultando em baixa utilização dos núcleos computacionais e alta latência. Embora vários métodos de compressão para o cache KV tenham sido propostos para aliviar esse problema, eles sofrem com degradação na qualidade da geração. Apresentamos o TriForce, um sistema hierárquico de decodificação especulativa que é escalável para geração de sequências longas. Essa abordagem aproveita os pesos originais do modelo e o cache KV esparso dinâmico via recuperação como um modelo de rascunho, que serve como uma camada intermediária na hierarquia e é ainda especulado por um modelo menor para reduzir sua latência de rascunho. O TriForce não apenas facilita acelerações impressionantes para o Llama2-7B-128K, alcançando até 2,31 vezes em uma GPU A100, mas também demonstra escalabilidade ao lidar com contextos ainda mais longos. Para a configuração de offloading em duas GPUs RTX 4090, o TriForce alcança 0,108s/token—apenas metade da lentidão da linha de base autorregressiva em uma A100, que atinge 7,78 vezes em nosso sistema de offloading otimizado. Além disso, o TriForce performa 4,86 vezes melhor que o DeepSpeed-Zero-Inference em uma única GPU RTX 4090. A robustez do TriForce é destacada por seu desempenho consistentemente excepcional em várias temperaturas. O código está disponível em https://github.com/Infini-AI-Lab/TriForce.
Alinhar modelos de linguagem (LMs) com base em dados de preferência anotados por humanos é uma etapa crucial para obter sistemas práticos e eficientes baseados em LMs. No entanto, dados de preferência humana multilingues são difíceis de obter em escala, tornando desafiador estender esse framework para diversos idiomas. Neste trabalho, avaliamos uma abordagem simples para o alinhamento cruzado de idiomas em zero-shot, onde um modelo de recompensa é treinado com dados de preferência em um idioma de origem e aplicado diretamente a outros idiomas de destino. Em tarefas de sumarização e geração de diálogo aberto, mostramos que esse método é consistentemente bem-sucedido em configurações de avaliação abrangentes, incluindo avaliação humana: modelos alinhados cruzadamente são preferidos por humanos em relação a modelos não alinhados em mais de 70% das instâncias de avaliação. Além disso, descobrimos que um modelo de recompensa em um idioma diferente às vezes produz modelos mais alinhados do que um modelo de recompensa no mesmo idioma. Também identificamos melhores práticas quando não há dados específicos de idioma disponíveis, nem mesmo para ajuste fino supervisionado, outro componente no processo de alinhamento.
Apresentamos uma nova arquitetura para personalização de modelos de difusão de texto para imagem, denominada Mixture-of-Attention (MoA). Inspirada pelo mecanismo Mixture-of-Experts utilizado em grandes modelos de linguagem (LLMs), a MoA distribui a carga de geração entre dois caminhos de atenção: um ramo personalizado e um ramo de prioridade não personalizado. A MoA foi projetada para preservar o conhecimento prévio do modelo original, fixando suas camadas de atenção no ramo de prioridade, enquanto intervém minimamente no processo de geração com o ramo personalizado, que aprende a incorporar sujeitos no layout e contexto gerados pelo ramo de prioridade. Um mecanismo de roteamento inovador gerencia a distribuição de pixels em cada camada entre esses ramos para otimizar a combinação de criação de conteúdo personalizado e genérico. Uma vez treinada, a MoA facilita a criação de imagens personalizadas de alta qualidade, apresentando múltiplos sujeitos com composições e interações tão diversas quanto as geradas pelo modelo original. Crucialmente, a MoA aprimora a distinção entre a capacidade pré-existente do modelo e a nova intervenção personalizada, oferecendo assim um controle mais desacoplado entre sujeito e contexto, anteriormente inatingível. Página do projeto: https://snap-research.github.io/mixture-of-attention
Este artigo apresenta a versão 0.5 do AI Safety Benchmark, criado pelo MLCommons AI Safety Working Group. O AI Safety Benchmark foi projetado para avaliar os riscos de segurança de sistemas de IA que utilizam modelos de linguagem ajustados para chat. Introduzimos uma abordagem fundamentada para especificar e construir o benchmark, que na versão 0.5 cobre apenas um caso de uso (um adulto interagindo com um assistente de propósito geral em inglês) e um conjunto limitado de personas (ou seja, usuários típicos, usuários maliciosos e usuários vulneráveis). Criamos uma nova taxonomia de 13 categorias de riscos, das quais 7 possuem testes no benchmark v0.5. Planejamos lançar a versão 1.0 do AI Safety Benchmark até o final de 2024. O benchmark v1.0 fornecerá insights significativos sobre a segurança dos sistemas de IA. No entanto, o benchmark v0.5 não deve ser usado para avaliar a segurança dos sistemas de IA. Buscamos documentar completamente as limitações, falhas e desafios da versão 0.5. Esta versão do AI Safety Benchmark v0.5 inclui: (1) uma abordagem fundamentada para especificar e construir o benchmark, que compreende casos de uso, tipos de sistemas sob teste (SUTs), linguagem e contexto, personas, testes e itens de teste; (2) uma taxonomia de 13 categorias de riscos com definições e subcategorias; (3) testes para sete das categorias de riscos, cada um composto por um conjunto único de itens de teste, ou seja, prompts. Há 43.090 itens de teste no total, criados com modelos; (4) um sistema de classificação para sistemas de IA em relação ao benchmark; (5) uma plataforma disponível publicamente e uma ferramenta para download, chamada ModelBench, que pode ser usada para avaliar a segurança de sistemas de IA no benchmark; (6) um relatório de avaliação de exemplo que compara o desempenho de mais de uma dúzia de modelos de linguagem ajustados para chat disponíveis publicamente; (7) uma especificação de teste para o benchmark.