HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

8 papers found

Rumo à Automelhoria de LLMs por meio de Imaginação, Busca e Crítica
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Apr 18

ByYe Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

Apesar das impressionantes capacidades dos Modelos de Linguagem de Grande Escala (LLMs) em diversas tarefas, eles ainda enfrentam dificuldades em cenários que envolvem raciocínio complexo e planejamento. Trabalhos recentes propuseram técnicas avançadas de prompt e a necessidade de ajuste fino com dados de alta qualidade para aprimorar as habilidades de raciocínio dos LLMs. No entanto, essas abordagens são intrinsecamente limitadas pela disponibilidade e qualidade dos dados. Diante disso, a autocorreção e a autoaprendizagem surgem como soluções viáveis, empregando estratégias que permitem aos LLMs refinar suas saídas e aprender com recompensas autoavaliadas. Ainda assim, a eficácia dos LLMs em auto-refinar suas respostas, particularmente em tarefas de raciocínio complexo e planejamento, permanece questionável. Neste artigo, apresentamos o AlphaLLM para a auto-melhoria dos LLMs, que integra a Busca em Árvore de Monte Carlo (MCTS) com os LLMs para estabelecer um ciclo de auto-melhoria, aprimorando assim as capacidades dos LLMs sem anotações adicionais. Inspirado pelo sucesso do AlphaGo, o AlphaLLM aborda os desafios únicos de combinar MCTS com LLM para auto-melhoria, incluindo a escassez de dados, a vastidão dos espaços de busca em tarefas de linguagem e a natureza subjetiva do feedback em tarefas de linguagem. O AlphaLLM é composto por um componente de síntese de prompt, uma abordagem eficiente de MCTS adaptada para tarefas de linguagem e um trio de modelos críticos para feedback preciso. Nossos resultados experimentais em tarefas de raciocínio matemático demonstram que o AlphaLLM melhora significativamente o desempenho dos LLMs sem anotações adicionais, mostrando o potencial de auto-melhoria nos LLMs.

Tipografia Dinâmica: Dando Vida às Palavras
Dynamic Typography: Bringing Words to Life

Apr 17

ByZichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu

A animação de texto serve como um meio expressivo, transformando a comunicação estática em experiências dinâmicas ao infundir palavras com movimento para evocar emoções, enfatizar significados e construir narrativas cativantes. Criar animações semanticamente conscientes apresenta desafios significativos, exigindo expertise em design gráfico e animação. Apresentamos um esquema automatizado de animação de texto, denominado "Tipografia Dinâmica", que combina duas tarefas desafiadoras. Ele deforma letras para transmitir significado semântico e as infunde com movimentos vibrantes com base em prompts do usuário. Nossa técnica utiliza representações de gráficos vetoriais e uma estrutura baseada em otimização de ponta a ponta. Essa estrutura emprega campos de deslocamento neural para converter letras em formas base e aplica movimento por quadro, incentivando a coerência com o conceito textual pretendido. Técnicas de preservação de forma e regularização de perda perceptual são empregadas para manter a legibilidade e a integridade estrutural durante o processo de animação. Demonstramos a generalizabilidade de nossa abordagem em vários modelos de texto para vídeo e destacamos a superioridade de nossa metodologia de ponta a ponta em relação a métodos de base, que podem compreender tarefas separadas. Por meio de avaliações quantitativas e qualitativas, demonstramos a eficácia de nossa estrutura na geração de animações de texto coerentes que interpretam fielmente os prompts do usuário, mantendo a legibilidade. Nosso código está disponível em: https://animate-your-word.github.io/demo/.

MeshLRM: Modelo de Grande Escala para Reconstrução de Malhas de Alta Qualidade
MeshLRM: Large Reconstruction Model for High-Quality Mesh

Apr 18

ByXinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu

Propomos o MeshLRM, uma nova abordagem baseada em LRM que pode reconstruir uma malha de alta qualidade a partir de apenas quatro imagens de entrada em menos de um segundo. Diferente dos modelos anteriores de reconstrução em larga escala (LRMs) que se concentram na reconstrução baseada em NeRF, o MeshLRM incorpora a extração e renderização diferenciável de malhas dentro do framework LRM. Isso permite a reconstrução de malhas de ponta a ponta ao ajustar finamente um LRM NeRF pré-treinado com renderização de malhas. Além disso, aprimoramos a arquitetura do LRM simplificando vários designs complexos dos LRMs anteriores. A inicialização NeRF do MeshLRM é treinada sequencialmente com imagens de baixa e alta resolução; essa nova estratégia de treinamento de LRM permite uma convergência significativamente mais rápida e, consequentemente, resulta em melhor qualidade com menos computação. Nossa abordagem alcança a reconstrução de malhas de última geração a partir de entradas de visão esparsa e também permite muitas aplicações subsequentes, incluindo geração de texto-para-3D e imagem única-para-3D. Página do projeto: https://sarahweiii.github.io/meshlrm/

EdgeFusion: Geração de Texto para Imagem em Dispositivos Locais
EdgeFusion: On-Device Text-to-Image Generation

Apr 18

ByThibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim

A intensa carga computacional do Stable Diffusion (SD) para geração de imagens a partir de texto representa um obstáculo significativo para sua aplicação prática. Para enfrentar esse desafio, pesquisas recentes concentram-se em métodos para reduzir etapas de amostragem, como o Latent Consistency Model (LCM), e na utilização de otimizações arquitetônicas, incluindo poda e destilação de conhecimento. Diferentemente das abordagens existentes, iniciamos de forma única com uma variante compacta do SD, o BK-SDM. Observamos que a aplicação direta do LCM ao BK-SDM com conjuntos de dados rastreados comumente utilizados produz resultados insatisfatórios. Isso nos leva a desenvolver duas estratégias: (1) aproveitar pares de imagem-texto de alta qualidade provenientes de modelos generativos líderes e (2) projetar um processo avançado de destilação personalizado para o LCM. Por meio de nossa exploração detalhada de quantização, perfilamento e implantação em dispositivos, alcançamos a geração rápida de imagens foto-realistas e alinhadas ao texto em apenas duas etapas, com latência inferior a um segundo em dispositivos de borda com recursos limitados.

TriForce: Aceleração sem Perdas na Geração de Sequências Longas com Decodificação Especulativa Hierárquica
TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

Apr 18

ByHanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen

Com a ampla implantação de modelos de linguagem de grande escala (LLMs) na geração de conteúdo longo recentemente, surgiu uma demanda crescente por suporte eficiente para inferência de sequências longas. No entanto, o cache de chave-valor (KV), que é armazenado para evitar recomputação, tornou-se um gargalo crítico ao crescer linearmente em tamanho com o comprimento da sequência. Devido à natureza autorregressiva dos LLMs, todo o cache KV será carregado para cada token gerado, resultando em baixa utilização dos núcleos computacionais e alta latência. Embora vários métodos de compressão para o cache KV tenham sido propostos para aliviar esse problema, eles sofrem com degradação na qualidade da geração. Apresentamos o TriForce, um sistema hierárquico de decodificação especulativa que é escalável para geração de sequências longas. Essa abordagem aproveita os pesos originais do modelo e o cache KV esparso dinâmico via recuperação como um modelo de rascunho, que serve como uma camada intermediária na hierarquia e é ainda especulado por um modelo menor para reduzir sua latência de rascunho. O TriForce não apenas facilita acelerações impressionantes para o Llama2-7B-128K, alcançando até 2,31 vezes em uma GPU A100, mas também demonstra escalabilidade ao lidar com contextos ainda mais longos. Para a configuração de offloading em duas GPUs RTX 4090, o TriForce alcança 0,108s/token—apenas metade da lentidão da linha de base autorregressiva em uma A100, que atinge 7,78 vezes em nosso sistema de offloading otimizado. Além disso, o TriForce performa 4,86 vezes melhor que o DeepSpeed-Zero-Inference em uma única GPU RTX 4090. A robustez do TriForce é destacada por seu desempenho consistentemente excepcional em várias temperaturas. O código está disponível em https://github.com/Infini-AI-Lab/TriForce.

Reutilize Suas Recompensas: Transferência de Modelo de Recompensa para Alinhamento Cross-Lingual Zero-Shot
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

Apr 18

ByZhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami

Alinhar modelos de linguagem (LMs) com base em dados de preferência anotados por humanos é uma etapa crucial para obter sistemas práticos e eficientes baseados em LMs. No entanto, dados de preferência humana multilingues são difíceis de obter em escala, tornando desafiador estender esse framework para diversos idiomas. Neste trabalho, avaliamos uma abordagem simples para o alinhamento cruzado de idiomas em zero-shot, onde um modelo de recompensa é treinado com dados de preferência em um idioma de origem e aplicado diretamente a outros idiomas de destino. Em tarefas de sumarização e geração de diálogo aberto, mostramos que esse método é consistentemente bem-sucedido em configurações de avaliação abrangentes, incluindo avaliação humana: modelos alinhados cruzadamente são preferidos por humanos em relação a modelos não alinhados em mais de 70% das instâncias de avaliação. Além disso, descobrimos que um modelo de recompensa em um idioma diferente às vezes produz modelos mais alinhados do que um modelo de recompensa no mesmo idioma. Também identificamos melhores práticas quando não há dados específicos de idioma disponíveis, nem mesmo para ajuste fino supervisionado, outro componente no processo de alinhamento.

MoA: Mistura de Atenção para Desagregação de Sujeito-Contexto na Geração Personalizada de Imagens
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

Apr 17

ByKuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman

Apresentamos uma nova arquitetura para personalização de modelos de difusão de texto para imagem, denominada Mixture-of-Attention (MoA). Inspirada pelo mecanismo Mixture-of-Experts utilizado em grandes modelos de linguagem (LLMs), a MoA distribui a carga de geração entre dois caminhos de atenção: um ramo personalizado e um ramo de prioridade não personalizado. A MoA foi projetada para preservar o conhecimento prévio do modelo original, fixando suas camadas de atenção no ramo de prioridade, enquanto intervém minimamente no processo de geração com o ramo personalizado, que aprende a incorporar sujeitos no layout e contexto gerados pelo ramo de prioridade. Um mecanismo de roteamento inovador gerencia a distribuição de pixels em cada camada entre esses ramos para otimizar a combinação de criação de conteúdo personalizado e genérico. Uma vez treinada, a MoA facilita a criação de imagens personalizadas de alta qualidade, apresentando múltiplos sujeitos com composições e interações tão diversas quanto as geradas pelo modelo original. Crucialmente, a MoA aprimora a distinção entre a capacidade pré-existente do modelo e a nova intervenção personalizada, oferecendo assim um controle mais desacoplado entre sujeito e contexto, anteriormente inatingível. Página do projeto: https://snap-research.github.io/mixture-of-attention

Apresentamos a versão 0.5 do Benchmark de Segurança em IA do MLCommons.
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18

ByBertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren

Este artigo apresenta a versão 0.5 do AI Safety Benchmark, criado pelo MLCommons AI Safety Working Group. O AI Safety Benchmark foi projetado para avaliar os riscos de segurança de sistemas de IA que utilizam modelos de linguagem ajustados para chat. Introduzimos uma abordagem fundamentada para especificar e construir o benchmark, que na versão 0.5 cobre apenas um caso de uso (um adulto interagindo com um assistente de propósito geral em inglês) e um conjunto limitado de personas (ou seja, usuários típicos, usuários maliciosos e usuários vulneráveis). Criamos uma nova taxonomia de 13 categorias de riscos, das quais 7 possuem testes no benchmark v0.5. Planejamos lançar a versão 1.0 do AI Safety Benchmark até o final de 2024. O benchmark v1.0 fornecerá insights significativos sobre a segurança dos sistemas de IA. No entanto, o benchmark v0.5 não deve ser usado para avaliar a segurança dos sistemas de IA. Buscamos documentar completamente as limitações, falhas e desafios da versão 0.5. Esta versão do AI Safety Benchmark v0.5 inclui: (1) uma abordagem fundamentada para especificar e construir o benchmark, que compreende casos de uso, tipos de sistemas sob teste (SUTs), linguagem e contexto, personas, testes e itens de teste; (2) uma taxonomia de 13 categorias de riscos com definições e subcategorias; (3) testes para sete das categorias de riscos, cada um composto por um conjunto único de itens de teste, ou seja, prompts. Há 43.090 itens de teste no total, criados com modelos; (4) um sistema de classificação para sistemas de IA em relação ao benchmark; (5) uma plataforma disponível publicamente e uma ferramenta para download, chamada ModelBench, que pode ser usada para avaliar a segurança de sistemas de IA no benchmark; (6) um relatório de avaliação de exemplo que compara o desempenho de mais de uma dúzia de modelos de linguagem ajustados para chat disponíveis publicamente; (7) uma especificação de teste para o benchmark.

Apresentamos a versão 0.5 do Benchmark de Segurança em IA do MLCommons.
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18