HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

13 papers found

Conjunto de Dados Aya: Uma Coleção de Acesso Aberto para Ajuste de Instruções Multilíngue
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Feb 9

ByShivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker

Conjuntos de dados são fundamentais para muitos avanços na inteligência artificial moderna. Muitas conquistas recentes no campo do processamento de linguagem natural (PLN) podem ser atribuídas ao ajuste fino de modelos pré-treinados em um conjunto diversificado de tarefas que permite a um modelo de linguagem de grande escala (LLM) responder a instruções. O ajuste fino por instrução (IFT) requer conjuntos de dados especificamente construídos e anotados. No entanto, os conjuntos de dados existentes são quase todos em inglês. Neste trabalho, nosso principal objetivo é preencher a lacuna linguística criando um conjunto de dados de seguimento de instruções, curado por humanos, abrangendo 65 idiomas. Trabalhamos com falantes fluentes de idiomas de todo o mundo para coletar exemplos naturais de instruções e suas conclusões. Além disso, criamos a coleção multilíngue mais extensa até o momento, compreendendo 513 milhões de instâncias, por meio da modelagem e tradução de conjuntos de dados existentes em 114 idiomas. No total, contribuímos com quatro recursos principais: desenvolvemos e disponibilizamos publicamente a Plataforma de Anotação Aya, o Conjunto de Dados Aya, a Coleção Aya e o Suíte de Avaliação Aya. A iniciativa Aya também serve como um valioso estudo de caso em pesquisa participativa, envolvendo colaboradores de 119 países. Vemos isso como um valioso modelo para futuras colaborações de pesquisa que visam preencher lacunas em recursos.

InternLM-Math: Modelos de Linguagem de Grande Escala para Matemática com Raciocínio Verificável
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

Feb 9

ByHuaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin

As habilidades matemáticas de grandes modelos de linguagem podem representar sua capacidade de raciocínio abstrato. Neste artigo, apresentamos e disponibilizamos em código aberto nossos modelos de raciocínio matemático LLMs, o InternLM-Math, que foi pré-treinado continuamente a partir do InternLM2. Unificamos o raciocínio em cadeia de pensamento, modelagem de recompensa, raciocínio formal, aumento de dados e interpretação de código em um formato seq2seq unificado e supervisionamos nosso modelo para ser um solucionador, verificador, provador e ampliador de problemas matemáticos versátil. Essas habilidades podem ser usadas para desenvolver os próximos LLMs matemáticos ou para auto-iteração. O InternLM-Math alcança desempenho de ponta em código aberto sob a configuração de aprendizado em contexto, ajuste fino supervisionado e raciocínio assistido por código em diversos benchmarks informais e formais, incluindo GSM8K, MATH, exame de matemática da Hungria, MathBench-ZH e MiniF2F. Nosso modelo pré-treinado atinge 30,3 no conjunto de testes MiniF2F sem ajuste fino. Exploramos ainda como usar o LEAN para resolver problemas matemáticos e estudamos seu desempenho sob a configuração de aprendizado multitarefa, o que mostra a possibilidade de usar o LEAN como uma plataforma unificada para resolver e provar em matemática. Nossos modelos, códigos e dados estão disponíveis em https://github.com/InternLM/InternLM-Math.

HeadStudio: Texto para Avatars de Cabeça Animáveis com 3D Gaussian Splatting
HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

Feb 9

ByZhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang

A criação de avatares digitais a partir de prompts textuais tem sido uma tarefa desejável, porém desafiadora. Apesar dos resultados promissores obtidos por meio de priors de difusão 2D em trabalhos recentes, os métodos atuais enfrentam dificuldades para alcançar avatares de alta qualidade e animados de forma eficaz. Neste artigo, apresentamos o HeadStudio, um framework inovador que utiliza o splatting de Gaussianas 3D para gerar avatares realistas e animados a partir de prompts textuais. Nosso método direciona semanticamente as Gaussianas 3D para criar uma aparência flexível e alcançável por meio da representação intermediária FLAME. Especificamente, incorporamos o FLAME tanto na representação 3D quanto na destilação de scores: 1) Splatting de Gaussianas 3D baseado em FLAME, direcionando pontos de Gaussianas 3D ao vincular cada ponto a uma malha FLAME. 2) Amostragem de destilação de scores baseada em FLAME, utilizando um sinal de controle refinado baseado em FLAME para guiar a destilação de scores a partir do prompt textual. Experimentos extensivos demonstram a eficácia do HeadStudio na geração de avatares animáveis a partir de prompts textuais, exibindo aparências visualmente atraentes. Os avatares são capazes de renderizar novas visões de alta qualidade em tempo real (≥ 40 fps) com uma resolução de 1024. Eles podem ser controlados de forma suave por fala e vídeo do mundo real. Esperamos que o HeadStudio avance a criação de avatares digitais e que o método apresentado possa ser amplamente aplicado em diversos domínios.

MusicMagus: Edição de Texto para Música com Zero-Shot via Modelos de Difusão
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Feb 9

ByYixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

Os avanços recentes nos modelos de geração de música a partir de texto abriram novas possibilidades na criatividade musical. No entanto, a geração de música geralmente envolve refinamentos iterativos, e como editar a música gerada continua sendo um desafio significativo. Este artigo apresenta uma abordagem inovadora para a edição de música gerada por esses modelos, permitindo a modificação de atributos específicos, como gênero, humor e instrumento, enquanto mantém outros aspectos inalterados. Nosso método transforma a edição de texto em manipulação do espaço latente, adicionando uma restrição extra para garantir consistência. Ele se integra perfeitamente com modelos de difusão de texto para música pré-treinados existentes, sem a necessidade de treinamento adicional. Os resultados experimentais demonstram um desempenho superior em comparação com abordagens zero-shot e certas baselines supervisionadas em avaliações de transferência de estilo e timbre. Além disso, destacamos a aplicabilidade prática de nossa abordagem em cenários reais de edição musical.

ViGoR: Aprimorando o Aterramento Visual de Grandes Modelos de Linguagem e Visão com Modelagem de Recompensas de Alta Granularidade
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

Feb 9

BySiming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li

Ao combinar a compreensão de linguagem natural e as capacidades de geração e amplitude de conhecimento dos grandes modelos de linguagem com a percepção de imagens, os recentes grandes modelos de visão e linguagem (LVLMs, na sigla em inglês) demonstraram capacidades de raciocínio sem precedentes no mundo real. No entanto, o texto gerado frequentemente sofre com a falta de precisão no enraizamento visual, resultando em erros como a alucinação de elementos inexistentes na cena, a omissão de partes significativas da cena e a inferência incorreta de atributos e relações entre objetos. Para abordar esses problemas, introduzimos uma nova estrutura, o ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), que utiliza modelagem de recompensa em nível granular para aprimorar significativamente o enraizamento visual dos LVLMs em relação às linhas de base pré-treinadas. Essa melhoria é alcançada de forma eficiente utilizando avaliações humanas muito mais baratas em vez de supervisão completa, bem como métodos automatizados. Demonstramos a eficácia de nossa abordagem por meio de diversas métricas em vários benchmarks. Além disso, construímos um conjunto de dados abrangente e desafiador especificamente projetado para validar as capacidades de enraizamento visual dos LVLMs. Por fim, planejamos disponibilizar nossas anotações humanas, que compreendem aproximadamente 16.000 pares de imagens e textos gerados com avaliações granulares, para contribuir com pesquisas relacionadas na comunidade.

Keyframer: Capacitando o Design de Animação com Modelos de Linguagem de Grande Escala
Keyframer: Empowering Animation Design using Large Language Models

Feb 8

ByTiffany Tseng, Ruijia Cheng, Jeffrey Nichols

Modelos de linguagem de grande escala (LLMs) têm o potencial de impactar uma ampla gama de domínios criativos, mas a aplicação de LLMs à animação é pouco explorada e apresenta desafios novos, como a forma como os usuários podem descrever efetivamente o movimento em linguagem natural. Neste artigo, apresentamos o Keyframer, uma ferramenta de design para animar imagens estáticas (SVGs) com linguagem natural. Baseado em entrevistas com designers de animação e engenheiros profissionais, o Keyframer suporta a exploração e o refinamento de animações por meio da combinação de prompts e edição direta da saída gerada. O sistema também permite que os usuários solicitem variantes de design, apoiando a comparação e a ideação. Por meio de um estudo de usuário com 13 participantes, contribuímos com uma caracterização das estratégias de prompting dos usuários, incluindo uma taxonomia de tipos de prompts semânticos para descrever movimento e um estilo de prompting 'decomposto', onde os usuários adaptam continuamente seus objetivos em resposta à saída gerada. Compartilhamos como a edição direta, juntamente com o prompting, permite iterações além das interfaces de prompting único comuns em ferramentas generativas atuais. Por meio deste trabalho, propomos como os LLMs podem capacitar uma variedade de públicos a se envolverem com a criação de animações.

Edição de Modelos com Exemplos Canônicos
Model Editing with Canonical Examples

Feb 9

ByJohn Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning

Apresentamos a edição de modelos com exemplos canônicos, um cenário em que (1) um único exemplo de aprendizado é fornecido para cada comportamento desejado, (2) a avaliação é realizada exclusivamente fora da distribuição, e (3) o desvio de um modelo inicial é estritamente limitado. Um exemplo canônico é uma instância simples de bom comportamento, por exemplo, "A capital de Maurício é Port Louis", ou de mau comportamento, por exemplo, "Um aspecto dos pesquisadores é a frieza". O conjunto de avaliação contém exemplos mais complexos de cada comportamento (como um parágrafo em que a capital de Maurício é solicitada). Criamos três conjuntos de dados e modificamos mais três para a edição de modelos com exemplos canônicos, abrangendo melhorias intensivas em conhecimento, mitigação de viés social e casos extremos sintáticos. Em nossos experimentos com modelos de linguagem Pythia, descobrimos que o LoRA supera o ajuste fino completo e o MEMIT. Em seguida, voltamos nossa atenção para a arquitetura do modelo de linguagem Backpack, pois ela foi projetada para permitir melhorias direcionadas. O Backpack define um grande banco de vetores de sentido—uma decomposição dos diferentes usos de cada palavra—que são ponderados e somados para formar os logits de saída do modelo. Propomos o ajuste fino de sentido, que seleciona e ajusta alguns (aproximadamente 10) vetores de sentido para cada exemplo canônico, e descobrimos que ele supera outros métodos de ajuste fino, por exemplo, uma melhoria de 4,8% contra 0,3%. Por fim, melhoramos o GPT-J-6B por meio de um ensemble em tempo de inferência com apenas as alterações do ajuste fino de sentido de um Backpack 35 vezes menor, em um cenário superando a edição do próprio GPT-J (4,1% vs 1,0%).

Adesivos Animados: Dando Vida aos Adesivos com Difusão de Vídeo
Animated Stickers: Bringing Stickers to Life with Video Diffusion

Feb 8

ByDavid Yan, Winnie Zhang, Luxin Zhang, Anmol Kalia, Dingkang Wang, Ankit Ramchandani, Miao Liu, Albert Pumarola, Edgar Schoenfeld, Elliot Blanchard, Krishna Narni, Yaqiao Luo, Lawrence Chen, Guan Pang, Ali Thabet, Peter Vajda, Amy Bearman, Licheng Yu

Apresentamos os adesivos animados, um modelo de difusão de vídeo que gera uma animação condicionada a um prompt de texto e uma imagem estática de adesivo. Nosso modelo é construído sobre o estado da arte do modelo Emu de texto para imagem, com a adição de camadas temporais para modelar movimento. Devido à lacuna de domínio, ou seja, diferenças no estilo visual e de movimento, um modelo que teve bom desempenho na geração de vídeos naturais não consegue mais gerar vídeos vívidos quando aplicado a adesivos. Para superar essa lacuna, empregamos um pipeline de ajuste fino em duas etapas: primeiro com dados fracamente dentro do domínio, seguido por uma estratégia de humano no loop (HITL) que denominamos conjunto-de-professores. Ela destila as melhores qualidades de múltiplos professores em um modelo estudante menor. Mostramos que essa estratégia nos permite direcionar especificamente melhorias na qualidade do movimento, mantendo o estilo da imagem estática. Com otimizações de inferência, nosso modelo é capaz de gerar um vídeo de oito quadros com movimento de alta qualidade, interessante e relevante em menos de um segundo.

Premier-TACO: Pré-treinamento de Representação Multitarefa por meio de Perda Contrastiva Orientada por Ação Temporal
Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

Feb 9

ByRuijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang

Apresentamos o Premier-TACO, uma abordagem de aprendizado de representação de características multitarefa projetada para melhorar a eficiência do aprendizado de políticas com poucos exemplos em tarefas de tomada de decisão sequencial. O Premier-TACO utiliza um subconjunto de conjuntos de dados offline multitarefa para pré-treinar uma representação de características geral, que captura dinâmicas ambientais críticas e é ajustada com o uso de demonstrações especializadas mínimas. Ele avança o objetivo de aprendizado contrastivo de ação temporal (TACO), conhecido por resultados de ponta em tarefas de controle visual, ao incorporar uma nova estratégia de amostragem de exemplos negativos. Essa estratégia é crucial para aumentar significativamente a eficiência computacional do TACO, tornando viável o pré-treinamento offline em larga escala e multitarefa. Nossa extensa avaliação empírica em um conjunto diversificado de benchmarks de controle contínuo, incluindo o Deepmind Control Suite, MetaWorld e LIBERO, demonstra a eficácia do Premier-TACO no pré-treinamento de representações visuais, melhorando significativamente o aprendizado de imitação com poucos exemplos em novas tarefas. Nosso código, dados de pré-treinamento, bem como checkpoints de modelos pré-treinados, serão disponibilizados em https://github.com/PremierTACO/premier-taco.

SubGen: Geração de Tokens em Tempo e Memória Sublinares
SubGen: Token Generation in Sublinear Time and Memory

Feb 8

ByAmir Zandieh, Insu Han, Vahab Mirrokni, Amin Karbasi

Apesar do sucesso significativo dos grandes modelos de linguagem (LLMs), seus extensos requisitos de memória apresentam desafios para sua implantação na geração de tokens de contexto longo. A pegada de memória substancial dos decodificadores de LLMs surge da necessidade de armazenar todos os tokens anteriores no módulo de atenção, uma exigência imposta pelo cache de chave-valor (KV). Neste trabalho, nosso foco está no desenvolvimento de uma técnica de compressão eficiente para o cache KV. Evidências empíricas indicam uma tendência significativa de agrupamento nos embeddings de chave no módulo de atenção. Com base nessa percepção fundamental, desenvolvemos um novo método de cache com complexidade sublinear, empregando agrupamento online em tokens de chave e amostragem online ell_2 em valores. O resultado é um algoritmo de decodificação de atenção comprovadamente preciso e eficiente, denominado SubGen. Este algoritmo não apenas garante uma pegada de memória sublinear e uma complexidade de tempo sublinear, mas também estabelecemos um limite de erro rigoroso para nossa abordagem. Avaliações empíricas em tarefas de resposta a perguntas de contexto longo demonstram que o SubGen supera significativamente os métodos existentes e de última geração de compressão de cache KV em termos de desempenho e eficiência.

Suprimindo Elefantes Cor-de-Rosa com Feedback Direto de Princípios
Suppressing Pink Elephants with Direct Principle Feedback

Feb 12

ByLouis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman

Os métodos existentes para controlar modelos de linguagem, como RLHF e Constitutional AI, envolvem determinar quais comportamentos de LLM são desejáveis e treiná-los em um modelo de linguagem. No entanto, em muitos casos, é desejável que os LLMs sejam controláveis no momento da inferência, para que possam ser usados em múltiplos contextos com necessidades diversas. Ilustramos isso com o Problema do Elefante Rosa: instruir um LLM a evitar discutir uma certa entidade (um "Elefante Rosa") e, em vez disso, discutir uma entidade preferida ("Elefante Cinza"). Aplicamos uma nova simplificação do Constitutional AI, o Feedback Direto de Princípios (Direct Principle Feedback - DPF), que ignora a classificação de respostas e usa DPO diretamente em críticas e revisões. Nossos resultados mostram que, após o ajuste fino com DPF em nosso conjunto de dados sintético de Elefantes Rosa, nosso modelo LLaMA 2 de 13B ajustado supera significativamente o Llama-2-13B-Chat e uma linha de base com prompts, e tem um desempenho tão bom quanto o GPT-4 em nosso conjunto de testes curados que avalia o Problema do Elefante Rosa.

DeAL: Alinhamento no Tempo de Decodificação para Modelos de Linguagem de Grande Escala
DeAL: Decoding-time Alignment for Large Language Models

Feb 5

ByJames Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta, Nikolaos Pappas, Saab Mansour, Katrin Kirchoff, Dan Roth

Grandes Modelos de Linguagem (LLMs) são atualmente esperados para gerar conteúdo alinhado com as preferências humanas. O trabalho atual foca no alinhamento durante o treinamento do modelo, através de técnicas como Aprendizado por Reforço com Feedback Humano (RLHF). No entanto, não está claro se tais métodos são uma escolha eficaz para ensinar objetivos de alinhamento ao modelo. Primeiro, a incapacidade de incorporar múltiplas recompensas personalizadas e a dependência da visão do desenvolvedor do modelo sobre princípios universais e estáticos são limitações-chave. Segundo, as lacunas residuais no treinamento do modelo e a confiabilidade de tais abordagens também são questionáveis (por exemplo, suscetibilidade a jail-breaking mesmo após o treinamento de segurança). Para abordar esses problemas, propomos o DeAL, um framework que permite ao usuário personalizar funções de recompensa e possibilita o Alinhamento no Tempo de Decodificação de LLMs (DeAL). Em sua essência, vemos a decodificação como um processo de busca guiada por heurísticas e facilitamos o uso de uma ampla variedade de objetivos de alinhamento. Nossos experimentos com restrições programáticas, como restrições de palavras-chave e de comprimento (amplamente estudadas na era pré-LLM), e objetivos abstratos, como inofensividade e utilidade (propostos na era pós-LLM), mostram que podemos lidar com trade-offs refinados, melhorar a adesão aos objetivos de alinhamento e abordar lacunas residuais em LLMs. Por fim, embora o DeAL possa ser efetivamente combinado com técnicas de RLHF e prompting, sua generalidade torna a decodificação mais lenta, uma otimização que deixamos para trabalhos futuros.

Controle de Corpo Rígido Orientado por Fluido no Mundo Real via Aprendizado por Reforço Profundo
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning

Feb 8

ByMohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli

Os avanços recentes nas aplicações do mundo real do aprendizado por reforço (RL, do inglês *Reinforcement Learning*) têm dependido da capacidade de simular sistemas com precisão em grande escala. No entanto, domínios como os sistemas de dinâmica de fluidos exibem fenômenos dinâmicos complexos que são difíceis de simular em altas taxas de integração, limitando a aplicação direta de algoritmos modernos de RL profundo em hardware frequentemente caro ou crítico para a segurança. Neste trabalho, apresentamos o "Box o Flows", um novo sistema experimental de controle em bancada para avaliar sistematicamente algoritmos de RL em cenários dinâmicos do mundo real. Descrevemos os principais componentes do Box o Flows e, por meio de uma série de experimentos, demonstramos como algoritmos de RL *model-free* de última geração podem sintetizar uma variedade de comportamentos complexos por meio de especificações simples de recompensa. Além disso, exploramos o papel do RL offline em testes de hipóteses com eficiência de dados, reutilizando experiências passadas. Acreditamos que os insights obtidos neste estudo preliminar e a disponibilidade de sistemas como o Box o Flows apoiam o caminho para o desenvolvimento de algoritmos de RL sistemáticos que possam ser aplicados de forma geral a sistemas complexos e dinâmicos. Material suplementar e vídeos dos experimentos estão disponíveis em https://sites.google.com/view/box-o-flows/home.

Conjunto de Dados Aya: Uma Coleção de Acesso Aberto para Ajuste de Instruções Multilíngue
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Feb 9