HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

9 papers found

StarCoder: que o código-fonte esteja com você!
StarCoder: may the source be with you!

May 9

ByRaymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, João Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nour Fahmy, Urvashi Bhattacharyya, Wenhao Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jan Ebert, Tri Dao, Mayank Mishra, Alex Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Muñoz Ferrandis, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries

A comunidade BigCode, uma colaboração científico-aberta dedicada ao desenvolvimento responsável de Modelos de Linguagem de Grande Escala para Código (Code LLMs), apresenta o StarCoder e o StarCoderBase: modelos com 15,5 bilhões de parâmetros e comprimento de contexto de 8K, capacidades de preenchimento e inferência rápida em grandes lotes habilitada por atenção multi-consulta. O StarCoderBase foi treinado com 1 trilhão de tokens provenientes de The Stack, uma grande coleção de repositórios do GitHub com licenças permissivas, ferramentas de inspeção e um processo de exclusão. Ajustamos o StarCoderBase com 35 bilhões de tokens em Python, resultando na criação do StarCoder. Realizamos a avaliação mais abrangente de Code LLMs até o momento e demonstramos que o StarCoderBase supera todos os Code LLMs abertos que suportam múltiplas linguagens de programação e iguala ou supera o modelo code-cushman-001 da OpenAI. Além disso, o StarCoder supera todos os modelos ajustados em Python, pode ser instruído para alcançar 40\% de pass@1 no HumanEval, e ainda mantém seu desempenho em outras linguagens de programação. Damos vários passos importantes em direção a um lançamento seguro de modelo de acesso aberto, incluindo um pipeline aprimorado de redação de PII e uma nova ferramenta de rastreamento de atribuição, e disponibilizamos publicamente os modelos StarCoder sob uma versão mais comercialmente viável da licença Open Responsible AI Model.

VideoChat: Compreensão de Vídeo Centrada em Chat
VideoChat: Chat-Centric Video Understanding

May 10

ByKunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao

Neste estudo, iniciamos uma exploração sobre a compreensão de vídeos ao introduzir o VideoChat, um sistema de compreensão de vídeos centrado em chat de ponta a ponta. Ele integra modelos fundamentais de vídeo e modelos de linguagem de grande escala por meio de uma interface neural aprendível, destacando-se no raciocínio espaço-temporal, na localização de eventos e na inferência de relações causais. Para ajustar este sistema de forma instrutiva, propomos um conjunto de dados de instruções centrado em vídeos, composto por milhares de vídeos associados a descrições detalhadas e conversas. Este conjunto de dados enfatiza o raciocínio espaço-temporal e as relações causais, fornecendo um recurso valioso para o treinamento de sistemas de compreensão de vídeos centrados em chat. Experimentos qualitativos preliminares revelam o potencial do nosso sistema em um amplo espectro de aplicações de vídeo e estabelecem o padrão para pesquisas futuras. Acesse nosso código e dados em https://github.com/OpenGVLab/Ask-Anything.

Inteligência Artificial Generativa encontra o 3D: Uma Análise sobre Texto-para-3D na Era da AIGC
Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era

May 10

ByChenghao Li, Chaoning Zhang, Atish Waghwase, Lik-Hang Lee, Francois Rameau, Yang Yang, Sung-Ho Bae, Choong Seon Hong

A Inteligência Artificial Generativa (AIGC, também conhecida como conteúdo gerado por IA) tem feito progressos notáveis nos últimos anos, entre os quais a geração de conteúdo guiada por texto é a mais prática, pois permite a interação entre a instrução humana e a AIGC. Devido ao desenvolvimento das tecnologias de texto para imagem e modelagem 3D (como o NeRF), o texto para 3D tornou-se um campo de pesquisa emergente e altamente ativo. Nosso trabalho realiza o primeiro e mais abrangente levantamento sobre texto para 3D, ajudando leitores interessados nessa direção a acompanhar rapidamente seu rápido desenvolvimento. Primeiro, introduzimos as representações de dados 3D, incluindo dados euclidianos e não euclidianos. Além disso, apresentamos várias tecnologias fundamentais e resumimos como trabalhos recentes combinam essas tecnologias para realizar um texto para 3D satisfatório. Além disso, resumimos como a tecnologia de texto para 3D é utilizada em diversas aplicações, incluindo geração de avatares, geração de texturas, transformação de formas e geração de cenários.

Reconstruindo Categorias Animáveis a partir de Vídeos
Reconstructing Animatable Categories from Videos

May 10

ByGengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan

A construção de modelos 3D animáveis é desafiadora devido à necessidade de escaneamentos 3D, registros laboriosos e rigging manual, que são difíceis de escalar para categorias arbitrárias. Recentemente, a renderização diferenciável oferece um caminho para obter modelos 3D de alta qualidade a partir de vídeos monoculares, mas esses são limitados a categorias rígidas ou instâncias únicas. Apresentamos o RAC, que constrói modelos 3D de categorias a partir de vídeos monoculares, ao mesmo tempo que desacopla variações entre instâncias e movimentos ao longo do tempo. Três ideias-chave são introduzidas para resolver esse problema: (1) especialização de um esqueleto para instâncias via otimização, (2) um método de regularização do espaço latente que incentiva a estrutura compartilhada em uma categoria, mantendo os detalhes das instâncias, e (3) o uso de modelos 3D de fundo para separar objetos do plano de fundo. Demonstramos que modelos 3D de humanos, gatos e cães podem ser aprendidos a partir de 50 a 100 vídeos da internet.

Descida de Gradiente Alternada e Mistura de Especialistas para Percepção Multimodal Integrada
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

May 10

ByHassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam

Apresentamos a Percepção Multimodal Integrada (IMP, do inglês Integrated Multimodal Perception), uma abordagem simples e escalável para treinamento e modelagem multimodal e multitarefa. A IMP integra entradas multimodais, incluindo imagem, vídeo, texto e áudio, em um único codificador Transformer com componentes específicos de modalidade mínimos. A IMP utiliza um design inovador que combina Descida de Gradiente Alternada (AGD, do inglês Alternating Gradient Descent) e Mistura de Especialistas (MoE, do inglês Mixture-of-Experts) para uma escalabilidade eficiente de modelos e tarefas. Realizamos estudos empíricos extensivos sobre a IMP e revelamos os seguintes insights principais: 1) realizar atualizações de descida de gradiente alternando entre diversas modalidades heterogêneas, funções de perda e tarefas, enquanto também varia as resoluções de entrada, melhora eficientemente a compreensão multimodal. 2) a esparsificação do modelo com MoE em um único codificador agnóstico à modalidade melhora substancialmente o desempenho, superando modelos densos que usam codificadores específicos por modalidade ou camadas adicionais de fusão, e mitigando significativamente os conflitos entre modalidades. A IMP alcança desempenho competitivo em uma ampla gama de tarefas subsequentes, incluindo classificação de imagens, classificação de vídeos, recuperação de imagem-texto e vídeo-texto. Mais notavelmente, treinamos uma IMP-MoE-L esparsa focada em tarefas de vídeo que alcança um novo estado da arte em classificação de vídeo zero-shot. Nosso modelo alcança 77,0% no Kinetics-400, 76,8% no Kinetics-600 e 76,8% no Kinetics-700 em precisão de classificação zero-shot, melhorando o estado da arte anterior em +5%, +6,7% e +5,8%, respectivamente, enquanto utiliza apenas 15% do custo computacional total de treinamento desses modelos.

Sistemas de Recomendação com Preservação de Privacidade e Geração de Consultas Sintéticas Utilizando Modelos de Linguagem de Grande Escala com Privacidade Diferencial
Privacy-Preserving Recommender Systems with Synthetic Query Generation using Differentially Private Large Language Models

May 10

ByAldo Gael Carranza, Rezsa Farahani, Natalia Ponomareva, Alex Kurakin, Matthew Jagielski, Milad Nasr

Propomos uma abordagem inovadora para o desenvolvimento de sistemas de recomendação em larga escala que preservam a privacidade, utilizando modelos de linguagem de grande escala (LLMs) com privacidade diferencial (DP), superando certos desafios e limitações no treinamento DP desses sistemas complexos. Nosso método é particularmente adequado para a área emergente de sistemas de recomendação baseados em LLMs, mas pode ser facilmente empregado em qualquer sistema de recomendação que processe representações de entradas em linguagem natural. Nossa abordagem envolve o uso de métodos de treinamento DP para ajustar um LLM pré-treinado publicamente em uma tarefa de geração de consultas. O modelo resultante pode gerar consultas sintéticas privadas representativas das consultas originais, que podem ser livremente compartilhadas para qualquer procedimento de treinamento de recomendação não privado subsequente, sem incorrer em custos adicionais de privacidade. Avaliamos nosso método em sua capacidade de treinar de forma segura modelos de recuperação profunda eficazes, e observamos melhorias significativas na qualidade de recuperação sem comprometer as garantias de privacidade em nível de consulta, em comparação com métodos onde os modelos de recuperação são diretamente treinados com DP.

DexArt: Avaliação de Manipulação Habilidosa Generalizável com Objetos Articulados
DexArt: Benchmarking Generalizable Dexterous Manipulation with Articulated Objects

May 9

ByChen Bao, Helin Xu, Yuzhe Qin, Xiaolong Wang

Para habilitar robôs de propósito geral, será necessário que o robô opere objetos articulados diariamente, como os humanos fazem. Atualmente, a manipulação robótica tem dependido fortemente do uso de uma garra paralela, o que restringe o robô a um conjunto limitado de objetos. Por outro lado, operar com uma mão robótica multifuncional permitirá uma melhor aproximação ao comportamento humano e capacitará o robô a operar em diversos objetos articulados. Para esse fim, propomos um novo benchmark chamado DexArt, que envolve manipulação destra com objetos articulados em um simulador físico. Em nosso benchmark, definimos várias tarefas complexas de manipulação, e a mão robótica precisará manipular diversos objetos articulados em cada tarefa. Nosso foco principal é avaliar a generalização da política aprendida em objetos articulados não vistos. Isso é muito desafiador, considerando os altos graus de liberdade tanto das mãos quanto dos objetos. Utilizamos Aprendizado por Reforço com aprendizado de representação 3D para alcançar generalização. Através de estudos extensivos, fornecemos novos insights sobre como o aprendizado de representação 3D afeta a tomada de decisão no Aprendizado por Reforço com entradas de nuvem de pontos 3D. Mais detalhes podem ser encontrados em https://www.chenbao.tech/dexart/.

O Treinamento Multi-Tarefa de Ponta a Ponta Melhora a Recomendação Conversacional
Multi-Task End-to-End Training Improves Conversational Recommendation

May 8

ByNaveen Ram, Dima Kuzmin, Ellie Ka In Chio, Moustafa Farid Alzantot, Santiago Ontanon, Ambarish Jash, Judith Yue Li

Neste artigo, analisamos o desempenho de um modelo transformer multitarefa de ponta a ponta na tarefa de recomendações conversacionais, que visa fornecer recomendações com base nas preferências explícitas de um usuário expressas em diálogo. Enquanto trabalhos anteriores nesta área adotam abordagens multicomponentes complexas, onde o gerenciamento do diálogo e a recomendação de entidades são tratados por componentes separados, mostramos que um modelo transformer unificado, baseado no modelo transformer de texto para texto T5, pode competir tanto na recomendação de itens relevantes quanto na geração de diálogos conversacionais. Ajustamos nosso modelo no conjunto de dados de recomendação de filmes conversacionais ReDIAL e criamos tarefas de treinamento adicionais derivadas do MovieLens (como a previsão de atributos de filmes e filmes relacionados com base em um filme de entrada), em um cenário de aprendizado multitarefa. Por meio de uma série de estudos de sondagem, demonstramos que o conhecimento aprendido nas tarefas adicionais é transferido para o cenário conversacional, onde cada tarefa resulta em um aumento de 9% a 52% em sua pontuação de sondagem relacionada.

HumanRF: Campos de Radiação Neural de Alta Fidelidade para Humanos em Movimento
HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion

May 10

ByMustafa Işık, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nießner

Representar o desempenho humano com alta fidelidade é um componente essencial em diversas aplicações, como produção de filmes, jogos de computador ou videoconferências. Para reduzir a lacuna em relação à qualidade de nível de produção, apresentamos o HumanRF, uma representação neural dinâmica 4D de cenas que captura a aparência do corpo inteiro em movimento a partir de vídeos de múltiplas perspectivas e permite a reprodução a partir de novos ângulos não vistos anteriormente. Nossa nova representação atua como uma codificação de vídeo dinâmica que captura detalhes refinados com altas taxas de compressão, fatorizando o espaço-tempo em uma decomposição matricial-vetorial temporal. Isso nos permite obter reconstruções temporalmente coerentes de atores humanos para sequências longas, enquanto representamos detalhes de alta resolução mesmo em cenários de movimento desafiadores. Enquanto a maioria das pesquisas se concentra na síntese em resoluções de 4MP ou menores, abordamos o desafio de operar em 12MP. Para isso, introduzimos o ActorsHQ, um novo conjunto de dados multivista que fornece filmagens em 12MP de 160 câmeras para 16 sequências com reconstruções de malha de alta fidelidade por quadro. Demonstramos os desafios que surgem ao usar dados de tão alta resolução e mostramos que nosso recém-introduzido HumanRF aproveita efetivamente esses dados, dando um passo significativo em direção à síntese de novas perspectivas de qualidade de nível de produção.

StarCoder: que o código-fonte esteja com você!
StarCoder: may the source be with you!

May 9