Artigos de pesquisa em IA selecionados diariamente com traduções
A comunidade BigCode, uma colaboração científico-aberta dedicada ao desenvolvimento responsável de Modelos de Linguagem de Grande Escala para Código (Code LLMs), apresenta o StarCoder e o StarCoderBase: modelos com 15,5 bilhões de parâmetros e comprimento de contexto de 8K, capacidades de preenchimento e inferência rápida em grandes lotes habilitada por atenção multi-consulta. O StarCoderBase foi treinado com 1 trilhão de tokens provenientes de The Stack, uma grande coleção de repositórios do GitHub com licenças permissivas, ferramentas de inspeção e um processo de exclusão. Ajustamos o StarCoderBase com 35 bilhões de tokens em Python, resultando na criação do StarCoder. Realizamos a avaliação mais abrangente de Code LLMs até o momento e demonstramos que o StarCoderBase supera todos os Code LLMs abertos que suportam múltiplas linguagens de programação e iguala ou supera o modelo code-cushman-001 da OpenAI. Além disso, o StarCoder supera todos os modelos ajustados em Python, pode ser instruído para alcançar 40\% de pass@1 no HumanEval, e ainda mantém seu desempenho em outras linguagens de programação. Damos vários passos importantes em direção a um lançamento seguro de modelo de acesso aberto, incluindo um pipeline aprimorado de redação de PII e uma nova ferramenta de rastreamento de atribuição, e disponibilizamos publicamente os modelos StarCoder sob uma versão mais comercialmente viável da licença Open Responsible AI Model.
Neste estudo, iniciamos uma exploração sobre a compreensão de vídeos ao introduzir o VideoChat, um sistema de compreensão de vídeos centrado em chat de ponta a ponta. Ele integra modelos fundamentais de vídeo e modelos de linguagem de grande escala por meio de uma interface neural aprendível, destacando-se no raciocínio espaço-temporal, na localização de eventos e na inferência de relações causais. Para ajustar este sistema de forma instrutiva, propomos um conjunto de dados de instruções centrado em vídeos, composto por milhares de vídeos associados a descrições detalhadas e conversas. Este conjunto de dados enfatiza o raciocínio espaço-temporal e as relações causais, fornecendo um recurso valioso para o treinamento de sistemas de compreensão de vídeos centrados em chat. Experimentos qualitativos preliminares revelam o potencial do nosso sistema em um amplo espectro de aplicações de vídeo e estabelecem o padrão para pesquisas futuras. Acesse nosso código e dados em https://github.com/OpenGVLab/Ask-Anything.
A Inteligência Artificial Generativa (AIGC, também conhecida como conteúdo gerado por IA) tem feito progressos notáveis nos últimos anos, entre os quais a geração de conteúdo guiada por texto é a mais prática, pois permite a interação entre a instrução humana e a AIGC. Devido ao desenvolvimento das tecnologias de texto para imagem e modelagem 3D (como o NeRF), o texto para 3D tornou-se um campo de pesquisa emergente e altamente ativo. Nosso trabalho realiza o primeiro e mais abrangente levantamento sobre texto para 3D, ajudando leitores interessados nessa direção a acompanhar rapidamente seu rápido desenvolvimento. Primeiro, introduzimos as representações de dados 3D, incluindo dados euclidianos e não euclidianos. Além disso, apresentamos várias tecnologias fundamentais e resumimos como trabalhos recentes combinam essas tecnologias para realizar um texto para 3D satisfatório. Além disso, resumimos como a tecnologia de texto para 3D é utilizada em diversas aplicações, incluindo geração de avatares, geração de texturas, transformação de formas e geração de cenários.
A construção de modelos 3D animáveis é desafiadora devido à necessidade de escaneamentos 3D, registros laboriosos e rigging manual, que são difíceis de escalar para categorias arbitrárias. Recentemente, a renderização diferenciável oferece um caminho para obter modelos 3D de alta qualidade a partir de vídeos monoculares, mas esses são limitados a categorias rígidas ou instâncias únicas. Apresentamos o RAC, que constrói modelos 3D de categorias a partir de vídeos monoculares, ao mesmo tempo que desacopla variações entre instâncias e movimentos ao longo do tempo. Três ideias-chave são introduzidas para resolver esse problema: (1) especialização de um esqueleto para instâncias via otimização, (2) um método de regularização do espaço latente que incentiva a estrutura compartilhada em uma categoria, mantendo os detalhes das instâncias, e (3) o uso de modelos 3D de fundo para separar objetos do plano de fundo. Demonstramos que modelos 3D de humanos, gatos e cães podem ser aprendidos a partir de 50 a 100 vídeos da internet.
Apresentamos a Percepção Multimodal Integrada (IMP, do inglês Integrated Multimodal Perception), uma abordagem simples e escalável para treinamento e modelagem multimodal e multitarefa. A IMP integra entradas multimodais, incluindo imagem, vídeo, texto e áudio, em um único codificador Transformer com componentes específicos de modalidade mínimos. A IMP utiliza um design inovador que combina Descida de Gradiente Alternada (AGD, do inglês Alternating Gradient Descent) e Mistura de Especialistas (MoE, do inglês Mixture-of-Experts) para uma escalabilidade eficiente de modelos e tarefas. Realizamos estudos empíricos extensivos sobre a IMP e revelamos os seguintes insights principais: 1) realizar atualizações de descida de gradiente alternando entre diversas modalidades heterogêneas, funções de perda e tarefas, enquanto também varia as resoluções de entrada, melhora eficientemente a compreensão multimodal. 2) a esparsificação do modelo com MoE em um único codificador agnóstico à modalidade melhora substancialmente o desempenho, superando modelos densos que usam codificadores específicos por modalidade ou camadas adicionais de fusão, e mitigando significativamente os conflitos entre modalidades. A IMP alcança desempenho competitivo em uma ampla gama de tarefas subsequentes, incluindo classificação de imagens, classificação de vídeos, recuperação de imagem-texto e vídeo-texto. Mais notavelmente, treinamos uma IMP-MoE-L esparsa focada em tarefas de vídeo que alcança um novo estado da arte em classificação de vídeo zero-shot. Nosso modelo alcança 77,0% no Kinetics-400, 76,8% no Kinetics-600 e 76,8% no Kinetics-700 em precisão de classificação zero-shot, melhorando o estado da arte anterior em +5%, +6,7% e +5,8%, respectivamente, enquanto utiliza apenas 15% do custo computacional total de treinamento desses modelos.
Propomos uma abordagem inovadora para o desenvolvimento de sistemas de recomendação em larga escala que preservam a privacidade, utilizando modelos de linguagem de grande escala (LLMs) com privacidade diferencial (DP), superando certos desafios e limitações no treinamento DP desses sistemas complexos. Nosso método é particularmente adequado para a área emergente de sistemas de recomendação baseados em LLMs, mas pode ser facilmente empregado em qualquer sistema de recomendação que processe representações de entradas em linguagem natural. Nossa abordagem envolve o uso de métodos de treinamento DP para ajustar um LLM pré-treinado publicamente em uma tarefa de geração de consultas. O modelo resultante pode gerar consultas sintéticas privadas representativas das consultas originais, que podem ser livremente compartilhadas para qualquer procedimento de treinamento de recomendação não privado subsequente, sem incorrer em custos adicionais de privacidade. Avaliamos nosso método em sua capacidade de treinar de forma segura modelos de recuperação profunda eficazes, e observamos melhorias significativas na qualidade de recuperação sem comprometer as garantias de privacidade em nível de consulta, em comparação com métodos onde os modelos de recuperação são diretamente treinados com DP.
Para habilitar robôs de propósito geral, será necessário que o robô opere objetos articulados diariamente, como os humanos fazem. Atualmente, a manipulação robótica tem dependido fortemente do uso de uma garra paralela, o que restringe o robô a um conjunto limitado de objetos. Por outro lado, operar com uma mão robótica multifuncional permitirá uma melhor aproximação ao comportamento humano e capacitará o robô a operar em diversos objetos articulados. Para esse fim, propomos um novo benchmark chamado DexArt, que envolve manipulação destra com objetos articulados em um simulador físico. Em nosso benchmark, definimos várias tarefas complexas de manipulação, e a mão robótica precisará manipular diversos objetos articulados em cada tarefa. Nosso foco principal é avaliar a generalização da política aprendida em objetos articulados não vistos. Isso é muito desafiador, considerando os altos graus de liberdade tanto das mãos quanto dos objetos. Utilizamos Aprendizado por Reforço com aprendizado de representação 3D para alcançar generalização. Através de estudos extensivos, fornecemos novos insights sobre como o aprendizado de representação 3D afeta a tomada de decisão no Aprendizado por Reforço com entradas de nuvem de pontos 3D. Mais detalhes podem ser encontrados em https://www.chenbao.tech/dexart/.
Neste artigo, analisamos o desempenho de um modelo transformer multitarefa de ponta a ponta na tarefa de recomendações conversacionais, que visa fornecer recomendações com base nas preferências explícitas de um usuário expressas em diálogo. Enquanto trabalhos anteriores nesta área adotam abordagens multicomponentes complexas, onde o gerenciamento do diálogo e a recomendação de entidades são tratados por componentes separados, mostramos que um modelo transformer unificado, baseado no modelo transformer de texto para texto T5, pode competir tanto na recomendação de itens relevantes quanto na geração de diálogos conversacionais. Ajustamos nosso modelo no conjunto de dados de recomendação de filmes conversacionais ReDIAL e criamos tarefas de treinamento adicionais derivadas do MovieLens (como a previsão de atributos de filmes e filmes relacionados com base em um filme de entrada), em um cenário de aprendizado multitarefa. Por meio de uma série de estudos de sondagem, demonstramos que o conhecimento aprendido nas tarefas adicionais é transferido para o cenário conversacional, onde cada tarefa resulta em um aumento de 9% a 52% em sua pontuação de sondagem relacionada.
Representar o desempenho humano com alta fidelidade é um componente essencial em diversas aplicações, como produção de filmes, jogos de computador ou videoconferências. Para reduzir a lacuna em relação à qualidade de nível de produção, apresentamos o HumanRF, uma representação neural dinâmica 4D de cenas que captura a aparência do corpo inteiro em movimento a partir de vídeos de múltiplas perspectivas e permite a reprodução a partir de novos ângulos não vistos anteriormente. Nossa nova representação atua como uma codificação de vídeo dinâmica que captura detalhes refinados com altas taxas de compressão, fatorizando o espaço-tempo em uma decomposição matricial-vetorial temporal. Isso nos permite obter reconstruções temporalmente coerentes de atores humanos para sequências longas, enquanto representamos detalhes de alta resolução mesmo em cenários de movimento desafiadores. Enquanto a maioria das pesquisas se concentra na síntese em resoluções de 4MP ou menores, abordamos o desafio de operar em 12MP. Para isso, introduzimos o ActorsHQ, um novo conjunto de dados multivista que fornece filmagens em 12MP de 160 câmeras para 16 sequências com reconstruções de malha de alta fidelidade por quadro. Demonstramos os desafios que surgem ao usar dados de tão alta resolução e mostramos que nosso recém-introduzido HumanRF aproveita efetivamente esses dados, dando um passo significativo em direção à síntese de novas perspectivas de qualidade de nível de produção.