Artigos de pesquisa em IA selecionados diariamente com traduções
O rápido desenvolvimento de grandes modelos de linguagem revolucionou a inteligência de código no desenvolvimento de software. No entanto, a predominância de modelos de código fechado tem restringido pesquisas e desenvolvimentos extensivos. Para abordar isso, apresentamos a série DeepSeek-Coder, uma gama de modelos de código de código aberto com tamanhos variando de 1,3B a 33B, treinados do zero com 2 trilhões de tokens. Esses modelos são pré-treinados em um corpus de código de alta qualidade em nível de projeto e empregam uma tarefa de preenchimento de lacunas com uma janela de 16K para aprimorar a geração e o preenchimento de código. Nossas extensivas avaliações demonstram que o DeepSeek-Coder não apenas alcança desempenho de ponta entre os modelos de código de código aberto em vários benchmarks, mas também supera modelos de código fechado existentes, como Codex e GPT-3.5. Além disso, os modelos DeepSeek-Coder estão sob uma licença permissiva que permite tanto pesquisa quanto uso comercial irrestrito.
À medida que as compras online crescem, a capacidade dos compradores de visualizar virtualmente produtos em seus ambientes - um fenômeno que definimos como "Virtual Try-All" - tornou-se crucial. Modelos de difusão recentes contêm inerentemente um modelo de mundo, tornando-os adequados para essa tarefa em um contexto de inpainting. No entanto, modelos tradicionais de difusão condicionados por imagem frequentemente falham em capturar os detalhes refinados dos produtos. Em contraste, modelos orientados por personalização, como o DreamPaint, são bons em preservar os detalhes do item, mas não são otimizados para aplicações em tempo real. Apresentamos "Diffuse to Choose", um novo modelo de inpainting condicionado por imagem baseado em difusão que equilibra eficientemente inferência rápida com a retenção de detalhes de alta fidelidade em um item de referência, garantindo manipulações semânticas precisas no conteúdo da cena. Nossa abordagem baseia-se na incorporação de características refinadas da imagem de referência diretamente nos mapas de características latentes do modelo principal de difusão, juntamente com uma perda perceptual para preservar ainda mais os detalhes do item de referência. Realizamos testes extensivos em conjuntos de dados internos e publicamente disponíveis, e mostramos que o Diffuse to Choose é superior aos métodos existentes de inpainting por difusão zero-shot, bem como aos algoritmos de personalização de difusão few-shot, como o DreamPaint.
Neste trabalho, reexaminamos as dependências entre patches no mecanismo de decodificação de autoencoders mascarados (MAE). Decompomos esse mecanismo de decodificação para reconstrução de patches mascarados no MAE em auto-atenção e atenção cruzada. Nossas investigações sugerem que a auto-atenção entre patches mascarados não é essencial para aprender boas representações. Para tanto, propomos um novo framework de pré-treinamento: Cross-Attention Masked Autoencoders (CrossMAE). O decodificador do CrossMAE utiliza apenas atenção cruzada entre tokens mascarados e visíveis, sem degradação no desempenho em tarefas subsequentes. Esse design também permite decodificar apenas um pequeno subconjunto de tokens mascarados, aumentando a eficiência. Além disso, cada bloco do decodificador pode agora aproveitar diferentes características do codificador, resultando em uma melhoria na aprendizagem de representações. O CrossMAE iguala o desempenho do MAE com 2,5 a 3,7 vezes menos computação de decodificação. Ele também supera o MAE na classificação do ImageNet e na segmentação de instâncias do COCO sob a mesma quantidade de computação. Código e modelos: https://crossmae.github.io
No cenário dinâmico da PNL generativa, os pipelines tradicionais de processamento de texto limitam a flexibilidade e a reprodutibilidade da pesquisa, pois são adaptados a combinações específicas de conjuntos de dados, tarefas e modelos. A complexidade crescente, envolvendo prompts de sistema, formatos específicos de modelos, instruções e mais, exige uma mudança para uma solução estruturada, modular e personalizável. Atendendo a essa necessidade, apresentamos o Unitxt, uma biblioteca inovadora para a preparação e avaliação personalizável de dados textuais, projetada para modelos de linguagem generativos. O Unitxt integra-se nativamente a bibliotecas comuns como HuggingFace e LM-eval-harness e desconstroi fluxos de processamento em componentes modulares, permitindo fácil personalização e compartilhamento entre profissionais. Esses componentes abrangem formatos específicos de modelos, prompts de tarefas e muitas outras definições abrangentes de processamento de conjuntos de dados. O Unitxt-Catalog centraliza esses componentes, promovendo colaboração e exploração em fluxos de trabalho modernos de dados textuais. Além de ser uma ferramenta, o Unitxt é uma plataforma impulsionada pela comunidade, capacitando os usuários a construir, compartilhar e avançar seus pipelines de forma colaborativa. Junte-se à comunidade Unitxt em https://github.com/IBM/unitxt!
A quantização de seis bits (FP6) pode reduzir efetivamente o tamanho de grandes modelos de linguagem (LLMs) e preservar a qualidade do modelo de forma consistente em diversas aplicações. No entanto, os sistemas existentes não oferecem suporte a Tensor Cores para quantização FP6 e lutam para alcançar melhorias práticas de desempenho durante a inferência de LLMs. É desafiador suportar a quantização FP6 em GPUs devido a (1) acesso à memória desfavorável de pesos de modelo com largura de bits irregular e (2) alta sobrecarga de tempo de execução na desquantização de pesos. Para resolver esses problemas, propomos o TC-FPx, o primeiro esquema de design de kernel GPU full-stack com suporte unificado a Tensor Cores para pesos de ponto flutuante com várias larguras de bits de quantização. Integramos o kernel TC-FPx em um sistema de inferência existente, fornecendo um novo suporte de ponta a ponta (chamado FP6-LLM) para inferência de LLMs quantizados, onde são alcançados melhores trade-offs entre custo de inferência e qualidade do modelo. Experimentos mostram que o FP6-LLM permite a inferência de LLaMA-70b usando apenas uma única GPU, alcançando uma taxa de transferência de inferência normalizada 1,69x-2,65x maior que a linha de base FP16. O código-fonte estará disponível publicamente em breve.
Neste estudo, examinamos as capacidades de aprendizado de representação dos Modelos de Difusão de Ruído (DDM, na sigla em inglês), originalmente desenvolvidos para geração de imagens. Nossa filosofia é desconstruir um DDM, transformando-o gradualmente em um Autoencoder de Ruído (DAE, na sigla em inglês) clássico. Esse procedimento desconstrucionista nos permite explorar como diversos componentes dos DDMs modernos influenciam o aprendizado de representação auto-supervisionado. Observamos que apenas alguns poucos componentes modernos são críticos para o aprendizado de boas representações, enquanto muitos outros são dispensáveis. Nosso estudo culmina em uma abordagem altamente simplificada que, em grande medida, se assemelha a um DAE clássico. Esperamos que nosso estudo reacenda o interesse em uma família de métodos clássicos no âmbito do aprendizado auto-supervisionado moderno.
Propomos melhorar transformadores de uma modalidade específica com dados irrelevantes de outras modalidades, por exemplo, aprimorar um modelo do ImageNet com conjuntos de dados de áudio ou nuvens de pontos. Gostaríamos de destacar que as amostras de dados da modalidade alvo são irrelevantes para as outras modalidades, o que distingue nosso método de outros trabalhos que utilizam dados pareados (por exemplo, CLIP) ou intercalados de diferentes modalidades. Propomos uma metodologia chamada Multimodal Pathway - dada uma modalidade alvo e um transformador projetado para ela, utilizamos um transformador auxiliar treinado com dados de outra modalidade e construímos caminhos para conectar componentes dos dois modelos, de modo que os dados da modalidade alvo possam ser processados por ambos os modelos. Dessa forma, utilizamos as habilidades universais de modelagem sequência-a-sequência dos transformadores obtidas de duas modalidades. Como uma implementação concreta, usamos um tokenizer específico da modalidade e um cabeçalho específico da tarefa, como de costume, mas utilizamos os blocos do transformador do modelo auxiliar por meio de um método proposto chamado Re-parametrização Cross-Modal, que explora os pesos auxiliares sem custos adicionais de inferência. Nas tarefas de reconhecimento de imagens, nuvens de pontos, vídeos e áudio, observamos melhorias de desempenho significativas e consistentes com dados irrelevantes de outras modalidades. O código e os modelos estão disponíveis em https://github.com/AILab-CVC/M2PT.
Apresentamos o pix2gestalt, uma estrutura para segmentação amodal de zero-shot, que aprende a estimar a forma e a aparência de objetos inteiros que estão apenas parcialmente visíveis atrás de oclusões. Ao aproveitar modelos de difusão em larga escala e transferir suas representações para essa tarefa, aprendemos um modelo de difusão condicional para reconstruir objetos inteiros em casos desafiadores de zero-shot, incluindo exemplos que quebram prioridades naturais e físicas, como arte. Como dados de treinamento, usamos um conjunto de dados sinteticamente curado contendo objetos ocluídos pareados com suas contrapartes inteiras. Experimentos mostram que nossa abordagem supera baselines supervisionadas em benchmarks estabelecidos. Nosso modelo pode ainda ser usado para melhorar significativamente o desempenho de métodos existentes de reconhecimento de objetos e reconstrução 3D na presença de oclusões.
A implantação de robôs em ambientes abertos e não estruturados, como residências, tem sido um problema de pesquisa de longa data. No entanto, os robôs são frequentemente estudados apenas em ambientes de laboratório controlados, e trabalhos anteriores em manipulação móvel são restritos a tarefas de pegar-mover-colocar, o que é, sem dúvida, apenas a ponta do iceberg nessa área. Neste artigo, apresentamos o Sistema de Manipulação Móvel em Mundo Aberto, uma abordagem de pilha completa para lidar com a operação realista de objetos articulados, como portas, armários, gavetas e geladeiras do mundo real, em ambientes abertos e não estruturados. O robô utiliza uma estrutura de aprendizado adaptativo para inicialmente aprender a partir de um pequeno conjunto de dados por meio de clonagem de comportamento, seguido por aprendizado a partir de prática online em novos objetos que estão fora da distribuição de treinamento. Também desenvolvemos uma plataforma de hardware de manipulação móvel de baixo custo, capaz de adaptação autônoma e segura em ambientes não estruturados, com um custo de aproximadamente 20.000 dólares. Em nossos experimentos, utilizamos 20 objetos articulados em 4 edifícios no campus da CMU. Com menos de uma hora de aprendizado online para cada objeto, o sistema foi capaz de aumentar a taxa de sucesso de 50% do pré-treinamento por clonagem de comportamento para 95% usando adaptação online. Resultados em vídeo estão disponíveis em https://open-world-mobilemanip.github.io/.
A falta de dados de alta qualidade para tarefas de geração baseada em conteúdo tem sido identificada como um grande obstáculo para o avanço dessas tarefas. Para abordar essa lacuna, propomos o Genie, um método novo para gerar automaticamente dados de alta qualidade baseados em conteúdo. Ele consiste em três etapas: (a) Preparação de Conteúdo, (b) Geração: criação de exemplos específicos para a tarefa a partir do conteúdo (por exemplo, pares pergunta-resposta ou resumos). (c) Mecanismo de filtragem que visa garantir a qualidade e a fidelidade dos dados gerados. Demonstramos essa metodologia gerando três conjuntos de dados sintéticos em larga escala, desejos, para Resposta de Perguntas de Longo Formato (LFQA), sumarização e extração de informações. Em uma avaliação humana, nossos dados gerados foram considerados naturais e de alta qualidade. Além disso, comparamos modelos treinados com nossos dados com modelos treinados com dados escritos por humanos — ELI5 e ASQA para LFQA e CNN-DailyMail para Sumarização. Mostramos que nossos modelos estão em pé de igualdade ou superam modelos treinados com dados gerados por humanos e consistentemente os superam em fidelidade. Por fim, aplicamos nosso método para criar dados de LFQA no domínio médico e comparamos um modelo treinado com eles com modelos treinados em outros domínios.