Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de Linguagem de Grande Porte para Código (Code LLM) estão em pleno desenvolvimento. Novos e poderosos modelos são lançados semanalmente, demonstrando desempenho notável na tarefa de geração de código. Várias abordagens têm sido propostas para impulsionar o desempenho de geração de código de Code LLMs pré-treinados, como ajuste fino supervisionado, ajuste por instrução, aprendizado por reforço, entre outros. Neste artigo, propomos uma nova estrutura RRTF (Rank Responses to align Test&Teacher Feedback), que pode impulsionar de forma eficaz e eficiente modelos de linguagem de grande porte pré-treinados para geração de código. Sob essa estrutura, apresentamos o PanGu-Coder2, que alcança 62,20% de pass@1 no benchmark OpenAI HumanEval. Além disso, por meio de uma avaliação extensiva nos benchmarks CoderEval e LeetCode, mostramos que o PanGu-Coder2 supera consistentemente todos os Code LLMs anteriores.
Apresentamos o TransNormerLLM, o primeiro Modelo de Linguagem de Grande Escala (LLM) baseado em atenção linear que supera os modelos convencionais baseados em atenção softmax tanto em precisão quanto em eficiência. O TransNormerLLM evolui da arquitetura de atenção linear anterior, o TransNormer, por meio de modificações avançadas que incluem incorporação posicional, aceleração de atenção linear, mecanismo de portão, normalização de tensores, aceleração e estabilização de inferência. Especificamente, utilizamos o LRPE juntamente com um decaimento exponencial para evitar problemas de diluição de atenção, permitindo que o modelo mantenha interações globais entre os tokens. Além disso, propomos o Lightning Attention, uma técnica de ponta que acelera a atenção linear em mais de duas vezes no tempo de execução e reduz o uso de memória em impressionantes quatro vezes. Para aprimorar ainda mais o desempenho do TransNormer, empregamos um mecanismo de portão para suavizar o treinamento e um novo esquema de normalização de tensores para acelerar o modelo, resultando em uma aceleração impressionante de mais de 20%. Adicionalmente, desenvolvemos um algoritmo robusto de inferência que garante estabilidade numérica e velocidade de inferência consistente, independentemente do comprimento da sequência, demonstrando eficiência superior tanto nas etapas de treinamento quanto de inferência. A escalabilidade está no cerne do design do nosso modelo, permitindo implantação contínua em clusters de grande escala e facilitando a expansão para modelos ainda mais extensos, tudo isso mantendo métricas de desempenho excepcionais. A validação rigorosa do design do nosso modelo é alcançada por meio de uma série de experimentos abrangentes em nosso corpus auto-coletado, que possui um tamanho superior a 6TB e contém mais de 2 trilhões de tokens. Para garantir a qualidade e relevância dos dados, implementamos uma nova estratégia de autolimpeza para filtrar os dados coletados. Nossos modelos pré-treinados serão disponibilizados para promover avanços da comunidade em LLMs eficientes.
Apresentamos um framework para aquisição de habilidades robóticas, que 1) escala eficientemente a geração de dados rotulados por linguagem para robôs e 2) destila efetivamente esses dados em uma política visuo-motora robusta e condicionada por linguagem para múltiplas tarefas. Para (1), utilizamos um modelo de linguagem de grande escala (LLM) para guiar o planejamento de alto nível, e planejadores robóticos baseados em amostragem (por exemplo, amostradores de movimento ou de preensão) para gerar trajetórias de manipulação diversas e ricas. Para robustecer esse processo de coleta de dados, o LLM também infere um trecho de código para a condição de sucesso de cada tarefa, permitindo simultaneamente que o processo de coleta de dados detecte falhas e tente novamente, além de rotular automaticamente as trajetórias com sucesso/fracasso. Para (2), estendemos a abordagem de clonagem comportamental de tarefa única da política de difusão para configurações de múltiplas tarefas com condicionamento por linguagem. Por fim, propomos um novo benchmark de múltiplas tarefas com 18 tarefas em cinco domínios para testar comportamentos de longo horizonte, raciocínio de senso comum, uso de ferramentas e física intuitiva. Descobrimos que nossa política destilada aprendeu com sucesso o comportamento robusto de tentativa repetida de sua política de coleta de dados, enquanto melhorou as taxas de sucesso absoluto em 34,8% em média nos cinco domínios. O benchmark, o código e os resultados qualitativos estão disponíveis em nosso site: https://www.cs.columbia.edu/~huy/scalingup/
O rastreamento visual de objetos é uma tarefa fundamental em vídeo na visão computacional. Recentemente, o poder notavelmente crescente dos algoritmos de percepção permite a unificação do rastreamento de objetos únicos/múltiplos e baseado em caixas/máscaras. Entre eles, o Segment Anything Model (SAM) atrai muita atenção. Neste relatório, propomos o HQTrack, uma estrutura para Rastreamento de Alta Qualidade de qualquer coisa em vídeos. O HQTrack consiste principalmente em um segmentador de múltiplos objetos em vídeo (VMOS) e um refinador de máscaras (MR). Dado o objeto a ser rastreado no quadro inicial de um vídeo, o VMOS propaga as máscaras do objeto para o quadro atual. Os resultados das máscaras nesta etapa não são precisos o suficiente, pois o VMOS é treinado em vários conjuntos de dados de segmentação de objetos em vídeo (VOS) de conjunto fechado, o que limita sua capacidade de generalização para cenas complexas e de canto. Para melhorar ainda mais a qualidade das máscaras de rastreamento, um modelo MR pré-treinado é empregado para refinar os resultados do rastreamento. Como um testemunho convincente da eficácia de nosso paradigma, sem empregar truques como aumentação de dados em tempo de teste e ensemble de modelos, o HQTrack ocupa o 2º lugar no desafio de Rastreamento e Segmentação de Objetos Visuais (VOTS2023). Código e modelos estão disponíveis em https://github.com/jiawen-zhu/HQTrack.
A medicina é inerentemente multimodal, com ricas modalidades de dados que abrangem texto, imagens, genômica e mais. Sistemas de inteligência artificial (IA) biomédica generalistas que codificam, integram e interpretam esses dados de forma flexível e em escala podem potencialmente habilitar aplicações impactantes, desde descobertas científicas até a prestação de cuidados. Para possibilitar o desenvolvimento desses modelos, primeiro organizamos o MultiMedBench, um novo benchmark biomédico multimodal. O MultiMedBench abrange 14 tarefas diversas, como resposta a perguntas médicas, interpretação de imagens de mamografia e dermatologia, geração e sumarização de relatórios radiológicos, e chamada de variantes genômicas. Em seguida, apresentamos o Med-PaLM Multimodal (Med-PaLM M), nossa prova de conceito para um sistema de IA biomédica generalista. O Med-PaLM M é um grande modelo generativo multimodal que codifica e interpreta de forma flexível dados biomédicos, incluindo linguagem clínica, imagens e genômica, com o mesmo conjunto de pesos do modelo. O Med-PaLM M alcança desempenho competitivo ou superior ao estado da arte em todas as tarefas do MultiMedBench, muitas vezes superando modelos especialistas por uma ampla margem. Também relatamos exemplos de generalização zero-shot para novos conceitos e tarefas médicas, transferência positiva de aprendizado entre tarefas e raciocínio médico emergente zero-shot. Para investigar ainda mais as capacidades e limitações do Med-PaLM M, realizamos uma avaliação de radiologistas sobre relatórios de raios-X de tórax gerados pelo modelo (e por humanos) e observamos desempenho encorajador em várias escalas do modelo. Em uma classificação lado a lado de 246 raios-X de tórax retrospectivos, os clínicos expressaram preferência pareada pelos relatórios do Med-PaLM M em relação aos produzidos por radiologistas em até 40,50% dos casos, sugerindo utilidade clínica potencial. Embora seja necessário muito trabalho para validar esses modelos em casos de uso do mundo real, nossos resultados representam um marco no desenvolvimento de sistemas de IA biomédica generalistas.
A geração de Texto-para-3D tem recebido atenção significativa recentemente, impulsionada por modelos de difusão 2D treinados em bilhões de pares imagem-texto. Os métodos existentes dependem principalmente da destilação de scores para aproveitar os priors de difusão 2D e supervisionar a geração de modelos 3D, como NeRF. No entanto, a destilação de scores é propensa ao problema de inconsistência de visão, e a modelagem implícita do NeRF também pode resultar em formas arbitrárias, levando a uma geração 3D menos realista e incontrolável. Neste trabalho, propomos uma estrutura flexível de Pontos-para-3D para preencher a lacuna entre pontos 3D esparsos, mas amplamente disponíveis, e a geração 3D realista e controlável em termos de forma, destilando o conhecimento de modelos de difusão 2D e 3D. A ideia central do Pontos-para-3D é introduzir pontos 3D esparsos controláveis para orientar a geração de texto-para-3D. Especificamente, usamos a nuvem de pontos esparsa gerada pelo modelo de difusão 3D, Point-E, como prior geométrico, condicionado a uma única imagem de referência. Para melhor utilizar os pontos 3D esparsos, propomos uma função de perda de orientação de nuvem de pontos eficiente para adaptativamente alinhar a geometria do NeRF com a forma dos pontos 3D esparsos. Além de controlar a geometria, propomos otimizar o NeRF para uma aparência mais consistente em diferentes visões. Especificamente, realizamos a destilação de scores no modelo de difusão de imagens 2D ControlNet, disponível publicamente, condicionado ao texto e ao mapa de profundidade da geometria compacta aprendida. Comparações qualitativas e quantitativas demonstram que o Pontos-para-3D melhora a consistência de visão e alcança uma boa controlabilidade de forma na geração de texto-para-3D. O Pontos-para-3D oferece aos usuários uma nova maneira de melhorar e controlar a geração de texto-para-3D.
Para um artista ou designer gráfico, o layout espacial de uma cena é uma escolha de design crucial. No entanto, os modelos de difusão de texto para imagem existentes oferecem suporte limitado para a incorporação de informações espaciais. Este artigo introduz a Difusão Composta como um meio para os artistas gerarem imagens de alta qualidade compondo a partir de subcenas. Os artistas podem especificar o arranjo dessas subcenas por meio de um layout de segmentação flexível e de forma livre. Eles podem descrever o conteúdo de cada subcena principalmente usando texto natural e adicionalmente utilizando imagens de referência ou entradas de controle, como arte linear, rabiscos, pose humana, bordas canny e mais. Fornecemos um método abrangente e modular para Difusão Composta que permite maneiras alternativas de gerar, compor e harmonizar subcenas. Além disso, desejamos avaliar a imagem composta quanto à eficácia tanto na qualidade da imagem quanto na realização da intenção do artista. Argumentamos que as métricas de qualidade de imagem existentes carecem de uma avaliação holística de composições de imagens. Para resolver isso, propomos novos critérios de qualidade especialmente relevantes para a geração de composições. Acreditamos que nossa abordagem fornece um método intuitivo de criação artística. Por meio de extensas pesquisas com usuários, análises quantitativas e qualitativas, mostramos como ela alcança maior controle espacial, semântico e criativo sobre a geração de imagens. Além disso, nossos métodos não precisam retreinar ou modificar a arquitetura dos modelos de difusão base e podem funcionar de maneira plug-and-play com os modelos ajustados.
Estudamos a melhoria de agentes conversacionais sociais aprendendo a partir de diálogos naturais entre usuários e um modelo implantado, sem anotações adicionais. Para medir implicitamente a qualidade de uma expressão gerada por máquina, utilizamos sinais como o comprimento da resposta do usuário, o sentimento e a reação das futuras expressões humanas nos episódios de diálogo coletados. Nossos experimentos utilizam os dados de implantação publicamente disponíveis do BlenderBot (Xu et al., 2023). A avaliação humana indica melhorias em nossos novos modelos em comparação com as respostas de linha de base; no entanto, descobrimos que alguns sinais substitutos também podem levar a mais gerações com propriedades indesejáveis. Por exemplo, otimizar para o comprimento da conversa pode resultar em gerações mais controversas ou hostis em comparação com a linha de base, enquanto otimizar para sentimento positivo ou reação pode reduzir esses comportamentos.
Transformers de visão recentes, CNNs com kernels grandes e MLPs têm alcançado sucessos notáveis em uma ampla gama de tarefas visuais graças à sua eficiente fusão de informações em escopo global. No entanto, sua implantação eficiente, especialmente em dispositivos móveis, ainda enfrenta desafios significativos devido aos altos custos computacionais dos mecanismos de self-attention, kernels grandes ou camadas totalmente conectadas. Neste trabalho, aplicamos o teorema de convolução convencional ao aprendizado profundo para abordar esse problema e revelamos que filtros de frequência adaptativos podem servir como misturadores globais de tokens eficientes. Com essa percepção, propomos o misturador de tokens de Filtragem de Frequência Adaptativa (AFF). Este operador neural transfere uma representação latente para o domínio da frequência por meio de uma transformada de Fourier e realiza a filtragem de frequência semântica-adaptativa por meio de uma multiplicação elemento a elemento, o que matematicamente equivale a uma operação de mistura de tokens no espaço latente original com um kernel de convolução dinâmico tão grande quanto a resolução espacial dessa representação latente. Utilizamos misturadores de tokens AFF como operadores neurais primários para construir uma rede neural leve, denominada AFFNet. Experimentos extensivos demonstram a eficácia do nosso misturador de tokens AFF proposto e mostram que o AFFNet alcança um equilíbrio superior entre precisão e eficiência em comparação com outros designs de redes leves em uma ampla gama de tarefas visuais, incluindo reconhecimento visual e tarefas de predição densa.
O campo de previsão de trajetórias cresceu significativamente nos últimos anos, em parte devido ao lançamento de diversos conjuntos de dados em larga escala e do mundo real para veículos autônomos (VAs) e rastreamento de movimento de pedestres. Embora esses conjuntos de dados tenham sido uma grande vantagem para a comunidade, cada um deles utiliza formatos e APIs personalizados e únicos, tornando-se trabalhoso para os pesquisadores treinar e avaliar métodos em múltiplos conjuntos de dados. Para remediar isso, apresentamos o trajdata: uma interface unificada para múltiplos conjuntos de dados de trajetórias humanas. Em sua essência, o trajdata fornece uma representação e API simples, uniforme e eficiente para dados de trajetórias e mapas. Como demonstração de suas capacidades, neste trabalho realizamos uma avaliação empírica abrangente de conjuntos de dados de trajetórias existentes, fornecendo aos usuários um entendimento rico dos dados que sustentam muita da pesquisa atual em previsão de movimento de pedestres e VAs, e propondo sugestões para futuros conjuntos de dados a partir desses insights. O trajdata é licenciado de forma permissiva (Apache 2.0) e pode ser acessado online em https://github.com/NVlabs/trajdata.