Artigos de pesquisa em IA selecionados diariamente com traduções
O surgimento de grandes modelos de linguagem (LLMs) e o ajuste por instrução levaram à tendência atual de modelos grandes de linguagem e visão ajustados por instrução (LLVMs). Essa tendência envolve ou a curadoria meticulosa de diversos conjuntos de dados de ajuste por instrução adaptados a objetivos específicos ou o aumento dos LLVMs para lidar com grandes quantidades de dados de linguagem visual (VL). No entanto, os LLVMs atuais têm ignorado a compreensão detalhada e abrangente de cenas do mundo real disponível a partir de modelos especializados de visão computacional (CV) em tarefas de percepção visual, como segmentação, detecção, geração de grafos de cena (SGG) e reconhecimento óptico de caracteres (OCR). Em vez disso, os LLVMs existentes dependem principalmente da grande capacidade e das habilidades emergentes de seus backbones de LLM. Portanto, apresentamos um novo LLVM, Mixture of All Intelligence (MoAI), que aproveita informações visuais auxiliares obtidas a partir das saídas de modelos externos de segmentação, detecção, SGG e OCR. O MoAI opera por meio de dois novos módulos introduzidos: MoAI-Compressor e MoAI-Mixer. Após verbalizar as saídas dos modelos externos de CV, o MoAI-Compressor as alinha e condensa para utilizar de forma eficiente as informações visuais auxiliares relevantes para tarefas de VL. O MoAI-Mixer então combina três tipos de inteligência: (1) características visuais, (2) características auxiliares dos modelos externos de CV e (3) características de linguagem, utilizando o conceito de Mixture of Experts. Por meio dessa integração, o MoAI supera significativamente tanto os LLVMs de código aberto quanto os de código fechado em diversas tarefas de VL zero-shot, particularmente aquelas relacionadas à compreensão de cenas do mundo real, como existência de objetos, posições, relações e OCR, sem aumentar o tamanho do modelo ou curar conjuntos de dados adicionais de ajuste por instrução visual.
Apresentamos o Chronos, uma estrutura simples, porém eficaz, para modelos probabilísticos de séries temporais pré-treinados. O Chronos tokeniza os valores das séries temporais utilizando escalonamento e quantização em um vocabulário fixo e treina arquiteturas de modelos de linguagem baseadas em transformers sobre essas séries temporais tokenizadas por meio da função de perda de entropia cruzada. Pré-treinamos modelos Chronos baseados na família T5 (variando de 20M a 710M parâmetros) em uma grande coleção de conjuntos de dados publicamente disponíveis, complementados por um conjunto de dados sintéticos que geramos por meio de processos gaussianos para melhorar a generalização. Em um benchmark abrangente composto por 42 conjuntos de dados, e incluindo tanto modelos clássicos locais quanto métodos de aprendizado profundo, mostramos que os modelos Chronos: (a) superam significativamente outros métodos em conjuntos de dados que faziam parte do corpus de treinamento; e (b) têm desempenho comparável e ocasionalmente superior em zero-shot em novos conjuntos de dados, em relação a métodos que foram treinados especificamente neles. Nossos resultados demonstram que os modelos Chronos podem aproveitar dados de séries temporais de diversos domínios para melhorar a precisão em zero-shot em tarefas de previsão não vistas, posicionando modelos pré-treinados como uma ferramenta viável para simplificar consideravelmente os pipelines de previsão.
Investigamos métodos eficientes para treinar Modelos de Linguagem de Grande Escala (LLMs) a possuírem capacidades em múltiplos domínios especializados, como codificação, raciocínio matemático e conhecimento geral. Nosso método, denominado Branch-Train-MiX (BTX), começa com um modelo inicial, que é ramificado para treinar especialistas de forma embaraçosamente paralela, com alta taxa de transferência e custo de comunicação reduzido. Após os especialistas individuais serem treinados de forma assíncrona, o BTX combina seus parâmetros de propagação direta como especialistas em camadas de Mistura de Especialistas (MoE) e faz a média dos parâmetros restantes, seguido por uma etapa de ajuste fino MoE para aprender o roteamento em nível de token. O BTX generaliza dois casos especiais: o método Branch-Train-Merge, que não possui a etapa de ajuste fino MoE para aprender o roteamento, e o upcycling esparso, que omite a etapa de treinamento assíncrono de especialistas. Em comparação com abordagens alternativas, o BTX alcança o melhor equilíbrio entre precisão e eficiência.
A criação de conjuntos de dados de alta qualidade com imagens e legendas rotuladas por humanos representa um gargalo significativo no desenvolvimento de Modelos de Linguagem Visual (VLMs). Propomos uma abordagem inovadora que aproveita os pontos fortes dos Modelos de Linguagem de Grande Escala (LLMs) e dos modelos de geração de imagens para criar pares sintéticos de imagem-texto, permitindo um treinamento eficiente e eficaz de VLMs. Nosso método emprega o pré-treinamento de um modelo de texto para imagem para sintetizar embeddings de imagem a partir de legendas geradas por um LLM. Esses pares sintéticos são então usados para treinar um VLM. Experimentos extensivos demonstram que o VLM treinado com dados sintéticos exibe desempenho comparável na tarefa de legendagem de imagens, enquanto requer uma fração dos dados utilizados por modelos treinados exclusivamente com dados anotados por humanos. Em particular, superamos a linha de base em 17% por meio da ampliação com um conjunto de dados sintético. Além disso, mostramos que a síntese no espaço de embeddings de imagem é 25% mais rápida do que no espaço de pixels. Esta pesquisa introduz uma técnica promissora para gerar conjuntos de dados de imagens em grande escala e personalizáveis, levando a um desempenho aprimorado de VLMs e a uma aplicabilidade mais ampla em diversos domínios, tudo com maior eficiência de dados e utilização de recursos.
A geração de movimento humano representa uma busca significativa na visão computacional generativa, enquanto a obtenção de geração de movimento de longa sequência e eficiente continua sendo um desafio. Avanços recentes em modelos de espaço de estados (SSMs), notadamente o Mamba, demonstraram considerável promessa na modelagem de sequências longas com um design eficiente e consciente do hardware, o que parece ser uma direção promissora para a construção de modelos de geração de movimento. No entanto, a adaptação de SSMs para a geração de movimento enfrenta obstáculos devido à falta de uma arquitetura de design especializada para modelar sequências de movimento. Para enfrentar esses desafios, propomos o Motion Mamba, uma abordagem simples e eficiente que apresenta o pioneiro modelo de geração de movimento utilizando SSMs. Especificamente, projetamos um bloco Hierarchical Temporal Mamba (HTM) para processar dados temporais, combinando números variados de módulos SSM isolados em uma arquitetura U-Net simétrica, com o objetivo de preservar a consistência do movimento entre os quadros. Também projetamos um bloco Bidirectional Spatial Mamba (BSM) para processar bidirecionalmente poses latentes, a fim de melhorar a geração precisa de movimento dentro de um quadro temporal. Nosso método proposto alcança uma melhoria de até 50% no FID e é até 4 vezes mais rápido nos conjuntos de dados HumanML3D e KIT-ML em comparação com o melhor método baseado em difusão anterior, demonstrando fortes capacidades de modelagem de movimento de longa sequência de alta qualidade e geração de movimento humano em tempo real. Consulte o site do projeto em https://steve-zeyu-zhang.github.io/MotionMamba/
Apresentamos o DragAnything, que utiliza uma representação de entidade para alcançar controle de movimento para qualquer objeto na geração de vídeo controlável. Em comparação com os métodos existentes de controle de movimento, o DragAnything oferece várias vantagens. Primeiramente, a abordagem baseada em trajetória é mais amigável para interação, especialmente quando a obtenção de outros sinais de orientação (por exemplo, máscaras, mapas de profundidade) é trabalhosa. Os usuários precisam apenas desenhar uma linha (trajetória) durante a interação. Em segundo lugar, nossa representação de entidade funciona como uma incorporação de domínio aberto capaz de representar qualquer objeto, permitindo o controle de movimento para diversas entidades, incluindo o fundo. Por fim, nossa representação de entidade permite o controle de movimento simultâneo e distinto para múltiplos objetos. Experimentos extensivos demonstram que o DragAnything alcança desempenho de ponta em FVD, FID e Estudo de Usuário, particularmente em termos de controle de movimento de objetos, onde nosso método supera os métodos anteriores (por exemplo, DragNUWA) em 26% na votação humana.
Apresentamos o FAX, uma biblioteca baseada em JAX projetada para suportar computações distribuídas e federadas em grande escala, tanto em aplicações de data center quanto em dispositivos cruzados. O FAX aproveita os mecanismos de fragmentação do JAX para permitir o direcionamento nativo de TPUs e os runtimes de última geração do JAX, incluindo o Pathways. O FAX incorpora blocos de construção para computações federadas como primitivas no JAX. Isso possibilita três benefícios principais. Primeiro, as computações do FAX podem ser traduzidas para XLA HLO. Segundo, o FAX fornece uma implementação completa de diferenciação automática federada, simplificando significativamente a expressão de computações federadas. Por último, as computações do FAX podem ser interpretadas em sistemas de computação federada em dispositivos cruzados já existentes em produção. Demonstramos que o FAX oferece uma estrutura facilmente programável, de alto desempenho e escalável para computações federadas no data center. O FAX está disponível em https://github.com/google-research/google-research/tree/master/fax.
Um problema em aberto na manipulação móvel é como representar objetos e cenas de maneira unificada, para que os robôs possam utilizá-la tanto para navegar no ambiente quanto para manipular objetos. Este último requer capturar geometrias intrincadas enquanto compreende semânticas refinadas, enquanto o primeiro envolve capturar a complexidade inerente a uma escala física expansiva. Neste trabalho, apresentamos o GeFF (Generalizable Feature Fields), um campo de características neurais generalizável em nível de cena que atua como uma representação unificada tanto para navegação quanto para manipulação, operando em tempo real. Para isso, tratamos a síntese generativa de novas visões como uma tarefa de pré-treinamento e, em seguida, alinhamos os ricos pré-conhecimentos de cena resultantes com a linguagem natural por meio da destilação de características do CLIP. Demonstramos a eficácia dessa abordagem ao implantar o GeFF em um robô quadrúpede equipado com um manipulador. Avaliamos a capacidade do GeFF de generalizar para objetos de conjunto aberto, bem como o tempo de execução, ao realizar manipulação móvel de vocabulário aberto em cenas dinâmicas.