Artigos de pesquisa em IA selecionados diariamente com traduções
Este trabalho apresenta o Depth Anything V2. Sem buscar técnicas sofisticadas, nosso objetivo é revelar descobertas cruciais para pavimentar o caminho rumo à construção de um modelo poderoso de estimativa de profundidade monocular. Notavelmente, em comparação com a V1, esta versão produz previsões de profundidade muito mais refinadas e robustas por meio de três práticas principais: 1) substituir todas as imagens reais rotuladas por imagens sintéticas, 2) ampliar a capacidade do nosso modelo professor, e 3) ensinar modelos estudantes por meio da ponte de imagens reais pseudo-rotuladas em grande escala. Em comparação com os modelos mais recentes baseados no Stable Diffusion, nossos modelos são significativamente mais eficientes (mais de 10 vezes mais rápidos) e mais precisos. Oferecemos modelos de diferentes escalas (variando de 25M a 1,3B de parâmetros) para suportar cenários extensos. Beneficiando-se de sua forte capacidade de generalização, nós os ajustamos com rótulos de profundidade métrica para obter nossos modelos de profundidade métrica. Além dos nossos modelos, considerando a diversidade limitada e o ruído frequente nos conjuntos de teste atuais, construímos um benchmark de avaliação versátil com anotações precisas e cenas diversas para facilitar pesquisas futuras.
Este trabalho não introduz um novo método. Em vez disso, apresentamos uma descoberta interessante que questiona a necessidade do viés indutivo — a localidade nas arquiteturas modernas de visão computacional. Concretamente, descobrimos que Transformers básicos podem operar tratando diretamente cada pixel individual como um token e alcançar resultados altamente eficazes. Isso é substancialmente diferente do design popular no Vision Transformer, que mantém o viés indutivo das ConvNets em relação a vizinhanças locais (por exemplo, tratando cada patch de 16x16 como um token). Demonstramos principalmente a eficácia de pixels-como-tokens em três tarefas bem estudadas em visão computacional: aprendizado supervisionado para classificação de objetos, aprendizado auto-supervisionado via autoencoder mascarado e geração de imagens com modelos de difusão. Embora operar diretamente em pixels individuais seja menos prático computacionalmente, acreditamos que a comunidade deve estar ciente desse conhecimento surpreendente ao projetar a próxima geração de arquiteturas neurais para visão computacional.
Os Transformers revolucionaram o aprendizado de máquina com sua arquitetura simples, porém eficaz. O pré-treinamento de Transformers em grandes conjuntos de dados textuais da Internet resultou em uma generalização sem precedentes para tarefas de compreensão de linguagem natural (NLU). No entanto, esses modelos de linguagem permanecem frágeis quando confrontados com formas algorítmicas de raciocínio, onde os cálculos precisam ser precisos e robustos. Para superar essa limitação, propomos uma abordagem inovadora que combina a compreensão de linguagem do Transformer com a robustez dos raciocinadores algorítmicos neurais (NARs) baseados em redes neurais de grafos (GNNs). Esses NARs se mostraram eficazes como solucionadores genéricos para tarefas algorítmicas, quando especificadas em forma de grafo. Para tornar seus embeddings acessíveis a um Transformer, propomos uma arquitetura híbrida com um procedimento de treinamento em duas fases, permitindo que os tokens no modelo de linguagem realizem atenção cruzada com os embeddings dos nós do NAR. Avaliamos nosso modelo TransNAR resultante no CLRS-Text, a versão textual do benchmark CLRS-30, e demonstramos ganhos significativos em relação a modelos baseados apenas em Transformers para raciocínio algorítmico, tanto dentro quanto fora da distribuição.
Grandes políticas pré-treinadas em uma combinação de dados visuais e linguísticos em escala da Internet e demonstrações robóticas diversas têm o potencial de mudar a forma como ensinamos novas habilidades a robôs: em vez de treinar novos comportamentos do zero, podemos ajustar finamente esses modelos de visão-linguagem-ação (VLA) para obter políticas robustas e generalizáveis para controle visuomotor. No entanto, a adoção generalizada de VLAs para robótica tem sido desafiadora, pois 1) os VLAs existentes são em grande parte fechados e inacessíveis ao público, e 2) trabalhos anteriores não exploram métodos para ajustar eficientemente VLAs para novas tarefas, um componente chave para a adoção. Para enfrentar esses desafios, introduzimos o OpenVLA, um VLA de código aberto com 7 bilhões de parâmetros, treinado em uma coleção diversificada de 970 mil demonstrações robóticas do mundo real. O OpenVLA é construído sobre um modelo de linguagem Llama 2 combinado com um codificador visual que funde características pré-treinadas do DINOv2 e SigLIP. Como resultado da diversidade de dados adicionada e dos novos componentes do modelo, o OpenVLA demonstra resultados robustos para manipulação generalista, superando modelos fechados como o RT-2-X (55B) em 16,5% na taxa absoluta de sucesso de tarefas em 29 tarefas e múltiplas configurações robóticas, com 7 vezes menos parâmetros. Mostramos ainda que podemos ajustar eficientemente o OpenVLA para novos cenários, com resultados especialmente fortes de generalização em ambientes multitarefa envolvendo múltiplos objetos e habilidades sólidas de fundamentação linguística, superando métodos expressivos de aprendizado por imitação do zero, como o Diffusion Policy, em 20,4%. Também exploramos a eficiência computacional; como uma contribuição separada, mostramos que o OpenVLA pode ser ajustado em GPUs de consumo por meio de métodos modernos de adaptação de baixo posto e servido eficientemente via quantização sem prejudicar a taxa de sucesso em tarefas subsequentes. Por fim, disponibilizamos checkpoints do modelo, notebooks de ajuste fino e nossa base de código PyTorch com suporte integrado para treinar VLAs em escala em conjuntos de dados Open X-Embodiment.
Modelar sequências com comprimento de contexto infinito de forma eficiente tem sido um problema de longa data. Trabalhos anteriores sofrem com a complexidade computacional quadrática ou com a capacidade limitada de extrapolação na generalização de comprimento. Neste trabalho, apresentamos o Samba, uma arquitetura híbrida simples que combina camada por camada o Mamba, um Modelo de Espaço de Estados (SSM) seletivo, com a Atenção de Janela Deslizante (SWA). O Samba comprime seletivamente uma sequência dada em estados ocultos recorrentes, mantendo ainda a capacidade de recordar memórias com precisão por meio do mecanismo de atenção. Escalonamos o Samba até 3,8 bilhões de parâmetros com 3,2 trilhões de tokens de treinamento e mostramos que o Samba supera substancialmente os modelos state-of-the-art baseados em atenção pura ou SSMs em uma ampla gama de benchmarks. Quando treinado em sequências de comprimento 4K, o Samba pode ser extrapolado eficientemente para um comprimento de contexto de 256K com recall de memória perfeito e mostra melhorias na previsão de tokens até um comprimento de contexto de 1M. Como um modelo de sequência de tempo linear, o Samba desfruta de um throughput 3,73x maior em comparação com Transformers com atenção de consulta agrupada ao processar prompts de usuário com comprimento de 128K, e uma aceleração de 3,64x ao gerar 64K tokens com streaming ilimitado. Uma implementação de amostra do Samba está disponível publicamente em https://github.com/microsoft/Samba.
Este artigo apresenta aprimoramentos inovadores aos modelos de difusão por meio da integração de uma nova rede de múltiplas resoluções e normalização de camada dependente do tempo. Os modelos de difusão ganharam destaque por sua eficácia na geração de imagens de alta fidelidade. Enquanto abordagens convencionais dependem de arquiteturas U-Net convolucionais, projetos recentes baseados em Transformers demonstraram desempenho e escalabilidade superiores. No entanto, as arquiteturas Transformer, que tokenizam os dados de entrada (via "patchificação"), enfrentam um trade-off entre fidelidade visual e complexidade computacional devido à natureza quadrática das operações de autoatenção em relação ao comprimento dos tokens. Embora tamanhos maiores de patches permitam eficiência no cálculo da atenção, eles têm dificuldade em capturar detalhes visuais refinados, levando a distorções nas imagens. Para abordar esse desafio, propomos aprimorar o modelo de difusão com a rede de Múltiplas Resoluções (DiMR), uma estrutura que refina características em múltiplas resoluções, aprimorando progressivamente os detalhes de baixa para alta resolução. Além disso, introduzimos a Normalização de Camada Dependente do Tempo (TD-LN), uma abordagem eficiente em parâmetros que incorpora parâmetros dependentes do tempo na normalização de camada para injetar informações temporais e alcançar desempenho superior. A eficácia do nosso método é demonstrada no benchmark de geração condicional por classe do ImageNet, onde as variantes DiMR-XL superam modelos de difusão anteriores, estabelecendo novos recordes de pontuação FID de 1,70 no ImageNet 256 x 256 e 2,89 no ImageNet 512 x 512. Página do projeto: https://qihao067.github.io/projects/DiMR.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis de raciocínio, mas ainda são suscetíveis a erros, especialmente em tarefas de raciocínio temporal que envolvem lógica temporal complexa. Pesquisas existentes exploraram o desempenho de LLMs em raciocínio temporal utilizando diversos conjuntos de dados e benchmarks. No entanto, esses estudos frequentemente se baseiam em dados do mundo real que os LLMs podem ter encontrado durante o pré-treinamento ou empregam técnicas de anonimização que podem inadvertidamente introduzir inconsistências factuais. Neste trabalho, abordamos essas limitações introduzindo novos conjuntos de dados sintéticos especificamente projetados para avaliar as habilidades de raciocínio temporal dos LLMs em vários cenários. A diversidade de tipos de perguntas nesses conjuntos de dados permite uma investigação sistemática do impacto da estrutura do problema, tamanho, tipo de pergunta, ordem dos fatos e outros fatores no desempenho dos LLMs. Nossas descobertas fornecem insights valiosos sobre as forças e fraquezas dos LLMs atuais em tarefas de raciocínio temporal. Para promover pesquisas adicionais nessa área, estamos disponibilizando publicamente os conjuntos de dados e o framework de avaliação utilizados em nossos experimentos: https://huggingface.co/datasets/baharef/ToT.
Os Transformadores de Difusão (DiT) se destacam na geração de imagens e vídeos, mas enfrentam desafios computacionais devido à complexidade quadrática da autoatenção. Propomos o DiTFastAttn, um novo método de compressão pós-treinamento para aliviar o gargalo computacional dos DiT. Identificamos três redundâncias principais no cálculo da atenção durante a inferência dos DiT: 1. redundância espacial, onde muitos cabeçotes de atenção focam em informações locais; 2. redundância temporal, com alta similaridade entre as saídas de atenção de passos vizinhos; 3. redundância condicional, onde as inferências condicionais e incondicionais exibem similaridade significativa. Para abordar essas redundâncias, propomos três técnicas: 1. Atenção por Janelas com Cache Residual para reduzir a redundância espacial; 2. Redução de Similaridade Temporal para explorar a similaridade entre os passos; 3. Eliminação de Redundância Condicional para pular cálculos redundantes durante a geração condicional. Para demonstrar a eficácia do DiTFastAttn, aplicamos o método ao DiT, ao PixArt-Sigma para tarefas de geração de imagens e ao OpenSora para tarefas de geração de vídeos. Os resultados da avaliação mostram que, para a geração de imagens, nosso método reduz até 88% dos FLOPs e alcança uma aceleração de até 1,6x na geração de alta resolução.
Os seres humanos desenham para facilitar o raciocínio: traçamos linhas auxiliares ao resolver problemas de geometria; marcamos e circulamos ao raciocinar sobre mapas; usamos esboços para ampliar nossas ideias e aliviar nossa memória de trabalho de capacidade limitada. No entanto, tais ações estão ausentes nos atuais modelos de linguagem multimodal (LMs). Os paradigmas atuais de cadeia de pensamento e uso de ferramentas utilizam apenas texto como etapas intermediárias de raciocínio. Neste trabalho, apresentamos o Sketchpad, uma estrutura que fornece aos LMs multimodais uma lousa visual e ferramentas para desenhar nessa lousa. O LM realiza planejamento e raciocínio com base nos artefatos visuais que desenhou. Diferente de trabalhos anteriores, que usam modelos de texto para imagem para permitir que LMs desenhem, o Sketchpad permite que LMs desenhem com linhas, caixas, marcas, etc., o que é mais próximo do esboço humano e facilita melhor o raciocínio. O Sketchpad também pode usar modelos de visão especializados durante o processo de esboço (por exemplo, desenhar caixas delimitadoras com modelos de detecção de objetos, desenhar máscaras com modelos de segmentação), para aprimorar ainda mais a percepção visual e o raciocínio. Realizamos experimentos com uma ampla gama de tarefas matemáticas (incluindo geometria, funções, gráficos e xadrez) e tarefas complexas de raciocínio visual. O Sketchpad melhora substancialmente o desempenho em todas as tarefas em relação a modelos base robustos sem esboço, resultando em um ganho médio de 12,7% em tarefas matemáticas e 8,6% em tarefas visuais. O GPT-4o com Sketchpad estabelece um novo estado da arte em todas as tarefas, incluindo V*Bench (80,3%), raciocínio espacial BLINK (83,9%) e correspondência visual (80,8%). Todos os códigos e dados estão disponíveis em https://visualsketchpad.github.io/.
Investigamos o espaço de pesos abrangido por uma grande coleção de modelos de difusão personalizados. Populamos esse espaço criando um conjunto de dados com mais de 60.000 modelos, cada um dos quais é um modelo base ajustado para inserir a identidade visual de uma pessoa diferente. Modelamos a variedade subjacente desses pesos como um subespaço, que denominamos weights2weights. Demonstramos três aplicações imediatas desse espaço: amostragem, edição e inversão. Primeiro, como cada ponto no espaço corresponde a uma identidade, a amostragem de um conjunto de pesos dele resulta em um modelo que codifica uma identidade nova. Em seguida, encontramos direções lineares nesse espaço que correspondem a edições semânticas da identidade (por exemplo, adicionar uma barba). Essas edições persistem na aparência entre as amostras geradas. Por fim, mostramos que a inversão de uma única imagem nesse espaço reconstrói uma identidade realista, mesmo que a imagem de entrada esteja fora da distribuição (por exemplo, uma pintura). Nossos resultados indicam que o espaço de pesos de modelos de difusão ajustados se comporta como um espaço latente interpretável de identidades.
Apresentamos o MuirBench, um benchmark abrangente que se concentra nas capacidades robustas de compreensão de múltiplas imagens em LLMs multimodais. O MuirBench consiste em 12 tarefas diversas de múltiplas imagens (por exemplo, compreensão de cena, ordenação) que envolvem 10 categorias de relações entre múltiplas imagens (por exemplo, multivista, relações temporais). Composto por 11.264 imagens e 2.600 questões de múltipla escolha, o MuirBench é criado de forma pareada, onde cada instância padrão é emparelhada com uma variante impossível de responder que possui diferenças semânticas mínimas, permitindo uma avaliação confiável. Avaliado em 20 LLMs multimodais recentes, nossos resultados revelam que até os modelos de melhor desempenho, como GPT-4o e Gemini Pro, enfrentam dificuldades para resolver o MuirBench, alcançando 68,0% e 49,3% de precisão. LLMs multimodais de código aberto treinados em imagens únicas têm dificuldade em generalizar para questões de múltiplas imagens, mantendo-se abaixo de 33,3% de precisão. Esses resultados destacam a importância do MuirBench em incentivar a comunidade a desenvolver LLMs multimodais que possam ir além de uma única imagem, sugerindo potenciais caminhos para melhorias futuras.
Conjuntos de dados de preferência de alta qualidade são essenciais para treinar modelos de recompensa que possam guiar efetivamente grandes modelos de linguagem (LLMs) na geração de respostas de alta qualidade alinhadas com as preferências humanas. À medida que os LLMs se tornam mais poderosos e melhor alinhados, conjuntos de dados de preferência com licenças permissivas, como Open Assistant, HH-RLHF e HelpSteer, precisam ser atualizados para permanecerem eficazes na modelagem de recompensa. Métodos que extraem dados de preferência de LLMs proprietários, como o GPT-4, têm restrições de uso comercial impostas pelos provedores dos modelos. Para melhorar tanto a qualidade das respostas geradas quanto a rotulagem de atributos, lançamos o HelpSteer2, um conjunto de dados de preferência com licença permissiva (CC-BY-4.0). Usando um modelo base interno poderoso treinado no HelpSteer2, conseguimos alcançar a pontuação SOTA (92,0%) no conjunto de dados principal do Reward-Bench, superando os modelos abertos e proprietários atualmente listados, em 12 de junho de 2024. Notavelmente, o HelpSteer2 consiste em apenas dez mil pares de respostas, uma ordem de magnitude menor do que os conjuntos de dados de preferência existentes (por exemplo, HH-RLHF), o que o torna altamente eficiente para o treinamento de modelos de recompensa. Nossos extensos experimentos demonstram que os modelos de recompensa treinados com o HelpSteer2 são eficazes no alinhamento de LLMs. Em particular, propomos o SteerLM 2.0, uma abordagem de alinhamento de modelos que pode efetivamente utilizar a rica pontuação multi-atributo prevista por nossos modelos de recompensa. O HelpSteer2 está disponível em https://huggingface.co/datasets/nvidia/HelpSteer2 e o código está disponível em https://github.com/NVIDIA/NeMo-Aligner.
Os Modelos de Linguagem Multimodais de Grande Escala (mLLMs) são treinados com uma grande quantidade de dados texto-imagem. Embora a maioria dos mLLMs seja treinada apenas com dados semelhantes a legendas, Alayrac et al. [2022] demonstraram que treiná-los adicionalmente com sequências intercaladas de texto e imagens pode levar ao surgimento de capacidades de aprendizado em contexto. No entanto, o conjunto de dados que eles usaram, o M3W, não é público e está disponível apenas em inglês. Houve tentativas de reproduzir seus resultados, mas os conjuntos de dados liberados são exclusivamente em inglês. Em contraste, os conjuntos de dados multilingues e multimodais atuais são compostos apenas por dados semelhantes a legendas, são de escala média ou totalmente privados. Isso limita a pesquisa em mLLMs para as outras 7.000 línguas faladas no mundo. Portanto, apresentamos o mOSCAR, que, até onde sabemos, é o primeiro corpus de documentos multilingue e multimodal em grande escala extraído da web. Ele abrange 163 idiomas, 315 milhões de documentos, 214 bilhões de tokens e 1,2 bilhão de imagens. Realizamos cuidadosamente um conjunto de etapas de filtragem e avaliação para garantir que o mOSCAR seja suficientemente seguro, diversificado e de boa qualidade. Além disso, treinamos dois tipos de modelo multilingue para comprovar os benefícios do mOSCAR: (1) um modelo treinado em um subconjunto do mOSCAR e dados de legendagem e (2) um modelo treinado apenas em dados de legendagem. O modelo adicionalmente treinado com o mOSCAR mostra um forte aumento no desempenho de aprendizado few-shot em várias tarefas e benchmarks multilingues de texto-imagem, confirmando descobertas anteriores para mLLMs exclusivamente em inglês.
A Ciência da Computação (CC) é um testemunho das complexidades da inteligência humana, impulsionando profundamente o desenvolvimento da inteligência artificial e da sociedade moderna. No entanto, a comunidade atual de modelos de linguagem de grande escala (LLMs) foca excessivamente em benchmarks para analisar habilidades fundamentais específicas (por exemplo, matemática e geração de código), negligenciando uma avaliação abrangente do campo da ciência da computação. Para preencher essa lacuna, introduzimos o CS-Bench, o primeiro benchmark bilíngue (chinês-inglês) dedicado a avaliar o desempenho de LLMs em ciência da computação. O CS-Bench compreende aproximadamente 5 mil amostras de teste meticulosamente curadas, abrangendo 26 subáreas em 4 áreas principais da ciência da computação, englobando diversas formas de tarefas e divisões de conhecimento e raciocínio. Utilizando o CS-Bench, realizamos uma avaliação abrangente de mais de 30 LLMs mainstream, revelando a relação entre o desempenho em CC e as escalas dos modelos. Também analisamos quantitativamente as razões para falhas nos LLMs existentes e destacamos direções para melhorias, incluindo suplementação de conhecimento e raciocínio específico para CC. Experimentos adicionais de capacidade cruzada mostram uma alta correlação entre as capacidades dos LLMs em ciência da computação e suas habilidades em matemática e codificação. Além disso, LLMs especializados em matemática e codificação também demonstram desempenhos fortes em várias subáreas de CC. Olhando para o futuro, vislumbramos o CS-Bench como uma pedra angular para aplicações de LLMs no campo da CC e abrindo novos caminhos na avaliação das diversas capacidades de raciocínio dos LLMs. Os dados do CS-Bench e o código de avaliação estão disponíveis em https://github.com/csbench/csbench.
Modelos de fundação multimodais e multitarefa atuais, como o 4M ou o UnifiedIO, mostram resultados promissores, mas, na prática, suas capacidades prontas para uso de aceitar entradas diversas e realizar tarefas variadas são limitadas pelo número (geralmente bastante reduzido) de modalidades e tarefas em que são treinados. Neste artigo, expandimos as capacidades desses modelos ao treinar um único modelo em dezenas de modalidades altamente diversificadas e ao realizar co-treinamento em grandes conjuntos de dados multimodais e corpora de texto. Isso inclui o treinamento em várias modalidades semânticas e geométricas, mapas de características de modelos state-of-the-art recentes, como DINOv2 e ImageBind, rótulos pseudo de modelos especializados, como SAM e 4DHumans, e uma variedade de novas modalidades que permitem novas formas de interagir com o modelo e direcionar a geração, como metadados de imagem ou paletas de cores. Um passo crucial nesse processo é realizar a tokenização discreta em várias modalidades, sejam elas semelhantes a imagens, mapas de características de redes neurais, vetores, dados estruturados como segmentação de instâncias ou poses humanas, ou dados que podem ser representados como texto. Com isso, expandimos as capacidades prontas para uso de modelos multimodais e mostramos especificamente a possibilidade de treinar um modelo para resolver pelo menos 3x mais tarefas/modalidades do que os existentes, sem perda de desempenho. Isso permite capacidades de geração multimodal mais refinadas e controláveis e nos permite estudar a destilação de modelos treinados em dados e objetivos diversos em um modelo unificado. Escalamos com sucesso o treinamento para um modelo de três bilhões de parâmetros usando dezenas de modalidades e diferentes conjuntos de dados. Os modelos resultantes e o código de treinamento são disponibilizados como open source em 4m.epfl.ch.
Avanços recentes na geração de imagens permitiram a criação de imagens de alta qualidade a partir de condições textuais. No entanto, ao lidar com condições multimodais, como texto combinado com aparências de referência, os métodos existentes lutam para equilibrar múltiplas condições de forma eficaz, geralmente mostrando preferência por uma modalidade em detrimento das outras. Para enfrentar esse desafio, introduzimos o EMMA, um novo modelo de geração de imagens que aceita prompts multimodais, construído sobre o modelo de difusão texto-para-imagem (T2I) de última geração, ELLA. O EMMA incorpora de forma contínua modalidades adicionais ao lado do texto para guiar a geração de imagens por meio de um inovador design de Conector de Recursos Multimodais, que integra efetivamente informações textuais e de modalidades suplementares usando um mecanismo de atenção especial. Ao congelar todos os parâmetros no modelo de difusão T2I original e ajustar apenas algumas camadas adicionais, revelamos uma descoberta interessante: o modelo de difusão T2I pré-treinado pode secretamente aceitar prompts multimodais. Essa propriedade interessante facilita a adaptação fácil a diferentes frameworks existentes, tornando o EMMA uma ferramenta flexível e eficaz para produzir imagens e até vídeos personalizados e contextualmente conscientes. Além disso, introduzimos uma estratégia para montar módulos EMMA aprendidos para produzir imagens condicionadas em múltiplas modalidades simultaneamente, eliminando a necessidade de treinamento adicional com prompts multimodais mistos. Experimentos extensivos demonstram a eficácia do EMMA em manter alta fidelidade e detalhes nas imagens geradas, mostrando seu potencial como uma solução robusta para tarefas avançadas de geração de imagens condicionadas multimodais.
Propomos construir uma inteligência omni-modal, capaz de compreender qualquer modalidade e aprender representações universais. Especificamente, propomos um paradigma de pré-treinamento escalável, denominado Contexto Multimodal (MiCo), que pode ampliar o número de modalidades e a quantidade de dados, juntamente com os parâmetros do modelo, durante o processo de pré-treinamento. Com o MiCo, os modelos pré-treinados demonstram habilidades emergentes significativas em aprendizado multimodal, avaliadas nas seguintes tarefas: i) benchmarks de percepção de modalidade única em 10 modalidades diferentes, ii) 25 tarefas de compreensão cruzada de modalidades, como recuperação, questionamento e legendagem, e iii) 18 benchmarks de modelos de linguagem multimodal de grande escala. Nossos modelos estabelecem 37 novos recordes de desempenho state-of-the-art. Esperamos que nossa pesquisa possa contribuir para o desenvolvimento da inteligência omni-modal. Códigos e Modelos estão disponíveis em https://github.com/invictus717/MiCo.
Um dos métodos predominantes para treinar modelos de mundo é a previsão autoregressiva no espaço de saída do próximo elemento de uma sequência. No Processamento de Linguagem Natural (PLN), isso assume a forma de Modelos de Linguagem de Grande Escala (LLMs) prevendo o próximo token; na Visão Computacional (CV), isso assume a forma de modelos autoregressivos prevendo o próximo quadro/token/pixel. No entanto, essa abordagem difere da cognição humana em vários aspectos. Primeiro, as previsões humanas sobre o futuro influenciam ativamente os processos cognitivos internos. Segundo, os humanos naturalmente avaliam a plausibilidade das previsões em relação a estados futuros. Com base nessa capacidade, e terceiro, ao avaliar quando as previsões são suficientes, os humanos alocam uma quantidade dinâmica de tempo para fazer uma previsão. Esse processo adaptativo é análogo ao pensamento do Sistema 2 na psicologia. Todas essas capacidades são fundamentais para o sucesso dos humanos no raciocínio e planejamento de alto nível. Portanto, para abordar as limitações dos modelos autoregressivos tradicionais que carecem dessas capacidades semelhantes às humanas, introduzimos os Modelos de Mundo Baseados em Energia (EBWM). O EBWM envolve o treinamento de um Modelo Baseado em Energia (EBM) para prever a compatibilidade de um determinado contexto e um estado futuro previsto. Ao fazer isso, o EBWM permite que os modelos alcancem todos os três aspectos da cognição humana descritos. Além disso, desenvolvemos uma variante do transformador autoregressivo tradicional adaptado para modelos baseados em energia, denominado Transformador Baseado em Energia (EBT). Nossos resultados demonstram que o EBWM escala melhor com dados e Horas de GPU do que os transformadores autoregressivos tradicionais em CV, e que o EBWM oferece uma promissora escalabilidade inicial em PLN. Consequentemente, essa abordagem oferece um caminho emocionante para treinar modelos futuros capazes de pensamento do Sistema 2 e de buscar inteligentemente através de espaços de estados.
Apesar dos avanços nos Modelos de Linguagem de Grande Escala (LLMs), exemplificados por modelos como GPT-4 e Claude, LLMs de menor escala, como Llama e Mistral, frequentemente enfrentam dificuldades para gerar diálogos profundos e coerentes. Este artigo apresenta um novo modelo de Ator de Duas Etapas, do Grosso ao Fino, para abordar as limitações inerentes nas capacidades conversacionais e analíticas de LLMs de pequeno porte. Nossa abordagem começa com o Ator Grosso baseado em Política, empregando uma técnica que denominamos "Maximização Contínua". O Ator Grosso estabelece um pool aprimorado e rico em conhecimento, capaz de se alinhar com estilos de preferência humana em análise e raciocínio. Por meio do processo RLHF, ele utiliza a Maximização Contínua, uma estratégia que estende dinamicamente e de forma adaptativa o limite de comprimento da saída, permitindo a geração de conteúdo mais detalhado e analítico. Posteriormente, o Ator Fino refina esse conteúdo analítico, abordando a geração de informações excessivamente redundantes pelo Ator Grosso. Introduzimos uma abordagem de "Fusão de Resíduo de Conhecimento", refinando o conteúdo do Ator Grosso e mesclando-o com um modelo de Instrução existente para melhorar a qualidade, a correção e reduzir redundâncias. Aplicamos nossa metodologia ao popular modelo Mistral, criando o Mistral-C2F, que demonstrou desempenho excepcional em 11 tarefas gerais de linguagem e na tarefa de Diálogo MT-Bench, superando modelos de escala similar e até mesmo modelos maiores com 13B e 30B de parâmetros. Nosso modelo melhorou significativamente as habilidades de raciocínio conversacional e analítico.
Apresentamos uma nova tarefa e benchmark para avaliar a capacidade dos modelos de geração de texto para imagem (T2I) de produzir imagens que se alinhem ao senso comum na vida real, que denominamos Commonsense-T2I. Dados dois prompts textuais adversariais contendo um conjunto idêntico de palavras de ação com pequenas diferenças, como "uma lâmpada sem eletricidade" versus "uma lâmpada com eletricidade", avaliamos se os modelos T2I conseguem realizar raciocínio visual de senso comum, por exemplo, produzir imagens que se ajustem a "a lâmpada está apagada" versus "a lâmpada está acesa", respectivamente. O Commonsense-T2I apresenta um desafio adversarial, fornecendo prompts textuais em pares juntamente com saídas esperadas. O conjunto de dados foi cuidadosamente curado por especialistas e anotado com rótulos detalhados, como tipo de senso comum e probabilidade das saídas esperadas, para auxiliar na análise do comportamento do modelo. Avaliamos uma variedade de modelos T2I state-of-the-art (sota) e, surpreendentemente, descobrimos que ainda há uma grande lacuna entre a síntese de imagens e fotos da vida real—mesmo o modelo DALL-E 3 conseguiu apenas 48,92% no Commonsense-T2I, e o modelo Stable Diffusion XL alcançou apenas 24,92% de precisão. Nossos experimentos mostram que prompts enriquecidos com GPT não conseguem resolver esse desafio, e incluímos uma análise detalhada sobre possíveis razões para essa deficiência. Nosso objetivo é que o Commonsense-T2I sirva como um benchmark de avaliação de alta qualidade para verificação de senso comum em T2I, promovendo avanços na geração de imagens realistas.
A geração de vídeos apresenta desafios únicos que vão além da geração de imagens. A dimensão temporal introduz variações extensas entre os quadros, nas quais a consistência e a continuidade podem ser violadas. Neste estudo, vamos além da avaliação de ações simples e argumentamos que os vídeos gerados devem incorporar o surgimento de novos conceitos e suas transições de relação, como nos vídeos do mundo real, à medida que o tempo avança. Para avaliar a Composicionalidade Temporal dos modelos de geração de vídeos, propomos o TC-Bench, um benchmark de prompts de texto meticulosamente elaborados, vídeos de referência correspondentes e métricas de avaliação robustas. Os prompts articulam os estados inicial e final das cenas, reduzindo efetivamente as ambiguidades para o desenvolvimento dos quadros e simplificando a avaliação da conclusão das transições. Além disso, ao coletar vídeos do mundo real alinhados aos prompts, expandimos a aplicabilidade do TC-Bench de modelos condicionados por texto para aqueles condicionados por imagem, que podem realizar interpolação generativa de quadros. Também desenvolvemos novas métricas para medir a completude das transições de componentes nos vídeos gerados, que demonstram correlações significativamente mais altas com os julgamentos humanos do que as métricas existentes. Nossos resultados experimentais abrangentes revelam que a maioria dos geradores de vídeo alcança menos de 20% das mudanças composicionais, destacando um enorme espaço para melhorias futuras. Nossa análise indica que os modelos atuais de geração de vídeo têm dificuldade em interpretar descrições de mudanças composicionais e sintetizar vários componentes em diferentes etapas de tempo.
A estratégia padrão para treinar Modelos de Grande Reconstrução (LRMs) de visão única segue o caminho totalmente supervisionado, utilizando conjuntos de dados em larga escala de ativos 3D sintéticos ou capturas multivista. Embora esses recursos simplifiquem o procedimento de treinamento, eles são difíceis de escalar além dos conjuntos de dados existentes e não são necessariamente representativos da distribuição real das formas dos objetos. Para abordar essas limitações, neste artigo, apresentamos o Real3D, o primeiro sistema LRM que pode ser treinado utilizando imagens reais de visão única. O Real3D introduz uma nova estrutura de autotreino que pode se beneficiar tanto dos dados sintéticos existentes quanto de diversas imagens reais de visão única. Propomos duas perdas não supervisionadas que nos permitem supervisionar os LRMs em nível de pixel e semântico, mesmo para exemplos de treinamento sem verdade terrestre 3D ou novas vistas. Para melhorar ainda mais o desempenho e escalar os dados de imagem, desenvolvemos uma abordagem automática de curadoria de dados para coletar exemplos de alta qualidade a partir de imagens capturadas em ambientes reais. Nossos experimentos mostram que o Real3D supera consistentemente trabalhos anteriores em quatro configurações de avaliação diversas, que incluem dados reais e sintéticos, bem como formas dentro e fora do domínio. O código e o modelo podem ser encontrados aqui: https://hwjiang1510.github.io/Real3D/
Este trabalho trata da estimativa da taxa de alucinação no aprendizado em contexto (ICL, do inglês *in-context learning*) com IA Generativa. No ICL, um modelo generativo condicional (CGM, do inglês *conditional generative model*) é estimulado com um conjunto de dados e solicitado a fazer uma previsão com base nesse conjunto. A interpretação bayesiana do ICL assume que o CGM está calculando uma distribuição preditiva posterior sobre um modelo bayesiano desconhecido de um parâmetro latente e dos dados. Sob essa perspectiva, definimos uma alucinação como uma previsão gerada que possui baixa probabilidade sob o verdadeiro parâmetro latente. Desenvolvemos um novo método que toma um problema de ICL — ou seja, um CGM, um conjunto de dados e uma questão de previsão — e estima a probabilidade de que um CGM gere uma alucinação. Nosso método requer apenas a geração de consultas e respostas do modelo e a avaliação da probabilidade logarítmica de suas respostas. Avaliamos empiricamente nosso método em tarefas sintéticas de regressão e de ICL em linguagem natural utilizando modelos de linguagem de grande escala.
A inferência auto-regressiva de transformers se beneficia significativamente do cache de Chave-Valor (KV), mas pode levar a grandes gargalos de memória à medida que o tamanho do modelo, o tamanho do lote e o comprimento da sequência aumentam em escala. Introduzimos o compartilhamento de Chave-Valor Multi-Camadas (MLKV), uma abordagem inovadora que estende o compartilhamento de KV através das camadas do transformer para reduzir o uso de memória além do que era possível com a Atenção Multi-Consulta (MQA) e a Atenção de Consulta Agrupada (GQA). Avaliações em vários benchmarks de PLN e métricas de inferência usando variantes do Pythia-160M retreinadas demonstram que o MLKV reduz significativamente o uso de memória com perda mínima de desempenho, diminuindo o tamanho do cache KV em até 6 vezes em comparação com o MQA. Esses resultados destacam o potencial do MLKV para a implantação eficiente de modelos transformers em escala. Disponibilizamos o código em https://github.com/zaydzuhri/pythia-mlkv.
O rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs) exige benchmarks robustos e desafiadores. Leaderboards como o Chatbot Arena classificam os LLMs com base em quão bem suas respostas se alinham com as preferências humanas. No entanto, muitas tarefas, como aquelas relacionadas à inteligência emocional, escrita criativa ou persuasão, são altamente subjetivas e frequentemente carecem de consenso majoritário entre humanos. Juízes podem ter discordâncias irreconciliáveis sobre o que constitui uma resposta melhor. Para enfrentar o desafio de classificar LLMs em tarefas altamente subjetivas, propomos um novo framework de benchmarking, o Conselho de Modelos de Linguagem (LMC). O LMC opera por meio de um processo democrático para: 1) formular um conjunto de testes através de participação igualitária, 2) administrar o teste entre os membros do conselho, e 3) avaliar as respostas como um júri coletivo. Implantamos um conselho de 20 dos mais recentes LLMs em uma tarefa aberta de inteligência emocional: responder a dilemas interpessoais. Nossos resultados mostram que o LMC produz classificações que são mais separáveis, robustas e menos tendenciosas do que as de qualquer juiz individual de LLM, e são mais consistentes com um leaderboard estabelecido por humanos em comparação com outros benchmarks.
A Resposta Visual a Perguntas (VQA, do inglês Visual Question Answering) é uma tarefa importante na IA multimodal, frequentemente utilizada para testar a capacidade dos modelos de visão e linguagem de compreender e raciocinar sobre o conhecimento presente em dados visuais e textuais. No entanto, a maioria dos modelos atuais de VQA utiliza conjuntos de dados focados principalmente no inglês e em algumas das principais línguas mundiais, com imagens tipicamente centradas na cultura ocidental. Embora esforços recentes tenham tentado aumentar o número de idiomas cobertos em conjuntos de dados de VQA, ainda há uma falta de diversidade em línguas de baixo recurso. Mais importante, embora esses conjuntos de dados frequentemente ampliem seu alcance linguístico por meio de tradução ou outras abordagens, eles geralmente mantêm as mesmas imagens, resultando em uma representação cultural limitada. Para abordar essas limitações, construímos o CVQA, um novo benchmark de Resposta Visual a Perguntas multilíngue e culturalmente diverso, projetado para abranger um conjunto rico de idiomas e culturas, no qual envolvemos falantes nativos e especialistas culturais no processo de coleta de dados. Como resultado, o CVQA inclui imagens e perguntas culturalmente orientadas de 28 países em quatro continentes, abrangendo 26 idiomas com 11 sistemas de escrita, totalizando 9 mil perguntas. Em seguida, avaliamos vários Modelos de Linguagem Multimodais de Grande Escala (MLLMs, do inglês Multimodal Large Language Models) no CVQA e mostramos que o conjunto de dados é desafiador para os modelos mais avançados atualmente. Este benchmark pode servir como uma suíte de avaliação para analisar a capacidade cultural e o viés de modelos multimodais, e esperamos que incentive mais esforços de pesquisa para aumentar a conscientização cultural e a diversidade linguística nesse campo.
Apresentamos o LRM-Zero, um Modelo de Reconstrução em Grande Escala (LRM) treinado inteiramente com dados 3D sintetizados, alcançando reconstrução 3D de alta qualidade a partir de poucas visualizações. O núcleo do LRM-Zero é nosso conjunto de dados 3D procedural, Zeroverse, que é sintetizado automaticamente a partir de formas primitivas simples com texturização e aumentos aleatórios (por exemplo, campos de altura, diferenças booleanas e wireframes). Diferente de conjuntos de dados 3D anteriores (por exemplo, Objaverse), que são frequentemente capturados ou criados por humanos para aproximar dados 3D reais, o Zeroverse ignora completamente a semântica global realista, mas é rico em detalhes geométricos e texturais complexos que são localmente semelhantes ou até mais intrincados do que objetos reais. Demonstramos que nosso LRM-Zero, treinado com o Zeroverse totalmente sintetizado, pode alcançar alta qualidade visual na reconstrução de objetos do mundo real, competitivo com modelos treinados no Objaverse. Também analisamos várias escolhas críticas de design do Zeroverse que contribuem para a capacidade e estabilidade de treinamento do LRM-Zero. Nosso trabalho demonstra que a reconstrução 3D, uma das tarefas centrais na visão 3D, pode potencialmente ser abordada sem a semântica de objetos do mundo real. O código de síntese procedural do Zeroverse e a visualização interativa estão disponíveis em: https://desaixie.github.io/lrm-zero/.
Coloquialmente falando, modelos de geração de imagens baseados em processos de difusão são frequentemente descritos como exibindo "alucinações", ou seja, amostras que nunca ocorreriam nos dados de treinamento. Mas de onde vêm essas alucinações? Neste artigo, estudamos um modo específico de falha em modelos de difusão, que denominamos interpolação de modos. Especificamente, descobrimos que os modelos de difusão "interpolam" suavemente entre modos de dados próximos no conjunto de treinamento, gerando amostras que estão completamente fora do suporte da distribuição original de treinamento; esse fenômeno leva os modelos de difusão a gerar artefatos que nunca existiram em dados reais (ou seja, alucinações). Estudamos sistematicamente as razões e a manifestação desse fenômeno. Por meio de experimentos com Gaussianas 1D e 2D, mostramos como uma paisagem de perda descontínua no decodificador do modelo de difusão leva a uma região onde qualquer aproximação suave causará tais alucinações. Através de experimentos com conjuntos de dados artificiais de várias formas, mostramos como a alucinação leva à geração de combinações de formas que nunca existiram. Por fim, mostramos que os modelos de difusão, na verdade, sabem quando saem do suporte e alucinam. Isso é capturado pela alta variância na trajetória da amostra gerada durante as últimas etapas do processo de amostragem reversa. Usando uma métrica simples para capturar essa variância, podemos remover mais de 95% das alucinações no momento da geração, mantendo 96% das amostras dentro do suporte. Concluímos nossa exploração mostrando as implicações dessa alucinação (e sua remoção) no colapso (e estabilização) do treinamento recursivo em dados sintéticos, com experimentos no conjunto de dados MNIST e Gaussianas 2D. Disponibilizamos nosso código em https://github.com/locuslab/diffusion-model-hallucination.
A compressão de imagens com taxa de bits ultrabaixa é um tópico desafiador e exigente. Com o desenvolvimento dos Modelos Multimodais de Grande Escala (LMMs), surgiu um paradigma de Compressão de Modo Cruzado (CMC) do tipo Imagem-Texto-Imagem. Em comparação com os codecs tradicionais, essa compressão em nível semântico pode reduzir o tamanho dos dados de imagem para 0,1% ou até menos, o que possui um forte potencial de aplicação. No entanto, a CMC apresenta certas deficiências em relação à consistência com a imagem original e à qualidade perceptual. Para resolver esse problema, introduzimos o CMC-Bench, um benchmark do desempenho cooperativo de modelos de Imagem para Texto (I2T) e Texto para Imagem (T2I) para compressão de imagens. Esse benchmark abrange 18.000 e 40.000 imagens, respectivamente, para verificar 6 modelos I2T e 12 T2I principais, incluindo 160.000 pontuações de preferência subjetiva anotadas por especialistas humanos. Em taxas de bits ultrabaixas, este artigo demonstra que a combinação de alguns modelos I2T e T2I superou os codecs de sinal visual mais avançados; ao mesmo tempo, destaca onde os LMMs podem ser otimizados para a tarefa de compressão. Incentivamos os desenvolvedores de LMMs a participarem desse teste para promover a evolução dos protocolos de codec de sinal visual.
Na geração de imagens a partir de texto orientada por sujeitos, trabalhos recentes alcançaram desempenho superior ao treinar o modelo em conjuntos de dados sintéticos contendo inúmeros pares de imagens. Treinados nesses conjuntos de dados, os modelos generativos podem produzir imagens alinhadas ao texto para um sujeito específico a partir de qualquer imagem de teste de maneira zero-shot. Eles até superam métodos que exigem ajuste fino adicional nas imagens de teste. No entanto, o custo de criar tais conjuntos de dados é proibitivo para a maioria dos pesquisadores. Para gerar um único par de treinamento, os métodos atuais ajustam um modelo pré-treinado de texto para imagem na imagem do sujeito para capturar detalhes refinados, em seguida, usam o modelo ajustado para criar imagens do mesmo sujeito com base em prompts de texto criativos. Consequentemente, a construção de um conjunto de dados em larga escala com milhões de sujeitos pode exigir centenas de milhares de horas de GPU. Para resolver esse problema, propomos o Toffee, um método eficiente para construir conjuntos de dados para edição e geração orientada por sujeitos. Especificamente, nossa construção de conjunto de dados não requer nenhum ajuste fino no nível do sujeito. Após o pré-treinamento de dois modelos generativos, somos capazes de gerar um número infinito de amostras de alta qualidade. Construímos o primeiro conjunto de dados em larga escala para edição e geração de imagens orientada por sujeitos, que contém 5 milhões de pares de imagens, prompts de texto e máscaras. Nosso conjunto de dados é 5 vezes maior que o maior conjunto de dados anterior, mas nosso custo é dezenas de milhares de horas de GPU menor. Para testar o conjunto de dados proposto, também propomos um modelo capaz de realizar tanto edição quanto geração de imagens orientada por sujeitos. Ao simplesmente treinar o modelo em nosso conjunto de dados proposto, ele obtém resultados competitivos, ilustrando a eficácia da estrutura proposta para construção de conjuntos de dados.