Artigos de pesquisa em IA selecionados diariamente com traduções
Neste trabalho, discutimos a construção de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) de alto desempenho. Em particular, estudamos a importância de vários componentes arquitetônicos e escolhas de dados. Por meio de ablações cuidadosas e abrangentes do codificador de imagem, do conector visão-linguagem e de diversas escolhas de dados de pré-treinamento, identificamos várias lições cruciais de design. Por exemplo, demonstramos que, para o pré-treinamento multimodal em grande escala, o uso de uma mistura cuidadosa de dados de legenda de imagem, texto intercalado com imagem e apenas texto é essencial para alcançar resultados de ponta (SOTA) em poucas tentativas em vários benchmarks, em comparação com outros resultados de pré-treinamento publicados. Além disso, mostramos que o codificador de imagem, juntamente com a resolução da imagem e a contagem de tokens de imagem, tem um impacto substancial, enquanto o design do conector visão-linguagem é de importância comparativamente insignificante. Ao escalar a receita apresentada, construímos o MM1, uma família de modelos multimodais com até 30 bilhões de parâmetros, consistindo tanto de modelos densos quanto de variantes de mistura de especialistas (MoE), que são SOTA em métricas de pré-treinamento e alcançam desempenho competitivo após ajuste fino supervisionado em uma série de benchmarks multimodais estabelecidos. Graças ao pré-treinamento em grande escala, o MM1 possui propriedades atraentes, como aprendizado em contexto aprimorado e raciocínio com múltiplas imagens, permitindo prompts de cadeia de pensamento com poucas tentativas.
Ao escrever e falar, as pessoas às vezes fazem pausas para pensar. Embora trabalhos focados em raciocínio frequentemente o enquadrem como um método para responder perguntas ou completar tarefas agentivas, o raciocínio está implícito em quase todo texto escrito. Por exemplo, isso se aplica aos passos não declarados entre as linhas de uma prova ou à teoria da mente subjacente a uma conversa. No Self-Taught Reasoner (STaR, Zelikman et al. 2022), o pensamento útil é aprendido inferindo racionalidades a partir de exemplos de poucos disparos em tarefas de questionamento e aprendendo com aquelas que levam a uma resposta correta. Este é um cenário altamente restrito — idealmente, um modelo de linguagem poderia, em vez disso, aprender a inferir racionalidades não declaradas em textos arbitrários. Apresentamos o Quiet-STaR, uma generalização do STaR na qual modelos de linguagem aprendem a gerar racionalidades em cada token para explicar textos futuros, melhorando suas previsões. Abordamos desafios-chave, incluindo 1) o custo computacional de gerar continuações, 2) o fato de que o modelo de linguagem inicialmente não sabe como gerar ou usar pensamentos internos, e 3) a necessidade de prever além de tokens individuais seguintes. Para resolver isso, propomos um algoritmo de amostragem paralela por token, usando tokens aprendíveis que indicam o início e o fim de um pensamento, e uma técnica estendida de teacher-forcing. De forma encorajadora, as racionalidades geradas ajudam desproporcionalmente o modelo a prever tokens difíceis e melhoram a capacidade do modelo de linguagem de responder diretamente a perguntas difíceis. Em particular, após o pré-treinamento contínuo de um modelo de linguagem em um corpus de texto da internet com o Quiet-STaR, encontramos melhorias zero-shot no GSM8K (5,9% → 10,9%) e no CommonsenseQA (36,3% → 47,2%) e observamos uma melhoria na perplexidade de tokens difíceis em texto natural. Crucialmente, essas melhorias não exigem ajuste fino nessas tarefas. O Quiet-STaR representa um passo em direção a modelos de linguagem que podem aprender a raciocinar de forma mais geral e escalável.
O uso de modelos visão-linguagem (VLMs) no desenvolvimento web apresenta uma estratégia promissora para aumentar a eficiência e desbloquear soluções sem código: ao fornecer uma captura de tela ou um esboço de uma interface de usuário, um VLM poderia gerar o código para reproduzi-la, por exemplo, em uma linguagem como HTML. Apesar dos avanços nos VLMs para diversas tarefas, o desafio específico de converter uma captura de tela em um HTML correspondente tem sido pouco explorado. Postulamos que isso se deve principalmente à ausência de um conjunto de dados adequado e de alta qualidade. Este trabalho introduz o WebSight, um conjunto de dados sintético composto por 2 milhões de pares de códigos HTML e suas capturas de tela correspondentes. Ajustamos um VLM fundamental em nosso conjunto de dados e demonstramos proficiência na conversão de capturas de tela de páginas web em código HTML funcional. Para acelerar a pesquisa nessa área, disponibilizamos o WebSight como código aberto.
O enorme sucesso dos modelos de difusão na síntese de texto para imagem os tornou candidatos promissores para a próxima geração de aplicativos de geração e edição de imagens voltados para usuários finais. Trabalhos anteriores concentraram-se em melhorar a usabilidade dos modelos de difusão, reduzindo o tempo de inferência ou aumentando a interatividade do usuário, permitindo novos controles refinados, como prompts de texto baseados em regiões. No entanto, descobrimos empiricamente que integrar ambas as vertentes de trabalho não é trivial, limitando o potencial dos modelos de difusão. Para resolver essa incompatibilidade, apresentamos o StreamMultiDiffusion, o primeiro framework de geração de texto para imagem baseado em regiões em tempo real. Ao estabilizar técnicas de inferência rápida e reestruturar o modelo em uma nova arquitetura de fluxo em lote multiprompt, alcançamos uma geração de panoramas 10 vezes mais rápida do que as soluções existentes e uma velocidade de geração de 1,57 FPS na síntese de texto para imagem baseada em regiões em uma única GPU RTX 2080 Ti. Nossa solução abre um novo paradigma para geração interativa de imagens, chamado paleta semântica, onde imagens de alta qualidade são geradas em tempo real a partir de múltiplas regiões desenhadas à mão, codificando significados semânticos prescritos (por exemplo, águia, garota). Nosso código e aplicativo de demonstração estão disponíveis em https://github.com/ironjr/StreamMultiDiffusion.
Este artigo propõe uma estrutura simples, porém eficaz, chamada GiT, simultaneamente aplicável a diversas tarefas visuais apenas com um ViT padrão. Motivados pela universalidade da arquitetura Transformer de múltiplas camadas (por exemplo, GPT) amplamente utilizada em grandes modelos de linguagem (LLMs), buscamos ampliar seu escopo para servir como um poderoso modelo de base visual (VFM). No entanto, ao contrário da modelagem de linguagem, tarefas visuais geralmente exigem módulos específicos, como cabeças de caixas delimitadoras para detecção e decodificadores de pixels para segmentação, o que dificulta bastante a aplicação de transformadores de múltiplas camadas no domínio visual. Para resolver isso, projetamos uma interface de linguagem universal que capacita a decodificação autorregressiva bem-sucedida a unificar habilmente várias tarefas visuais, desde a compreensão em nível de imagem (por exemplo, legendagem), passando pela percepção esparsa (por exemplo, detecção), até a predição densa (por exemplo, segmentação). Com base nos designs acima, o modelo inteiro é composto apenas por um ViT, sem adições específicas, oferecendo uma simplificação arquitetônica notável. GiT é um modelo visual multitarefa, treinado conjuntamente em cinco benchmarks representativos sem ajuste fino específico para tarefas. Curiosamente, nosso GiT estabelece um novo benchmark em desempenho generalista e promove o aprimoramento mútuo entre tarefas, levando a melhorias significativas em comparação com o treinamento isolado. Isso reflete um impacto semelhante observado em LLMs. Ao enriquecer ainda mais o treinamento com 27 conjuntos de dados, GiT alcança resultados zero-shot robustos em várias tarefas. Devido ao seu design simples, esse paradigma promete reduzir a lacuna arquitetônica entre visão e linguagem. Códigos e modelos estarão disponíveis em https://github.com/Haiyang-W/GiT.
Apresentamos o Emu Video Edit (EVE), um modelo que estabelece um novo estado da arte em edição de vídeo sem depender de dados supervisionados de edição de vídeo. Para desenvolver o EVE, treinamos separadamente um adaptador de edição de imagens e um adaptador de geração de vídeo, e os conectamos ao mesmo modelo de texto para imagem. Em seguida, para alinhar os adaptadores à edição de vídeo, introduzimos um novo procedimento de destilação não supervisionada, a Destilação de Difusão Fatorizada. Esse procedimento destila conhecimento de um ou mais modelos de referência simultaneamente, sem qualquer dado supervisionado. Utilizamos esse procedimento para ensinar o EVE a editar vídeos, destilando conhecimento conjuntamente para (i) editar com precisão cada quadro individual a partir do adaptador de edição de imagens, e (ii) garantir consistência temporal entre os quadros editados usando o adaptador de geração de vídeo. Por fim, para demonstrar o potencial de nossa abordagem em desbloquear outras capacidades, alinhamos combinações adicionais de adaptadores.
Módulos de atenção eficazes têm desempenhado um papel crucial no sucesso de grandes modelos de linguagem baseados em Transformers (LLMs), mas as complexidades quadráticas de tempo e memória desses módulos de atenção também representam um desafio ao processar sequências longas. Uma solução potencial para o problema de sequências longas é utilizar clusters distribuídos para paralelizar o cálculo dos módulos de atenção em vários dispositivos (por exemplo, GPUs). No entanto, adotar uma abordagem distribuída inevitavelmente introduz sobrecargas adicionais de memória para armazenar resultados locais de atenção e incorre em custos extras de comunicação para agregar resultados locais em resultados globais. Neste artigo, propomos um framework de atenção distribuída chamado ``BurstAttention'' para otimizar o acesso à memória e as operações de comunicação tanto no nível global do cluster quanto no nível local do dispositivo. Em nossos experimentos, comparamos o BurstAttention com outras soluções competitivas de atenção distribuída para o processamento de sequências longas. Os resultados experimentais sob diferentes configurações de comprimento demonstram que o BurstAttention oferece vantagens significativas para o processamento de sequências longas em comparação com essas linhas de base competitivas, reduzindo 40% da sobrecarga de comunicação e alcançando um aumento de velocidade de 2 X durante o treinamento de sequências de 32K em 8 X A100.
A renderização visual de texto representa um desafio fundamental para os modelos contemporâneos de geração de imagem a partir de texto, com o problema central residindo nas deficiências dos codificadores de texto. Para alcançar uma renderização precisa de texto, identificamos dois requisitos cruciais para os codificadores de texto: consciência de caracteres e alinhamento com glifos. Nossa solução envolve a criação de uma série de codificadores de texto personalizados, o Glyph-ByT5, por meio do ajuste fino do codificador ByT5, que é consciente de caracteres, utilizando um conjunto de dados cuidadosamente curado de pares glifo-texto. Apresentamos um método eficaz para integrar o Glyph-ByT5 com o SDXL, resultando na criação do modelo Glyph-SDXL para geração de imagens de design. Isso melhora significativamente a precisão da renderização de texto, aumentando-a de menos de 20% para quase 90% em nosso benchmark de imagens de design. É digno de nota a nova capacidade do Glyph-SDXL para renderização de parágrafos de texto, alcançando alta precisão ortográfica para dezenas a centenas de caracteres com layouts automáticos de múltiplas linhas. Por fim, ao ajustar o Glyph-SDXL com um pequeno conjunto de imagens fotorealísticas de alta qualidade contendo texto visual, demonstramos uma melhoria substancial nas capacidades de renderização de texto em cenas em imagens reais de domínio aberto. Esses resultados convincentes visam encorajar uma exploração mais aprofundada no design de codificadores de texto personalizados para tarefas diversas e desafiadoras.
Compreender vídeos é uma das direções fundamentais na pesquisa de visão computacional, com esforços extensivos dedicados à exploração de diversas arquiteturas, como RNN, CNN 3D e Transformers. A arquitetura recém-proposta de modelo de espaço de estados, por exemplo, Mamba, mostra características promissoras para estender seu sucesso na modelagem de sequências longas para a modelagem de vídeos. Para avaliar se o Mamba pode ser uma alternativa viável aos Transformers no domínio de compreensão de vídeos, neste trabalho, conduzimos um conjunto abrangente de estudos, explorando diferentes papéis que o Mamba pode desempenhar na modelagem de vídeos, enquanto investigamos diversas tarefas em que o Mamba poderia demonstrar superioridade. Categorizamos o Mamba em quatro papéis para modelagem de vídeos, derivando um Conjunto de Vídeo Mamba composto por 14 modelos/módulos, e os avaliamos em 12 tarefas de compreensão de vídeos. Nossos experimentos extensivos revelam o forte potencial do Mamba tanto em tarefas exclusivas de vídeo quanto em tarefas de vídeo-linguagem, ao mesmo tempo que mostram promissores trade-offs entre eficiência e desempenho. Esperamos que este trabalho possa fornecer dados valiosos e insights para pesquisas futuras sobre compreensão de vídeos. O código está disponível publicamente: https://github.com/OpenGVLab/video-mamba-suite.
Grandes Modelos de Linguagem e Visão têm alcançado percepção de objetos em nível detalhado, mas a limitação da resolução das imagens continua sendo um obstáculo significativo para superar o desempenho de especialistas em tarefas específicas em cenários complexos e densos. Essa limitação restringe ainda mais o potencial do modelo para alcançar referências visuais e linguísticas refinadas em domínios como Agentes de Interface Gráfica, Contagem e outros. Para resolver esse problema, introduzimos um modelo generalista de alta resolução unificado, o Griffon v2, que permite referências flexíveis de objetos com prompts visuais e textuais. Para escalar eficientemente a resolução das imagens, projetamos um down-sampling simples e leve para superar a restrição de tokens de entrada em Grandes Modelos de Linguagem. Esse design preserva inerentemente os contextos completos e os detalhes finos, melhorando significativamente a capacidade de percepção multimodal, especialmente para objetos pequenos. Com base nisso, equipamos ainda mais o modelo com capacidades de co-referência visual-linguística por meio de um visualizador plug-and-play. Isso permite interações amigáveis com imagens-alvo flexíveis, textos de forma livre e até mesmo coordenadas. Experimentos demonstram que o Griffon v2 pode localizar qualquer objeto de interesse com referências visuais e textuais, alcançando desempenho de ponta em tarefas de REC, ancoragem de frases e REG, e superando modelos especialistas em detecção e contagem de objetos. Dados, códigos e modelos serão disponibilizados em https://github.com/jefferyZhan/Griffon.
Modelos recentes de visão-linguagem-ação (VLA) dependem de entradas 2D, carecendo de integração com o amplo domínio do mundo físico 3D. Além disso, eles realizam a previsão de ações aprendendo um mapeamento direto da percepção para a ação, negligenciando a vasta dinâmica do mundo e as relações entre ações e dinâmicas. Em contraste, os seres humanos são dotados de modelos de mundo que descrevem a imaginação sobre cenários futuros para planejar ações de acordo. Para isso, propomos o 3D-VLA, introduzindo uma nova família de modelos fundamentais incorporados que conectam de forma contínua a percepção 3D, o raciocínio e a ação por meio de um modelo de mundo generativo. Especificamente, o 3D-VLA é construído sobre um modelo de linguagem de grande escala (LLM) baseado em 3D, e um conjunto de tokens de interação é introduzido para engajar com o ambiente incorporado. Além disso, para injetar habilidades de geração no modelo, treinamos uma série de modelos de difusão incorporados e os alinhamos ao LLM para prever as imagens de objetivo e nuvens de pontos. Para treinar nosso 3D-VLA, curamos um grande conjunto de dados de instruções incorporadas em 3D, extraindo vastas informações relacionadas a 3D de conjuntos de dados de robótica existentes. Nossos experimentos em conjuntos de dados retidos demonstram que o 3D-VLA melhora significativamente as capacidades de raciocínio, geração multimodal e planejamento em ambientes incorporados, mostrando seu potencial em aplicações do mundo real.
Recentemente, pesquisadores em inteligência artificial têm demonstrado grande interesse na convergência entre linguagem e visão, impulsionando o desenvolvimento de modelos multimodais que visam integrar de forma harmoniosa informações textuais e visuais. Esses modelos, uma extensão dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), têm exibido capacidades notáveis ao abordar uma variedade de tarefas, desde a geração de legendas para imagens e respostas a perguntas visuais (VQA, na sigla em inglês) até o ancoramento visual. Embora esses modelos tenham demonstrado avanços significativos, desafios persistem na interpretação precisa de imagens e na resposta a perguntas, uma ocorrência comum em cenários do mundo real. Este artigo apresenta uma abordagem inovadora para aprimorar as capacidades multimodais dos modelos existentes. Em resposta às limitações observadas nos atuais Modelos de Linguagem Visual (VLMs, na sigla em inglês) e Modelos Multimodais de Linguagem de Grande Escala (MLLMs, na sigla em inglês), nosso modelo proposto, Veagle, incorpora um mecanismo único inspirado nos sucessos e insights de trabalhos anteriores. O Veagle utiliza um mecanismo dinâmico para projetar informações visuais codificadas diretamente no modelo de linguagem. Essa abordagem dinâmica permite uma compreensão mais detalhada dos aspectos intrincados presentes em contextos visuais. Para validar a eficácia do Veagle, realizamos experimentos abrangentes em conjuntos de dados de referência, com ênfase em tarefas como respostas a perguntas visuais e compreensão de imagens. Nossos resultados indicam uma melhoria de 5-6% no desempenho, com o Veagle superando os modelos existentes por uma margem significativa. Os resultados destacam a versatilidade e a aplicabilidade do modelo além dos benchmarks tradicionais.
A evolução dos componentes de texto para visuais facilita o cotidiano das pessoas, como a geração de imagens e vídeos a partir de texto e a identificação de elementos desejados dentro das imagens. Modelos de visão computacional que envolvem habilidades multimodais nos dias anteriores concentravam-se na detecção de imagens e classificação com base em objetos bem definidos. Modelos de linguagem de grande escala (LLMs) introduzem a transformação de linguagem natural em objetos visuais, apresentando o layout visual para contextos textuais. O GPT-4 da OpenAI emergiu como o ápice dos LLMs, enquanto o domínio da visão computacional (CV) possui uma infinidade de modelos e algoritmos de última geração (SOTA) para converter imagens 2D em suas representações 3D. No entanto, a incompatibilidade entre os algoritmos e o problema pode levar a resultados indesejados. Em resposta a esse desafio, propomos um framework unificado VisionGPT-3D para consolidar os modelos de visão de última geração, facilitando assim o desenvolvimento de IA orientada para visão. O VisionGPT-3D fornece um framework multimodal versátil, construído sobre os pontos fortes dos modelos de base multimodal. Ele integra perfeitamente vários modelos de visão SOTA e traz automação na seleção desses modelos, identifica os algoritmos de criação de malhas 3D adequados correspondentes à análise de mapas de profundidade 2D e gera resultados ótimos com base em diversas entradas multimodais, como prompts de texto. Palavras-chave: VisionGPT-3D, compreensão de visão 3D, agente multimodal
Avanços recentes em modelos de espaço de estado, notadamente o Mamba, demonstraram progresso significativo na modelagem de sequências longas para tarefas como compreensão de linguagem. No entanto, sua aplicação em tarefas de visão não superou marcadamente o desempenho das Redes Neurais Convolucionais (CNNs) tradicionais e dos Vision Transformers (ViTs). Este artigo propõe que a chave para aprimorar o Vision Mamba (ViM) reside na otimização das direções de varredura para a modelagem de sequências. As abordagens tradicionais do ViM, que achatam os tokens espaciais, negligenciam a preservação das dependências locais 2D, prolongando assim a distância entre tokens adjacentes. Introduzimos uma nova estratégia de varredura local que divide as imagens em janelas distintas, capturando efetivamente as dependências locais enquanto mantém uma perspectiva global. Além disso, reconhecendo as diferentes preferências por padrões de varredura em várias camadas da rede, propomos um método dinâmico para buscar independentemente as escolhas ótimas de varredura para cada camada, melhorando substancialmente o desempenho. Experimentos extensos em modelos planos e hierárquicos destacam a superioridade de nossa abordagem na captura eficaz de representações de imagens. Por exemplo, nosso modelo supera significativamente o Vim-Ti em 3,1% no ImageNet com os mesmos 1,5G FLOPs. O código está disponível em: https://github.com/hunto/LocalMamba.