Artigos de pesquisa em IA selecionados diariamente com traduções
Gerar respostas naturais e significativas para se comunicar com entradas humanas multimodais é uma capacidade fundamental dos Grandes Modelos de Visão e Linguagem (LVLMs). Embora os LVLMs de código aberto atuais demonstrem desempenho promissor em cenários simplificados, como entradas de imagem única e turno único, eles ficam aquém em cenários de conversação do mundo real, como seguir instruções em um histórico de contexto longo com múltiplos turnos e múltiplas imagens. Os benchmarks existentes para LVLMs focam principalmente em questões de escolha única ou respostas curtas, que não avaliam adequadamente as capacidades dos LVLMs em aplicações de interação humano-IA do mundo real. Portanto, introduzimos o MMDU, um benchmark abrangente, e o MMDU-45k, um grande conjunto de dados de ajuste de instruções, projetados para avaliar e melhorar as habilidades dos LVLMs em conversas com múltiplos turnos e múltiplas imagens. Empregamos um algoritmo de clustering para encontrar as imagens e descrições textuais relevantes da Wikipedia de código aberto e construímos pares de perguntas e respostas por anotadores humanos com a assistência do modelo GPT-4. O MMDU possui um máximo de 18 mil tokens de imagem+texto, 20 imagens e 27 turnos, o que é pelo menos 5 vezes maior do que os benchmarks anteriores e representa desafios para os LVLMs atuais. Nossa análise detalhada de 15 LVLMs representativos usando o MMDU revela que os LVLMs de código aberto ficam atrás dos modelos de código fechado devido à limitação de dados de ajuste de instruções conversacionais. Demonstramos que o ajuste fino de LVLMs de código aberto no MMDU-45k aborda significativamente essa lacuna, gerando conversas mais longas e precisas, e melhorando as pontuações no MMDU e em benchmarks existentes (MMStar: +1,1%, MathVista: +1,5%, ChartQA: +1,2%). Nossas contribuições abrem caminho para reduzir a lacuna entre os modelos LVLM atuais e as demandas de aplicações do mundo real. Este projeto está disponível em https://github.com/Liuziyu77/MMDU.
Apresentamos o DataComp for Language Models (DCLM), um ambiente de testes para experimentos controlados com conjuntos de dados com o objetivo de melhorar modelos de linguagem. Como parte do DCLM, fornecemos um corpus padronizado de 240 trilhões de tokens extraídos do Common Crawl, receitas eficazes de pré-treinamento baseadas na estrutura OpenLM e um amplo conjunto de 53 avaliações de tarefas downstream. Os participantes do benchmark DCLM podem experimentar estratégias de curadoria de dados, como deduplicação, filtragem e mistura de dados, em escalas de modelos que variam de 412 milhões a 7 bilhões de parâmetros. Como linha de base para o DCLM, realizamos extensos experimentos e descobrimos que a filtragem baseada em modelo é fundamental para montar um conjunto de treinamento de alta qualidade. O conjunto de dados resultante, DCLM-Baseline, permite treinar um modelo de linguagem de 7 bilhões de parâmetros do zero, alcançando 64% de acurácia em 5-shot no MMLU com 2,6 trilhões de tokens de treinamento. Em comparação com o MAP-Neo, o estado da arte anterior em modelos de linguagem de dados abertos, o DCLM-Baseline representa uma melhoria de 6,6 pontos percentuais no MMLU, enquanto é treinado com 40% menos recursos computacionais. Nosso modelo de base também é comparável ao Mistral-7B-v0.3 e ao Llama 3 8B no MMLU (63% e 66%) e tem desempenho semelhante na média de 53 tarefas de compreensão de linguagem natural, enquanto é treinado com 6,6 vezes menos recursos computacionais do que o Llama 3 8B. Nossos resultados destacam a importância do design de conjuntos de dados para o treinamento de modelos de linguagem e oferecem um ponto de partida para pesquisas adicionais sobre curadoria de dados.
A otimização direta de preferências (DPO, na sigla em inglês) tem se mostrado um método eficaz para o alinhamento de modelos de linguagem de grande escala (LLMs). Trabalhos recentes tentaram aplicar a DPO em cenários multimodais, mas encontraram dificuldades em alcançar melhorias consistentes. Por meio de um experimento comparativo, identificamos o problema de preferência incondicional na otimização de preferências multimodais, onde o modelo ignora a condição da imagem. Para resolver esse problema, propomos o mDPO, um objetivo de DPO multimodal que evita a priorização excessiva de preferências baseadas apenas em texto, otimizando também a preferência por imagens. Além disso, introduzimos uma âncora de recompensa que força a recompensa a ser positiva para respostas escolhidas, evitando assim a diminuição de sua probabilidade — um problema intrínseco da otimização de preferências relativas. Experimentos realizados em dois LLMs multimodais de tamanhos diferentes e três benchmarks amplamente utilizados demonstram que o mDPO resolve efetivamente o problema de preferência incondicional na otimização de preferências multimodais e melhora significativamente o desempenho do modelo, particularmente na redução de alucinações.
Modelos de linguagem de grande escala (LLMs) são capazes de processar longos históricos de diálogo durante interações prolongadas com usuários sem a necessidade de módulos de memória adicionais; no entanto, suas respostas tendem a ignorar ou recordar incorretamente informações do passado. Neste artigo, revisitamos a geração de respostas aumentada por memória na era dos LLMs. Enquanto trabalhos anteriores focam em eliminar memórias desatualizadas, argumentamos que tais memórias podem fornecer pistas contextuais que ajudam sistemas de diálogo a compreender o desenvolvimento de eventos passados e, portanto, beneficiar a geração de respostas. Apresentamos Theanine, um framework que aumenta a geração de respostas dos LLMs com linhas do tempo de memória — séries de memórias que demonstram o desenvolvimento e a causalidade de eventos passados relevantes. Juntamente com Theanine, introduzimos TeaFarm, um pipeline de perguntas e respostas baseado em cenários contrafactuais que aborda a limitação do G-Eval em conversas de longo prazo. Vídeos complementares de nossos métodos e o conjunto de dados TeaBag para avaliação do TeaFarm estão disponíveis em https://theanine-693b0.web.app/.
Recentemente, ativos 3D criados por meio de reconstrução e geração atingiram a qualidade de ativos feitos manualmente, destacando seu potencial de substituição. No entanto, esse potencial permanece em grande parte não realizado porque esses ativos sempre precisam ser convertidos em malhas para aplicações na indústria 3D, e as malhas produzidas pelos métodos atuais de extração de malhas são significativamente inferiores às Malhas Criadas por Artistas (AMs), ou seja, malhas criadas por artistas humanos. Especificamente, os métodos atuais de extração de malhas dependem de faces densas e ignoram características geométricas, levando a ineficiências, pós-processamento complicado e menor qualidade de representação. Para resolver esses problemas, apresentamos o MeshAnything, um modelo que trata a extração de malhas como um problema de geração, produzindo AMs alinhadas com formas especificadas. Ao converter ativos 3D em qualquer representação 3D em AMs, o MeshAnything pode ser integrado a vários métodos de produção de ativos 3D, aprimorando assim sua aplicação em toda a indústria 3D. A arquitetura do MeshAnything compreende um VQ-VAE e um transformador decodificador condicionado por forma. Primeiro, aprendemos um vocabulário de malhas usando o VQ-VAE, depois treinamos o transformador decodificador condicionado por forma nesse vocabulário para a geração autoregressiva de malhas condicionadas por forma. Nossos extensos experimentos mostram que nosso método gera AMs com centenas de vezes menos faces, melhorando significativamente a eficiência de armazenamento, renderização e simulação, ao mesmo tempo em que alcança precisão comparável aos métodos anteriores.
Apesar da observação recente de que os grandes modelos de linguagem (LLMs) podem armazenar um conhecimento factual substancial, há uma compreensão limitada sobre os mecanismos pelos quais eles adquirem conhecimento factual por meio do pré-treinamento. Este trabalho aborda essa lacuna ao estudar como os LLMs adquirem conhecimento factual durante o pré-treinamento. As descobertas revelam vários insights importantes sobre a dinâmica de aquisição de conhecimento factual durante o pré-treinamento. Primeiro, contrariamente à intuição, observamos que o pré-treinamento com mais dados não mostra uma melhoria significativa na capacidade do modelo de adquirir e manter conhecimento factual. Em seguida, há uma relação de lei de potência entre os passos de treinamento e o esquecimento da memorização e generalização do conhecimento factual, e os LLMs treinados com dados duplicados exibem um esquecimento mais rápido. Terceiro, treinar LLMs com tamanhos de lote maiores pode aumentar a robustez dos modelos ao esquecimento. No geral, nossas observações sugerem que a aquisição de conhecimento factual no pré-treinamento de LLMs ocorre ao aumentar progressivamente a probabilidade do conhecimento factual apresentado nos dados de pré-treinamento a cada passo. No entanto, esse aumento é diluído pelo subsequente esquecimento. Com base nessa interpretação, demonstramos que podemos fornecer explicações plausíveis para comportamentos recentemente observados em LLMs, como o desempenho ruim dos LLMs em conhecimento de cauda longa e os benefícios de deduplicar o corpus de pré-treinamento.
A implantação de grandes modelos de linguagem (LLMs) é frequentemente dificultada pelos extensos requisitos de memória do cache de Chave-Valor (KV), especialmente à medida que os comprimentos de contexto aumentam. As abordagens existentes para reduzir o tamanho do cache KV envolvem tanto o ajuste fino do modelo para aprender uma estratégia de compressão quanto a utilização de pontuações de atenção para reduzir o comprimento da sequência. Analisamos as distribuições de atenção em modelos baseados em Transformers de apenas decodificação e observamos que os padrões de alocação de atenção permanecem consistentes na maioria das camadas. Surpreendentemente, encontramos uma clara correlação entre a norma L_2 e as pontuações de atenção sobre os pares KV armazenados em cache, onde uma norma L_2 baixa de uma incorporação de chave geralmente resulta em uma pontuação de atenção alta durante a decodificação. Essa descoberta indica que a influência de um par KV é potencialmente determinada pela própria incorporação da chave antes de ser consultada. Com base nessa observação, comprimimos o cache KV com base na norma L_2 das incorporações de chave. Nossos resultados experimentais mostram que essa estratégia simples pode reduzir o tamanho do cache KV em 50% em tarefas de modelagem de linguagem e de "agulha no palheiro" e em 90% em tarefas de recuperação de senha sem perda de precisão.
Modelos de Linguagem de Grande Porte recentes foram aprimorados com capacidades visuais, permitindo que compreendam imagens, vídeos e conteúdo intercalado de visão e linguagem. No entanto, os métodos de aprendizado desses grandes modelos multimodais geralmente tratam os vídeos como clipes predeterminados, tornando-os menos eficazes e eficientes no processamento de entradas de vídeo em fluxo contínuo. Neste artigo, propomos uma nova estrutura de Aprendizado-em-Fluxo-de-Vídeo (LIVE), que permite conversas alinhadas temporalmente, de longo contexto e em tempo real dentro de um fluxo contínuo de vídeo. Nossa estrutura LIVE compreende abordagens abrangentes para alcançar o diálogo em fluxo de vídeo, incluindo: (1) um objetivo de treinamento projetado para realizar modelagem de linguagem para entradas contínuas em fluxo, (2) um esquema de geração de dados que converte anotações temporais offline em um formato de diálogo em fluxo, e (3) um pipeline de inferência otimizado para acelerar as respostas do modelo em fluxos de vídeo do mundo real. Com nossa estrutura LIVE, construímos o modelo VideoLLM-online sobre Llama-2/Llama-3 e demonstramos suas vantagens significativas no processamento de vídeos em fluxo. Por exemplo, em média, nosso modelo pode suportar diálogo em fluxo em um clipe de vídeo de 5 minutos a mais de 10 FPS em uma GPU A100. Além disso, ele também apresenta desempenho de ponta em benchmarks públicos de vídeo offline, como reconhecimento, legendagem e previsão. O código, modelo, dados e demonstração estão disponíveis em https://showlab.github.io/videollm-online.
Perceber e compreender sons não verbais e fala não verbal é essencial para tomar decisões que nos ajudam a interagir com o nosso entorno. Neste artigo, propomos o GAMA, um novo Modelo de Linguagem e Áudio de Propósito Geral (LALM, na sigla em inglês) com Capacidades Avançadas de Compreensão de Áudio e Raciocínio Complexo. Construímos o GAMA integrando um LLM (Large Language Model) com múltiplos tipos de representações de áudio, incluindo características de um Audio Q-Former personalizado, um agregador multicamadas que combina características de várias camadas de um codificador de áudio. Ajustamos o GAMA em um conjunto de dados de larga escala de áudio e linguagem, o que o aprimora com capacidades de compreensão de áudio. Em seguida, propomos o CompA-R (Ajuste por Instrução para Raciocínio Complexo em Áudio), um conjunto de dados de ajuste por instrução (IT) gerado sinteticamente com instruções que exigem que o modelo realize raciocínio complexo sobre o áudio de entrada. Ajustamos o GAMA com o CompA-R para dotá-lo de habilidades de raciocínio complexo, onde adicionamos ainda um prompt suave como entrada com evidências semânticas de alto nível, aproveitando as etiquetas de eventos do áudio de entrada. Por fim, também propomos o CompA-R-test, um conjunto de dados de avaliação rotulado por humanos para avaliar as capacidades de LALMs em tarefas de resposta a perguntas abertas sobre áudio que exigem raciocínio complexo. Por meio de avaliações automatizadas e por especialistas humanos, mostramos que o GAMA supera todos os outros LALMs da literatura em diversas tarefas de compreensão de áudio, com margens de 1% a 84%. Além disso, o GAMA ajustado com o CompA-R demonstra ser superior em suas capacidades de raciocínio complexo e de seguir instruções.
Modelos de linguagem de grande escala (LLMs) baseados em transformadores apenas decodificadores demonstraram capacidades superiores de compreensão de texto em comparação com os modelos da série CLIP e T5. No entanto, o paradigma para utilizar os LLMs avançados atuais em modelos de difusão de texto para imagem ainda precisa ser explorado. Observamos um fenômeno incomum: o uso direto de um modelo de linguagem de grande escala como codificador de prompt degrada significativamente a capacidade de seguir o prompt na geração de imagens. Identificamos dois principais obstáculos por trás desse problema. Um é o desalinhamento entre o treinamento de previsão do próximo token no LLM e a necessidade de características discriminativas de prompt nos modelos de difusão. O outro é o viés posicional intrínseco introduzido pela arquitetura apenas decodificadora. Para lidar com esse problema, propomos uma nova estrutura para aproveitar plenamente as capacidades dos LLMs. Por meio de uma orientação de uso cuidadosamente projetada, aprimoramos efetivamente a capacidade de representação de texto para codificação de prompt e eliminamos seu viés posicional inerente. Isso nos permite integrar LLMs de última geração ao modelo de geração de texto para imagem de forma flexível. Além disso, também fornecemos uma maneira eficaz de fundir múltiplos LLMs em nossa estrutura. Considerando o excelente desempenho e capacidades de escalabilidade demonstrados pela arquitetura do transformador, projetamos ainda um Transformador de Difusão Infundido com LLM (LI-DiT) baseado na estrutura. Realizamos extensos experimentos para validar o LI-DiT em termos de tamanho do modelo e tamanho dos dados. Beneficiando-se da capacidade inerente dos LLMs e de nossos designs inovadores, o desempenho de compreensão de prompt do LI-DiT supera facilmente os modelos de código aberto de última geração, bem como os modelos comerciais de código fechado dominantes, incluindo Stable Diffusion 3, DALL-E 3 e Midjourney V6. O poderoso LI-DiT-10B estará disponível após otimizações e verificações de segurança adicionais.
Conjuntos de dados intercalados multimodais que apresentam sequências intercaladas de forma livre de imagens e texto são cruciais para o treinamento de modelos multimodais de grande escala (LMMs) de ponta. Apesar do rápido avanço dos LMMs de código aberto, ainda há uma escassez significativa de conjuntos de dados intercalados multimodais de grande escala e diversificados disponíveis publicamente. Em resposta, apresentamos o MINT-1T, o conjunto de dados Multimodal INTerleaved mais extenso e diversificado de código aberto até o momento. O MINT-1T compreende um trilhão de tokens de texto e três bilhões de imagens, representando um aumento de 10 vezes em escala em relação aos conjuntos de dados de código aberto existentes. Além disso, incluímos fontes anteriormente não exploradas, como PDFs e artigos do ArXiv. Como a escalabilidade de conjuntos de dados intercalados multimodais requer um esforço de engenharia substancial, compartilhar o processo de curadoria de dados e liberar o conjunto de dados beneficia enormemente a comunidade. Nossos experimentos mostram que os LMMs treinados no MINT-1T rivalizam com o desempenho dos modelos treinados no conjunto de dados líder anterior, o OBELICS. Nossos dados e código serão liberados em https://github.com/mlfoundations/MINT-1T.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstraram uma excelente compreensão de imagens e dados 3D. No entanto, ambas as modalidades têm limitações na captura holística da aparência e da geometria dos objetos. Enquanto isso, Campos de Radiação Neural (NeRFs), que codificam informações nos pesos de uma Rede Neural Multicamada Simples (MLP), surgiram como uma modalidade cada vez mais difundida que codifica simultaneamente a geometria e a aparência fotorrealista dos objetos. Este artigo investiga a viabilidade e a eficácia de integrar NeRF em MLLM. Criamos o LLaNA, o primeiro assistente de linguagem NeRF de propósito geral capaz de realizar novas tarefas, como legendagem de NeRF e perguntas e respostas (Q&A). Notavelmente, nosso método processa diretamente os pesos da MLP do NeRF para extrair informações sobre os objetos representados, sem a necessidade de renderizar imagens ou materializar estruturas de dados 3D. Além disso, construímos um conjunto de dados de NeRFs com anotações textuais para várias tarefas de linguagem NeRF sem intervenção humana. Com base nesse conjunto de dados, desenvolvemos um benchmark para avaliar a capacidade de compreensão de NeRF do nosso método. Os resultados mostram que o processamento dos pesos do NeRF apresenta desempenho superior em comparação com a extração de representações 2D ou 3D a partir de NeRFs.
O treinamento de grandes modelos de visão e linguagem requer pares extensos e de alta qualidade de imagens e textos. No entanto, os conjuntos de dados existentes, extraídos da web, são ruidosos e carecem de descrições detalhadas das imagens. Para preencher essa lacuna, apresentamos o PixelProse, um conjunto de dados abrangente com mais de 16 milhões de legendas geradas sinteticamente, utilizando modelos de ponta de visão e linguagem para descrições detalhadas e precisas. Para garantir a integridade dos dados, analisamos rigorosamente nosso conjunto de dados em busca de conteúdo problemático, incluindo material de abuso sexual infantil (CSAM), informações pessoalmente identificáveis (PII) e toxicidade. Também fornecemos metadados valiosos, como a presença de marcas d'água e pontuações estéticas, auxiliando na filtragem adicional do conjunto de dados. Esperamos que o PixelProse seja um recurso valioso para futuras pesquisas em visão e linguagem. O PixelProse está disponível em https://huggingface.co/datasets/tomg-group-umd/pixelprose.
Modelos de mundo simulam estados futuros do mundo em resposta a diferentes ações. Eles facilitam a criação de conteúdo interativo e fornecem uma base para raciocínios fundamentados e de longo prazo. Os modelos de base atuais não atendem plenamente às capacidades dos modelos de mundo gerais: os grandes modelos de linguagem (LLMs) são limitados por sua dependência da modalidade linguística e por sua compreensão limitada do mundo físico, enquanto os modelos de vídeo carecem de controle interativo sobre as simulações do mundo. Este artigo dá um passo em direção à construção de um modelo de mundo geral ao introduzir Pandora, um modelo híbrido autoregressivo-difusivo que simula estados do mundo gerando vídeos e permite controle em tempo real com ações em texto livre. Pandora alcança generalidade de domínio, consistência de vídeo e controlabilidade por meio de pré-treinamento em larga escala e ajuste por instrução. Crucialmente, Pandora contorna o custo do treinamento a partir do zero ao integrar um LLM pré-treinado (7B) e um modelo de vídeo pré-treinado, exigindo apenas ajustes leves adicionais. Ilustramos extensas saídas de Pandora em diversos domínios (interior/exterior, natural/urbano, humano/robô, 2D/3D, etc.). Os resultados indicam um grande potencial para a construção de modelos de mundo gerais mais robustos com treinamento em escala maior.
O aprendizado por reforço com feedback humano (RLHF) é uma solução promissora para alinhar modelos de linguagem de grande escala (LLMs) mais de perto com os valores humanos. A otimização de preferências fora da política, onde os dados de preferência são obtidos de outros modelos, é amplamente adotada devido à sua eficiência de custo e escalabilidade. No entanto, a otimização de preferências fora da política frequentemente sofre com uma lacuna distribucional entre a política usada para coleta de dados e a política alvo, levando a uma otimização subótima. Neste artigo, propomos uma nova estratégia para mitigar esse problema simulando o aprendizado dentro da política com dados de preferência fora da política. Nosso método de Otimização de Preferências Ponderadas (WPO) adapta os dados fora da política para se assemelharem mais aos dados dentro da política, reponderando os pares de preferência de acordo com sua probabilidade sob a política atual. Esse método não apenas aborda o problema da lacuna distribucional, mas também aprimora o processo de otimização sem incorrer em custos adicionais. Validamos nosso método em benchmarks de seguimento de instruções, incluindo Alpaca Eval 2 e MT-bench. O WPO não apenas supera a Otimização Direta de Preferências (DPO) em até 5,6% no Alpaca Eval 2, mas também estabelece uma taxa de vitória notável controlada por comprimento contra o GPT-4-turbo de 48,6% com base no Llama-3-8B-Instruct, tornando-o o modelo de 8B mais forte no ranking. Disponibilizaremos o código e os modelos em https://github.com/wzhouad/WPO.
O paradigma existente de ajuste fino para modelos de linguagem é frágil em cenários de edição de conhecimento, onde o modelo deve incorporar novas informações sem extenso retreinamento. Essa fragilidade frequentemente resulta em overfitting, redução de desempenho e geração de linguagem não natural. Para abordar isso, propomos o Consistent In-Context Editing (ICE), uma abordagem inovadora que aproveita a capacidade de aprendizado em contexto do modelo para ajustá-lo em direção a uma distribuição contextual em vez de um alvo one-hot. O ICE introduz uma estrutura de otimização direta que inclui tanto um alvo quanto um procedimento, aprimorando a robustez e a eficácia dos métodos de ajuste baseados em gradiente. Fornecemos insights analíticos sobre o ICE em quatro aspectos críticos da edição de conhecimento: precisão, localidade, generalização e qualidade linguística, mostrando suas vantagens. Resultados experimentais em quatro conjuntos de dados confirmam a eficácia do ICE e demonstram seu potencial para edição contínua, garantindo que as informações atualizadas sejam incorporadas enquanto a integridade do modelo é preservada.
Os recentes avanços em modelos de visão e linguagem (VLMs) destacam a necessidade de avaliar as preferências humanas em interações multimodais do mundo real. Para abordar essa lacuna, lançamos o WildVision-Arena (WV-Arena), uma plataforma online que coleta preferências humanas para avaliar VLMs. Nós selecionamos o WV-Bench ao escolher 500 amostras de alta qualidade entre 8.000 submissões de usuários no WV-Arena. O WV-Bench utiliza o GPT-4 como juiz para comparar cada VLM com o Claude-3-Sonnet, alcançando uma correlação de Spearman de 0,94 com o Elo do WV-Arena. Isso supera significativamente outros benchmarks como MMVet, MMMU e MMStar. Nossa análise abrangente de 20 mil interações do mundo real revela insights importantes sobre os casos de falha dos VLMs de melhor desempenho. Por exemplo, descobrimos que, embora o GPT-4V supere muitos outros modelos como Reka-Flash, Opus e Yi-VL-Plus em tarefas simples de reconhecimento visual e raciocínio, ele ainda enfrenta desafios com pistas contextuais sutis, raciocínio espacial, imaginação visual e conhecimento de domínio especializado. Além disso, os VLMs atuais apresentam problemas com alucinações e segurança quando intencionalmente provocados. Estamos disponibilizando nossos dados de chat e feedback para avançar ainda mais a pesquisa no campo dos VLMs.
Apresentamos o L4GM, o primeiro Modelo de Reconstrução Grande 4D que produz objetos animados a partir de um vídeo de visão única — em uma única passagem feed-forward que leva apenas um segundo. A chave para o nosso sucesso é um novo conjunto de dados de vídeos multivista contendo objetos animados renderizados e curados do Objaverse. Esse conjunto de dados retrata 44K objetos diversos com 110K animações renderizadas em 48 pontos de vista, resultando em 12M de vídeos com um total de 300M de quadros. Mantemos nosso L4GM simples para escalabilidade e o construímos diretamente sobre o LGM, um Modelo de Reconstrução Grande 3D pré-treinado que produz elipsoides 3D Gaussianos a partir de entrada de imagens multivista. O L4GM produz uma representação 3D Gaussian Splatting por quadro a partir de quadros de vídeo amostrados em uma baixa taxa de quadros por segundo (fps) e, em seguida, aumenta a representação para uma taxa de quadros mais alta para alcançar suavidade temporal. Adicionamos camadas de autoatenção temporal ao LGM base para ajudá-lo a aprender consistência ao longo do tempo e utilizamos uma perda de renderização multivista por intervalo de tempo para treinar o modelo. A representação é aumentada para uma taxa de quadros mais alta treinando um modelo de interpolação que produz representações 3D Gaussianas intermediárias. Demonstramos que o L4GM, treinado apenas com dados sintéticos, generaliza extremamente bem em vídeos do mundo real, produzindo ativos 3D animados de alta qualidade.
No mundo real, os documentos são organizados em diferentes formatos e diversas modalidades. Os pipelines tradicionais de recuperação exigem técnicas personalizadas de análise de documentos e módulos de extração de conteúdo para preparar a entrada para indexação. Esse processo é tedioso, propenso a erros e resulta em perda de informação. Para isso, propomos o Document Screenshot Embedding (DSE), um novo paradigma de recuperação que trata capturas de tela de documentos como um formato de entrada unificado, que não requer nenhum pré-processamento de extração de conteúdo e preserva todas as informações de um documento (por exemplo, texto, imagem e layout). O DSE aproveita um grande modelo de visão e linguagem para codificar diretamente capturas de tela de documentos em representações densas para recuperação. Para avaliar nosso método, primeiro criamos o conjunto de dados Wiki-SS, um corpus de 1,3 milhão de capturas de tela de páginas da Wikipedia, para responder às perguntas do conjunto de dados Natural Questions. Nesse cenário de recuperação de documentos intensivos em texto, o DSE mostra eficácia competitiva em comparação com outros métodos de recuperação de texto que dependem de análise. Por exemplo, o DSE supera o BM25 em 17 pontos na precisão de recuperação top-1. Além disso, em uma tarefa de recuperação de slides com modalidade mista, o DSE supera significativamente os métodos de recuperação de texto OCR em mais de 15 pontos no nDCG@10. Esses experimentos mostram que o DSE é um paradigma eficaz de recuperação de documentos para diversos tipos de documentos. Os checkpoints do modelo, o código e a coleção Wiki-SS serão disponibilizados.
Os benchmarks para grandes modelos de linguagem multimodal (MLMs) agora servem para avaliar simultaneamente as capacidades gerais dos modelos, em vez de focar em uma habilidade específica. Como resultado, quando um desenvolvedor deseja identificar quais modelos usar para sua aplicação, ele se vê sobrecarregado pelo número de benchmarks e permanece incerto sobre quais resultados são mais representativos para seu caso de uso específico. Este artigo apresenta o Task-Me-Anything, um mecanismo de geração de benchmarks que produz um benchmark personalizado de acordo com as necessidades do usuário. O Task-Me-Anything mantém uma taxonomia extensível de recursos visuais e pode gerar programaticamente um vasto número de instâncias de tarefas. Além disso, ele aborda algoritmicamente as consultas dos usuários sobre o desempenho dos MLMs de forma eficiente, dentro de um orçamento computacional. Ele contém 113 mil imagens, 10 mil vídeos, 2 mil recursos de objetos 3D, mais de 365 categorias de objetos, 655 atributos e 335 relacionamentos. Ele pode gerar 750 milhões de pares de perguntas e respostas com imagens/vídeos, focando na avaliação das capacidades perceptivas dos MLMs. O Task-Me-Anything revela insights críticos: os MLMs de código aberto se destacam no reconhecimento de objetos e atributos, mas carecem de compreensão espacial e temporal; cada modelo exibe pontos fortes e fracos únicos; modelos maiores geralmente têm melhor desempenho, embora existam exceções; e o GPT4o demonstra desafios ao reconhecer objetos em rotação/movimento e ao distinguir cores.
Uma fronteira recente na visão computacional tem sido a tarefa de geração de vídeos 3D, que consiste em gerar uma representação 3D variável no tempo de uma cena. Para gerar cenas 3D dinâmicas, os métodos atuais modelam explicitamente a dinâmica temporal 3D otimizando conjuntamente a consistência ao longo do tempo e das visões da cena. Neste artigo, investigamos se é necessário impor explicitamente a consistência multivisão ao longo do tempo, como fazem as abordagens atuais, ou se é suficiente que um modelo gere representações 3D de cada instante de tempo de forma independente. Propomos, portanto, um modelo, Vid3D, que aproveita a difusão de vídeo 2D para gerar vídeos 3D, primeiro gerando uma "semente" 2D da dinâmica temporal do vídeo e, em seguida, gerando independentemente uma representação 3D para cada instante de tempo no vídeo semente. Avaliamos o Vid3D em comparação com dois métodos state-of-the-art de geração de vídeos 3D e constatamos que o Vid3D alcança resultados comparáveis, apesar de não modelar explicitamente a dinâmica temporal 3D. Além disso, investigamos como a qualidade do Vid3D depende do número de visões geradas por quadro. Embora observemos alguma degradação com menos visões, a queda de desempenho permanece mínima. Nossos resultados sugerem, portanto, que o conhecimento temporal 3D pode não ser necessário para gerar cenas 3D dinâmicas de alta qualidade, potencialmente permitindo algoritmos generativos mais simples para essa tarefa.
É amplamente aceito que uma rede neural pode ajustar um conjunto de treinamento contendo pelo menos tantas amostras quanto o número de parâmetros que possui, sustentando as noções de modelos superparametrizados e subparametrizados. Na prática, no entanto, encontramos apenas soluções acessíveis por meio de nosso procedimento de treinamento, incluindo o otimizador e regularizadores, o que limita a flexibilidade. Além disso, a parametrização exata da classe de funções, incorporada em uma arquitetura, molda sua superfície de perda e impacta os mínimos que encontramos. Neste trabalho, examinamos a capacidade das redes neurais de ajustar dados na prática. Nossas descobertas indicam que: (1) otimizadores padrão encontram mínimos onde o modelo só consegue ajustar conjuntos de treinamento com significativamente menos amostras do que o número de parâmetros que possui; (2) redes convolucionais são mais eficientes em termos de parâmetros do que MLPs e ViTs, mesmo em dados com rótulos aleatórios; (3) embora o treinamento estocástico seja considerado ter um efeito regularizador, o SGD, na verdade, encontra mínimos que ajustam mais dados de treinamento do que o gradiente descendente em lote completo; (4) a diferença na capacidade de ajustar amostras corretamente e incorretamente rotuladas pode ser preditiva de generalização; (5) funções de ativação ReLU resultam na descoberta de mínimos que ajustam mais dados, apesar de terem sido projetadas para evitar gradientes que desaparecem ou explodem em arquiteturas profundas.
Apresentamos um novo conjunto de dados de preferências multimodais para tarefas criativas, composto por mais de 250 milhões de avaliações humanas em mais de 2,2 milhões de legendas, coletadas por meio de crowdsourcing de dados de avaliação do concurso semanal de legendas para cartuns da The New Yorker ao longo dos últimos oito anos. Esse conjunto de dados único apoia o desenvolvimento e a avaliação de modelos de linguagem multimodal de grande escala e algoritmos de ajuste fino baseados em preferências para a geração de legendas humorísticas. Propomos novos benchmarks para julgar a qualidade das legendas geradas por modelos, utilizando tanto o GPT4 quanto julgamentos humanos para estabelecer estratégias de avaliação baseadas em ranking. Nossos resultados experimentais destacam as limitações dos métodos atuais de ajuste fino, como RLHF e DPO, quando aplicados a tarefas criativas. Além disso, demonstramos que até mesmo modelos de última geração, como GPT4 e Claude, atualmente têm desempenho inferior aos melhores concorrentes humanos na geração de legendas humorísticas. Ao concluir esse extenso esforço de coleta de dados, disponibilizamos todo o conjunto de dados de preferências para a comunidade de pesquisa, promovendo avanços adicionais na geração e avaliação de humor por IA.
O rápido crescimento dos Modelos de Linguagem (LMs) expandiu seu uso em diversas aplicações. No entanto, devido a restrições de tamanho do modelo, custos associados ou limitações proprietárias, a utilização de LMs de última geração (SOTA) nem sempre é viável. Com o surgimento de LMs menores e abertos, mais aplicações podem aproveitar suas capacidades, mas a seleção do LM adequado pode ser desafiadora. Este trabalho realiza uma análise experimental detalhada da correção semântica das saídas de 10 LMs menores e abertos em três aspectos: tipos de tarefas, domínios de aplicação e tipos de raciocínio, utilizando diversos estilos de prompt. Demonstramos que os modelos e estilos de prompt mais eficazes variam dependendo dos requisitos específicos. Nossa análise fornece uma avaliação comparativa dos LMs e estilos de prompt usando um esquema proposto de três níveis de aspectos para sua seleção estratégica com base no caso de uso e outras restrições. Também mostramos que, se utilizados adequadamente, esses LMs podem competir e, às vezes, superar LMs SOTA como DeepSeek-v2, GPT-3.5-Turbo e GPT-4o.
Transformers baseados em atenção tornaram-se a arquitetura padrão em muitos campos de aprendizado profundo, principalmente devido à sua capacidade de modelar dependências de longo alcance e lidar com sequências de entrada de comprimento variável. No entanto, o mecanismo de atenção, com sua complexidade quadrática, é um gargalo significativo na arquitetura do transformer. Esse algoritmo é unidirecional no decodificador e converge para um padrão estático em modelos apenas de decodificação superparametrizados. Abordo essa questão desenvolvendo uma função generativa como substituição de atenção ou ativação. Ela ainda mantém o caráter autorregressivo ao comparar cada token com o anterior. Em meu cenário de teste com o nanoGPT, isso resulta em uma perda menor enquanto utiliza um modelo mais compacto. A perda diminui ainda mais ao incorporar um vetor de contexto médio. Esse conceito de substituição de atenção é distribuído sob a licença GNU AGPL v3 em https://gitlab.com/Bachstelze/causal_generation.
Uma miríade de diferentes Modelos de Linguagem de Grande Escala (LLMs) enfrenta um desafio comum na análise contextual de tarefas de questionamento e resposta sobre tabelas. Esses desafios surgem de (1) janelas de contexto limitadas para tabelas grandes, (2) discrepâncias multifacetadas entre padrões de tokenização em relação aos limites das células, e (3) várias limitações decorrentes da confidencialidade dos dados no processo de uso de modelos externos, como o gpt-3.5-turbo. Propomos um jogo cooperativo chamado "HiddenTables" como uma resolução potencial para esse desafio. Em essência, o "HiddenTables" é jogado entre o LLM gerador de código "Solver" e o "Oracle", que avalia a capacidade dos agentes LLM de resolver tarefas de questionamento e resposta sobre tabelas. Este jogo é baseado em esquemas de linguagem natural e, de forma crucial, garante a segurança dos dados subjacentes. Fornecemos experimentos evidenciados em um conjunto diversificado de tabelas que demonstram a incapacidade coletiva de um LLM de generalizar e desempenhar-se em consultas complexas, lidar com dependências composicionais e alinhar linguagem natural a comandos programáticos quando esquemas concretos de tabelas são fornecidos. Diferente de modelos baseados em codificadores, expandimos os limites do "HiddenTables" para não serem restritos pelo número de linhas - portanto, exibimos uma eficiência aprimorada em tokens de prompt e conclusão. Nossa infraestrutura gerou um novo conjunto de dados, "PyQTax", que abrange 116.671 triplas de pergunta-tabela-resposta e fornece detalhamentos e rótulos adicionais para diversas taxonomias de perguntas. Assim, em conjunto com nossas contribuições acadêmicas sobre a deficiência dos LLMs em tarefas de TableQA, o "HiddenTables" é uma manifestação tangível de como os LLMs podem interagir com conjuntos de dados massivos enquanto garantem a segurança dos dados e minimizam os custos de geração.
A seleção de dados de alta qualidade para pré-treinamento é crucial para moldar o desempenho de modelos de linguagem em tarefas subsequentes. Um grande desafio reside na identificação desse subconjunto ideal, um problema geralmente considerado intratável, o que torna necessário o uso de heurísticas escaláveis e eficazes. Neste trabalho, propomos um método de seleção de dados, o CoLoR-Filter (Filtragem por Redução de Perda Condicional), que utiliza uma abordagem inspirada no método empírico de Bayes para derivar um critério de seleção simples e computacionalmente eficiente com base nos valores de perda relativa de dois modelos auxiliares. Além da fundamentação teórica, avaliamos o CoLoR-Filter empiricamente em duas tarefas de modelagem de linguagem: (1) seleção de dados do C4 para adaptação de domínio em avaliações sobre livros e (2) seleção de dados do C4 para uma série de tarefas subsequentes de resposta a perguntas de múltipla escolha. Demonstramos uma escalabilidade favorável tanto ao selecionar dados de forma mais agressiva quanto ao utilizar modelos auxiliares pequenos para selecionar dados para modelos alvo grandes. Como um dos principais resultados, os dados selecionados pelo CoLoR-Filter usando um par de modelos auxiliares com 150 milhões de parâmetros podem treinar um modelo alvo de 1,2 bilhão de parâmetros para igualar o desempenho de um modelo de 1,2 bilhão de parâmetros treinado com 25 bilhões de tokens selecionados aleatoriamente, utilizando 25 vezes menos dados para livros e 11 vezes menos dados para as tarefas subsequentes. Código: https://github.com/davidbrandfonbrener/color-filter-olmo Dados filtrados: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
A Pintura Generativa 3D está entre os principais impulsionadores de produtividade no gerenciamento e reciclagem de ativos 3D de alta resolução. Desde que os modelos de texto para imagem se tornaram acessíveis para inferência em hardware de consumo, o desempenho dos métodos de Pintura 3D tem melhorado consistentemente e está atualmente próximo de atingir um platô. No cerne da maioria desses modelos está a difusão de ruído no espaço latente, um processo iterativo inerentemente demorado. Várias técnicas foram desenvolvidas recentemente para acelerar a geração e reduzir as iterações de amostragem em ordens de magnitude. Projetadas para imagens generativas 2D, essas técnicas não vêm com receitas para elevá-las ao 3D. Neste artigo, abordamos essa lacuna propondo uma adaptação do Modelo de Consistência Latente (LCM) para a tarefa em questão. Analisamos os pontos fortes e fracos do modelo proposto e o avaliamos quantitativa e qualitativamente. Com base no estudo de amostras do conjunto de dados Objaverse, nosso método de pintura 3D obtém forte preferência em todas as avaliações. O código-fonte está disponível em https://github.com/kongdai123/consistency2.
Aproveitar as preferências humanas para direcionar o comportamento de Modelos de Linguagem de Grande Escala (LLMs) tem demonstrado sucesso notável nos últimos anos. No entanto, a seleção e rotulagem de dados ainda representam um gargalo para esses sistemas, especialmente em grande escala. Portanto, selecionar os pontos mais informativos para adquirir feedback humano pode reduzir consideravelmente o custo da rotulagem de preferências e impulsionar o desenvolvimento adicional dos LLMs. O Aprendizado Ativo Bayesiano oferece uma estrutura fundamentada para abordar esse desafio e tem demonstrado sucesso notável em diversos contextos. No entanto, tentativas anteriores de empregá-lo para Modelagem de Preferências não alcançaram tais expectativas. Neste trabalho, identificamos que a estimativa ingênua da incerteza epistêmica leva à aquisição de amostras redundantes. Abordamos isso propondo o Aprendizado Ativo Bayesiano para Modelagem de Preferências (BAL-PM), uma nova política de aquisição estocástica que não apenas visa pontos de alta incerteza epistêmica de acordo com o modelo de preferência, mas também busca maximizar a entropia da distribuição de prompts adquiridos no espaço de características gerado pelo LLM utilizado. Notavelmente, nossos experimentos demonstram que o BAL-PM requer de 33% a 68% menos rótulos de preferência em dois conjuntos de dados populares de preferências humanas e supera políticas estocásticas de aquisição bayesianas anteriores.