Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de difusão têm alcançado sucesso notável na geração de imagens e vídeos. Neste trabalho, demonstramos que os modelos de difusão também podem gerar parâmetros de redes neurais de alto desempenho. Nossa abordagem é simples, utilizando um autoencoder e um modelo de difusão latente padrão. O autoencoder extrai representações latentes de um subconjunto dos parâmetros treinados da rede. Um modelo de difusão é então treinado para sintetizar essas representações latentes de parâmetros a partir de ruído aleatório. Ele gera novas representações que são passadas pelo decodificador do autoencoder, cujas saídas estão prontas para serem usadas como novos subconjuntos de parâmetros da rede. Em várias arquiteturas e conjuntos de dados, nosso processo de difusão gera consistentemente modelos com desempenho comparável ou superior ao das redes treinadas, com custo adicional mínimo. Notavelmente, descobrimos empiricamente que os modelos gerados apresentam desempenho diferente das redes treinadas. Nossos resultados incentivam uma exploração mais ampla do uso versátil dos modelos de difusão.
Apresentamos o Ajuste de Instruções Generalizado (chamado GLAN), um método geral e escalável para o ajuste de instruções de Modelos de Linguagem de Grande Escala (LLMs). Diferentemente de trabalhos anteriores que dependem de exemplos iniciais ou conjuntos de dados existentes para construir dados de ajuste de instruções, o GLAN utiliza exclusivamente uma taxonomia pré-curatada de conhecimento e capacidades humanas como entrada e gera dados sintéticos de instruções em larga escala em todas as disciplinas. Especificamente, inspirados pela estrutura sistemática do sistema educacional humano, construímos a taxomia decompondo o conhecimento e as capacidades humanas em vários campos, subcampos e, finalmente, disciplinas distintas de forma semi-automática, facilitada por LLMs. Posteriormente, geramos uma lista abrangente de tópicos para cada disciplina e prosseguimos com a elaboração de um plano de estudos personalizado para cada tópico, novamente utilizando LLMs. Com os conceitos-chave detalhados em cada sessão do plano de estudos, somos capazes de gerar instruções diversas com ampla cobertura em todo o espectro de conhecimento e habilidades humanas. Experimentos extensivos em modelos de linguagem de grande escala (por exemplo, Mistral) demonstram que o GLAN se destaca em múltiplas dimensões, desde raciocínio matemático, codificação, exames acadêmicos, raciocínio lógico até a execução geral de instruções, sem utilizar dados de treinamento específicos para essas tarefas. Além disso, o GLAN permite fácil personalização, e novos campos ou habilidades podem ser adicionados simplesmente incorporando um novo nó à nossa taxonomia.
Apresentamos o VideoPrism, um codificador de vídeo de propósito geral que aborda diversas tarefas de compreensão de vídeo com um único modelo congelado. Pré-treinamos o VideoPrism em um corpus heterogêneo contendo 36 milhões de pares vídeo-legenda de alta qualidade e 582 milhões de clipes de vídeo com texto paralelo ruidoso (por exemplo, transcrições ASR). A abordagem de pré-treinamento aprimora a auto codificação mascarada por meio da destilação global-local de embeddings semânticos de vídeo e um esquema de embaralhamento de tokens, permitindo que o VideoPrism se concentre principalmente na modalidade de vídeo enquanto aproveita o texto valioso associado aos vídeos. Testamos extensivamente o VideoPrism em quatro grandes grupos de tarefas de compreensão de vídeo, desde questionários sobre vídeos da web até visão computacional para ciência, alcançando desempenho de ponta em 30 dos 33 benchmarks de compreensão de vídeo.
A maioria dos modelos de legendagem de vídeo é projetada para processar clipes curtos de alguns segundos e gerar textos que descrevem conceitos visuais de baixo nível (por exemplo, objetos, cenas, ações atômicas). No entanto, a maioria dos vídeos do mundo real dura minutos ou horas e possui uma estrutura hierárquica complexa que abrange diferentes granularidades temporais. Propomos o Video ReCap, um modelo de legendagem de vídeo recursivo que pode processar entradas de vídeo com durações dramaticamente diferentes (de 1 segundo a 2 horas) e gerar legendas de vídeo em múltiplos níveis hierárquicos. A arquitetura recursiva de vídeo e linguagem explora a sinergia entre diferentes hierarquias de vídeo e pode processar vídeos longos de forma eficiente. Utilizamos um esquema de treinamento de aprendizado curricular para aprender a estrutura hierárquica dos vídeos, começando com legendas em nível de clipe que descrevem ações atômicas, depois focando em descrições em nível de segmento e concluindo com a geração de resumos para vídeos de longa duração. Além disso, introduzimos o conjunto de dados Ego4D-HCap, aumentando o Ego4D com 8.267 resumos de vídeos de longo alcance coletados manualmente. Nosso modelo recursivo pode gerar legendas de forma flexível em diferentes níveis hierárquicos, sendo também útil para outras tarefas complexas de compreensão de vídeo, como VideoQA no EgoSchema. Dados, código e modelos estão disponíveis em: https://sites.google.com/view/vidrecap
Para que assistentes baseados em grandes modelos de linguagem (LLMs) possam se adaptar efetivamente às necessidades de informação em evolução, é essencial que seja possível atualizar seu conhecimento factual por meio de treinamento contínuo com novos dados. A abordagem padrão para isso envolve pré-treinamento contínuo em novos documentos, seguido de ajuste fino por instruções em pares de perguntas e respostas (Q&A). No entanto, observamos que LLMs treinados com essa abordagem têm dificuldade em responder perguntas, mesmo que a perplexidade dos documentos seja minimizada. Descobrimos que os pares de Q&A são geralmente diretos, enquanto os documentos são mais complexos, entrelaçando muitas afirmações factuais de maneira intrincada. Portanto, levantamos a hipótese de que é benéfico expor os LLMs a pares de Q&A antes do pré-treinamento contínuo em documentos, para que o processo de codificação de conhecimento a partir de documentos complexos leve em consideração como esse conhecimento é acessado por meio de perguntas. Com base nisso, propomos o pré-ajuste fino por instruções (PIT), um método que ajusta o modelo por instruções em perguntas antes do treinamento em documentos. Isso contrasta com o ajuste fino por instruções padrão, que aprende a extrair conhecimento após o treinamento em documentos. Experimentos extensivos e estudos de ablação demonstram que o PIT melhora significativamente a capacidade dos LLMs de absorver conhecimento de novos documentos, superando o ajuste fino por instruções padrão em 17,8%.
Os LLMs transformaram o NLP e demonstraram potencial em diversos campos, mas seu uso em finanças ainda é pouco explorado devido à falta de avaliações abrangentes e à complexidade das tarefas financeiras. Isso, aliado ao rápido desenvolvimento dos LLMs, destaca a necessidade urgente de um benchmark sistemático de avaliação financeira para esses modelos. Neste artigo, apresentamos o FinBen, o primeiro benchmark de avaliação abrangente e de código aberto, projetado especificamente para avaliar minuciosamente as capacidades dos LLMs no domínio financeiro. O FinBen abrange 35 conjuntos de dados em 23 tarefas financeiras, organizados em três espectros de dificuldade inspirados na teoria Cattell-Horn-Carroll, para avaliar as habilidades cognitivas dos LLMs em raciocínio indutivo, memória associativa, raciocínio quantitativo, inteligência cristalizada e mais. Nossa avaliação de 15 LLMs representativos, incluindo GPT-4, ChatGPT e o mais recente Gemini, revela insights sobre seus pontos fortes e limitações no domínio financeiro. Os resultados indicam que o GPT-4 se destaca em quantificação, extração, raciocínio numérico e negociação de ações, enquanto o Gemini brilha em geração e previsão; no entanto, ambos enfrentam dificuldades em extração complexa e previsão, mostrando uma clara necessidade de aprimoramentos direcionados. O ajuste por instrução melhora o desempenho em tarefas simples, mas não é suficiente para aprimorar habilidades complexas de raciocínio e previsão. O FinBen busca avaliar continuamente os LLMs em finanças, promovendo o desenvolvimento da IA com atualizações regulares de tarefas e modelos.
Neste artigo, propomos um algoritmo que permite o refinamento conjunto da pose da câmera e da geometria da cena representada por um tensor de baixa ordem decomposto, utilizando apenas imagens 2D como supervisão. Primeiro, conduzimos um estudo piloto baseado em um sinal 1D e relacionamos nossas descobertas a cenários 3D, onde a otimização conjunta ingênua da pose em NeRFs baseados em voxel pode facilmente levar a soluções subótimas. Além disso, com base na análise do espectro de frequência, propomos a aplicação de filtros gaussianos convolucionais em campos de radiação 2D e 3D para um esquema de treinamento de grosseiro a fino que possibilita a otimização conjunta da pose da câmera. Aproveitando a propriedade de decomposição no tensor de baixa ordem decomposto, nosso método alcança um efeito equivalente à convolução 3D de força bruta com apenas um pequeno custo computacional adicional. Para melhorar ainda mais a robustez e a estabilidade da otimização conjunta, também propomos técnicas de supervisão 2D suavizada, parâmetros de kernel escalados aleatoriamente e máscara de perda guiada por bordas. Avaliações quantitativas e qualitativas extensas demonstram que nosso framework proposto alcança desempenho superior na síntese de novas visões, bem como convergência rápida para a otimização.
Este artigo apresenta uma arquitetura neural chamada MVDiffusion++ para reconstrução de objetos 3D que sintetiza visões densas e de alta resolução de um objeto a partir de uma ou poucas imagens, sem a necessidade de poses da câmera. O MVDiffusion++ alcança flexibilidade e escalabilidade superiores com duas ideias surpreendentemente simples: 1) Uma "arquitetura livre de poses", onde a auto-atenção padrão entre características latentes 2D aprende a consistência 3D através de um número arbitrário de visões condicionais e de geração, sem usar explicitamente informações de pose da câmera; e 2) Uma "estratégia de descarte de visões" que descarta um número substancial de visões de saída durante o treinamento, o que reduz a pegada de memória no tempo de treinamento e permite a síntese de visões densas e de alta resolução no tempo de teste. Utilizamos o Objaverse para treinamento e o Google Scanned Objects para avaliação, com métricas padrão de síntese de novas visões e reconstrução 3D, onde o MVDiffusion++ supera significativamente o estado da arte atual. Também demonstramos um exemplo de aplicação de texto para 3D ao combinar o MVDiffusion++ com um modelo generativo de texto para imagem.
O tato é uma modalidade sensorial importante para os humanos, mas ainda não foi incorporado em um modelo generativo de linguagem multimodal. Isso se deve, em parte, à dificuldade de obter rótulos em linguagem natural para dados táteis e à complexidade de alinhar leituras táteis com observações visuais e descrições linguísticas. Como um passo para preencher essa lacuna, este trabalho introduz um novo conjunto de dados de 44K pares visão-tato capturados em ambientes reais, com rótulos em inglês anotados por humanos (10%) e pseudo-rótulos textuais gerados pelo GPT-4V (90%). Utilizamos esse conjunto de dados para treinar um codificador tátil alinhado a visão e linguagem para classificação de vocabulário aberto e um modelo tato-visão-linguagem (TVL) para geração de texto usando o codificador treinado. Os resultados sugerem que, ao incorporar o tato, o modelo TVL melhora (+29% de precisão na classificação) o alinhamento tato-visão-linguagem em comparação com modelos existentes treinados em qualquer par dessas modalidades. Embora apenas uma pequena fração do conjunto de dados seja rotulada por humanos, o modelo TVL demonstra uma compreensão visão-tato aprimorada em relação ao GPT-4V (+12%) e a modelos de visão-linguagem de código aberto (+32%) em um novo benchmark de compreensão tato-visão. Código e dados: https://tactile-vlm.github.io.
A sumarização de notícias de documento único tem apresentado progressos significativos em relação à fidelidade nos últimos anos, impulsionada por pesquisas sobre a avaliação da consistência factual, ou alucinações. Questionamos se esses avanços se estendem a outros domínios de sumarização de texto. Propomos um novo benchmark de avaliação para sumarização de diálogos focados em tópicos, gerado por LLMs de diversos tamanhos. Fornecemos anotações humanas binárias em nível de frase sobre a consistência factual dessas sumarizações, juntamente com explicações detalhadas das frases factualmente inconsistentes. Nossa análise mostra que os LLMs existentes geram uma quantidade significativa de erros factuais no domínio de diálogos, independentemente do tamanho do modelo. Por outro lado, quando LLMs, incluindo o GPT-4, atuam como avaliadores binários de factualidade, eles têm um desempenho ruim e podem ser superados por métricas especializadas de avaliação de factualidade, que são as mais avançadas atualmente. Por fim, realizamos uma análise dos tipos de alucinação com uma taxonomia de erros cuidadosamente elaborada. Descobrimos que há diversos erros e distribuições de erros nas sumarizações geradas por modelos, e que métricas não baseadas em LLMs conseguem capturar todos os tipos de erro melhor do que avaliadores baseados em LLMs.
A criação manual de texturas para malhas 3D é demorada, mesmo para criadores de conteúdo visual experientes. Propomos uma abordagem rápida para texturizar automaticamente uma malha 3D de entrada com base em um prompt de texto fornecido pelo usuário. De forma crucial, nossa abordagem separa a iluminação do material/reflectância da superfície na textura resultante, permitindo que a malha seja corretamente reiluminada e renderizada em qualquer ambiente de iluminação. Introduzimos o LightControlNet, um novo modelo de texto para imagem baseado na arquitetura ControlNet, que permite especificar a iluminação desejada como uma imagem de condicionamento para o modelo. Nosso pipeline de texto para textura constrói a textura em duas etapas. A primeira etapa produz um conjunto esparso de vistas de referência visualmente consistentes da malha usando o LightControlNet. A segunda etapa aplica uma otimização de textura baseada em Score Distillation Sampling (SDS) que trabalha com o LightControlNet para aumentar a qualidade da textura enquanto separa o material da superfície da iluminação. Nosso pipeline é significativamente mais rápido do que os métodos anteriores de texto para textura, produzindo texturas de alta qualidade e reilumináveis.
Os notáveis avanços nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) não os tornaram imunes a desafios, especialmente no contexto de lidar com informações enganosas em prompts, produzindo assim respostas alucinadas sob tais condições. Para avaliar quantitativamente essa vulnerabilidade, apresentamos o MAD-Bench, um benchmark cuidadosamente elaborado que contém 850 amostras de teste divididas em 6 categorias, como objetos inexistentes, contagem de objetos, relação espacial e confusão visual. Fornecemos uma análise abrangente de MLLMs populares, desde GPT-4V e Gemini-Pro até modelos de código aberto, como LLaVA-1.5 e CogVLM. Empiricamente, observamos lacunas significativas de desempenho entre o GPT-4V e outros modelos; e modelos robustos ajustados por instrução anteriores, como LRV-Instruction e LLaVA-RLHF, não são eficazes neste novo benchmark. Enquanto o GPT-4V alcança 75,02% de precisão no MAD-Bench, a precisão de qualquer outro modelo em nossos experimentos varia de 5% a 35%. Propomos ainda um remédio que adiciona um parágrafo adicional aos prompts enganosos para encorajar os modelos a pensarem duas vezes antes de responder à pergunta. Surpreendentemente, esse método simples pode até dobrar a precisão; no entanto, os números absolutos ainda são muito baixos para serem satisfatórios. Esperamos que o MAD-Bench possa servir como um benchmark valioso para estimular mais pesquisas visando aumentar a resiliência dos modelos contra prompts enganosos.
Os modelos de difusão alcançaram avanços notáveis na geração de imagens a partir de texto. No entanto, os modelos existentes ainda enfrentam muitas dificuldades quando se deparam com a geração composicional de múltiplos objetos. Neste artigo, propomos um novo framework de geração de imagens a partir de texto, denominado RealCompo, que não requer treinamento adicional e é facilmente transferível, visando aproveitar as vantagens dos modelos de texto-para-imagem e layout-para-imagem para aprimorar tanto o realismo quanto a composicionalidade das imagens geradas. Um balanceador intuitivo e inovador é proposto para equilibrar dinamicamente os pontos fortes dos dois modelos durante o processo de remoção de ruído, permitindo o uso plug-and-play de qualquer modelo sem necessidade de treinamento extra. Experimentos extensivos demonstram que o RealCompo supera consistentemente os modelos state-of-the-art de texto-para-imagem e layout-para-imagem na geração composicional de múltiplos objetos, mantendo um realismo e composicionalidade satisfatórios nas imagens geradas. O código está disponível em https://github.com/YangLing0818/RealCompo.