Artigos de pesquisa em IA selecionados diariamente com traduções
O campo dos modelos visão-linguagem (VLMs), que recebem imagens e textos como entradas e produzem textos como saídas, está evoluindo rapidamente e ainda não chegou a um consenso sobre vários aspectos-chave do pipeline de desenvolvimento, incluindo dados, arquitetura e métodos de treinamento. Este artigo pode ser visto como um tutorial para a construção de um VLM. Começamos fornecendo uma visão abrangente das abordagens de ponta atuais, destacando os pontos fortes e fracos de cada uma, abordando os principais desafios no campo e sugerindo direções de pesquisa promissoras para áreas pouco exploradas. Em seguida, percorremos os passos práticos para construir o Idefics3-8B, um VLM poderoso que supera significativamente seu antecessor Idefics2-8B, sendo treinado de forma eficiente, exclusivamente em conjuntos de dados abertos e usando um pipeline direto. Esses passos incluem a criação do Docmatix, um conjunto de dados para melhorar as capacidades de compreensão de documentos, que é 240 vezes maior do que os conjuntos de dados disponíveis anteriormente. Lançamos o modelo juntamente com os conjuntos de dados criados para seu treinamento.
A avaliação abrangente de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem recebido ampla atenção na comunidade de pesquisa recentemente. No entanto, observamos que os benchmarks existentes apresentam várias barreiras comuns que dificultam a medição dos desafios significativos que os modelos enfrentam no mundo real, incluindo: 1) escala de dados pequena que leva a uma grande variância de desempenho; 2) dependência de anotações baseadas em modelo resultando em qualidade de dados restrita; 3) dificuldade de tarefa insuficiente, especialmente causada pela resolução limitada da imagem. Para lidar com essas questões, introduzimos o MME-RealWorld. Especificamente, coletamos mais de 300 mil imagens de conjuntos de dados públicos e da Internet, filtrando 13.366 imagens de alta qualidade para anotação. Isso envolve os esforços de 25 anotadores profissionais e 7 especialistas em MLLMs, contribuindo com 29.429 pares de pergunta-resposta que abrangem 43 subtarefas em 5 cenários do mundo real, extremamente desafiadores até mesmo para humanos. Até onde sabemos, o MME-RealWorld é o maior benchmark anotado manualmente até o momento, apresentando a maior resolução e um foco direcionado em aplicações do mundo real. Realizamos ainda uma avaliação minuciosa envolvendo 28 proeminentes MLLMs, como GPT-4o, Gemini 1.5 Pro e Claude 3.5 Sonnet. Nossos resultados mostram que mesmo os modelos mais avançados enfrentam dificuldades com nossos benchmarks, onde nenhum deles atinge 60% de precisão. Os desafios de perceber imagens de alta resolução e entender cenários do mundo real complexos permanecem questões urgentes a serem abordadas. Os dados e o código de avaliação estão disponíveis em https://mme-realworld.github.io/.
A geração de cenas imersivas em 3D é uma tarefa desafiadora, porém crucial, na visão computacional e gráficos. Uma cena 3D virtual desejada deve 1) apresentar consistência de visão omnidirecional e 2) permitir exploração livre em hierarquias de cenas complexas. Métodos existentes geralmente se baseiam na expansão sucessiva da cena por meio de inpainting ou utilizam representação de panorama para ambientes de cena com amplo campo de visão. No entanto, a cena gerada sofre com desvio semântico durante a expansão e não consegue lidar com oclusão entre hierarquias de cenas. Para enfrentar esses desafios, apresentamos o LayerPano3D, um novo framework para geração de cenas panorâmicas 3D completas e exploráveis a partir de um único texto de entrada. Nosso insight chave é decompor um panorama 2D de referência em múltiplas camadas em diferentes níveis de profundidade, onde cada camada revela o espaço não visto a partir das visões de referência por meio de uma priori de difusão. O LayerPano3D inclui vários designs dedicados: 1) introduzimos um novo pipeline de síntese de visão âncora guiada por texto para geração de panoramas de alta qualidade e consistentes. 2) Somos pioneiros na utilização do Panorama 3D em Camadas como representação subjacente para gerenciar hierarquias de cenas complexas e elevá-lo em Gaussianas 3D para projetar cenas omnidirecionais detalhadas de 360 graus com caminhos de visualização não restritos. Experimentos extensivos demonstram que nosso framework gera cenas panorâmicas 3D de última geração tanto em consistência de visão completa quanto em experiência imersiva de exploração. Acreditamos que o LayerPano3D tem o potencial de avançar na criação de cenas panorâmicas 3D com inúmeras aplicações.
A complexidade computacional quadrática no mecanismo de autoatenção das arquiteturas de transformer populares apresenta desafios significativos para o treinamento e inferência, especialmente em termos de eficiência e requisitos de memória. Para enfrentar esses desafios, este artigo apresenta um novo método de cálculo de gradientes rápido para modelos de transformer de várias camadas. Nossa abordagem possibilita o cálculo de gradientes para todo o modelo de transformer de várias camadas em quase tempo linear n^{1+o(1)}, onde n é o comprimento da sequência de entrada. Essa inovação reduz significativamente o gargalo computacional associado à tradicional complexidade de tempo quadrático. Nossa teoria é válida para qualquer função de perda e mantém um erro de aproximação limitado em todo o modelo. Além disso, nossa análise é aplicável quando o modelo de transformer de várias camadas contém muitos submódulos práticos, como conexão residual, máscara casual e atenção multi-head. Ao melhorar a eficiência do cálculo de gradientes em grandes modelos de linguagem, esperamos que nosso trabalho facilite o treinamento e implantação mais eficazes de modelos de linguagem de longo contexto com base em nossos resultados teóricos.
Recentemente, uma ampla variedade de algoritmos de treinamento eficientes em memória para LLM ganharam substancial popularidade. Esses métodos aproveitam a estrutura de baixa classificação dos gradientes para projetar os estados do otimizador em um subespaço usando uma matriz de projeção encontrada pela decomposição em valores singulares (SVD). No entanto, a convergência desses algoritmos depende fortemente das regras de atualização de sua matriz de projeção. Neste trabalho, fornecemos a primeira garantia de convergência para regras de atualização arbitrárias da matriz de projeção. Essa garantia é geralmente aplicável a otimizadores que podem ser analisados com Descida Hamiltoniana, incluindo os mais comuns, como LION, Adam. Inspirados em nosso entendimento teórico, propomos o Descent Subespaço Online, uma nova família de otimizadores de descida de subespaço sem SVD. Em vez de atualizar a matriz de projeção com autovetores, o Descent Subespaço Online atualiza a matriz de projeção com PCA online. O Descent Subespaço Online é flexível e introduz apenas um mínimo de sobrecarga ao treinamento. Mostramos que, para a tarefa de pré-treinamento de modelos LLaMA com parâmetros variando de 60M a 7B no conjunto de dados C4, o Descent Subespaço Online alcança menor perplexidade e melhor desempenho em tarefas subsequentes do que os métodos de treinamento de baixa classificação de última geração em diferentes configurações e reduz a diferença com as linhas de base de classificação completa.
A síntese de movimento 3D orientada por fala busca criar animações realistas com base na fala humana, com potenciais usos em realidade virtual, jogos e produção cinematográfica. As abordagens existentes dependem exclusivamente do áudio da fala para a geração de movimento, resultando em resultados de síntese imprecisos e inflexíveis. Para mitigar esse problema, introduzimos um novo método de síntese de movimento humano 3D guiado por texto, denominado T3M. Ao contrário das abordagens tradicionais, o T3M permite um controle preciso sobre a síntese de movimento por meio de entrada textual, aumentando o grau de diversidade e personalização do usuário. Os resultados experimentais demonstram que o T3M pode superar significativamente os métodos de ponta tanto em métricas quantitativas quanto em avaliações qualitativas. Disponibilizamos publicamente nosso código em https://github.com/Gloria2tt/T3M.git.
A geração de vídeo personalizada visa gerar vídeos de alta qualidade guiados por prompts de texto e imagens de referência do sujeito. No entanto, uma vez que é treinada apenas em imagens estáticas, o processo de ajuste fino da aprendizagem do sujeito perturba as habilidades dos modelos de difusão de vídeo (VDMs) de combinar conceitos e gerar movimentos. Para restaurar essas habilidades, alguns métodos utilizam vídeos adicionais semelhantes ao prompt para ajustar ou orientar o modelo. Isso requer mudanças frequentes de vídeos orientadores e até mesmo a reajustagem do modelo ao gerar diferentes movimentos, o que é muito inconveniente para os usuários. Neste artigo, propomos o CustomCrafter, um novo framework que preserva a geração de movimento do modelo e as habilidades de combinação conceitual sem vídeo adicional e ajuste fino para recuperação. Para preservar a capacidade de combinação conceitual, projetamos um módulo plug-and-play para atualizar alguns parâmetros nos VDMs, aprimorando a capacidade do modelo de capturar os detalhes de aparência e a capacidade de combinação de conceitos para novos sujeitos. Para a geração de movimento, observamos que os VDMs tendem a restaurar o movimento do vídeo na fase inicial de remoção de ruído, enquanto se concentram na recuperação dos detalhes do sujeito na fase posterior. Portanto, propomos a Estratégia de Amostragem Dinâmica Ponderada de Vídeo. Usando a plugabilidade de nossos módulos de aprendizagem de sujeito, reduzimos o impacto deste módulo na geração de movimento na fase inicial de remoção de ruído, preservando a capacidade de gerar movimento dos VDMs. Na fase posterior de remoção de ruído, restauramos este módulo para reparar os detalhes de aparência do sujeito especificado, garantindo assim a fidelidade da aparência do sujeito. Resultados experimentais mostram que nosso método apresenta uma melhoria significativa em comparação com métodos anteriores.
Os Modelos de Visão-Linguagem de Alta Resolução (VLMs) têm sido amplamente utilizados em tarefas multimodais para aumentar a precisão ao preservar informações detalhadas da imagem. No entanto, esses modelos frequentemente geram tokens visuais excessivos devido à codificação de múltiplas partições da imagem de entrada. Processar esses tokens visuais excessivos é desafiador computacionalmente, especialmente em ambientes com recursos limitados e GPUs convencionais. Para suportar imagens de alta resolução atendendo às restrições de recursos, propomos o Descarte Antecipado de Alta Resolução (HiRED), um esquema de descarte de tokens que opera dentro de um orçamento fixo de tokens antes da etapa do Grande Modelo de Linguagem (LLM). O HiRED pode ser integrado aos VLMs de alta resolução existentes de forma plug-and-play, pois não requer treinamento adicional, mantendo ainda uma precisão superior. Utilizamos estrategicamente a atenção do codificador de visão nas camadas iniciais para avaliar o conteúdo visual de cada partição da imagem e alocar o orçamento de tokens de acordo. Em seguida, usando a atenção na camada final, selecionamos os tokens visuais mais importantes de cada partição dentro do orçamento alocado, descartando o restante. Empiricamente, quando aplicado ao LLaVA-Next-7B na GPU NVIDIA TESLA P40, o HiRED com um orçamento de tokens de 20% aumenta a taxa de geração de tokens em 4,7, reduz a latência de geração do primeiro token em 15 segundos e economiza 2,3 GB de memória da GPU para uma única inferência.
A Aprendizagem Federada (FL) oferece uma abordagem promissora para o aprendizado colaborativo de máquinas em dispositivos distribuídos. No entanto, sua adoção é dificultada pela complexidade de construir arquiteturas de comunicação confiáveis e pela necessidade de expertise tanto em aprendizado de máquina quanto em programação de redes. Este artigo apresenta uma solução abrangente que simplifica a orquestração de tarefas de FL enquanto integra automação baseada em intenções. Desenvolvemos uma aplicação web amigável que suporta o algoritmo de média federada (FedAvg), permitindo que os usuários configurem parâmetros por meio de uma interface intuitiva. A solução de backend gerencia de forma eficiente a comunicação entre o servidor de parâmetros e os nós de borda. Também implementamos algoritmos de compressão de modelo e agendamento para otimizar o desempenho do FL. Além disso, exploramos a automação baseada em intenções no FL usando um Modelo de Linguagem Ajustado (LLM) treinado em um conjunto de dados personalizado, permitindo que os usuários realizem tarefas de FL usando prompts de alto nível. Observamos que a solução automatizada baseada em LLM alcança uma precisão de teste comparável à solução baseada na web padrão, reduzindo a quantidade de bytes transferidos em até 64% e o tempo de CPU em até 46% para tarefas de FL. Além disso, aproveitamos a busca de arquitetura neural (NAS) e a otimização de hiperparâmetros (HPO) usando LLM para melhorar o desempenho. Observamos que, ao usar essa abordagem, a precisão do teste pode ser melhorada em 10-20% para as tarefas de FL realizadas.
A Splatting Gaussiano 3D (3DGS) alcança renderizações rápidas e de alta qualidade ao utilizar inúmeros pequenos Gaussianos, o que resulta em um consumo significativo de memória. Essa dependência de um grande número de Gaussianos restringe a aplicação de modelos baseados em 3DGS em dispositivos de baixo custo devido a limitações de memória. No entanto, simplesmente reduzir o número de Gaussianos para se adequar a dispositivos com menor capacidade de memória resulta em qualidade inferior em comparação com a qualidade que pode ser alcançada em hardware de ponta. Para lidar com essa falta de escalabilidade, propomos integrar um Nível de Detalhe Flexível (FLoD) ao 3DGS, permitindo que uma cena seja renderizada em diferentes níveis de detalhe de acordo com as capacidades do hardware. Enquanto os 3DGSs existentes com LoD focam na reconstrução detalhada, nosso método fornece reconstruções usando um pequeno número de Gaussianos para requisitos reduzidos de memória e um maior número de Gaussianos para maior detalhamento. Experimentos demonstram nossas diversas opções de renderização com compensações entre qualidade de renderização e uso de memória, permitindo assim a renderização em tempo real em diferentes restrições de memória. Além disso, mostramos que nosso método generaliza para diferentes estruturas de 3DGS, indicando seu potencial para integração em futuros desenvolvimentos de ponta. Página do projeto: https://3dgs-flod.github.io/flod.github.io/
Com os avanços em Modelos de Linguagem de Grande Escala (LLMs), um importante caso de uso que surgiu é a consulta a bancos de dados em inglês simples, traduzindo perguntas de usuários em consultas de banco de dados executáveis, o que melhorou significativamente. No entanto, conjuntos de dados do mundo real frequentemente apresentam uma vasta gama de atributos e valores complexos, complicando a tarefa dos LLMs de identificar com precisão colunas ou valores relevantes a partir de consultas em linguagem natural. Métodos tradicionais não conseguem transmitir totalmente o tamanho e a complexidade dos conjuntos de dados para o LLM. Para enfrentar esses desafios, propomos um novo framework que aproveita a Pesquisa de Texto Completo (FTS) na tabela de entrada. Esta abordagem não apenas permite a detecção precisa de valores e colunas específicos, mas também reduz o espaço de busca para os modelos de linguagem, melhorando assim a precisão da consulta. Além disso, suporta um recurso de auto-completar personalizado que sugere consultas com base nos dados na tabela. Essa integração refina significativamente a interação entre o usuário e conjuntos de dados complexos, oferecendo uma solução sofisticada para as limitações enfrentadas pelas capacidades atuais de consulta de tabelas. Este trabalho é acompanhado por um aplicativo para plataformas Mac e Windows, que os leitores podem experimentar por si mesmos com seus próprios dados.
A geração condicionada de imagens facilita a edição contínua e a criação de imagens fotorrealistas. No entanto, a condicionação em imagens ruidosas ou Fora da Distribuição (OoD) apresenta desafios significativos, especialmente na busca por equilibrar a fidelidade à entrada e o realismo da saída. Apresentamos o Confident Ordinary Differential Editing (CODE), uma abordagem inovadora para síntese de imagens que lida efetivamente com imagens de orientação OoD. Utilizando um modelo de difusão como um prior generativo, o CODE aprimora imagens por meio de atualizações baseadas em pontuações ao longo da trajetória da Equação Diferencial Ordinária (ODE) do fluxo de probabilidade. Este método não requer treinamento específico da tarefa, módulos feitos à mão ou pressupostos sobre as corrupções que afetam a imagem de condicionamento. Nosso método é compatível com qualquer modelo de difusão. Posicionado na interseção da geração condicionada de imagens e restauração cega de imagens, o CODE opera de forma totalmente cega, dependendo exclusivamente de um modelo generativo pré-treinado. Nosso método introduz uma abordagem alternativa para restauração cega: em vez de visar uma imagem de verdade específica com base em pressupostos sobre a corrupção subjacente, o CODE visa aumentar a probabilidade da imagem de entrada mantendo a fidelidade. Isso resulta na imagem mais provável dentro da distribuição em torno da imagem de entrada. Nossas contribuições são duplas. Primeiramente, o CODE introduz um método de edição inovador baseado em ODE, proporcionando controle aprimorado, realismo e fidelidade em comparação com seu equivalente baseado em SDE. Em segundo lugar, introduzimos um método de recorte baseado em intervalo de confiança, que melhora a eficácia do CODE permitindo que ele desconsidere certos pixels ou informações, aprimorando assim o processo de restauração de forma cega. Resultados experimentais demonstram a eficácia do CODE sobre métodos existentes, especialmente em cenários envolvendo degradação severa ou entradas OoD.