Artigos de pesquisa em IA selecionados diariamente com traduções
PaliGemma é um Modelo Aberto de Visão e Linguagem (VLM) baseado no codificador de visão SigLIP-So400m e no modelo de linguagem Gemma-2B. Ele é treinado para ser um modelo base versátil e amplamente conhecedor, eficaz para transferência. Ele alcança um desempenho sólido em uma ampla variedade de tarefas de mundo aberto. Avaliamos o PaliGemma em quase 40 tarefas diversas, incluindo benchmarks padrão de VLM, mas também tarefas mais especializadas, como sensoriamento remoto e segmentação.
Os grandes modelos de linguagem (LLMs) têm demonstrado um desempenho excepcional e um vasto potencial em diversas tarefas. No entanto, a implantação de LLMs com alto desempenho em ambientes de recursos limitados tem recebido significativa atenção na indústria. Quando os recursos de hardware da GPU são limitados, podemos explorar opções alternativas nos CPUs. Para mitigar o ônus financeiro e aliviar as restrições impostas pelos recursos de hardware, é necessário otimizar o desempenho da inferência. Neste artigo, apresentamos uma solução de otimização de desempenho de inferência facilmente implantável, com o objetivo de acelerar LLMs nos CPUs. Nesta solução, implementamos uma maneira eficaz de reduzir o tamanho do cache KV enquanto garantimos precisão. Propomos uma abordagem de otimização de inferência distribuída e a implementamos com base na Biblioteca de Comunicações Coletivas oneAPI. Além disso, propomos abordagens de otimização para LLMs em CPU e realizamos otimizações personalizadas para os modelos mais comumente utilizados. O código está disponível em código aberto em https://github.com/intel/xFasterTransformer.
A afinação visual de instruções tem feito avanços consideráveis na melhoria das capacidades dos Modelos Multimodais Grandes (LMMs). No entanto, os LMMs abertos existentes focam principalmente em tarefas de imagem única, sendo menos exploradas suas aplicações em cenários de múltiplas imagens. Além disso, pesquisas anteriores em LMMs abordam separadamente diferentes cenários, tornando impossível generalizar entre cenários com novas capacidades emergentes. Nesse sentido, apresentamos o LLaVA-NeXT-Interleave, que aborda simultaneamente cenários de Múltiplas Imagens, Múltiplos Quadros (vídeo), Múltiplas Visualizações (3D) e Múltiplos Patches (imagem única) em LMMs. Para habilitar essas capacidades, consideramos o formato de dados intercalados como um modelo geral e compilamos o conjunto de dados M4-Instruct com 1.177,6 mil amostras, abrangendo 4 domínios principais com 14 tarefas e 41 conjuntos de dados. Também criamos o LLaVA-Interleave Bench para avaliar abrangentemente o desempenho de múltiplas imagens dos LMMs. Através de experimentos extensivos, o LLaVA-NeXT-Interleave alcança resultados líderes em benchmarks de múltiplas imagens, vídeo e 3D, mantendo o desempenho em tarefas de imagem única. Além disso, nosso modelo também demonstra diversas capacidades emergentes, como transferência de tarefas entre diferentes configurações e modalidades. O código está disponível em https://github.com/LLaVA-VL/LLaVA-NeXT
Apresentamos o 4DiM, um modelo de difusão em cascata para síntese de novos pontos de vista 4D (NVS), condicionado a uma ou mais imagens de uma cena geral, e um conjunto de poses de câmera e timestamps. Para superar desafios devido à disponibilidade limitada de dados de treinamento 4D, defendemos o treinamento conjunto em dados 3D (com pose de câmera), 4D (pose+tempo) e vídeo (tempo, mas sem pose) e propomos uma nova arquitetura que possibilita o mesmo. Além disso, defendemos a calibração de dados de pose de SfM usando estimadores de profundidade métrica monocular para controle de escala métrica da câmera. Para avaliação do modelo, introduzimos novas métricas para enriquecer e superar deficiências dos esquemas de avaliação atuais, demonstrando resultados de ponta tanto em fidelidade quanto em controle de pose em comparação com modelos de difusão existentes para NVS 3D, ao mesmo tempo que adicionamos a capacidade de lidar com dinâmicas temporais. O 4DiM também é utilizado para aprimorar a costura de panoramas, tradução de vídeo condicionada por pose para vídeo e várias outras tarefas. Para uma visão geral, consulte https://4d-diffusion.github.io
A geração de conteúdo de áudio semanticamente e temporalmente alinhado de acordo com a entrada de vídeo tornou-se um ponto focal para pesquisadores, especialmente após o notável avanço na geração de texto para vídeo. Neste trabalho, temos como objetivo oferecer insights sobre o paradigma de geração de áudio para vídeo, focando em três aspectos cruciais: codificadores de visão, incorporações auxiliares e técnicas de aumento de dados. Começando com um modelo fundamental VTA-LDM construído com base em uma intuição simples, porém surpreendentemente eficaz, exploramos diversos codificadores de visão e incorporações auxiliares por meio de estudos de ablação. Utilizando um pipeline de avaliação abrangente que enfatiza a qualidade da geração e o alinhamento de sincronização vídeo-áudio, demonstramos que nosso modelo apresenta capacidades de geração de vídeo para áudio de ponta. Além disso, fornecemos insights críticos sobre o impacto de diferentes métodos de aumento de dados na melhoria da capacidade geral do framework de geração. Mostramos possibilidades para avançar no desafio de gerar áudio sincronizado a partir de perspectivas semânticas e temporais. Esperamos que esses insights sirvam como um ponto de partida para o desenvolvimento de modelos de geração audiovisual mais realistas e precisos.
Apresentamos o VEnhancer, um framework generativo de aprimoramento espaço-temporal que melhora os resultados existentes de texto para vídeo adicionando mais detalhes no domínio espacial e movimento detalhado sintético no domínio temporal. Dado um vídeo de baixa qualidade gerado, nossa abordagem pode aumentar simultaneamente sua resolução espacial e temporal com escalas de ampliação espacial e temporal arbitrárias através de um modelo unificado de difusão de vídeo. Além disso, o VEnhancer remove efetivamente artefatos espaciais gerados e cintilação temporal de vídeos gerados. Para alcançar isso, com base em um modelo de difusão de vídeo pré-treinado, treinamos um Video ControlNet e o injetamos no modelo de difusão como uma condição em vídeos de baixa taxa de quadros e baixa resolução. Para treinar efetivamente este Video ControlNet, projetamos aumento de dados espaço-temporal, bem como condicionamento consciente de vídeo. Beneficiando-se desses projetos, o VEnhancer se mostra estável durante o treinamento e compartilha uma maneira de treinamento elegante de ponta a ponta. Experimentos extensos mostram que o VEnhancer supera os métodos existentes de super-resolução de vídeo e super-resolução espaço-temporal de última geração no aprimoramento de vídeos gerados por IA. Além disso, com o VEnhancer, o método de texto para vídeo de última geração de código aberto existente, VideoCrafter-2, alcança o primeiro lugar no benchmark de geração de vídeo - VBench.
A personalização de modelos texto-para-imagem (T2I) tem visto um progresso tremendo recentemente, especialmente em áreas como personalização, estilização e geração condicional. No entanto, expandir esse progresso para a geração de vídeos ainda está em seus estágios iniciais, principalmente devido à falta de dados de vídeo personalizados. Neste trabalho, apresentamos o Still-Moving, um novo framework genérico para personalizar um modelo texto-para-vídeo (T2V), sem a necessidade de dados de vídeo personalizados. O framework se aplica ao design proeminente T2V onde o modelo de vídeo é construído sobre um modelo texto-para-imagem (T2I) (por exemplo, via inflação). Pressupomos o acesso a uma versão personalizada do modelo T2I, treinado apenas em dados de imagens estáticas (por exemplo, usando DreamBooth ou StyleDrop). Simplesmente plugando os pesos do modelo T2I personalizado no modelo T2V frequentemente resulta em artefatos significativos ou adesão insuficiente aos dados de personalização. Para superar esse problema, treinamos Adaptadores Espaciais leves que ajustam as características produzidas pelas camadas T2I injetadas. Importante ressaltar que nossos adaptadores são treinados em "vídeos congelados" (ou seja, imagens repetidas), construídos a partir de amostras de imagens geradas pelo modelo T2I personalizado. Esse treinamento é facilitado por um módulo Adaptador de Movimento inovador, que nos permite treinar em tais vídeos estáticos enquanto preservamos a prioridade de movimento do modelo de vídeo. No momento do teste, removemos os módulos Adaptadores de Movimento e deixamos apenas os Adaptadores Espaciais treinados. Isso restaura a prioridade de movimento do modelo T2V enquanto adere à prioridade espacial do modelo T2I personalizado. Demonstramos a eficácia de nossa abordagem em diversas tarefas, incluindo geração personalizada, estilizada e condicional. Em todos os cenários avaliados, nosso método integra perfeitamente a prioridade espacial do modelo T2I personalizado com uma prioridade de movimento fornecida pelo modelo T2V.
Modelos de linguagem pré-treinados em larga escala são ditos "faltar a capacidade de conectar enunciados ao mundo" (Bender e Koller, 2020), pois não possuem "modelos mentais do mundo" (Mitchell e Krakauer, 2023). Se assim for, esperar-se-ia que as representações dos modelos de linguagem não estivessem relacionadas às representações induzidas por modelos de visão. Apresentamos uma avaliação empírica em quatro famílias de modelos de linguagem (BERT, GPT-2, OPT e LLaMA-2) e três arquiteturas de modelos de visão (ResNet, SegFormer e MAE). Nossos experimentos mostram que os modelos de linguagem convergem parcialmente para representações isomórficas às dos modelos de visão, sujeitas a dispersão, polissemia e frequência. Isso tem implicações importantes tanto para o processamento multi-modal quanto para o debate sobre a compreensão dos modelos de linguagem (Mitchell e Krakauer, 2023).
Os modelos existentes de aprendizado contrastivo visão-texto aprimoram a transferibilidade de representação e suportam previsões sem uso de dados ao combinar embeddings em pares de imagens e legendas, enquanto afastam pares não relacionados. No entanto, os conjuntos de dados de imagens e legendas astronômicas são significativamente menores em comparação com conjuntos de dados de imagens e legendas gerais disponíveis na internet. Apresentamos o CosmoCLIP, um framework de aprendizado contrastivo imagem-texto astronômico precisamente ajustado no modelo CLIP pré-treinado usando SpaceNet e legendas baseadas em BLIP. O SpaceNet, obtido via FLARE, consiste em ~13k imagens distribuídas de forma otimizada, enquanto o BLIP atua como um extrator de conhecimento rico. As ricas semânticas derivadas dessas descrições do SpaceNet e BLIP, quando aprendidas de forma contrastiva, permitem que o CosmoCLIP alcance uma generalização superior em várias tarefas dentro e fora do domínio. Nossos resultados demonstram que o CosmoCLIP é um framework direto, porém poderoso, superando significativamente o CLIP em classificação sem uso de dados e tarefas de recuperação de imagem-texto.
Neste artigo, consideramos a contaminação por conjuntos de testes gerados por código, em particular em sua utilização em modelos de linguagem modernos de grande escala. Discutimos três possíveis fontes dessa contaminação e apresentamos descobertas que as apoiam: (i) vazamento direto de dados, (ii) vazamento indireto de dados por meio do uso de dados sintéticos e (iii) sobreajuste aos conjuntos de avaliação durante a seleção do modelo. A chave para nossas descobertas é um novo conjunto de dados de 161 prompts com suas soluções Python associadas, conjunto de dados que está disponível em https://huggingface.co/datasets/CohereForAI/lbpp.
Propomos um método de aprendizado de robôs para comunicação, planejamento e execução de uma ampla gama de tarefas, chamado This&That. Alcançamos o planejamento de robôs para tarefas gerais aproveitando o poder de modelos generativos de vídeo treinados em dados em escala da internet contendo um contexto físico e semântico rico. Neste trabalho, abordamos três desafios fundamentais no planejamento baseado em vídeo: 1) comunicação de tarefas inequívoca com instruções simples para humanos, 2) geração de vídeo controlável que respeita as intenções do usuário e 3) tradução de planejamento visual em ações de robô. Propomos a condicionamento de linguagem e gestos para gerar vídeos, o que é mais simples e claro do que os métodos existentes baseados apenas em linguagem, especialmente em ambientes complexos e incertos. Em seguida, sugerimos um design de clonagem comportamental que incorpora perfeitamente os planos de vídeo. This&That demonstra eficácia de ponta ao abordar os três desafios mencionados e justifica o uso de geração de vídeo como uma representação intermediária para planejamento e execução de tarefas generalizáveis. Website do projeto: https://cfeng16.github.io/this-and-that/.
Treinar um classificador em dados coletados na web exige algoritmos de aprendizado que sejam robustos a erros de anotação e exemplos irrelevantes. Este artigo baseia-se na recente observação empírica de que a aplicação de aprendizado contrastivo não supervisionado a conjuntos de dados ruidosos coletados na web resulta em uma representação de características na qual as amostras em-distribuição (ID) e fora de distribuição (OOD) são linearmente separáveis. Mostramos que a estimativa direta do hiperplano separador pode de fato oferecer uma detecção precisa de amostras OOD, e, no entanto, surpreendentemente, essa detecção não se traduz em ganhos na precisão da classificação. Aprofundando-nos nesse fenômeno, descobrimos que a detecção quase perfeita deixa passar um tipo de exemplos limpos que são valiosos para o aprendizado supervisionado. Esses exemplos frequentemente representam imagens visualmente simples, que são relativamente fáceis de identificar como exemplos limpos usando métodos padrão baseados em perda ou distância, apesar de estarem mal separados da distribuição OOD usando aprendizado não supervisionado. Como observamos ainda uma baixa correlação com métricas de estado-da-arte (SOTA), isso nos leva a propor uma solução híbrida que alterna entre detecção de ruído usando separação linear e uma abordagem de baixa perda de estado-da-arte (SOTA). Quando combinado com o algoritmo SOTA PLS, melhoramos substancialmente os resultados de SOTA para classificação de imagens do mundo real na presença de ruído da web em github.com/PaulAlbert31/LSA
Apresentamos o BiGym, um novo benchmark e ambiente de aprendizado para manipulação robótica móvel bimanual orientada por demonstrações. O BiGym apresenta 40 tarefas diversas ambientadas em ambientes domésticos, que vão desde alcançar alvos simples até limpeza de cozinha complexa. Para capturar com precisão o desempenho do mundo real, fornecemos demonstrações coletadas por humanos para cada tarefa, refletindo as diversas modalidades encontradas em trajetórias de robôs do mundo real. O BiGym suporta uma variedade de observações, incluindo dados proprioceptivos e entradas visuais como RGB e profundidade de 3 visualizações de câmera. Para validar a usabilidade do BiGym, benchmarkamos minuciosamente os algoritmos de aprendizado por imitação de ponta e os algoritmos de aprendizado por reforço orientados por demonstrações dentro do ambiente e discutimos as oportunidades futuras.
A geração de movimento de multidões é essencial em indústrias de entretenimento como animação e jogos, assim como em campos estratégicos como simulação urbana e planejamento. Essa nova tarefa requer uma integração intricada de controle e geração para sintetizar realisticamente a dinâmica de multidões sob restrições espaciais e semânticas específicas, cujos desafios ainda não foram totalmente explorados. Por um lado, os modelos existentes de geração de movimento humano geralmente se concentram em comportamentos individuais, negligenciando as complexidades dos comportamentos coletivos. Por outro lado, os métodos recentes para geração de movimento de múltiplas pessoas dependem fortemente de cenários predefinidos e são limitados a um número fixo e pequeno de interações entre pessoas, dificultando sua praticidade. Para superar esses desafios, apresentamos o CrowdMoGen, um framework orientado por texto de zero-shot que aproveita o poder do Modelo de Linguagem Grande (LLM) para incorporar a inteligência coletiva no framework de geração de movimento como orientação, permitindo assim o planejamento e a geração generalizáveis de movimentos de multidões sem dados de treinamento em pares. Nosso framework consiste em dois componentes principais: 1) Planejador de Cena de Multidão que aprende a coordenar movimentos e dinâmicas de acordo com contextos de cena específicos ou perturbações introduzidas, e 2) Gerador de Movimento Coletivo que sintetiza eficientemente os movimentos coletivos necessários com base nos planos holísticos. Experimentos quantitativos e qualitativos extensivos validaram a eficácia de nosso framework, que não apenas preenche uma lacuna crítica ao fornecer soluções escaláveis e generalizáveis para a tarefa de Geração de Movimento de Multidões, mas também alcança altos níveis de realismo e flexibilidade.