Artigos de pesquisa em IA selecionados diariamente com traduções
Permitir que LLMs melhorem suas saídas ao utilizar mais computação no tempo de teste é um passo crítico em direção à construção de agentes geralmente autoaperfeiçoantes que possam operar em linguagem natural de forma aberta. Neste artigo, estudamos a escalabilidade da computação no tempo de inferência em LLMs, com foco em responder à pergunta: se um LLM pode usar uma quantidade fixa, porém significativa, de computação no tempo de inferência, quanto ele pode melhorar seu desempenho em um prompt desafiador? Responder a essa pergunta tem implicações não apenas no desempenho alcançável dos LLMs, mas também no futuro do pré-treinamento de LLMs e como se deve equilibrar a computação no tempo de inferência e no pré-treinamento. Apesar de sua importância, pouca pesquisa tentou entender os comportamentos de escalabilidade de vários métodos de inferência no tempo de teste. Além disso, os trabalhos atuais em sua maioria fornecem resultados negativos para várias dessas estratégias. Neste trabalho, analisamos dois mecanismos principais para escalar a computação no tempo de teste: (1) busca em modelos de recompensa verificadores densos baseados em processos; e (2) atualização da distribuição do modelo sobre uma resposta de forma adaptativa, dada a solicitação no tempo de teste. Constatamos que, em ambos os casos, a eficácia de diferentes abordagens para escalar a computação no tempo de teste varia criticamente dependendo da dificuldade do prompt. Essa observação motiva a aplicação de uma estratégia de escalonamento "ótima em termos de computação", que atua para alocar de forma mais eficaz a computação no tempo de teste de forma adaptativa por prompt. Utilizando essa estratégia ótima em termos de computação, podemos melhorar a eficiência do escalonamento da computação no tempo de teste em mais de 4 vezes em comparação com uma linha de base de melhor-de-N. Além disso, em uma avaliação equiparada em FLOPs, constatamos que em problemas nos quais um modelo base menor alcança taxas de sucesso consideráveis, a computação no tempo de teste pode ser usada para superar um modelo 14 vezes maior.
A capacidade de processar várias imagens é crucial para os Modelos de Grande Escala de Visão e Linguagem (LVLMs) desenvolverem uma compreensão mais aprofundada e matizada de uma cena. LVLMs multi-imagem recentes começaram a abordar essa necessidade. No entanto, sua avaliação não acompanhou seu desenvolvimento. Para preencher essa lacuna, apresentamos o benchmark de Compreensão Multimodal Multi-imagem (MMIU), uma suíte abrangente de avaliação projetada para avaliar LVLMs em uma ampla gama de tarefas multi-imagem. O MMIU abrange 7 tipos de relações multi-imagem, 52 tarefas, 77 mil imagens e 11 mil perguntas de múltipla escolha meticulosamente selecionadas, tornando-o o benchmark mais abrangente do seu tipo. Nossa avaliação de 24 LVLMs populares, incluindo modelos de código aberto e proprietários, revela desafios significativos na compreensão multi-imagem, especialmente em tarefas que envolvem compreensão espacial. Mesmo os modelos mais avançados, como o GPT-4o, alcançam apenas 55,7% de precisão no MMIU. Através de experimentos analíticos multifacetados, identificamos lacunas de desempenho e limitações-chave, fornecendo insights valiosos para futuras melhorias em modelos e dados. Nosso objetivo com o MMIU é avançar a fronteira da pesquisa e desenvolvimento de LVLMs, nos aproximando de alcançar interações sofisticadas de usuários multimodais multi-imagem.
Apresentamos LLaVA-OneVision, uma família de modelos grandes multimodais abertos (LMMs) desenvolvidos consolidando nossas percepções sobre dados, modelos e representações visuais na série de blogs LLaVA-NeXT. Nossos resultados experimentais demonstram que LLaVA-OneVision é o primeiro modelo único que pode simultaneamente impulsionar os limites de desempenho dos LMMs abertos em três cenários importantes de visão computacional: cenários de imagem única, múltiplas imagens e vídeo. Importante ressaltar que o design do LLaVA-OneVision permite uma forte transferência de aprendizado entre diferentes modalidades/cenários, resultando em novas capacidades emergentes. Em particular, uma forte compreensão de vídeo e capacidades de transferência entre cenários são demonstradas através da transferência de tarefas de imagens para vídeos.
Apresentamos uma nova abordagem para gerar modelos 3D realistas com mapas UV por meio de uma representação denominada "Imagens de Objetos". Essa abordagem encapsula a geometria da superfície, a aparência e as estruturas de remendo dentro de uma imagem de 64x64 pixels, convertendo efetivamente formas 3D complexas em um formato 2D mais gerenciável. Ao fazer isso, abordamos os desafios da irregularidade geométrica e semântica inerentes em malhas poligonais. Este método nos permite usar modelos de geração de imagens, como Transformadores de Difusão, diretamente para a geração de formas 3D. Avaliadas no conjunto de dados ABO, nossas formas geradas com estruturas de remendo alcançam um FID de nuvem de pontos comparável aos modelos generativos 3D recentes, enquanto suportam naturalmente a geração de material PBR.
Este artigo apresenta o MedTrinity-25M, um conjunto de dados multimodal abrangente em larga escala para a área da medicina, cobrindo mais de 25 milhões de imagens em 10 modalidades, com anotações multigranulares para mais de 65 doenças. Essas anotações enriquecidas abrangem tanto informações textuais globais, como tipo de doença/lesão, modalidade, descrições específicas da região e relacionamentos inter-regionais, quanto anotações locais detalhadas para regiões de interesse (ROIs), incluindo caixas delimitadoras e máscaras de segmentação. Ao contrário das abordagens existentes que são limitadas pela disponibilidade de pares imagem-texto, desenvolvemos o primeiro pipeline automatizado que amplia dados multimodais gerando anotações visuais e textuais multigranulares (na forma de triplas imagem-ROI-descrição) sem a necessidade de descrições de texto em pares. Especificamente, dados de mais de 90 fontes diferentes foram coletados, pré-processados e fundamentados usando modelos especializados no domínio para identificar ROIs relacionadas a regiões anormais. Em seguida, construímos uma base de conhecimento abrangente e orientamos modelos de linguagem grandes multimodais para realizar geração com recuperação aumentada com as ROIs identificadas como orientação, resultando em descrições textuais multigranulares. Em comparação com conjuntos de dados existentes, o MedTrinity-25M fornece as anotações mais enriquecidas, suportando uma ampla gama de tarefas multimodais, como legendagem e geração de relatórios, bem como tarefas centradas na visão, como classificação e segmentação. Ao realizar pré-treinamento no MedTrinity-25M, nosso modelo alcança desempenho de ponta no VQA-RAD e PathVQA, superando tanto modelos grandes de linguagem multimodal quanto outras abordagens representativas de estado-da-arte. Este conjunto de dados também pode ser utilizado para apoiar o pré-treinamento em larga escala de modelos de IA médica multimodais, contribuindo para o desenvolvimento de futuros modelos fundamentais no domínio médico.
Os modelos de difusão continuam a avançar os limites da geração de imagens de ponta, mas o processo é difícil de controlar com qualquer sutileza: a prática prova que instruções textuais são inadequadas para descrever com precisão o estilo da imagem ou detalhes estruturais finos (como rostos). ControlNet e IPAdapter abordam essa deficiência condicionando o processo generativo em imagens, mas cada instância individual é limitada a modelar um único posterior condicional: para casos de uso práticos, nos quais múltiplos posteriores diferentes são desejados dentro do mesmo fluxo de trabalho, treinar e usar múltiplos adaptadores é trabalhoso. Propomos o IPAdapter-Instruct, que combina condicionamento de imagens naturais com instruções "Instruct" para alternar entre interpretações para a mesma imagem de condicionamento: transferência de estilo, extração de objeto, ambos, ou algo ainda diferente? O IPAdapter-Instruct aprende eficientemente múltiplas tarefas com perda mínima de qualidade em comparação com modelos dedicados por tarefa.
Existe uma crescente linha de pesquisa sobre a verificação da correção das saídas de modelos de linguagem. Ao mesmo tempo, os LM estão sendo utilizados para lidar com consultas complexas que exigem raciocínio. Apresentamos o CoverBench, um benchmark desafiador focado na verificação das saídas do LM em cenários de raciocínio complexo. Conjuntos de dados que podem ser usados para esse fim frequentemente são projetados para outras tarefas de raciocínio complexo (por exemplo, QA) visando casos de uso específicos (por exemplo, tabelas financeiras), exigindo transformações, amostragem negativa e seleção de exemplos difíceis para coletar tal benchmark. O CoverBench fornece uma avaliação diversificada para a verificação de reivindicações complexas em uma variedade de domínios, tipos de raciocínio, entradas relativamente longas e uma variedade de padronizações, como múltiplas representações para tabelas, quando disponíveis, e um esquema consistente. Nós verificamos manualmente os dados quanto à qualidade para garantir baixos níveis de ruído nos rótulos. Por fim, relatamos uma variedade de resultados de linha de base competitivos para mostrar que o CoverBench é desafiador e tem um potencial significativo. Os dados estão disponíveis em https://huggingface.co/datasets/google/coverbench.
Este artigo demonstra como utilizar modelos generativos treinados para síntese de imagens como ferramentas para mineração de dados visuais. Nossa percepção é que, uma vez que os modelos generativos contemporâneos aprendem uma representação precisa de seus dados de treinamento, podemos utilizá-los para resumir os dados ao buscar padrões visuais. Concretamente, demonstramos que, após ajustar modelos de difusão condicional para sintetizar imagens de um conjunto de dados específico, podemos utilizar esses modelos para definir uma medida de tipicidade nesse conjunto de dados. Essa medida avalia quão típicos são os elementos visuais para diferentes rótulos de dados, como localização geográfica, carimbos de tempo, rótulos semânticos ou até mesmo a presença de uma doença. Esta abordagem de análise por síntese para mineração de dados apresenta duas vantagens-chave. Primeiro, ela escala muito melhor do que abordagens tradicionais baseadas em correspondência, uma vez que não requer a comparação explícita de todos os pares de elementos visuais. Segundo, enquanto a maioria dos trabalhos anteriores sobre mineração de dados visuais se concentra em um único conjunto de dados, nossa abordagem funciona em conjuntos de dados diversos em termos de conteúdo e escala, incluindo um conjunto de dados histórico de carros, um conjunto de dados histórico de rostos, um extenso conjunto de dados de visualização de ruas em todo o mundo e um conjunto de dados de cenas ainda maior. Além disso, nossa abordagem permite traduzir elementos visuais entre rótulos de classe e analisar mudanças consistentes.
A sincronização labial de vídeos com áudio fornecido é a base para várias aplicações, incluindo a criação de apresentadores ou artistas virtuais. Enquanto estudos recentes exploram a sincronização labial de alta fidelidade com diferentes técnicas, seus modelos orientados para tarefas exigem vídeos de longa duração para treinamento específico de trechos ou apresentam artefatos visíveis. Neste artigo, propomos uma estrutura unificada e eficaz, ReSyncer, que sincroniza informações faciais audiovisuais generalizadas. O design-chave consiste em revisitar e reconfigurar o gerador baseado em estilo para adotar eficientemente a dinâmica facial 3D prevista por um Transformer injetado com estilo. Ao reconfigurar simplesmente os mecanismos de inserção de informações no espaço de ruído e estilo, nossa estrutura funde movimento e aparência com treinamento unificado. Experimentos extensos demonstram que o ReSyncer não apenas produz vídeos de sincronização labial de alta fidelidade de acordo com o áudio, mas também suporta múltiplas propriedades atrativas adequadas para a criação de apresentadores e artistas virtuais, incluindo ajuste fino personalizado rápido, sincronização labial impulsionada por vídeo, transferência de estilos de fala e até troca de rostos. Os recursos podem ser encontrados em https://guanjz20.github.io/projects/ReSyncer.
A avaliação é o bastão para o desenvolvimento de grandes modelos de linguagem. As avaliações atuais geralmente empregam um paradigma de avaliação de item único para cada objetivo de teste atômico, o que dificulta discernir se um modelo realmente possui as capacidades necessárias ou simplesmente memoriza/adivinha as respostas para perguntas específicas. Para isso, propomos um novo quadro de avaliação denominado StructEval. Partindo de um objetivo de teste atômico, o StructEval aprofunda e amplia a avaliação conduzindo uma avaliação estruturada em múltiplos níveis cognitivos e conceitos críticos, oferecendo assim uma avaliação abrangente, robusta e consistente para LLMs. Experimentos em três benchmarks amplamente utilizados demonstram que o StructEval serve como uma ferramenta confiável para resistir ao risco de contaminação de dados e reduzir a interferência de possíveis viés, fornecendo assim conclusões mais confiáveis e consistentes sobre as capacidades do modelo. Nosso quadro também lança luz sobre o design de futuros protocolos de avaliação de LLMs fundamentados e confiáveis.
A lacuna de capacidade entre modelos de linguagem grandes (LLMs) de código aberto e de código fechado continua sendo um desafio nas tarefas de texto para SQL. Neste artigo, apresentamos uma abordagem de dados sintéticos que combina dados produzidos por modelos maiores e mais poderosos (modelos fortes) com dados de informações de erro gerados por modelos menores e não bem alinhados (modelos fracos). O método não apenas aprimora a generalização de domínio dos modelos de texto para SQL, mas também explora o potencial da supervisão de dados de erro por meio de aprendizado de preferências. Além disso, empregamos a abordagem de dados sintéticos para ajuste de instruções em LLMs de código aberto, resultando no SENSE, um modelo especializado de texto para SQL. A eficácia do SENSE é demonstrada por meio de resultados de ponta nos benchmarks SPIDER e BIRD, reduzindo a lacuna de desempenho entre modelos de código aberto e métodos impulsionados por modelos de código fechado.
Recentemente, os modelos baseados em transformadores têm demonstrado um desempenho notável em tarefas de segmentação áudio-visual (SAV). No entanto, seu custo computacional elevado torna a inferência em tempo real impraticável. Ao caracterizar os mapas de atenção da rede, identificamos dois obstáculos-chave nos modelos de SAV: 1) dissipação de atenção, correspondente aos pesos de atenção superconcentrados pelo Softmax dentro de quadros restritos, e 2) decodificador de transformador ineficiente e pesado, causado por padrões de foco estreitos nas fases iniciais. Neste artigo, apresentamos o AVESFormer, o primeiro transformador de Segmentação Áudio-Visual Eficiente em tempo real que alcança rapidez, eficiência e leveza simultaneamente. Nosso modelo utiliza um gerador de consulta eficiente para corrigir o comportamento da inter-atenção. Adicionalmente, propomos o decodificador ELF para trazer maior eficiência ao facilitar convoluções adequadas para características locais e reduzir as cargas computacionais. Experimentos extensivos demonstram que nosso AVESFormer melhora significativamente o desempenho do modelo, alcançando 79,9% no S4, 57,9% no MS3 e 31,2% no AVSS, superando o estado-da-arte anterior e alcançando um excelente equilíbrio entre desempenho e velocidade. O código pode ser encontrado em https://github.com/MarkXCloud/AVESFormer.git.