Artigos de pesquisa em IA selecionados diariamente com traduções
O alinhamento de preferência visual envolve treinar Modelos de Grande Visão-Linguagem (LVLMs) para prever preferências humanas entre entradas visuais. Isso é tipicamente alcançado usando conjuntos de dados rotulados de pares escolhidos/rejeitados e empregando algoritmos de otimização como a otimização direta de preferência (DPO). Métodos de alinhamento visual existentes, principalmente projetados para cenários de imagem única, têm dificuldade em lidar efetivamente com a complexidade de tarefas multi-imagem devido à escassez de dados de treinamento diversos e ao alto custo de anotar pares escolhidos/rejeitados. Apresentamos a Otimização Direta de Preferência Aumentada Multi-Imagem (MIA-DPO), uma abordagem de alinhamento de preferência visual que lida efetivamente com entradas multi-imagem. MIA-DPO mitiga a escassez de dados de treinamento multi-imagem diversos estendendo dados de imagem única com imagens não relacionadas dispostas em colagens de grade ou formatos de imagem em imagem, reduzindo significativamente os custos associados às anotações de dados multi-imagem. Nossa observação revela que os valores de atenção dos LVLMs variam consideravelmente entre diferentes imagens. Utilizamos valores de atenção para identificar e filtrar respostas rejeitadas nas quais o modelo pode ter se concentrado erroneamente. Nossa seleção consciente de atenção para construir os pares escolhidos/rejeitados sem depender de (i) anotação humana, (ii) dados extras e (iii) modelos ou APIs externos. MIA-DPO é compatível com várias arquiteturas e supera os métodos existentes em cinco benchmarks multi-imagem, alcançando um aumento médio de desempenho de 3,0% no LLaVA-v1.5 e 4,3% no recente InternLM-XC2.5. Além disso, MIA-DPO tem um efeito mínimo na capacidade do modelo de entender imagens únicas.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm mostrado progresso promissor na compreensão e análise de conteúdo de vídeo. No entanto, processar vídeos longos continua sendo um desafio significativo limitado pelo tamanho de contexto do LLM. Para lidar com essa limitação, propomos o LongVU, um mecanismo adaptativo de compressão espaço-temporal que reduz o número de tokens de vídeo enquanto preserva detalhes visuais de vídeos longos. Nossa ideia é baseada na alavancagem de consultas cruzadas entre modalidades e dependências entre quadros para reduzir de forma adaptativa a redundância temporal e espacial em vídeos. Especificamente, utilizamos características do DINOv2 para remover quadros redundantes que apresentam alta similaridade. Em seguida, empregamos consultas cruzadas entre modalidades guiadas por texto para redução seletiva de características de quadros. Além disso, realizamos redução de tokens espaciais entre quadros com base em suas dependências temporais. Nossa estratégia de compressão adaptativa processa efetivamente um grande número de quadros com pouca perda de informação visual dentro do comprimento de contexto fornecido. Nosso LongVU consistentemente supera os métodos existentes em uma variedade de benchmarks de compreensão de vídeo, especialmente em tarefas de compreensão de vídeos longos, como VideoMME e MLVU. Dado um LLM leve, nosso LongVU também escala de forma eficaz para um tamanho menor com desempenho de compreensão de vídeo de ponta.
Avanços recentes em modelos preditivos têm demonstrado capacidades excepcionais na previsão do estado futuro de objetos e cenas. No entanto, a falta de categorização com base em características inerentes continua a dificultar o progresso no desenvolvimento de modelos preditivos. Além disso, benchmarks existentes não conseguem avaliar de forma eficaz modelos preditivos de alta capacidade e altamente incorporados de uma perspectiva incorporada. Neste trabalho, classificamos as funcionalidades de modelos preditivos em uma hierarquia e damos o primeiro passo na avaliação de Simuladores de Mundo, propondo um framework de avaliação duplo chamado WorldSimBench. O WorldSimBench inclui Avaliação Perceptual Explícita e Avaliação Manipulativa Implícita, abrangendo avaliações de preferência humana da perspectiva visual e avaliações em nível de ação em tarefas incorporadas, cobrindo três cenários incorporados representativos: Ambiente Incorporado de Final Aberto, Direção Autônoma e Manipulação de Robôs. Na Avaliação Perceptual Explícita, introduzimos o Conjunto de Dados HF-Incorporado, um conjunto de dados de avaliação de vídeo com base em feedback humano detalhado, que usamos para treinar um Avaliador de Preferência Humana que se alinha com a percepção humana e avalia explicitamente a fidelidade visual dos Simuladores de Mundo. Na Avaliação Manipulativa Implícita, avaliamos a consistência vídeo-ação dos Simuladores de Mundo, avaliando se o vídeo gerado, consciente da situação, pode ser traduzido com precisão nos sinais de controle corretos em ambientes dinâmicos. Nossa avaliação abrangente oferece insights importantes que podem impulsionar inovações futuras em modelos de geração de vídeo, posicionando os Simuladores de Mundo como um avanço crucial em direção à inteligência artificial incorporada.
Os Modelos de Linguagem por Difusão (DLMs) surgiram como um novo paradigma promissor para modelagem generativa de texto, potencialmente superando as limitações dos modelos autoregressivos (AR). No entanto, os atuais DLMs têm sido estudados em uma escala menor em comparação com seus equivalentes AR e carecem de uma comparação justa em benchmarks de modelagem de linguagem. Além disso, treinar modelos de difusão do zero em grande escala continua sendo um desafio. Dada a prevalência de modelos de linguagem AR de código aberto, propomos adaptar esses modelos para construir modelos de difusão de texto. Demonstramos conexões entre os objetivos de modelagem AR e de difusão e introduzimos uma abordagem simples de pré-treinamento contínuo para treinar modelos de difusão. Através de uma avaliação sistemática em benchmarks de modelagem de linguagem, raciocínio e senso comum, mostramos que podemos converter modelos AR variando de 127M a 7B parâmetros (GPT2 e LLaMA) em modelos de difusão DiffuGPT e DiffuLLaMA, utilizando menos de 200B tokens para treinamento. Nossos resultados experimentais revelam que esses modelos superam os DLMs anteriores e são competitivos com seus equivalentes AR. Lançamos uma série de DLMs (com 127M, 355M e 7B parâmetros) capazes de gerar texto fluente, realizar aprendizado em contexto, preencher lacunas sem reordenação de prompt e seguir instruções em https://github.com/HKUNLP/DiffuLLaMA.
A Otimização Direta de Preferência (ODP) surgiu como uma abordagem poderosa para alinhar modelos texto-imagem (T2I) com o feedback humano. Infelizmente, a aplicação bem-sucedida da ODP em modelos T2I requer uma enorme quantidade de recursos para coletar e rotular conjuntos de dados em grande escala, por exemplo, milhões de imagens em pares geradas anotadas com preferências humanas. Além disso, esses conjuntos de dados de preferência humana podem ficar desatualizados rapidamente à medida que as melhorias rápidas nos modelos T2I resultam em imagens de maior qualidade. Neste trabalho, investigamos uma abordagem escalável para coletar conjuntos de dados totalmente sintéticos em grande escala para treinamento de ODP. Especificamente, as preferências para imagens em pares são geradas usando uma função de recompensa pré-treinada, eliminando a necessidade de envolver humanos no processo de anotação, melhorando significativamente a eficiência na coleta de conjuntos de dados. Além disso, demonstramos que tais conjuntos de dados permitem a média de previsões entre vários modelos e a coleta de preferências classificadas em vez de preferências em pares. Além disso, introduzimos o RankDPO para aprimorar métodos baseados em ODP usando o feedback de classificação. Aplicar o RankDPO nos modelos SDXL e SD3-Medium com nosso conjunto de dados de preferência gerado sinteticamente "Syn-Pic" melhora tanto o seguimento de instruções (em benchmarks como T2I-Compbench, GenEval e DPG-Bench) quanto a qualidade visual (por meio de estudos de usuários). Este pipeline apresenta uma solução prática e escalável para desenvolver melhores conjuntos de dados de preferência para aprimorar o desempenho de modelos texto-imagem.
A geração de cenas LiDAR tem se desenvolvido rapidamente recentemente. No entanto, os métodos existentes focam principalmente na geração de cenas estáticas e de um único quadro, negligenciando a natureza inerentemente dinâmica dos ambientes de direção do mundo real. Neste trabalho, apresentamos o DynamicCity, um novo framework de geração LiDAR 4D capaz de gerar cenas LiDAR em grande escala e de alta qualidade que capturam a evolução temporal de ambientes dinâmicos. O DynamicCity consiste principalmente em dois modelos-chave. 1) Um modelo VAE para aprender o HexPlane como a representação compacta 4D. Em vez de usar operações de média ingênuas, o DynamicCity emprega um novo Módulo de Projeção para comprimir de forma eficaz as características LiDAR 4D em seis mapas de características 2D para a construção do HexPlane, o que melhora significativamente a qualidade do ajuste do HexPlane (até 12,56 de ganho de mIoU). Além disso, utilizamos uma Estratégia de Expansão e Compressão para reconstruir volumes de características 3D em paralelo, o que melhora tanto a eficiência do treinamento da rede quanto a precisão da reconstrução em comparação com a consulta ingênua de cada ponto 3D (até 7,05 de ganho de mIoU, 2,06 vezes mais rápido no treinamento e redução de memória de 70,84%). 2) Um modelo de difusão baseado em DiT para a geração do HexPlane. Para tornar o HexPlane viável para a geração de DiT, é proposta uma Operação de Expansão Acolchoada para reorganizar todos os seis planos de características do HexPlane como um mapa de características 2D quadrado. Em particular, várias condições podem ser introduzidas no processo de difusão ou amostragem, suportando aplicações versáteis de geração 4D, como geração orientada por trajetória e comando, inpainting e geração condicionada ao layout. Experimentos extensivos nos conjuntos de dados CarlaSC e Waymo demonstram que o DynamicCity supera significativamente os métodos de geração LiDAR 4D do estado da arte existentes em várias métricas. O código será disponibilizado para facilitar pesquisas futuras.
Os modelos de recompensa (RMs) impulsionaram o desempenho de ponta dos LLMs hoje, permitindo a integração do feedback humano no processo de modelagem de linguagem. No entanto, os RMs são principalmente treinados e avaliados em inglês, e suas capacidades em ambientes multilíngues permanecem amplamente subestudadas. Neste trabalho, realizamos uma avaliação sistemática de vários modelos de recompensa em ambientes multilíngues. Primeiramente, construímos o primeiro benchmark de avaliação de RM multilíngue, M-RewardBench, composto por 2,87 mil instâncias de preferência para 23 idiomas tipologicamente diversos, que testa as capacidades de bate-papo, segurança, raciocínio e tradução dos RMs. Em seguida, avaliamos rigorosamente uma ampla gama de modelos de recompensa no M-RewardBench, oferecendo novas perspectivas sobre seu desempenho em diversos idiomas. Identificamos uma lacuna significativa no desempenho dos RMs entre o inglês e os idiomas não ingleses e mostramos que as preferências do RM podem mudar substancialmente de um idioma para outro. Apresentamos também várias descobertas sobre como diferentes aspectos multilíngues impactam o desempenho do RM. Especificamente, demonstramos que o desempenho dos RMs é aprimorado com a melhoria da qualidade da tradução. Da mesma forma, demonstramos que os modelos apresentam melhor desempenho para idiomas com muitos recursos. Disponibilizamos o conjunto de dados M-RewardBench e a base de código neste estudo para facilitar uma melhor compreensão da avaliação de RM em ambientes multilíngues.
Este artigo apresenta uma nova arquitetura de controle de telefone móvel, denominada "agentes de aplicativos", para interações e controles eficientes em vários aplicativos Android. O proposto Controle de Aplicativo Multimodal Leve (LiMAC) recebe como entrada um objetivo textual e uma sequência de observações móveis passadas, como capturas de tela e árvores de interface do usuário correspondentes, para gerar ações precisas. Para lidar com as restrições computacionais inerentes aos smartphones, dentro do LiMAC, introduzimos um pequeno Transformador de Ação (AcT) integrado com um modelo de visão-linguagem ajustado (VLM) para tomada de decisões em tempo real e execução de tarefas. Avaliamos o LiMAC em dois conjuntos de dados de controle móvel de código aberto, demonstrando o desempenho superior de nossa abordagem de pequeno formato em comparação com versões ajustadas de VLMs de código aberto, como Florence2 e Qwen2-VL. Também supera significativamente baselines de engenharia de prompts que utilizam modelos de fundação de código fechado como GPT-4o. Mais especificamente, o LiMAC aumenta a precisão geral das ações em até 19% em comparação com VLMs ajustados e até 42% em comparação com baselines de engenharia de prompts.
O desempenho das redes neurais aumenta tanto com o seu tamanho quanto com a quantidade de dados em que foram treinadas. Isso é evidenciado tanto na geração de linguagem quanto de imagens. No entanto, isso requer arquiteturas de rede amigáveis ao escalonamento, bem como conjuntos de dados em larga escala. Embora arquiteturas amigáveis ao escalonamento, como os transformadores, tenham surgido para tarefas de visão 3D, o momento GPT da visão 3D ainda está distante devido à falta de dados de treinamento. Neste artigo, apresentamos o ARKit LabelMaker, o primeiro conjunto de dados 3D do mundo real em larga escala com anotações semânticas densas. Especificamente, complementamos o conjunto de dados ARKitScenes com anotações semânticas densas que são geradas automaticamente em escala. Para isso, estendemos o LabelMaker, um pipeline de anotação automática recente, para atender às necessidades de pré-treinamento em larga escala. Isso envolve a extensão do pipeline com modelos de segmentação de ponta, bem como torná-lo robusto aos desafios do processamento em larga escala. Além disso, avançamos no estado-da-arte do desempenho no conjunto de dados ScanNet e ScanNet200 com modelos prevalentes de segmentação semântica 3D, demonstrando a eficácia do nosso conjunto de dados gerado.
A integração de técnicas de grandes modelos de linguagem (LLM) no campo da análise médica tem trazido avanços significativos, no entanto, a escassez de conjuntos de dados grandes, diversos e bem anotados permanece um desafio importante. Dados e tarefas médicas, que variam em formato, tamanho e outros parâmetros, requerem extenso pré-processamento e padronização para uso eficaz no treinamento de LLMs. Para enfrentar esses desafios, apresentamos o MedINST, o Metaconjunto de Instruções Biomédicas, um novo metaconjunto de instruções multidomínio e multitarefa. O MedINST é composto por 133 tarefas de PNL biomédica e mais de 7 milhões de amostras de treinamento, tornando-o o conjunto de dados de instruções biomédicas mais abrangente até o momento. Usando o MedINST como metaconjunto de dados, curamos o MedINST32, um benchmark desafiador com diferentes níveis de dificuldade de tarefa, com o objetivo de avaliar a capacidade de generalização dos LLMs. Realizamos ajustes finos em vários LLMs no MedINST e avaliamos no MedINST32, demonstrando uma generalização aprimorada entre tarefas.
Recentemente, os modelos de linguagem multimodais de grande escala (MLLMs) têm recebido muita atenção por suas impressionantes capacidades. A avaliação dos MLLMs está se tornando crítica para analisar atributos dos MLLMs e fornecer insights valiosos. No entanto, os benchmarks atuais ignoram o problema da sensibilidade à prompt - variações mínimas na prompt podem levar a flutuações significativas no desempenho. Assim, prompts inadequadas podem obscurecer as capacidades dos modelos, subestimando o desempenho dos mesmos. Além disso, diferentes modelos têm preferências diferentes por diferentes prompts e, portanto, usar a mesma prompt para todos os modelos causará viés na avaliação. Este artigo analisa essa deficiência nos benchmarks existentes e introduz um novo framework de avaliação chamado TP-Eval, que apresenta um método de personalização de prompt para reduzir os viéses de avaliação e explorar o potencial dos modelos. O TP-Eval reescreverá as prompts originais em prompts personalizadas diferentes para diferentes modelos. Em particular, propomos alguns módulos bem projetados para personalização de prompt adaptados ao cenário de avaliação de MLLM. Experimentos extensivos demonstram a eficácia de nossa abordagem para descobrir as capacidades dos modelos, e o TP-Eval deve beneficiar a comunidade no desenvolvimento de benchmarks de avaliação de MLLM mais abrangentes e convincentes.
Propomos o Modelo de Síntese de Grande Visão (LVSM), uma abordagem inovadora baseada em transformadores para síntese de visões novas escalável e generalizável a partir de entradas de visão esparsa. Introduzimos duas arquiteturas: (1) um LVSM codificador-decodificador, que codifica tokens de imagem de entrada em um número fixo de tokens latentes unidimensionais, funcionando como uma representação de cena totalmente aprendida, e decodifica imagens de visão nova a partir deles; e (2) um LVSM apenas decodificador, que mapeia diretamente imagens de entrada para saídas de visão nova, eliminando completamente representações de cena intermediárias. Ambos os modelos contornam os vieses indutivos 3D usados em métodos anteriores - de representações 3D (por exemplo, NeRF, 3DGS) a projetos de rede (por exemplo, projeções epipolares, varreduras de planos) - abordando a síntese de visão nova com uma abordagem totalmente baseada em dados. Enquanto o modelo codificador-decodificador oferece inferência mais rápida devido à sua representação latente independente, o LVSM apenas decodificador alcança qualidade superior, escalabilidade e generalização de zero disparos, superando métodos anteriores de última geração em 1,5 a 3,5 dB PSNR. Avaliações abrangentes em vários conjuntos de dados demonstram que ambas as variantes do LVSM alcançam qualidade de síntese de visão nova de última geração. Notavelmente, nossos modelos superam todos os métodos anteriores mesmo com recursos computacionais reduzidos (1-2 GPUs). Consulte nosso site para mais detalhes: https://haian-jin.github.io/projects/LVSM/ .
Políticas robóticas de propósito geral, treinadas em conjuntos de demonstrações diversos, têm se mostrado notavelmente eficazes tanto para controlar uma variedade de robôs em diferentes cenários, quanto para adquirir amplos repertórios de habilidades de manipulação. No entanto, os dados nos quais tais políticas são treinadas geralmente possuem qualidade mista - as demonstrações coletadas por humanos dificilmente executam a tarefa perfeitamente, e quanto maior o conjunto de dados, mais difícil é selecionar apenas os exemplos de mais alta qualidade. Além disso, permanece incerto quão ótimos são os dados de uma forma para treinar em outra forma. Neste artigo, apresentamos uma abordagem geral e amplamente aplicável que aprimora o desempenho dessas políticas robóticas generalistas no momento da implantação, reclassificando suas ações de acordo com uma função de valor aprendida por meio de RL offline. Essa abordagem, que chamamos de Direcionamento de Política Guiado por Valor (V-GPS), é compatível com uma ampla gama de políticas generalistas diferentes, sem a necessidade de ajustes finos ou mesmo acesso aos pesos da política. Mostramos que a mesma função de valor pode melhorar o desempenho de cinco políticas de ponta com arquiteturas diferentes, mesmo que tenham sido treinadas em conjuntos de dados distintos, obtendo melhorias consistentes de desempenho em várias plataformas robóticas em um total de 12 tarefas. O código e os vídeos podem ser encontrados em: https://nakamotoo.github.io/V-GPS