Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos uma metodologia inovadora de síntese de dados orientada por persona que aproveita diversas perspectivas dentro de um grande modelo de linguagem (LLM) para criar dados sintéticos diversos. Para explorar totalmente essa metodologia em grande escala, introduzimos o Persona Hub - uma coleção de 1 bilhão de personas diversas automaticamente selecionadas a partir de dados da web. Essas 1 bilhão de personas (~13% da população mundial total), atuando como portadoras distribuídas do conhecimento mundial, podem acessar quase todas as perspectivas encapsuladas dentro do LLM, facilitando assim a criação de dados sintéticos diversos em grande escala para vários cenários. Ao mostrar os casos de uso do Persona Hub na síntese de problemas de raciocínio matemático e lógico de alta qualidade, instruções (ou seja, solicitações de usuário), textos ricos em conhecimento, NPCs de jogos e ferramentas (funções) em grande escala, demonstramos que a síntese de dados orientada por persona é versátil, escalável, flexível e fácil de usar, potencialmente impulsionando uma mudança de paradigma na criação de dados sintéticos e suas aplicações na prática, o que pode ter um impacto profundo na pesquisa e desenvolvimento de LLM.
O rápido desenvolvimento de modelos de linguagem multimodais grandes (MLLMs), como o GPT-4V, tem levado a avanços significativos. No entanto, esses modelos ainda enfrentam desafios nas capacidades multimodais médicas devido a limitações na quantidade e qualidade de dados médicos de visão-texto, decorrentes de preocupações com privacidade de dados e altos custos de anotação. Enquanto abordagens pioneiras utilizam pares de imagens e texto médicos em grande escala e desidentificados do PubMed para lidar com essas limitações, elas ainda ficam aquém devido ao ruído de dados inerente. Para enfrentar isso, refinamos pares de imagens e texto médicos do PubMed e empregamos MLLMs (GPT-4V) em uma capacidade 'não cega' para desfocar e reformatar os dados, resultando na criação do conjunto de dados PubMedVision com 1,3 milhão de amostras médicas de VQA. Nossa validação demonstra que: (1) o PubMedVision pode aprimorar significativamente as capacidades multimodais médicas dos MLLMs atuais, mostrando melhorias significativas em benchmarks, incluindo a trilha de Saúde e Medicina do MMMU; (2) verificações manuais por especialistas médicos e resultados empíricos validam a qualidade superior dos dados de nosso conjunto de dados em comparação com outros métodos de construção de dados. Usando o PubMedVision, treinamos um MLLM médico de 34B HuatuoGPT-Vision, que demonstra desempenho superior em cenários multimodais médicos entre os MLLMs de código aberto.
No campo dos grandes modelos de linguagem (LLMs), a Distorção de Conhecimento (KD) é uma técnica crítica para transferir capacidades dos modelos professores para os modelos alunos. No entanto, os métodos de KD existentes enfrentam limitações e desafios na destilação de LLMs, incluindo eficiência e capacidades de medição insuficientes da divergência KL tradicional. É demonstrado que os LLMs podem servir como uma função de recompensa implícita, que definimos como um complemento à divergência KL. Neste trabalho, propomos a Distorção de Conhecimento de Preferência Direta (DPKD) para LLMs. O DPKD utiliza a divergência de distribuição para representar a perda de preferência e a função de recompensa implícita. Reformulamos a KD dos LLMs em duas etapas: primeiro otimizando um objetivo composto por recompensa implícita e divergência KL reversa e depois melhorando a probabilidade de preferência das saídas do professor sobre as saídas do aluno. Realizamos experimentos e análises em diversos conjuntos de dados com parâmetros de LLM variando de 120M a 13B e demonstramos a ampla aplicabilidade e eficácia de nossa abordagem DPKD. Enquanto isso, comprovamos o valor e a eficácia da recompensa implícita introduzida e da preferência de saída na KD por meio de experimentos e análises teóricas. O método DPKD supera o método de referência tanto em precisão de resposta de saída quanto em percentagem de correspondência exata. O código e os dados estão disponíveis em https://aka.ms/dpkd.
Modelos de Linguagem de Grande Escala (LLMs) equipados com amplo conhecimento do mundo e habilidades sólidas de raciocínio podem lidar com diversas tarefas em diferentes domínios, frequentemente ao apresentá-las como pares de instrução-resposta em estilo de conversação. Neste artigo, propomos LLaRA: Assistente de Robótica e Linguagem de Grande Escala, um framework que formula a política de ação do robô como conversas e fornece respostas aprimoradas quando treinado com dados auxiliares que complementam a aprendizagem da política. LLMs com entradas visuais, ou seja, Modelos de Linguagem Visual (VLMs), têm a capacidade de processar informações de estado como estímulos visuais-textuais e gerar decisões de política ótimas em texto. Para treinar tais VLMs de política de ação, introduzimos primeiro um pipeline automatizado para gerar dados de instrução robótica diversos e de alta qualidade a partir de dados existentes de clonagem de comportamento. Um VLM ajustado com a coleção resultante de conjuntos de dados com base em uma formulação em estilo de conversação adaptada para tarefas de robótica, pode gerar decisões significativas de política de ação do robô. Nossos experimentos em múltiplos ambientes simulados e do mundo real demonstram o desempenho de ponta do framework LLaRA proposto. O código, conjuntos de dados e modelos pré-treinados estão disponíveis em https://github.com/LostXine/LLaRA.
Recentemente, o splatting gaussiano 3D (3D-GS) tem alcançado grande sucesso na reconstrução e renderização de cenas do mundo real. Para transferir a alta qualidade de renderização para tarefas de geração, uma série de trabalhos de pesquisa tentam gerar ativos gaussianos 3D a partir de texto. No entanto, os ativos gerados não alcançaram a mesma qualidade daqueles nas tarefas de reconstrução. Observamos que os gaussianos tendem a crescer sem controle, já que o processo de geração pode causar indeterminação. Com o objetivo de melhorar significativamente a qualidade da geração, propomos um novo framework chamado GaussianDreamerPro. A ideia principal é vincular gaussianos a uma geometria razoável, que evolui ao longo de todo o processo de geração. Ao longo das diferentes etapas de nosso framework, tanto a geometria quanto a aparência podem ser enriquecidas progressivamente. O ativo de saída final é construído com gaussianos 3D vinculados a uma malha, que apresenta detalhes e qualidade significativamente aprimorados em comparação com métodos anteriores. Notavelmente, o ativo gerado também pode ser integrado perfeitamente em pipelines de manipulação subsequentes, como animação, composição e simulação, promovendo amplamente seu potencial em diversas aplicações. Demonstrativos estão disponíveis em https://taoranyi.com/gaussiandreamerpro/.
O Modelo Segment Anything (SAM) tem atraído ampla atenção por suas superiores capacidades de segmentação interativa com prompts visuais, embora careça de uma exploração mais aprofundada de prompts de texto. Neste artigo, investigamos empiricamente para que servem os codificadores de prompts de texto (por exemplo, CLIP ou LLM) na adaptação do SAM para segmentação de expressões de referência e introduzimos o SAM baseado em Fusão de Visão-linguagem Antecipada (EVF-SAM). O EVF-SAM é um método simples, porém eficaz, de segmentação de referência que explora prompts multimodais (ou seja, imagem e texto) e consiste em um modelo de visão-linguagem pré-treinado para gerar prompts de referência e um modelo SAM para segmentação. Surpreendentemente, observamos que: (1) prompts multimodais e (2) modelos de visão-linguagem com fusão antecipada (por exemplo, BEIT-3) são benéficos para orientar o SAM para uma segmentação de referência precisa. Nossos experimentos mostram que o EVF-SAM proposto com base no BEIT-3 pode obter um desempenho de ponta no RefCOCO/+/g para segmentação de expressões de referência e demonstrar a superioridade de orientar o SAM com fusão antecipada de visão-linguagem. Além disso, o EVF-SAM proposto com 1,32 bilhões de parâmetros alcança um desempenho significativamente maior, reduzindo quase 82% dos parâmetros em comparação com métodos SAM anteriores baseados em grandes modelos multimodais.
Os avanços recentes em Modelos de Linguagem de Grande Escala transformaram o desenvolvimento de ML/AI, tornando necessária uma reavaliação dos princípios de AutoML para os sistemas de Geração com Recuperação Aprimorada (RAG). Para lidar com os desafios de otimização de hiperparâmetros e adaptação online em RAG, propomos o framework AutoRAG-HP, que formula a afinação de hiperparâmetros como um problema de bandit multi-armado (MAB) online e introduz um novo método Hierárquico de MAB em dois níveis (Hier-MAB) para exploração eficiente de grandes espaços de busca. Realizamos experimentos extensivos na afinação de hiperparâmetros, como documentos recuperados top-k, taxa de compressão de prompt e métodos de embedding, utilizando os conjuntos de dados ALCE-ASQA e Natural Questions. Nossa avaliação da otimização conjunta dos três hiperparâmetros demonstra que métodos de aprendizado online baseados em MAB podem alcançar Recall@5 aproximadamente 0.8 para cenários com gradientes proeminentes no espaço de busca, utilizando apenas 20% das chamadas de API do LLM necessárias pela abordagem de Busca em Grade. Além disso, a abordagem Hier-MAB proposta supera outras baselines em cenários de otimização mais desafiadores. O código estará disponível em https://aka.ms/autorag.
Aumentar os métodos de Aprendizado por Reforço Profundo (RL) apresenta um desafio significativo. Seguindo os desenvolvimentos em modelagem generativa, o RL baseado em modelo posiciona-se como um forte concorrente. Avanços recentes em modelagem de sequência levaram a modelos de mundo baseados em transformadores eficazes, embora ao custo de intensas computações devido às longas sequências de tokens necessárias para simular ambientes com precisão. Neste trabalho, propomos o Delta-IRIS, um novo agente com uma arquitetura de modelo de mundo composta por um autoencoder discreto que codifica deltas estocásticos entre passos de tempo e um transformador autoregressivo que prevê futuros deltas resumindo o estado atual do mundo com tokens contínuos. No benchmark Crafter, o Delta-IRIS estabelece um novo estado da arte em vários orçamentos de quadros, sendo uma ordem de magnitude mais rápido para treinar do que abordagens anteriores baseadas em atenção. Disponibilizamos nosso código e modelos em https://github.com/vmicheli/delta-iris.
Apresentamos o Arboretum, o maior conjunto de dados publicamente acessível projetado para avançar a IA em aplicações de biodiversidade. Este conjunto de dados, selecionado da plataforma de ciência comunitária iNaturalist e avaliado por especialistas do domínio para garantir precisão, inclui 134,6 milhões de imagens, superando conjuntos de dados existentes em escala por uma ordem de magnitude. O conjunto de dados abrange dados em pares de imagem-linguagem para um conjunto diversificado de espécies de aves (Aves), aranhas/carrapatos/ácaros (Arachnida), insetos (Insecta), plantas (Plantae), fungos/cogumelos (Fungi), caramujos (Mollusca) e serpentes/lagartos (Reptilia), tornando-se um recurso valioso para modelos de IA multimodais de visão-linguagem para avaliação da biodiversidade e pesquisa agrícola. Cada imagem é anotada com nomes científicos, detalhes taxonômicos e nomes comuns, aprimorando a robustez do treinamento do modelo de IA. Demonstramos o valor do Arboretum ao lançar uma série de modelos CLIP treinados usando um subconjunto de 40 milhões de imagens legendadas. Introduzimos vários novos benchmarks para avaliação rigorosa, relatamos a precisão para aprendizado sem supervisão e avaliações em diferentes estágios de vida, espécies raras, espécies confundíveis e vários níveis da hierarquia taxonômica. Antecipamos que o Arboretum estimulará o desenvolvimento de modelos de IA que podem possibilitar uma variedade de ferramentas digitais, desde estratégias de controle de pragas, monitoramento de cultivos, até avaliação da biodiversidade mundial e conservação ambiental. Esses avanços são fundamentais para garantir a segurança alimentar, preservar ecossistemas e mitigar os impactos das mudanças climáticas. O Arboretum está publicamente disponível, facilmente acessível e pronto para uso imediato. Consulte o https://baskargroup.github.io/Arboretum/{site do projeto} para links para nossos dados, modelos e código.
A Aprendizagem por Reforço com Feedback Humano (ARFH) alcançou grande sucesso em alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. As abordagens prevalentes de ARFH são baseadas em recompensas, seguindo a suposição do modelo Bradley-Terry (BT), que pode não capturar totalmente a complexidade das preferências humanas. Neste artigo, exploramos a ARFH sob um framework de preferência geral e abordamos o problema a partir de uma perspectiva teórica de jogos. Especificamente, formulamos o problema como um jogo de dois jogadores e propomos um algoritmo inovador, otimização de política Nash iterativa (INPO). A ideia principal é permitir que a política jogue contra si mesma por meio de aprendizado sem arrependimento, aproximando assim a política Nash. Ao contrário de métodos anteriores, o INPO contorna a necessidade de estimar a taxa de vitória esperada para respostas individuais, o que normalmente acarreta custos computacionais ou de anotação elevados. Em vez disso, introduzimos um novo objetivo de perda que é minimizado diretamente em um conjunto de dados de preferência. Fornecemos uma análise teórica para nossa abordagem e demonstramos sua eficácia por meio de experimentos em vários benchmarks representativos. Com um modelo SFT baseado em LLaMA-3-8B, o INPO alcança uma taxa de vitória controlada por comprimento de 41,5% no AlpacaEval 2.0 e uma taxa de vitória de 38,3% no Arena-Hard, mostrando uma melhoria substancial em relação ao algoritmo iterativo estado-da-arte [Dong et al., 2024] sob a suposição do modelo BT. Além disso, nosso estudo de ablação destaca os benefícios da incorporação da regularização KL para o controle do comprimento da resposta.
Este artigo apresenta uma métrica inovadora, consciente de entidades, denominada de Avaliação de Relatórios Radiológicos (Texto) (RaTEScore), para avaliar a qualidade de relatórios médicos gerados por modelos de IA. O RaTEScore enfatiza entidades médicas cruciais, como resultados diagnósticos e detalhes anatômicos, e é robusto contra sinônimos médicos complexos e sensível a expressões de negação. Tecnicamente, desenvolvemos um conjunto de dados abrangente de Reconhecimento de Entidades Médicas (NER), RaTE-NER, e treinamos um modelo NER especificamente para este fim. Esse modelo permite a decomposição de relatórios radiológicos complexos em entidades médicas constituintes. A métrica em si é derivada ao comparar a similaridade de incorporações de entidades, obtidas de um modelo de linguagem, com base em seus tipos e relevância para a importância clínica. Nossas avaliações demonstram que o RaTEScore se alinha mais estreitamente com a preferência humana do que as métricas existentes, validadas tanto em benchmarks públicos estabelecidos quanto em nosso novo benchmark proposto, RaTE-Eval.