Artigos de pesquisa em IA selecionados diariamente com traduções
Nos últimos meses, emergiu uma tendência poderosa na qual grandes modelos de linguagem (LLMs) são aprimorados para se tornarem agentes de linguagem autônomos capazes de realizar tarefas multi-etapas orientadas a objetivos por conta própria, em vez de meramente responder a consultas de usuários humanos. No entanto, a maioria dos agentes de linguagem existentes não é otimizada usando recompensas específicas ao ambiente. Embora alguns agentes permitam refinamentos iterativos por meio de feedback verbal, eles não raciocinam e planejam de maneiras compatíveis com o aprendizado baseado em gradientes a partir de recompensas. Este artigo introduz uma estrutura fundamentada para reforçar grandes agentes de linguagem ao aprender um modelo retrospectivo, que ajusta automaticamente os prompts do agente de linguagem a partir do feedback do ambiente por meio de gradiente de política. Especificamente, a arquitetura do agente proposta aprende com recompensas em múltiplos ambientes e tarefas, para ajustar um modelo de linguagem pré-treinado que refina o prompt do agente de linguagem ao resumir a causa raiz de tentativas anteriores falhas e propor planos de ação. Resultados experimentais em várias tarefas demonstram que os agentes de linguagem melhoram ao longo do tempo e que nossa abordagem supera consideravelmente as linhas de base que não aproveitam adequadamente os gradientes do ambiente. Isso demonstra que o uso da otimização por gradiente de política para melhorar agentes de linguagem, para o qual acreditamos que nosso trabalho seja um dos primeiros, parece promissor e pode ser aplicado para otimizar outros modelos na arquitetura do agente, a fim de aprimorar o desempenho dos agentes ao longo do tempo.
Propomos o MM-Vet, um benchmark de avaliação que examina grandes modelos multimodais (LMMs) em tarefas multimodais complexas. Modelos LMMs recentes têm demonstrado diversas habilidades intrigantes, como resolver problemas matemáticos escritos em quadros, raciocinar sobre eventos e celebridades em imagens de notícias e explicar piadas visuais. Os rápidos avanços nos modelos apresentam desafios para o desenvolvimento de benchmarks de avaliação. Os problemas incluem: (1) Como estruturar e avaliar sistematicamente as tarefas multimodais complexas; (2) Como projetar métricas de avaliação que funcionem bem em diferentes tipos de perguntas e respostas; e (3) Como fornecer insights sobre os modelos além de uma simples classificação de desempenho. Para isso, apresentamos o MM-Vet, projetado com base na ideia de que a capacidade intrigante de resolver tarefas complexas é frequentemente alcançada por um modelo generalista capaz de integrar diferentes capacidades centrais de visão e linguagem (VL). O MM-Vet define 6 capacidades centrais de VL e examina as 16 integrações de interesse derivadas da combinação dessas capacidades. Para métricas de avaliação, propomos um avaliador baseado em LLM para saídas de resposta aberta. O avaliador permite a avaliação em diferentes tipos de perguntas e estilos de resposta, resultando em uma métrica de pontuação unificada. Avaliamos LMMs representativos no MM-Vet, fornecendo insights sobre as capacidades de diferentes paradigmas e modelos de sistemas LMM. O código e os dados estão disponíveis em https://github.com/yuweihao/MM-Vet.
A segmentação de vocabulário aberto é uma tarefa desafiadora que requer a segmentação e reconhecimento de objetos a partir de um conjunto aberto de categorias. Uma maneira de abordar esse desafio é aproveitar modelos multimodais, como o CLIP, para fornecer características de imagem e texto em um espaço de incorporação compartilhado, o que reduz a lacuna entre o reconhecimento de vocabulário fechado e aberto. Portanto, os métodos existentes frequentemente adotam uma estrutura de duas etapas para resolver o problema, onde as entradas primeiro passam por um gerador de máscaras e depois pelo modelo CLIP juntamente com as máscaras previstas. Esse processo envolve a extração de características das imagens várias vezes, o que pode ser ineficaz e ineficiente. Em contraste, propomos construir tudo em uma estrutura de estágio único usando um backbone Frozen Convolutional CLIP compartilhado, o que não apenas simplifica significativamente o pipeline atual de duas etapas, mas também produz uma melhor relação custo-benefício em termos de precisão. O FC-CLIP proposto se beneficia das seguintes observações: o backbone congelado do CLIP mantém a capacidade de classificação de vocabulário aberto e também pode servir como um forte gerador de máscaras, e o CLIP convolucional generaliza bem para uma resolução de entrada maior do que a usada durante o pré-treinamento contrastivo de imagem-texto. Ao treinar apenas com dados panópticos do COCO e testar de maneira zero-shot, o FC-CLIP alcança 26,8 PQ, 16,8 AP e 34,1 mIoU no ADE20K, 18,2 PQ e 27,9 mIoU no Mapillary Vistas, 44,0 PQ, 26,8 AP e 56,2 mIoU no Cityscapes, superando o estado da arte em +4,2 PQ, +2,4 AP, +4,2 mIoU no ADE20K, +4,0 PQ no Mapillary Vistas e +20,1 PQ no Cityscapes, respectivamente. Além disso, o tempo de treinamento e teste do FC-CLIP é 7,5x e 6,6x mais rápido do que o mesmo estado da arte, enquanto utiliza 5,9x menos parâmetros. O FC-CLIP também estabelece um novo desempenho de ponta em vários conjuntos de dados de segmentação semântica de vocabulário aberto. Código disponível em https://github.com/bytedance/fc-clip.
A correspondência de ensaios clínicos é um processo fundamental na prestação de serviços de saúde e na descoberta de tratamentos. Na prática, esse processo é prejudicado pelo excesso de dados não estruturados e pela dependência de processamento manual que não é escalável. Neste artigo, realizamos um estudo sistemático sobre a escalabilidade da correspondência de ensaios clínicos utilizando modelos de linguagem de grande escala (LLMs), com foco na área de oncologia. Nosso estudo é baseado em um sistema de correspondência de ensaios clínicos atualmente em fase de teste em uma grande rede de saúde dos Estados Unidos. Os resultados iniciais são promissores: modelos de ponta, como o GPT-4, já são capazes de estruturar critérios de elegibilidade detalhados de ensaios clínicos e extrair lógicas complexas de correspondência (por exemplo, operadores AND/OR/NOT aninhados). Embora ainda estejam longe da perfeição, os LLMs superam significativamente as abordagens anteriores e podem servir como uma solução preliminar para ajudar a triar candidatos paciente-ensaio com a participação de humanos no processo. Nosso estudo também revela algumas áreas importantes de aprimoramento para a aplicação de LLMs na correspondência de ensaios clínicos de ponta a ponta, como limitações de contexto e precisão, especialmente na estruturação de informações do paciente a partir de registros médicos longitudinais.
Mãos robóticas biomiméticas e hábeis têm o potencial de replicar grande parte das tarefas que um humano pode realizar, alcançando o status de plataforma de manipulação geral. Avanços recentes em frameworks de aprendizado por reforço (RL) têm alcançado desempenho notável em tarefas de locomoção quadrúpede e manipulação hábil. Combinados com simulações altamente paralelizadas baseadas em GPU, capazes de simular milhares de robôs em paralelo, controladores baseados em RL tornaram-se mais escaláveis e acessíveis. No entanto, para trazer políticas treinadas por RL para o mundo real, precisamos de frameworks de treinamento que gerem políticas capazes de funcionar com atuadores e sensores físicos, além de uma plataforma de hardware que possa ser fabricada com materiais acessíveis, mas robusta o suficiente para executar políticas interativas. Este trabalho apresenta a Faive Hand, uma mão biomimética acionada por tendões, e sua arquitetura de sistema, que utiliza juntas de contato rolante acionadas por tendões para alcançar um design de mão de alta liberdade (DoF) robusto e imprimível em 3D. Modelamos cada elemento da mão e o integramos em um ambiente de simulação em GPU para treinar uma política com RL, alcançando a transferência zero-shot de uma habilidade hábil de rotação de esfera na mão para a mão robótica física.
Apresentamos os Modelos de Difusão Compartimentalizados (CDM), um método para treinar diferentes modelos de difusão (ou prompts) em fontes de dados distintas e compô-los arbitrariamente no momento da inferência. Os modelos individuais podem ser treinados de forma isolada, em momentos diferentes e em distribuições e domínios diversos, podendo ser posteriormente combinados para alcançar desempenho comparável a um modelo de referência treinado com todos os dados simultaneamente. Além disso, cada modelo contém apenas informações sobre o subconjunto de dados ao qual foi exposto durante o treinamento, permitindo diversas formas de proteção dos dados de treinamento. Em particular, os CDMs são o primeiro método a possibilitar tanto o esquecimento seletivo quanto o aprendizado contínuo para modelos de difusão em larga escala, além de permitir a disponibilização de modelos personalizados com base nos direitos de acesso do usuário. Os CDMs também permitem determinar a importância de um subconjunto de dados na geração de amostras específicas.