Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos um novo referencial para avaliar as capacidades de interpretação de papéis dos modelos de linguagem. Nossa abordagem utiliza os próprios modelos de linguagem para simular usuários em conversas dinâmicas de múltiplas rodadas e avaliar os diálogos resultantes. O framework é composto por três componentes principais: um modelo de jogador assumindo um papel de personagem específico, um modelo de interrogador simulando o comportamento do usuário e um modelo de juiz avaliando a qualidade da conversa. Realizamos experimentos comparando avaliações automatizadas com anotações humanas para validar nossa abordagem, demonstrando fortes correlações em vários critérios. Este trabalho estabelece uma base para uma avaliação robusta e dinâmica das capacidades do modelo em cenários interativos.
O rápido desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) para aplicações na área da saúde tem motivado chamados para uma avaliação holística além de benchmarks frequentemente citados, como o USMLE, para melhor refletir o desempenho no mundo real. Embora as avaliações no mundo real sejam indicadores valiosos de utilidade, muitas vezes ficam aquém do ritmo de evolução dos LLMs, tornando provavelmente obsoletos os resultados ao serem implementados. Essa desconexão temporal torna necessária uma avaliação abrangente inicial que possa orientar a seleção de modelos para aplicações clínicas específicas. Apresentamos o MEDIC, um framework que avalia LLMs em cinco dimensões críticas de competência clínica: raciocínio médico, ética e viés, compreensão de dados e linguagem, aprendizado contextual e segurança clínica. O MEDIC apresenta um novo framework de contraposição quantificando o desempenho dos LLMs em áreas como cobertura e detecção de alucinações, sem necessidade de saídas de referência. Aplicamos o MEDIC para avaliar LLMs em perguntas e respostas médicas, segurança, sumarização, geração de notas e outras tarefas. Nossos resultados mostram disparidades de desempenho entre tamanhos de modelos, modelos de referência versus modelos ajustados medicamente, e têm implicações na seleção de modelos para aplicações que requerem habilidades específicas do modelo, como baixa alucinação ou menor custo de inferência. A avaliação multifacetada do MEDIC revela esses trade-offs de desempenho, reduzindo a lacuna entre capacidades teóricas e implementação prática em ambientes de saúde, garantindo que os modelos mais promissores sejam identificados e adaptados para diversas aplicações na área da saúde.
Apesar do potencial de agentes baseados em modelos de linguagem para resolver tarefas do mundo real, como navegação na web, os métodos atuais ainda enfrentam dificuldades com tarefas de longo prazo com trajetórias de ação complexas. Em contraste, os humanos podem resolver de forma flexível tarefas complexas aprendendo fluxos de trabalho de tarefas reutilizáveis a partir de experiências passadas e usando-os para orientar ações futuras. Para construir agentes que possam se beneficiar de forma semelhante desse processo, introduzimos a Memória de Fluxo de Trabalho do Agente (AWM), um método para induzir rotinas comumente reutilizadas, ou seja, fluxos de trabalho, e fornecer seletivamente fluxos de trabalho ao agente para orientar gerações subsequentes. AWM se aplica de forma flexível a cenários offline e online, onde os agentes induzem fluxos de trabalho a partir de exemplos de treinamento antecipadamente ou a partir de consultas de teste no momento. Experimentamos em dois grandes benchmarks de navegação na web - Mind2Web e WebArena - que cobrem coletivamente 1000+ tarefas de 200+ domínios, incluindo viagens, compras e redes sociais, entre outros. AWM melhora substancialmente os resultados base em 24,6% e 51,1% de taxa de sucesso relativa no Mind2Web e WebArena, reduzindo o número de etapas necessárias para resolver com sucesso as tarefas do WebArena. Além disso, o AWM online generaliza de forma robusta em avaliações cruzadas de tarefas, sites e domínios, superando os resultados base de 8,9 a 14,0 pontos absolutos à medida que as lacunas de distribuição de tarefas de treinamento e teste se ampliam.
Apesar do tremendo progresso na geração de imagens em 3D, os métodos existentes ainda enfrentam dificuldades em produzir imagens consistentes em múltiplas vistas com texturas de alta resolução em detalhes, especialmente no paradigma de difusão 2D que carece de consciência 3D. Neste trabalho, apresentamos o modelo de Imagem em 3D de alta resolução (Hi3D), um novo paradigma baseado em difusão de vídeo que redefine uma única imagem para imagens em múltiplas vistas como geração de imagens sequenciais conscientes em 3D (ou seja, geração de vídeo orbital). Esta metodologia explora o conhecimento subjacente de consistência temporal no modelo de difusão de vídeo, que generaliza bem para a consistência geométrica em múltiplas vistas na geração 3D. Tecnicamente, o Hi3D primeiro capacita o modelo de difusão de vídeo pré-treinado com uma priori consciente em 3D (condição de pose da câmera), resultando em imagens em múltiplas vistas com detalhes de textura de baixa resolução. Um refinador de vídeo para vídeo consciente em 3D é aprendido para ampliar ainda mais as imagens em múltiplas vistas com detalhes de textura de alta resolução. Essas imagens em múltiplas vistas de alta resolução são posteriormente aumentadas com novas vistas através de Splatting Gaussiano em 3D, que são finalmente utilizadas para obter malhas de alta fidelidade via reconstrução 3D. Experimentos extensivos tanto em síntese de novas vistas quanto em reconstrução de única vista demonstram que nosso Hi3D consegue produzir imagens de consistência em múltiplas vistas superiores com texturas altamente detalhadas. O código-fonte e os dados estão disponíveis em https://github.com/yanghb22-fdu/Hi3D-Official.
Os Transformers de atenção linear e suas variantes com portões, conhecidos por possibilitar treinamento paralelo e inferência recorrente eficiente, ainda ficam aquém em tarefas intensivas em recall em comparação com os Transformers tradicionais e exigem recursos significativos para treinamento do zero. Este artigo apresenta a Atenção por Slot com Portões (GSA), que aprimora a Atenção com Controle de Memória Limitada (ABC) incorporando um mecanismo de portões inspirado na Atenção Linear com Portões (GLA). Essencialmente, o GSA consiste em um GLA de duas camadas conectado via softmax, utilizando leitura de memória consciente do contexto e esquecimento adaptativo para melhorar a capacidade de memória mantendo um tamanho compacto de estado recorrente. Este design melhora significativamente a eficiência tanto no treinamento quanto na inferência através do algoritmo de treinamento eficiente em hardware do GLA e do tamanho reduzido do estado. Além disso, manter a operação softmax é particularmente benéfico em configurações de "ajuste fino de Transformers pré-treinados para RNNs" (T2R), reduzindo a necessidade de treinamento extensivo do zero. Experimentos extensos confirmam o desempenho superior do GSA em cenários que exigem recall contextual e em configurações T2R.
A técnica de estímulo Chain-of-Thought (CoT) revela que grandes modelos de linguagem são capazes de realizar raciocínio complexo por meio de etapas intermediárias. A técnica CoT é principalmente categorizada em três abordagens. A primeira abordagem utiliza estímulos diretos como "Vamos pensar passo a passo" para gerar um processo de pensamento sequencial antes de fornecer uma resposta. A segunda abordagem faz uso de demonstrações humanas elaboradas passo a passo para orientar o processo de raciocínio do modelo. A terceira automatiza a geração de demonstrações fundamentadas com o 'Vamos pensar passo a passo'. Essa abordagem às vezes resulta em erros de raciocínio, destacando a necessidade de diversificar as demonstrações para mitigar seus efeitos enganosos. No entanto, demonstrações diversas apresentam desafios para representações eficazes. Neste trabalho, propomos o ECHO, um método de estímulo de cadeia de pensamento auto-harmonizado. Ele consolida diferentes caminhos de solução em um padrão de solução uniforme e eficaz. O ECHO demonstra o melhor desempenho geral em três domínios de raciocínio.
gsplat é uma biblioteca de código aberto projetada para treinar e desenvolver métodos de Splatting Gaussiano. Possui uma interface com Python bindings compatíveis com a biblioteca PyTorch e um núcleo com kernels CUDA altamente otimizados. gsplat oferece inúmeras funcionalidades que aprimoram a otimização de modelos de Splatting Gaussiano, incluindo melhorias de otimização para velocidade, memória e tempos de convergência. Resultados experimentais demonstram que gsplat alcança até 10% menos tempo de treinamento e 4 vezes menos memória do que a implementação original. Utilizado em vários projetos de pesquisa, gsplat é ativamente mantido no GitHub. O código-fonte está disponível em https://github.com/nerfstudio-project/gsplat sob a Licença Apache 2.0. Agradecemos contribuições da comunidade de código aberto.
"Uma ideia não é nada mais, nada menos do que uma nova combinação de elementos antigos" (Young, J.W.). A ampla adoção de Modelos de Linguagem de Grande Escala (LLMs) e o ChatGPT publicamente disponível marcaram um ponto de viragem significativo na integração da Inteligência Artificial (IA) na vida cotidiana das pessoas. Este estudo explora a capacidade dos LLMs em gerar ideias de pesquisa inovadoras com base em informações de artigos de pesquisa. Realizamos uma análise minuciosa de 4 LLMs em cinco domínios (por exemplo, Química, Computação, Economia, Medicina e Física). Descobrimos que as ideias de pesquisa futuras geradas pelo Claude-2 e GPT-4 estão mais alinhadas com a perspectiva do autor do que GPT-3.5 e Gemini. Também constatamos que o Claude-2 gera ideias de pesquisa futuras mais diversas do que o GPT-4, GPT-3.5 e Gemini 1.0. Realizamos ainda uma avaliação humana da novidade, relevância e viabilidade das ideias de pesquisa futuras geradas. Esta investigação oferece insights sobre o papel em evolução dos LLMs na geração de ideias, destacando tanto sua capacidade quanto suas limitações. Nosso trabalho contribui para os esforços em curso na avaliação e utilização de modelos de linguagem para a geração de ideias de pesquisa futuras. Disponibilizamos publicamente nossos conjuntos de dados e códigos.
Apresentamos um framework para aprender a gerar música de fundo a partir de entradas de vídeo. Ao contrário de trabalhos existentes que dependem de anotações musicais simbólicas, as quais são limitadas em quantidade e diversidade, nosso método utiliza vídeos em larga escala acompanhados por música de fundo. Isso permite que nosso modelo aprenda a gerar música realista e diversificada. Para atingir esse objetivo, desenvolvemos um Transformer generativo vídeo-música com um novo esquema de alinhamento semântico vídeo-música. Nosso modelo utiliza um objetivo de aprendizagem autoregressivo e contrastivo conjunto, o qual incentiva a geração de música alinhada com o conteúdo de vídeo de alto nível. Também introduzimos um novo esquema de alinhamento vídeo-batida para corresponder as batidas musicais geradas com os movimentos de baixo nível no vídeo. Por fim, para capturar pistas visuais detalhadas em um vídeo necessárias para a geração realista de música de fundo, introduzimos uma nova arquitetura de codificador de vídeo temporal, permitindo-nos processar eficientemente vídeos compostos por muitos quadros densamente amostrados. Treinamos nosso framework em nosso novo conjunto de dados DISCO-MV, composto por 2,2 milhões de amostras vídeo-música, o qual é ordens de magnitude maior do que quaisquer conjuntos de dados anteriores usados para a geração de música de vídeo. Nosso método supera abordagens existentes nos conjuntos de dados DISCO-MV e MusicCaps de acordo com várias métricas de avaliação de geração de música, incluindo avaliação humana. Os resultados estão disponíveis em https://genjib.github.io/project_page/VMAs/index.html
Propomos o GauFace, uma nova representação de Splatting Gaussiano, adaptada para a animação eficiente e renderização de ativos faciais baseados em física. Aproveitando fortes premissas geométricas e otimização restrita, o GauFace garante uma representação Gaussiana limpa e estruturada, proporcionando alta fidelidade e interação facial em tempo real de 30fps@1440p em uma plataforma móvel Snapdragon 8 Gen 2. Em seguida, introduzimos o TransGS, um transformador de difusão que traduz instantaneamente ativos faciais baseados em física para as respectivas representações do GauFace. Especificamente, adotamos um pipeline baseado em patches para lidar de forma eficaz com o vasto número de Gaussianas. Também introduzimos um novo esquema de amostragem alinhado a pixels com codificação posicional UV para garantir o rendimento e a qualidade de renderização dos ativos do GauFace gerados pelo nosso TransGS. Uma vez treinado, o TransGS pode traduzir instantaneamente ativos faciais com condições de iluminação para a representação do GauFace. Com as ricas modalidades de condicionamento, ele também possibilita capacidades de edição e animação reminiscentes dos pipelines CG tradicionais. Realizamos extensas avaliações e estudos de usuários, comparados a renderizadores tradicionais offline e online, bem como métodos recentes de renderização neural, que demonstram o desempenho superior de nossa abordagem para a renderização de ativos faciais. Também apresentamos diversas aplicações imersivas de ativos faciais usando nossa abordagem TransGS e representação do GauFace, em várias plataformas como PCs, telefones e até headsets de RV.
Dado que os Modelos de Linguagem Grandes (LLMs) avançaram significativamente na escrita de código, eles podem agora ser usados para reproduzir autonomamente os resultados de repositórios de pesquisa? Tal capacidade seria uma vantagem para a comunidade de pesquisa, ajudando os pesquisadores a validar, compreender e estender trabalhos anteriores. Para avançar nesse objetivo, apresentamos o SUPER, o primeiro benchmark projetado para avaliar a capacidade dos LLMs em configurar e executar tarefas de repositórios de pesquisa. O SUPER tem como objetivo capturar os desafios realistas enfrentados por pesquisadores que trabalham com repositórios de pesquisa em Aprendizado de Máquina (ML) e Processamento de Linguagem Natural (NLP). Nosso benchmark é composto por três conjuntos de problemas distintos: 45 problemas de ponta a ponta com soluções especializadas anotadas, 152 subproblemas derivados do conjunto especializado que se concentram em desafios específicos (por exemplo, configurar um treinador) e 602 problemas gerados automaticamente para desenvolvimento em larga escala. Introduzimos várias medidas de avaliação para avaliar tanto o sucesso da tarefa quanto o progresso, utilizando soluções de referência quando disponíveis ou aproximações caso contrário. Mostramos que abordagens de ponta lutam para resolver esses problemas, com o melhor modelo (GPT-4o) resolvendo apenas 16,3% do conjunto de ponta a ponta e 46,1% dos cenários. Isso ilustra o desafio dessa tarefa e sugere que o SUPER pode servir como um recurso valioso para a comunidade fazer e medir progressos.
Este artigo apresenta o MVLLaVA, um agente inteligente projetado para tarefas de síntese de novas visualizações. O MVLLaVA integra múltiplos modelos de difusão multi-visual com um grande modelo multimodal, LLaVA, permitindo-lhe lidar eficientemente com uma ampla gama de tarefas. O MVLLaVA representa uma plataforma versátil e unificada que se adapta a diversos tipos de entradas, incluindo uma única imagem, uma legenda descritiva ou uma mudança específica na azimute de visualização, guiada por instruções de linguagem para geração de pontos de vista. Nós elaboramos cuidadosamente modelos de instruções específicas para cada tarefa, que são posteriormente utilizados para ajustar finamente o LLaVA. Como resultado, o MVLLaVA adquire a capacidade de gerar imagens de novos pontos de vista com base em instruções do usuário, demonstrando sua flexibilidade em diversas tarefas. Experimentos são conduzidos para validar a eficácia do MVLLaVA, demonstrando seu desempenho robusto e versatilidade ao enfrentar diversos desafios de síntese de novas visualizações.
Os últimos anos testemunharam um aumento no desenvolvimento de modelos de base de proteínas, melhorando significativamente o desempenho na previsão de proteínas e tarefas generativas que vão desde a previsão de estruturas 3D e design de proteínas até dinâmicas conformacionais. No entanto, as capacidades e limitações associadas a esses modelos ainda são pouco compreendidas devido à ausência de um framework unificado de avaliação. Para preencher essa lacuna, apresentamos o ProteinBench, um framework de avaliação holístico projetado para melhorar a transparência dos modelos de base de proteínas. Nossa abordagem consiste em três componentes-chave: (i) Uma classificação taxonômica de tarefas que abrangem amplamente os principais desafios no domínio das proteínas, com base nas relações entre diferentes modalidades de proteínas; (ii) Uma abordagem de avaliação multi-métrica que avalia o desempenho em quatro dimensões-chave: qualidade, novidade, diversidade e robustez; e (iii) Análises aprofundadas de vários objetivos do usuário, fornecendo uma visão holística do desempenho do modelo. Nossa avaliação abrangente de modelos de base de proteínas revela várias descobertas-chave que lançam luz sobre suas capacidades e limitações atuais. Para promover a transparência e facilitar pesquisas adicionais, disponibilizamos publicamente o conjunto de dados de avaliação, código e uma classificação pública para análises adicionais e um toolkit modular geral. Pretendemos que o ProteinBench seja um benchmark em evolução para estabelecer um framework de avaliação padronizado e aprofundado para modelos de base de proteínas, impulsionando seu desenvolvimento e aplicação, enquanto fomenta a colaboração dentro do campo.
Modelos generativos treinados em escala agora podem produzir texto, vídeo e, mais recentemente, dados científicos, como estruturas cristalinas. Nas aplicações de abordagens generativas para a ciência dos materiais, e em particular para estruturas cristalinas, a orientação do especialista do domínio na forma de instruções de alto nível pode ser essencial para um sistema automatizado gerar cristais candidatos viáveis para pesquisas posteriores. Neste trabalho, formulamos a geração de linguagem para estrutura como um problema de otimização multiobjetivo e propomos a Busca Hierárquica Generativa de Materiais (GenMS) para geração controlável de estruturas cristalinas. GenMS consiste em (1) um modelo de linguagem que recebe linguagem natural de alto nível como entrada e gera informações textuais intermediárias sobre um cristal (por exemplo, fórmulas químicas), e (2) um modelo de difusão que recebe informações intermediárias como entrada e gera estruturas cristalinas contínuas de baixo nível. GenMS também utiliza uma rede neural gráfica para prever propriedades (por exemplo, energia de formação) a partir das estruturas cristalinas geradas. Durante a inferência, GenMS aproveita os três componentes para realizar uma busca em árvore avançada sobre o espaço de possíveis estruturas. Experimentos mostram que GenMS supera outras alternativas de usar diretamente modelos de linguagem para gerar estruturas tanto em atender às solicitações do usuário quanto em gerar estruturas de baixa energia. Confirmamos que GenMS é capaz de gerar estruturas cristalinas comuns, como perovskitas duplas ou espinélios, exclusivamente a partir de entradas de linguagem natural, e, portanto, pode servir de base para geração de estruturas mais complexas em um futuro próximo.