Artigos de pesquisa em IA selecionados diariamente com traduções
Descobrimos que, simplesmente por meio de um método de amostragem e votação, o desempenho de modelos de linguagem de grande escala (LLMs) escala com o número de agentes instanciados. Além disso, esse método é ortogonal a métodos complicados existentes para aprimorar ainda mais os LLMs, enquanto o grau de aprimoramento está correlacionado com a dificuldade da tarefa. Realizamos experimentos abrangentes em uma ampla gama de benchmarks de LLMs para verificar a presença de nossa descoberta e para estudar as propriedades que podem facilitar sua ocorrência. Nosso código está publicamente disponível em: https://anonymous.4open.science/r/more_agent_is_all_you_need.
Propomos o problema de navegação web conversacional, onde um agente digital controla um navegador web e segue instruções do usuário para resolver tarefas do mundo real em um diálogo de múltiplos turnos. Para apoiar esse problema, introduzimos o WEBLINX - um benchmark em larga escala com 100 mil interações em 2300 demonstrações especializadas de navegação web conversacional. Nosso benchmark abrange uma ampla gama de padrões em mais de 150 sites reais e pode ser usado para treinar e avaliar agentes em diversos cenários. Devido ao volume de informações presentes, os Modelos de Linguagem de Grande Escala (LLMs) não conseguem processar páginas web inteiras em tempo real. Para resolver esse gargalo, projetamos um modelo inspirado em recuperação de informações que poda eficientemente páginas HTML ao classificar elementos relevantes. Utilizamos os elementos selecionados, juntamente com capturas de tela e histórico de ações, para avaliar uma variedade de modelos quanto à sua capacidade de replicar o comportamento humano ao navegar na web. Nossos experimentos abrangem desde pequenos modelos apenas de texto até LLMs multimodais proprietários. Descobrimos que decodificadores menores e ajustados superam os melhores LLMs de zero-shot (incluindo GPT-4V), mas também modelos multimodais maiores que foram explicitamente pré-treinados em capturas de tela. No entanto, todos os modelos ajustados têm dificuldade em generalizar para sites não vistos. Nossas descobertas destacam a necessidade de grandes modelos multimodais que possam generalizar para novos cenários. Nosso código, dados e modelos estão disponíveis para pesquisa: https://mcgill-nlp.github.io/weblinx
O desenvolvimento de sistemas de inteligência artificial está em transição, passando da criação de modelos estáticos e específicos para tarefas para sistemas dinâmicos baseados em agentes, capazes de desempenhar bem em uma ampla gama de aplicações. Propomos um Modelo de Fundação de Agente Interativo que utiliza um novo paradigma de treinamento de agentes multitarefa para treinar agentes de IA em diversos domínios, conjuntos de dados e tarefas. Nosso paradigma de treinamento unifica diversas estratégias de pré-treinamento, incluindo autoencodificadores mascarados visuais, modelagem de linguagem e previsão da próxima ação, permitindo um framework de IA versátil e adaptável. Demonstramos o desempenho do nosso framework em três domínios distintos — Robótica, IA para Jogos e Saúde. Nosso modelo demonstra sua capacidade de gerar saídas significativas e contextualmente relevantes em cada área. A força da nossa abordagem reside em sua generalidade, aproveitando uma variedade de fontes de dados, como sequências robóticas, dados de jogos, grandes conjuntos de dados de vídeo e informações textuais, para um aprendizado multimodal e multitarefa eficaz. Nossa abordagem oferece um caminho promissor para o desenvolvimento de sistemas generalistas, que tomam ações e são multimodais.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram proficiência notável na compreensão e geração de linguagem natural. No entanto, suas capacidades diminuem em domínios altamente especializados sub-representados no corpus de pré-treinamento, como as ciências físicas e biomédicas. Este trabalho explora como adaptar LLMs gerais para se tornarem solucionadores eficazes de tarefas em domínios especializados. Introduzimos uma estrutura inovadora e independente de modelo para aprender tags de entrada personalizadas, que são parametrizadas como vetores contínuos anexados à camada de embedding do LLM, para condicionar o modelo. Projetamos dois tipos de tags de entrada: tags de domínio são usadas para delimitar representações especializadas (por exemplo, fórmulas químicas) e fornecer contexto relevante ao domínio; tags de função são usadas para representar funções específicas (por exemplo, prever propriedades moleculares) e comprimir instruções para a resolução de funções. Desenvolvemos um protocolo de três etapas para aprender essas tags utilizando dados auxiliares e conhecimento do domínio. Ao desacoplar explicitamente os domínios das tarefas das funções das tarefas, nosso método permite a generalização zero-shot para problemas não vistos por meio de combinações diversas das tags de entrada. Ele também melhora o desempenho do LLM em vários domínios especializados, como a previsão de propriedades de proteínas ou químicas e a modelagem de interações fármaco-alvo, superando modelos especializados projetados para essas tarefas.
Este relatório técnico apresenta a metodologia de treinamento e os resultados de avaliação dos modelos de incorporação de texto multilingue E5 de código aberto, lançados em meados de 2023. Três modelos de incorporação de diferentes tamanhos (pequeno / base / grande) são disponibilizados, oferecendo um equilíbrio entre eficiência de inferência e qualidade de incorporação. O procedimento de treinamento segue a receita do modelo E5 em inglês, envolvendo pré-treinamento contrastivo em 1 bilhão de pares de texto multilingue, seguido de ajuste fino em uma combinação de conjuntos de dados rotulados. Além disso, introduzimos um novo modelo de incorporação ajustado por instruções, cujo desempenho é comparável aos modelos state-of-the-art, exclusivamente em inglês, de tamanhos semelhantes. Informações sobre o lançamento do modelo podem ser encontradas em https://github.com/microsoft/unilm/tree/master/e5.
Apesar dos avanços recentes em modelos generativos de texto para imagem personalizados (P-T2I), a geração de imagens orientada por sujeitos (subject-driven T2I) continua sendo um desafio. Os principais gargalos incluem: 1) Requisitos intensivos de recursos de treinamento, 2) Sensibilidade a hiperparâmetros que leva a saídas inconsistentes, e 3) O equilíbrio entre as complexidades de novos conceitos visuais e o alinhamento de composição. Começamos reafirmando a filosofia central dos modelos de difusão para texto-imagem (T2I) para abordar essas limitações. Predominantemente, as abordagens contemporâneas de T2I orientadas por sujeitos dependem de Modelos de Difusão Latente (LDMs), que facilitam o mapeamento de T2I por meio de camadas de atenção cruzada. Embora os LDMs ofereçam vantagens distintas, a dependência dos métodos P-T2I no espaço latente desses modelos de difusão aumenta significativamente a demanda por recursos, resultando em saídas inconsistentes e exigindo inúmeras iterações para uma única imagem desejada. Recentemente, o ECLIPSE demonstrou um caminho mais eficiente em termos de recursos para treinar modelos T2I baseados em UnCLIP, eliminando a necessidade de priors de difusão para texto-imagem. Com base nisso, introduzimos o lambda-ECLIPSE. Nosso método ilustra que um P-T2I eficaz não depende necessariamente do espaço latente dos modelos de difusão. O lambda-ECLIPSE alcança personalização de T2I para um único sujeito, múltiplos sujeitos e guiado por bordas com apenas 34 milhões de parâmetros e é treinado em meras 74 horas de GPU usando 1,6 milhão de dados intercalados de imagem-texto. Por meio de extensos experimentos, também estabelecemos que o lambda-ECLIPSE supera as baselines existentes em alinhamento de composição, mantendo o desempenho de alinhamento de conceito, mesmo com uma utilização de recursos significativamente menor.
O aprendizado em contexto (ICL, também conhecido como _few-shot prompting_) tem sido o método padrão para adaptar LLMs a tarefas subsequentes, aprendendo a partir de alguns exemplos de entrada-saída. No entanto, todas as abordagens baseadas em ICL aprendem apenas a partir de pares corretos de entrada-saída. Neste artigo, revisitamos esse paradigma, aprendendo mais a partir dos poucos exemplos de entrada-saída fornecidos. Introduzimos os Princípios de Aprendizado (LEAP): Primeiro, induzimos intencionalmente o modelo a cometer erros nesses poucos exemplos; em seguida, refletimos sobre esses erros e aprendemos "princípios" explícitos específicos da tarefa a partir deles, que ajudam a resolver problemas semelhantes e a evitar erros comuns; finalmente, solicitamos que o modelo responda a perguntas de teste não vistas usando os exemplos originais de _few-shot_ e esses princípios gerais aprendidos. Avaliamos o LEAP em uma ampla gama de benchmarks, incluindo questionamento de múltiplos saltos (Hotpot QA), questionamento textual (DROP), raciocínio do Big-Bench Hard e problemas matemáticos (GSM8K e MATH); em todos esses benchmarks, o LEAP melhora os LLMs mais robustos disponíveis, como GPT-3.5-turbo, GPT-4, GPT-4 turbo e Claude-2.1. Por exemplo, o LEAP supera o _few-shot prompting_ padrão usando GPT-4 em 7,5% no DROP e em 3,3% no HotpotQA. Importante destacar que o LEAP não requer mais entradas ou exemplos do que as configurações padrão de _few-shot prompting_.
Propomos o SPHINX-X, uma extensa série de Modelos de Linguagem de Grande Escala Multimodal (MLLM) desenvolvida com base no SPHINX. Para melhorar a eficiência da arquitetura e do treinamento, modificamos a estrutura do SPHINX removendo codificadores visuais redundantes, contornando subimagens totalmente preenchidas com tokens de salto e simplificando o treinamento em múltiplas etapas para um paradigma único e abrangente. Para liberar plenamente o potencial dos MLLMs, montamos um conjunto de dados multimodal e multidisciplinar abrangente, cobrindo recursos publicamente disponíveis em tarefas de linguagem, visão e visão-linguagem. Além disso, enriquecemos essa coleção com nossos conjuntos de dados OCR intensivos e Set-of-Mark, ampliando a diversidade e a generalidade. Ao treinar sobre diferentes modelos de linguagem base, incluindo TinyLlama1.1B, InternLM2-7B, LLaMA2-13B e Mixtral8x7B, obtemos um espectro de MLLMs que variam em tamanho de parâmetros e capacidades multilingues. Avaliações abrangentes revelam uma forte correlação entre o desempenho multimodal e as escalas de dados e parâmetros. O código e os modelos estão disponíveis em https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Apresentamos o SPIRIT-LM, um modelo de linguagem multimodal de base que combina livremente texto e fala. Nosso modelo é baseado em um modelo de linguagem de texto pré-treinado que estendemos para a modalidade de fala, treinando-o continuamente com unidades de texto e fala. Sequências de fala e texto são concatenadas como um único conjunto de tokens e treinadas com um método de intercalação em nível de palavra, utilizando um pequeno corpus paralelo de fala-texto automaticamente curado. O SPIRIT-LM vem em duas versões: uma versão BASE que utiliza unidades semânticas de fala e uma versão EXPRESSIVA que modela a expressividade usando unidades de tom e estilo, além das unidades semânticas. Para ambas as versões, o texto é codificado com tokens BPE de subpalavras. O modelo resultante exibe tanto as habilidades semânticas dos modelos de texto quanto as habilidades expressivas dos modelos de fala. Além disso, demonstramos que o SPIRIT-LM é capaz de aprender novas tarefas de forma few-shot entre modalidades (ou seja, ASR, TTS, Classificação de Fala).
Neste artigo, introduzimos um novo paradigma para aprimorar a capacidade de detectores de objetos, como expandir categorias ou melhorar o desempenho de detecção, por meio do treinamento em um conjunto de dados sintéticos gerados por modelos de difusão. Especificamente, integramos um cabeçalho de ancoragem em nível de instância em um modelo de difusão generativo pré-treinado, para ampliar sua capacidade de localizar instâncias arbitrárias nas imagens geradas. O cabeçalho de ancoragem é treinado para alinhar a incorporação de texto dos nomes das categorias com a característica visual regional do modelo de difusão, utilizando supervisão de um detector de objetos pronto para uso e um novo esquema de auto-treinamento em categorias (novas) não cobertas pelo detector. Esta versão aprimorada do modelo de difusão, denominada InstaGen, pode servir como um sintetizador de dados para detecção de objetos. Realizamos experimentos detalhados para mostrar que o detector de objetos pode ser aprimorado ao treinar no conjunto de dados sintéticos do InstaGen, demonstrando desempenho superior em relação aos métodos state-of-the-art existentes em cenários de vocabulário aberto (+4,5 AP) e de dados escassos (+1,2 a 5,2 AP).
A maioria dos codificadores de vídeo baseados em transformers são limitados a contextos temporais curtos devido à sua complexidade quadrática. Embora várias tentativas tenham sido feitas para estender esse contexto, isso frequentemente ocorreu às custas de complexidade tanto conceitual quanto computacional. Propomos, em vez disso, reutilizar transformers de vídeo pré-treinados existentes, simplesmente ajustando-os para ativar memórias derivadas de forma não paramétrica a partir de ativações passadas. Ao aproveitar a redução de redundância, nosso vision transformer consolidado por memória (MC-ViT) estende seu contexto facilmente para o passado e exibe um excelente comportamento de escalonamento ao aprender com vídeos mais longos. Ao fazer isso, o MC-ViT estabelece um novo estado da arte em compreensão de vídeo de longo contexto no EgoSchema, Perception Test e Diving48, superando métodos que se beneficiam de ordens de magnitude mais parâmetros.
Os modelos Visão-Linguagem (VL) têm recebido um foco significativo de pesquisa, possibilitando avanços notáveis no raciocínio multimodal. Essas arquiteturas geralmente compreendem um codificador visual, um Modelo de Linguagem de Grande Escala (LLM) e um módulo de projeção que alinha as características visuais com o espaço de representação do LLM. Apesar de seu sucesso, uma limitação crítica persiste: o processo de codificação visual permanece desacoplado das consultas dos usuários, frequentemente na forma de perguntas relacionadas à imagem. Consequentemente, as características visuais resultantes podem não estar otimamente sintonizadas com os elementos específicos da imagem relacionados à consulta. Para abordar isso, introduzimos o QA-ViT, uma abordagem de Transformer Visual Consciente da Pergunta para raciocínio multimodal, que incorpora a consciência da pergunta diretamente no codificador visual. Essa integração resulta em características visuais dinâmicas que se concentram nos aspectos relevantes da imagem para a pergunta formulada. O QA-ViT é independente de modelo e pode ser incorporado de forma eficiente em qualquer arquitetura VL. Experimentos extensivos demonstram a eficácia da aplicação de nosso método em várias arquiteturas multimodais, levando a melhorias consistentes em diversas tarefas e mostrando seu potencial para aprimorar a compreensão visual e de texto em cenas.
Apresentamos um novo algoritmo para otimizar distribuições definidas implicitamente por difusões estocásticas parametrizadas. Isso nos permite modificar a distribuição de resultados de processos de amostragem ao otimizar seus parâmetros. Introduzimos um framework geral para otimização de primeira ordem desses processos, que realiza conjuntamente, em um único ciclo, etapas de otimização e amostragem. Essa abordagem é inspirada por avanços recentes em otimização bilevel e diferenciação implícita automática, aproveitando a perspectiva da amostragem como otimização no espaço de distribuições de probabilidade. Fornecemos garantias teóricas sobre o desempenho do nosso método, bem como resultados experimentais que demonstram sua eficácia em cenários do mundo real.
Demonstramos que o aprendizado por reforço offline do tipo actor-critic pode ser escalonado para modelos grandes - como transformers - e segue leis de escalonamento semelhantes às do aprendizado supervisionado. Descobrimos que algoritmos offline actor-critic podem superar baselines robustos de clonagem comportamental supervisionada para treinamento multitarefa em um grande conjunto de dados que contém comportamentos tanto subótimos quanto especialistas em 132 tarefas de controle contínuo. Introduzimos um modelo actor-critic baseado em Perceiver e elucidamos as principais características do modelo necessárias para fazer o RL offline funcionar com módulos de auto-atenção e atenção cruzada. No geral, concluímos que: i) algoritmos simples de actor-critic offline são uma escolha natural para gradualmente se afastar do paradigma atualmente predominante de clonagem comportamental, e ii) por meio do RL offline, é possível aprender políticas multitarefa que dominam muitos domínios simultaneamente, incluindo tarefas de robótica real, a partir de demonstrações subótimas ou dados autogerados.
Adaptar o comportamento de direção a novos ambientes, costumes e leis é um problema de longa data na condução autônoma, impedindo a implantação generalizada de veículos autônomos (AVs). Neste artigo, apresentamos o LLaDA, uma ferramenta simples, porém poderosa, que permite tanto a motoristas humanos quanto a veículos autônomos dirigir em qualquer lugar, adaptando suas tarefas e planos de movimento às regras de trânsito de novas localidades. O LLaDA alcança isso aproveitando a impressionante capacidade de generalização zero-shot de modelos de linguagem de grande escala (LLMs) na interpretação das regras de trânsito presentes nos manuais locais de direção. Por meio de um extenso estudo com usuários, mostramos que as instruções do LLaDA são úteis para desambiguar situações inesperadas no mundo real. Também demonstramos a capacidade do LLaDA de adaptar políticas de planejamento de movimento de AVs em conjuntos de dados do mundo real; o LLaDA supera abordagens de planejamento de linha de base em todas as nossas métricas. Para mais detalhes, consulte nosso site: https://boyiliee.github.io/llada.