Artigos de pesquisa em IA selecionados diariamente com traduções
A escolha onipresente e comprovadamente subótima de redimensionar imagens para uma resolução fixa antes de processá-las com modelos de visão computacional ainda não foi desafiada com sucesso. No entanto, modelos como o Vision Transformer (ViT) oferecem modelagem baseada em sequências flexíveis e, portanto, comprimentos variáveis de sequência de entrada. Aproveitamos isso com o NaViT (Native Resolution ViT), que utiliza empacotamento de sequências durante o treinamento para processar entradas de resoluções e proporções de aspecto arbitrárias. Além do uso flexível do modelo, demonstramos uma melhoria na eficiência do treinamento para pré-treinamento supervisionado em larga escala e de contraste entre imagem e texto. O NaViT pode ser transferido de forma eficiente para tarefas padrão, como classificação de imagens e vídeos, detecção de objetos e segmentação semântica, e leva a resultados aprimorados em benchmarks de robustez e justiça. No momento da inferência, a flexibilidade da resolução de entrada pode ser usada para navegar suavemente no trade-off entre custo e desempenho em tempo de teste. Acreditamos que o NaViT marca uma mudança em relação ao pipeline padrão de entrada e modelagem projetado para CNNs, usado pela maioria dos modelos de visão computacional, e representa uma direção promissora para os ViTs.
Propomos o Autoencoder In-context (ICAE) para compressão de contexto em um modelo de linguagem de grande escala (LLM). O ICAE possui dois módulos: um codificador adaptável ajustado com LoRA a partir de um LLM para comprimir um contexto longo em um número limitado de slots de memória, e um decodificador fixo que é o LLM alvo, o qual pode se condicionar aos slots de memória para diversos propósitos. Primeiro, pré-treinamos o ICAE utilizando objetivos de autoencodificação e modelagem de linguagem em um grande volume de dados textuais, permitindo que ele gere slots de memória que representem de forma precisa e abrangente o contexto original. Em seguida, ajustamos finamente o ICAE pré-treinado em uma pequena quantidade de dados de instrução para aprimorar sua interação com diversos prompts, visando produzir respostas desejáveis. Nossos resultados experimentais demonstram que o ICAE, aprendido com nosso paradigma proposto de pré-treinamento e ajuste fino, pode efetivamente produzir slots de memória com uma compressão de contexto de 4 vezes, os quais podem ser bem condicionados pelo LLM alvo para responder a diversos prompts. Os resultados promissores demonstram implicações significativas do ICAE por sua abordagem inovadora ao problema de contexto longo e seu potencial para reduzir custos computacionais e de memória na inferência de LLMs na prática, sugerindo esforços adicionais de pesquisa em gerenciamento de contexto para LLMs. Nosso código e dados serão liberados em breve.
Os grandes modelos de linguagem (LLMs, na sigla em inglês) demonstram uma capacidade notável de compreender, raciocinar e gerar textos seguindo instruções em linguagem natural. No entanto, o desenvolvimento dos LLMs tem se concentrado principalmente em idiomas de alta disponibilidade de recursos, como o inglês, limitando assim sua aplicabilidade e pesquisa em outros idiomas. Consequentemente, apresentamos o PolyLM, um LLM multilíngue treinado com 640 bilhões (B) de tokens, disponível em dois tamanhos de modelo: 1,7B e 13B. Para aprimorar suas capacidades multilíngues, 1) integramos dados bilíngues ao conjunto de treinamento; e 2) adotamos uma estratégia de aprendizado curricular que aumenta a proporção de dados não ingleses de 30% na primeira etapa para 60% na etapa final durante o pré-treinamento. Além disso, propomos um método de autoinstrução multilíngue que gera automaticamente 132,7 mil instruções multilíngues diversas para o ajuste fino do modelo. Para avaliar o desempenho do modelo, coletamos várias tarefas multilíngues existentes, incluindo compreensão multilíngue, resposta a perguntas, geração de texto e tradução. Experimentos extensivos mostram que o PolyLM supera outros modelos de código aberto, como LLaMA e BLOOM, em tarefas multilíngues, mantendo um desempenho comparável em inglês. Nossos modelos, juntamente com os dados de instrução e o benchmark multilíngue, estão disponíveis em: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
Apesar da dominância e eficácia do escalonamento, resultando em redes grandes com centenas de bilhões de parâmetros, a necessidade de treinar modelos superparametrizados ainda é pouco compreendida, e abordagens alternativas não necessariamente tornam mais barato treinar modelos de alto desempenho. Neste artigo, exploramos técnicas de treinamento de baixa classificação como uma abordagem alternativa para treinar grandes redes neurais. Introduzimos um novo método chamado ReLoRA, que utiliza atualizações de baixa classificação para treinar redes de alta classificação. Aplicamos o ReLoRA ao pré-treinamento de modelos de linguagem transformadores com até 350 milhões de parâmetros e demonstramos desempenho comparável ao treinamento regular de redes neurais. Além disso, observamos que a eficiência do ReLoRA aumenta com o tamanho do modelo, tornando-o uma abordagem promissora para treinar redes com bilhões de parâmetros de forma eficiente. Nossas descobertas lançam luz sobre o potencial das técnicas de treinamento de baixa classificação e suas implicações para as leis de escalonamento.
Este artigo apresenta o InternVid, um conjunto de dados multimodal em grande escala centrado em vídeos, que possibilita a aprendizagem de representações poderosas e transferíveis de vídeo-texto para compreensão e geração multimodal. O conjunto de dados InternVid contém mais de 7 milhões de vídeos, totalizando cerca de 760 mil horas, resultando em 234 milhões de clipes de vídeo acompanhados por descrições detalhadas que somam 4,1 bilhões de palavras. Nossa principal contribuição é o desenvolvimento de uma abordagem escalável para construir de forma autônoma um conjunto de dados vídeo-texto de alta qualidade com modelos de linguagem de grande escala (LLM), demonstrando assim sua eficácia na aprendizagem de representações vídeo-linguagem em larga escala. Especificamente, utilizamos uma abordagem multiescala para gerar descrições relacionadas a vídeos. Além disso, introduzimos o ViCLIP, um modelo de aprendizagem de representação vídeo-texto baseado no ViT-L. Aprendido no InternVid por meio de aprendizagem contrastiva, este modelo demonstra reconhecimento de ação zero-shot líder e desempenho competitivo em recuperação de vídeos. Além das tarefas básicas de compreensão de vídeo, como reconhecimento e recuperação, nosso conjunto de dados e modelo têm amplas aplicações. Eles são particularmente benéficos para a geração de dados intercalados vídeo-texto para a aprendizagem de um sistema de diálogo centrado em vídeo, avançando a pesquisa em geração vídeo-para-texto e texto-para-vídeo. Esses recursos propostos fornecem uma ferramenta para pesquisadores e profissionais interessados em compreensão e geração multimodal de vídeo.
Modelos de linguagem de grande escala (LLMs) têm demonstrado resultados impressionantes no desenvolvimento de agentes planejadores generalistas para tarefas diversas. No entanto, ancorar esses planos em ambientes expansivos, com múltiplos andares e múltiplos cômodos, representa um desafio significativo para a robótica. Apresentamos o SayPlan, uma abordagem escalável para planejamento de tarefas em grande escala baseado em LLMs para robótica, utilizando representações de grafos de cena 3D (3DSG). Para garantir a escalabilidade da nossa abordagem, nós: (1) exploramos a natureza hierárquica dos 3DSGs para permitir que os LLMs realizem uma busca semântica por subgrafos relevantes para a tarefa a partir de uma representação reduzida e condensada do grafo completo; (2) reduzimos o horizonte de planejamento para o LLM ao integrar um planejador de caminhos clássico; e (3) introduzimos um pipeline de replanejamento iterativo que refina o plano inicial utilizando feedback de um simulador de grafo de cena, corrigindo ações inviáveis e evitando falhas de planejamento. Avaliamos nossa abordagem em dois ambientes de grande escala, abrangendo até 3 andares, 36 cômodos e 140 objetos, e demonstramos que nossa abordagem é capaz de ancorar planos de tarefas de grande escala e longo horizonte a partir de instruções abstratas e em linguagem natural para a execução por um robô manipulador móvel.
Modelos de linguagem de grande escala geralmente passam por dois estágios de treinamento: pré-treinamento e ajuste fino. Apesar de o pré-treinamento em larga escala dotar o modelo de fortes capacidades para gerar respostas em linguagem natural, esses modelos pré-treinados ainda podem falhar em compreender instruções humanas em determinados momentos. Para aprimorar a capacidade dos modelos de linguagem de interpretar e responder a instruções, o ajuste fino com instruções emergiu como um método crítico nessa área. Estudos recentes descobriram que modelos de linguagem de grande escala podem ser ajustados para desempenhar bem mesmo com uma pequena quantidade de dados de alta qualidade de seguimento de instruções. No entanto, a seleção de conjuntos de dados de alta qualidade para ajustar modelos de linguagem ainda carece de diretrizes claras a seguir. Neste artigo, propomos o InstructMining, uma regra linear para avaliar a qualidade dos dados de seguimento de instruções. Formulamos o InstructMining usando indicadores específicos de linguagem natural. Para investigar a relação entre a qualidade dos dados e esses indicadores, realizamos extensos experimentos de ajuste fino. Os resultados dos experimentos são então aplicados para estimar parâmetros no InstructMining. Para investigar ainda mais seu desempenho, usamos o InstructMining para selecionar dados de alta qualidade de conjuntos de dados não vistos. Os resultados demonstram que o InstructMining pode ajudar a selecionar amostras relativamente de alta qualidade de vários conjuntos de dados de seguimento de instruções. Comparados aos modelos ajustados em conjuntos de dados não filtrados, os modelos ajustados em conjuntos de dados selecionados pelo InstructMining apresentam melhor desempenho em 42,5% dos casos.
Modelos de linguagem de grande escala (LLMs), como o GPT-4, demonstraram capacidades notáveis em uma ampla gama de tarefas, incluindo aplicações na área da saúde. Neste artigo, estudamos como os LLMs podem ser usados para escalar a curadoria de conhecimento biomédico. Descobrimos que, embora os LLMs já possuam uma competência decente na estruturação de textos biomédicos, ao destilar esse conhecimento em um modelo estudante específico para a tarefa por meio de aprendizado auto-supervisionado, ganhos substanciais podem ser obtidos em relação aos LLMs prontos para uso, com vantagens adicionais como custo, eficiência e acesso a modelos de caixa branca. Realizamos um estudo de caso sobre a extração de eventos adversos a medicamentos (ADE), que é uma área importante para a melhoria do cuidado. Na avaliação padrão de extração de ADE, um modelo PubMedBERT destilado do GPT-3.5 atingiu uma precisão comparável aos modelos supervisionados de última geração sem usar nenhum dado rotulado. Apesar de ser mais de 1.000 vezes menor, o modelo destilado superou seu professor GPT-3.5 em mais de 6 pontos absolutos em F1 e o GPT-4 em mais de 5 pontos absolutos. Estudos de ablação sobre a escolha do modelo de destilação (por exemplo, PubMedBERT vs BioGPT) e a arquitetura de extração de ADE lançam luz sobre as melhores práticas para a extração de conhecimento biomédico. Ganhos semelhantes foram obtidos por destilação para outras tarefas padrão de extração de conhecimento biomédico, como associações gene-doença e informações de saúde protegidas, ilustrando ainda mais o potencial dessa abordagem.
O sucesso da série GPT comprova que o GPT pode extrair informações gerais de sequências, beneficiando assim todas as tarefas subsequentes. Isso nos motiva a utilizar modelos pré-treinados para explorar as informações ocultas em sequências de DNA. No entanto, os requisitos de dados e tarefas na análise de sequências de DNA são complexos e diversos, já que os dados relevantes de DNA incluem diferentes tipos de informações, como sequências, níveis de expressão, entre outros, enquanto atualmente não existe um modelo especificamente projetado para essas características. Apresentamos aqui o DNAGPT, um modelo de base generalizado pré-treinado em mais de 10 bilhões de pares de bases de 9 espécies, que pode ser ajustado para qualquer tarefa de análise de sequências de DNA. Nosso modelo pode processar ou gerar simultaneamente sequências de DNA e números. Além disso, nosso design único de tokens permite que os usuários criem prompts de acordo com suas próprias necessidades de tarefa, tornando-o aplicável a qualquer tipo de tarefa. Avaliamos nosso modelo em tarefas de classificação, regressão e geração. Demonstramos que o DNAGPT se beneficia do pré-treinamento e, portanto, pode trazer ganhos de desempenho para qualquer tarefa subsequente. Nosso modelo não apenas representa uma nova tentativa no campo da análise de genomas, mas também fornece uma nova direção para a aplicação de modelos de base em biologia.
Antes de implantar um modelo de linguagem (LM) em um determinado domínio, é importante medir sua tendência de gerar informações factualmente incorretas nesse domínio. Os métodos existentes de avaliação de geração factual concentram-se em fatos amostrados do próprio LM e, portanto, não controlam o conjunto de fatos avaliados, podendo sub-representar fatos raros e improváveis. Propomos o FACTOR: Avaliação Factual via Transformação de Corpus, uma abordagem escalável para avaliar a factualidade de LMs. O FACTOR transforma automaticamente um corpus factual de interesse em um benchmark que avalia a propensão de um LM em gerar fatos verdadeiros do corpus versus declarações semelhantes, mas incorretas. Utilizamos nosso framework para criar dois benchmarks: Wiki-FACTOR e News-FACTOR. Mostramos que: (i) as pontuações do nosso benchmark aumentam com o tamanho do modelo e melhoram quando o LM é aumentado com recuperação de informações; (ii) a pontuação do benchmark correlaciona-se com a perplexidade, mas as duas métricas nem sempre concordam na classificação dos modelos; e (iii) quando a perplexidade e a pontuação do benchmark discordam, a última reflete melhor a factualidade na geração aberta, conforme medido por anotadores humanos. Disponibilizamos nossos dados e código publicamente em https://github.com/AI21Labs/factor.
Apesar da impressionante capacidade de gerar imagens de alta qualidade demonstrada por modelos recentes de texto para imagem, as abordagens atuais frequentemente enfrentam dificuldades para compor efetivamente objetos com diferentes atributos e relações em uma cena complexa e coerente. Propomos o T2I-CompBench, um benchmark abrangente para geração composicional de texto para imagem em cenários de mundo aberto, composto por 6.000 prompts textuais composicionais de 3 categorias (vinculação de atributos, relações entre objetos e composições complexas) e 6 subcategorias (vinculação de cor, vinculação de forma, vinculação de textura, relações espaciais, relações não espaciais e composições complexas). Além disso, propomos várias métricas de avaliação especificamente projetadas para avaliar a geração composicional de texto para imagem. Introduzimos uma nova abordagem, chamada Ajuste Fino de Modelo Generativo com Seleção de Amostras Orientada por Recompensa (GORS), para aprimorar as habilidades de geração composicional de texto para imagem em modelos pré-treinados. Experimentos e avaliações extensivos foram conduzidos para comparar métodos anteriores no T2I-CompBench e validar a eficácia das nossas métricas de avaliação propostas e da abordagem GORS. A página do projeto está disponível em https://karine-h.github.io/T2I-CompBench/.
A compreensão textual e semântica de imagens é essencial para a geração de legendas adequadas. Essa compreensão requer a detecção de objetos, a modelagem das relações entre eles, uma avaliação da semântica da cena e, finalmente, a representação do conhecimento extraído em um espaço linguístico. Para alcançar capacidades linguísticas ricas enquanto garante bons mapeamentos entre imagem e linguagem, modelos de linguagem (LMs) pré-treinados foram condicionados em modelos multimodais (imagem-texto) pré-treinados que permitem entradas de imagem. Isso requer um alinhamento da representação da imagem do modelo multimodal com as representações linguísticas de um LM generativo. No entanto, não está claro como transferir da melhor forma a semântica detectada pelo codificador de visão do modelo multimodal para o LM. Introduzimos duas novas maneiras de construir um mapeamento linear que transfere com sucesso a semântica entre os espaços de incorporação dos dois modelos pré-treinados. O primeiro alinha o espaço de incorporação do codificador de linguagem multimodal com o espaço de incorporação do LM pré-treinado por meio de correspondências de tokens. O último aproveita dados adicionais que consistem em pares imagem-texto para construir o mapeamento diretamente do espaço de visão para o espaço de linguagem. Usando nossos mapeamentos semânticos, desbloqueamos a geração de legendas para LMs sem acesso a informações de gradiente. Ao utilizar diferentes fontes de dados, alcançamos um forte desempenho na geração de legendas nos conjuntos de dados MS-COCO e Flickr30k. Mesmo diante de dados limitados, nosso método supera parcialmente o desempenho de outros concorrentes zero-shot e até mesmo ajustados. Nossos estudos de ablação mostram que mesmo LMs com apenas 250M de parâmetros podem gerar legendas decentes empregando nossos mapeamentos semânticos. Nossa abordagem torna a geração de legendas mais acessível para instituições com recursos computacionais restritos.
À medida que o espaço de aplicação dos modelos de linguagem continua a evoluir, uma questão natural a se fazer é como podemos adaptar rapidamente os modelos a novas tarefas. Abordamos essa questão clássica a partir de uma perspectiva de aprendizado contínuo, na qual buscamos continuar o ajuste fino de modelos treinados em tarefas passadas para novas tarefas, com o objetivo de "transferir" conhecimento relevante. No entanto, essa estratégia também corre o risco de causar mais mal do que bem, ou seja, transferência negativa. Neste artigo, construímos um novo benchmark de sequências de tarefas que visam diferentes cenários de transferência que podem surgir, como uma sequência de tarefas com alto potencial de transferência positiva, alto potencial de transferência negativa, nenhum efeito esperado ou uma mistura de cada um. Um aprendiz ideal deve ser capaz de explorar ao máximo as informações de todas as tarefas que tenham qualquer potencial de transferência positiva, ao mesmo tempo em que evita os efeitos negativos de tarefas que possam distraí-lo ou confundi-lo. Em seguida, propomos um aprendiz simples, porém eficaz, que satisfaz muitos dos nossos desejos simplesmente utilizando uma estratégia seletiva para inicializar novos modelos a partir de checkpoints de tarefas anteriores. Ainda assim, limitações permanecem, e esperamos que este benchmark possa ajudar a comunidade a desenvolver e analisar ainda mais esses aprendizes.
Grandes modelos de linguagem (LLMs) demonstram possuir um vasto conhecimento acionável que pode ser extraído para manipulação robótica na forma de raciocínio e planejamento. Apesar dos avanços, a maioria ainda depende de primitivas de movimento pré-definidas para realizar interações físicas com o ambiente, o que continua sendo um grande gargalo. Neste trabalho, buscamos sintetizar trajetórias robóticas, ou seja, uma sequência densa de waypoints de 6 graus de liberdade (6-DoF) para o efetuador final, para uma grande variedade de tarefas de manipulação, dadas instruções em linguagem natural de conjunto aberto e objetos de conjunto aberto. Isso é alcançado primeiro observando que os LLMs se destacam em inferir affordances e restrições dadas instruções em linguagem livre. Mais importante, ao aproveitar suas capacidades de escrita de código, eles podem interagir com um modelo visual-linguístico (VLM) para compor mapas de valor 3D, aterrando o conhecimento no espaço de observação do agente. Os mapas de valor compostos são então usados em um framework de planejamento baseado em modelo para sintetizar trajetórias robóticas de malha fechada de forma zero-shot, com robustez a perturbações dinâmicas. Além disso, demonstramos como o framework proposto pode se beneficiar de experiências online ao aprender eficientemente um modelo de dinâmica para cenas que envolvem interações ricas em contato. Apresentamos um estudo em larga escala do método proposto em ambientes simulados e com robôs reais, mostrando a capacidade de realizar uma grande variedade de tarefas cotidianas de manipulação especificadas em linguagem natural livre. Site do projeto: https://voxposer.github.io
Câmeras eye-in-hand têm mostrado potencial para permitir maior eficiência de amostragem e generalização na manipulação robótica baseada em visão. No entanto, para a imitação robótica, ainda é caro ter um teleoperador humano coletar grandes quantidades de demonstrações especializadas com um robô real. Vídeos de humanos realizando tarefas, por outro lado, são muito mais baratos de coletar, pois eliminam a necessidade de expertise em teleoperação robótica e podem ser rapidamente capturados em uma ampla variedade de cenários. Portanto, demonstrações em vídeo de humanos são uma fonte de dados promissora para aprender políticas de manipulação robótica generalizáveis em escala. Neste trabalho, aumentamos conjuntos de dados estreitos de imitação robótica com amplas demonstrações em vídeo de humanos não rotuladas para aprimorar significativamente a generalização de políticas visuomotoras eye-in-hand. Embora exista uma clara lacuna de domínio visual entre os dados humanos e robóticos, nosso framework não precisa empregar nenhum método explícito de adaptação de domínio, pois aproveitamos a observabilidade parcial das câmeras eye-in-hand, bem como um esquema simples de mascaramento de imagem fixo. Em um conjunto de oito tarefas do mundo real envolvendo controle de braço robótico tanto de 3-DoF quanto de 6-DoF, nosso método melhora as taxas de sucesso das políticas de manipulação eye-in-hand em 58% (absoluto) em média, permitindo que os robôs generalizem tanto para novas configurações de ambiente quanto para novas tarefas que não foram vistas nos dados de demonstração robótica. Veja os resultados em vídeo em https://giving-robots-a-hand.github.io/.