HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

15 papers found

Mais Agentes É Tudo o Que Você Precisa
More Agents Is All You Need

Feb 3

ByJunyou Li, Qin Zhang, Yangbin Yu, Qiang Fu, Deheng Ye

Descobrimos que, simplesmente por meio de um método de amostragem e votação, o desempenho de modelos de linguagem de grande escala (LLMs) escala com o número de agentes instanciados. Além disso, esse método é ortogonal a métodos complicados existentes para aprimorar ainda mais os LLMs, enquanto o grau de aprimoramento está correlacionado com a dificuldade da tarefa. Realizamos experimentos abrangentes em uma ampla gama de benchmarks de LLMs para verificar a presença de nossa descoberta e para estudar as propriedades que podem facilitar sua ocorrência. Nosso código está publicamente disponível em: https://anonymous.4open.science/r/more_agent_is_all_you_need.

WebLINX: Navegação em Websites do Mundo Real com Diálogo Multi-Turn
WebLINX: Real-World Website Navigation with Multi-Turn Dialogue

Feb 8

ByXing Han Lù, Zdeněk Kasner, Siva Reddy

Propomos o problema de navegação web conversacional, onde um agente digital controla um navegador web e segue instruções do usuário para resolver tarefas do mundo real em um diálogo de múltiplos turnos. Para apoiar esse problema, introduzimos o WEBLINX - um benchmark em larga escala com 100 mil interações em 2300 demonstrações especializadas de navegação web conversacional. Nosso benchmark abrange uma ampla gama de padrões em mais de 150 sites reais e pode ser usado para treinar e avaliar agentes em diversos cenários. Devido ao volume de informações presentes, os Modelos de Linguagem de Grande Escala (LLMs) não conseguem processar páginas web inteiras em tempo real. Para resolver esse gargalo, projetamos um modelo inspirado em recuperação de informações que poda eficientemente páginas HTML ao classificar elementos relevantes. Utilizamos os elementos selecionados, juntamente com capturas de tela e histórico de ações, para avaliar uma variedade de modelos quanto à sua capacidade de replicar o comportamento humano ao navegar na web. Nossos experimentos abrangem desde pequenos modelos apenas de texto até LLMs multimodais proprietários. Descobrimos que decodificadores menores e ajustados superam os melhores LLMs de zero-shot (incluindo GPT-4V), mas também modelos multimodais maiores que foram explicitamente pré-treinados em capturas de tela. No entanto, todos os modelos ajustados têm dificuldade em generalizar para sites não vistos. Nossas descobertas destacam a necessidade de grandes modelos multimodais que possam generalizar para novos cenários. Nosso código, dados e modelos estão disponíveis para pesquisa: https://mcgill-nlp.github.io/weblinx

Um Modelo de Fundação para Agentes Interativos
An Interactive Agent Foundation Model

Feb 8

ByZane Durante, Bidipta Sarkar, Ran Gong, Rohan Taori, Yusuke Noda, Paul Tang, Ehsan Adeli, Shrinidhi Kowshika Lakshmikanth, Kevin Schulman, Arnold Milstein, Demetri Terzopoulos, Ade Famoti, Noboru Kuno, Ashley Llorens, Hoi Vo, Katsu Ikeuchi, Li Fei-Fei, Jianfeng Gao, Naoki Wake, Qiuyuan Huang

O desenvolvimento de sistemas de inteligência artificial está em transição, passando da criação de modelos estáticos e específicos para tarefas para sistemas dinâmicos baseados em agentes, capazes de desempenhar bem em uma ampla gama de aplicações. Propomos um Modelo de Fundação de Agente Interativo que utiliza um novo paradigma de treinamento de agentes multitarefa para treinar agentes de IA em diversos domínios, conjuntos de dados e tarefas. Nosso paradigma de treinamento unifica diversas estratégias de pré-treinamento, incluindo autoencodificadores mascarados visuais, modelagem de linguagem e previsão da próxima ação, permitindo um framework de IA versátil e adaptável. Demonstramos o desempenho do nosso framework em três domínios distintos — Robótica, IA para Jogos e Saúde. Nosso modelo demonstra sua capacidade de gerar saídas significativas e contextualmente relevantes em cada área. A força da nossa abordagem reside em sua generalidade, aproveitando uma variedade de fontes de dados, como sequências robóticas, dados de jogos, grandes conjuntos de dados de vídeo e informações textuais, para um aprendizado multimodal e multitarefa eficaz. Nossa abordagem oferece um caminho promissor para o desenvolvimento de sistemas generalistas, que tomam ações e são multimodais.

Tag-LLM: Adaptando LLMs de Propósito Geral para Domínios Especializados
Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains

Feb 6

ByJunhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi

Modelos de Linguagem de Grande Escala (LLMs) demonstraram proficiência notável na compreensão e geração de linguagem natural. No entanto, suas capacidades diminuem em domínios altamente especializados sub-representados no corpus de pré-treinamento, como as ciências físicas e biomédicas. Este trabalho explora como adaptar LLMs gerais para se tornarem solucionadores eficazes de tarefas em domínios especializados. Introduzimos uma estrutura inovadora e independente de modelo para aprender tags de entrada personalizadas, que são parametrizadas como vetores contínuos anexados à camada de embedding do LLM, para condicionar o modelo. Projetamos dois tipos de tags de entrada: tags de domínio são usadas para delimitar representações especializadas (por exemplo, fórmulas químicas) e fornecer contexto relevante ao domínio; tags de função são usadas para representar funções específicas (por exemplo, prever propriedades moleculares) e comprimir instruções para a resolução de funções. Desenvolvemos um protocolo de três etapas para aprender essas tags utilizando dados auxiliares e conhecimento do domínio. Ao desacoplar explicitamente os domínios das tarefas das funções das tarefas, nosso método permite a generalização zero-shot para problemas não vistos por meio de combinações diversas das tags de entrada. Ele também melhora o desempenho do LLM em vários domínios especializados, como a previsão de propriedades de proteínas ou químicas e a modelagem de interações fármaco-alvo, superando modelos especializados projetados para essas tarefas.

Incorporações de Texto E5 Multilíngue: Um Relatório Técnico
Multilingual E5 Text Embeddings: A Technical Report

Feb 8

ByLiang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei

Este relatório técnico apresenta a metodologia de treinamento e os resultados de avaliação dos modelos de incorporação de texto multilingue E5 de código aberto, lançados em meados de 2023. Três modelos de incorporação de diferentes tamanhos (pequeno / base / grande) são disponibilizados, oferecendo um equilíbrio entre eficiência de inferência e qualidade de incorporação. O procedimento de treinamento segue a receita do modelo E5 em inglês, envolvendo pré-treinamento contrastivo em 1 bilhão de pares de texto multilingue, seguido de ajuste fino em uma combinação de conjuntos de dados rotulados. Além disso, introduzimos um novo modelo de incorporação ajustado por instruções, cujo desempenho é comparável aos modelos state-of-the-art, exclusivamente em inglês, de tamanhos semelhantes. Informações sobre o lançamento do modelo podem ser encontradas em https://github.com/microsoft/unilm/tree/master/e5.

λ-ECLIPSE: Modelos de Difusão de Texto para Imagem Personalizados com Múltiplos Conceitos Utilizando o Espaço Latente do CLIP
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

Feb 7

ByMaitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang

Apesar dos avanços recentes em modelos generativos de texto para imagem personalizados (P-T2I), a geração de imagens orientada por sujeitos (subject-driven T2I) continua sendo um desafio. Os principais gargalos incluem: 1) Requisitos intensivos de recursos de treinamento, 2) Sensibilidade a hiperparâmetros que leva a saídas inconsistentes, e 3) O equilíbrio entre as complexidades de novos conceitos visuais e o alinhamento de composição. Começamos reafirmando a filosofia central dos modelos de difusão para texto-imagem (T2I) para abordar essas limitações. Predominantemente, as abordagens contemporâneas de T2I orientadas por sujeitos dependem de Modelos de Difusão Latente (LDMs), que facilitam o mapeamento de T2I por meio de camadas de atenção cruzada. Embora os LDMs ofereçam vantagens distintas, a dependência dos métodos P-T2I no espaço latente desses modelos de difusão aumenta significativamente a demanda por recursos, resultando em saídas inconsistentes e exigindo inúmeras iterações para uma única imagem desejada. Recentemente, o ECLIPSE demonstrou um caminho mais eficiente em termos de recursos para treinar modelos T2I baseados em UnCLIP, eliminando a necessidade de priors de difusão para texto-imagem. Com base nisso, introduzimos o lambda-ECLIPSE. Nosso método ilustra que um P-T2I eficaz não depende necessariamente do espaço latente dos modelos de difusão. O lambda-ECLIPSE alcança personalização de T2I para um único sujeito, múltiplos sujeitos e guiado por bordas com apenas 34 milhões de parâmetros e é treinado em meras 74 horas de GPU usando 1,6 milhão de dados intercalados de imagem-texto. Por meio de extensos experimentos, também estabelecemos que o lambda-ECLIPSE supera as baselines existentes em alinhamento de composição, mantendo o desempenho de alinhamento de conceito, mesmo com uma utilização de recursos significativamente menor.

Aprendizado de Princípios em Contexto a Partir de Erros
In-Context Principle Learning from Mistakes

Feb 8

ByTianjun Zhang, Aman Madaan, Luyu Gao, Steven Zheng, Swaroop Mishra, Yiming Yang, Niket Tandon, Uri Alon

O aprendizado em contexto (ICL, também conhecido como _few-shot prompting_) tem sido o método padrão para adaptar LLMs a tarefas subsequentes, aprendendo a partir de alguns exemplos de entrada-saída. No entanto, todas as abordagens baseadas em ICL aprendem apenas a partir de pares corretos de entrada-saída. Neste artigo, revisitamos esse paradigma, aprendendo mais a partir dos poucos exemplos de entrada-saída fornecidos. Introduzimos os Princípios de Aprendizado (LEAP): Primeiro, induzimos intencionalmente o modelo a cometer erros nesses poucos exemplos; em seguida, refletimos sobre esses erros e aprendemos "princípios" explícitos específicos da tarefa a partir deles, que ajudam a resolver problemas semelhantes e a evitar erros comuns; finalmente, solicitamos que o modelo responda a perguntas de teste não vistas usando os exemplos originais de _few-shot_ e esses princípios gerais aprendidos. Avaliamos o LEAP em uma ampla gama de benchmarks, incluindo questionamento de múltiplos saltos (Hotpot QA), questionamento textual (DROP), raciocínio do Big-Bench Hard e problemas matemáticos (GSM8K e MATH); em todos esses benchmarks, o LEAP melhora os LLMs mais robustos disponíveis, como GPT-3.5-turbo, GPT-4, GPT-4 turbo e Claude-2.1. Por exemplo, o LEAP supera o _few-shot prompting_ padrão usando GPT-4 em 7,5% no DROP e em 3,3% no HotpotQA. Importante destacar que o LEAP não requer mais entradas ou exemplos do que as configurações padrão de _few-shot prompting_.

SPHINX-X: Escalonamento de Dados e Parâmetros para uma Família de Modelos de Linguagem Multimodais de Grande Escala
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Feb 8

ByPeng Gao, Renrui Zhang, Chris Liu, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao

Propomos o SPHINX-X, uma extensa série de Modelos de Linguagem de Grande Escala Multimodal (MLLM) desenvolvida com base no SPHINX. Para melhorar a eficiência da arquitetura e do treinamento, modificamos a estrutura do SPHINX removendo codificadores visuais redundantes, contornando subimagens totalmente preenchidas com tokens de salto e simplificando o treinamento em múltiplas etapas para um paradigma único e abrangente. Para liberar plenamente o potencial dos MLLMs, montamos um conjunto de dados multimodal e multidisciplinar abrangente, cobrindo recursos publicamente disponíveis em tarefas de linguagem, visão e visão-linguagem. Além disso, enriquecemos essa coleção com nossos conjuntos de dados OCR intensivos e Set-of-Mark, ampliando a diversidade e a generalidade. Ao treinar sobre diferentes modelos de linguagem base, incluindo TinyLlama1.1B, InternLM2-7B, LLaMA2-13B e Mixtral8x7B, obtemos um espectro de MLLMs que variam em tamanho de parâmetros e capacidades multilingues. Avaliações abrangentes revelam uma forte correlação entre o desempenho multimodal e as escalas de dados e parâmetros. O código e os modelos estão disponíveis em https://github.com/Alpha-VLLM/LLaMA2-Accessory.

SpiRit-LM: Modelo de Linguagem Intercalado para Fala e Escrita
SpiRit-LM: Interleaved Spoken and Written Language Model

Feb 8

ByTu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux

Apresentamos o SPIRIT-LM, um modelo de linguagem multimodal de base que combina livremente texto e fala. Nosso modelo é baseado em um modelo de linguagem de texto pré-treinado que estendemos para a modalidade de fala, treinando-o continuamente com unidades de texto e fala. Sequências de fala e texto são concatenadas como um único conjunto de tokens e treinadas com um método de intercalação em nível de palavra, utilizando um pequeno corpus paralelo de fala-texto automaticamente curado. O SPIRIT-LM vem em duas versões: uma versão BASE que utiliza unidades semânticas de fala e uma versão EXPRESSIVA que modela a expressividade usando unidades de tom e estilo, além das unidades semânticas. Para ambas as versões, o texto é codificado com tokens BPE de subpalavras. O modelo resultante exibe tanto as habilidades semânticas dos modelos de texto quanto as habilidades expressivas dos modelos de fala. Além disso, demonstramos que o SPIRIT-LM é capaz de aprender novas tarefas de forma few-shot entre modalidades (ou seja, ASR, TTS, Classificação de Fala).

InstaGen: Aprimorando a Detecção de Objetos por meio de Treinamento em Conjunto de Dados Sintético
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

Feb 8

ByChengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma

Neste artigo, introduzimos um novo paradigma para aprimorar a capacidade de detectores de objetos, como expandir categorias ou melhorar o desempenho de detecção, por meio do treinamento em um conjunto de dados sintéticos gerados por modelos de difusão. Especificamente, integramos um cabeçalho de ancoragem em nível de instância em um modelo de difusão generativo pré-treinado, para ampliar sua capacidade de localizar instâncias arbitrárias nas imagens geradas. O cabeçalho de ancoragem é treinado para alinhar a incorporação de texto dos nomes das categorias com a característica visual regional do modelo de difusão, utilizando supervisão de um detector de objetos pronto para uso e um novo esquema de auto-treinamento em categorias (novas) não cobertas pelo detector. Esta versão aprimorada do modelo de difusão, denominada InstaGen, pode servir como um sintetizador de dados para detecção de objetos. Realizamos experimentos detalhados para mostrar que o detector de objetos pode ser aprimorado ao treinar no conjunto de dados sintéticos do InstaGen, demonstrando desempenho superior em relação aos métodos state-of-the-art existentes em cenários de vocabulário aberto (+4,5 AP) e de dados escassos (+1,2 a 5,2 AP).

A Consolidação da Memória Possibilita a Compreensão de Vídeos com Contexto Longo
Memory Consolidation Enables Long-Context Video Understanding

Feb 8

ByIvana Balažević, Yuge Shi, Pinelopi Papalampidi, Rahma Chaabouni, Skanda Koppula, Olivier J. Hénaff

A maioria dos codificadores de vídeo baseados em transformers são limitados a contextos temporais curtos devido à sua complexidade quadrática. Embora várias tentativas tenham sido feitas para estender esse contexto, isso frequentemente ocorreu às custas de complexidade tanto conceitual quanto computacional. Propomos, em vez disso, reutilizar transformers de vídeo pré-treinados existentes, simplesmente ajustando-os para ativar memórias derivadas de forma não paramétrica a partir de ativações passadas. Ao aproveitar a redução de redundância, nosso vision transformer consolidado por memória (MC-ViT) estende seu contexto facilmente para o passado e exibe um excelente comportamento de escalonamento ao aprender com vídeos mais longos. Ao fazer isso, o MC-ViT estabelece um novo estado da arte em compreensão de vídeo de longo contexto no EgoSchema, Perception Test e Diving48, superando métodos que se beneficiam de ordens de magnitude mais parâmetros.

Transformador de Visão Consciente de Perguntas para Raciocínio Multimodal
Question Aware Vision Transformer for Multimodal Reasoning

Feb 8

ByRoy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman

Os modelos Visão-Linguagem (VL) têm recebido um foco significativo de pesquisa, possibilitando avanços notáveis no raciocínio multimodal. Essas arquiteturas geralmente compreendem um codificador visual, um Modelo de Linguagem de Grande Escala (LLM) e um módulo de projeção que alinha as características visuais com o espaço de representação do LLM. Apesar de seu sucesso, uma limitação crítica persiste: o processo de codificação visual permanece desacoplado das consultas dos usuários, frequentemente na forma de perguntas relacionadas à imagem. Consequentemente, as características visuais resultantes podem não estar otimamente sintonizadas com os elementos específicos da imagem relacionados à consulta. Para abordar isso, introduzimos o QA-ViT, uma abordagem de Transformer Visual Consciente da Pergunta para raciocínio multimodal, que incorpora a consciência da pergunta diretamente no codificador visual. Essa integração resulta em características visuais dinâmicas que se concentram nos aspectos relevantes da imagem para a pergunta formulada. O QA-ViT é independente de modelo e pode ser incorporado de forma eficiente em qualquer arquitetura VL. Experimentos extensivos demonstram a eficácia da aplicação de nosso método em várias arquiteturas multimodais, levando a melhorias consistentes em diversas tarefas e mostrando seu potencial para aprimorar a compreensão visual e de texto em cenas.

Difusão Implícita: Otimização Eficiente por meio de Amostragem Estocástica
Implicit Diffusion: Efficient Optimization through Stochastic Sampling

Feb 8

ByPierre Marion, Anna Korba, Peter Bartlett, Mathieu Blondel, Valentin De Bortoli, Arnaud Doucet, Felipe Llinares-López, Courtney Paquette, Quentin Berthet

Apresentamos um novo algoritmo para otimizar distribuições definidas implicitamente por difusões estocásticas parametrizadas. Isso nos permite modificar a distribuição de resultados de processos de amostragem ao otimizar seus parâmetros. Introduzimos um framework geral para otimização de primeira ordem desses processos, que realiza conjuntamente, em um único ciclo, etapas de otimização e amostragem. Essa abordagem é inspirada por avanços recentes em otimização bilevel e diferenciação implícita automática, aproveitando a perspectiva da amostragem como otimização no espaço de distribuições de probabilidade. Fornecemos garantias teóricas sobre o desempenho do nosso método, bem como resultados experimentais que demonstram sua eficácia em cenários do mundo real.

O Aprendizado por Reforço Offline com Actor-Critic Escalona para Modelos Grandes
Offline Actor-Critic Reinforcement Learning Scales to Large Models

Feb 8

ByJost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller

Demonstramos que o aprendizado por reforço offline do tipo actor-critic pode ser escalonado para modelos grandes - como transformers - e segue leis de escalonamento semelhantes às do aprendizado supervisionado. Descobrimos que algoritmos offline actor-critic podem superar baselines robustos de clonagem comportamental supervisionada para treinamento multitarefa em um grande conjunto de dados que contém comportamentos tanto subótimos quanto especialistas em 132 tarefas de controle contínuo. Introduzimos um modelo actor-critic baseado em Perceiver e elucidamos as principais características do modelo necessárias para fazer o RL offline funcionar com módulos de auto-atenção e atenção cruzada. No geral, concluímos que: i) algoritmos simples de actor-critic offline são uma escolha natural para gradualmente se afastar do paradigma atualmente predominante de clonagem comportamental, e ii) por meio do RL offline, é possível aprender políticas multitarefa que dominam muitos domínios simultaneamente, incluindo tarefas de robótica real, a partir de demonstrações subótimas ou dados autogerados.

Dirigindo em Todos os Lugares com Adaptação de Políticas de Modelos de Linguagem de Grande Escala
Driving Everywhere with Large Language Model Policy Adaptation

Feb 8

ByBoyi Li, Yue Wang, Jiageng Mao, Boris Ivanovic, Sushant Veer, Karen Leung, Marco Pavone

Adaptar o comportamento de direção a novos ambientes, costumes e leis é um problema de longa data na condução autônoma, impedindo a implantação generalizada de veículos autônomos (AVs). Neste artigo, apresentamos o LLaDA, uma ferramenta simples, porém poderosa, que permite tanto a motoristas humanos quanto a veículos autônomos dirigir em qualquer lugar, adaptando suas tarefas e planos de movimento às regras de trânsito de novas localidades. O LLaDA alcança isso aproveitando a impressionante capacidade de generalização zero-shot de modelos de linguagem de grande escala (LLMs) na interpretação das regras de trânsito presentes nos manuais locais de direção. Por meio de um extenso estudo com usuários, mostramos que as instruções do LLaDA são úteis para desambiguar situações inesperadas no mundo real. Também demonstramos a capacidade do LLaDA de adaptar políticas de planejamento de movimento de AVs em conjuntos de dados do mundo real; o LLaDA supera abordagens de planejamento de linha de base em todas as nossas métricas. Para mais detalhes, consulte nosso site: https://boyiliee.github.io/llada.

λ-ECLIPSE: Modelos de Difusão de Texto para Imagem Personalizados com Múltiplos Conceitos Utilizando o Espaço Latente do CLIP
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

Feb 7

ByMaitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang