Artigos de pesquisa em IA selecionados diariamente com traduções
Avançar a fronteira das arquiteturas subquadráticas para Modelos de Linguagem (MLs) é crucial no campo em rápida evolução do processamento de linguagem natural. Inovações recentes, incluindo os Modelos de Espaço de Estados, foram inicialmente celebrados por superar o desempenho dos Transformers em tarefas de modelagem de linguagem. No entanto, esses modelos revelaram deficiências em capacidades essenciais de Aprendizado em Contexto - um domínio onde o Transformer tradicionalmente se destaca. O modelo Based surgiu como uma solução híbrida, combinando um Transformer Linear com um kernel inspirado na expansão de Taylor de funções exponenciais, aprimorado por redes convolucionais. Espelhando a habilidade em contexto do Transformer, ele se tornou um forte concorrente no campo. Em nosso trabalho, apresentamos uma alteração singular e elegante ao kernel do Based que amplifica suas habilidades de Aprendizado em Contexto, avaliadas com a tarefa de Recuperação Associativa de Múltiplas Consultas e o processo geral de modelagem de linguagem, conforme demonstrado no conjunto de dados The Pile.
Este artigo aborda o desafio de processar documentos longos utilizando modelos generativos baseados em transformadores. Para avaliar diferentes abordagens, introduzimos o BABILong, um novo benchmark projetado para avaliar as capacidades dos modelos em extrair e processar fatos distribuídos em textos extensos. Nossa avaliação, que inclui benchmarks para GPT-4 e RAG, revela que os métodos comuns são eficazes apenas para sequências de até 10^4 elementos. Em contraste, o ajuste fino do GPT-2 com aprimoramentos de memória recorrente permite que ele lide com tarefas envolvendo até 10^7 elementos. Essa conquista representa um salto substancial, pois é de longe a entrada mais longa processada por qualquer modelo de rede neural aberta até o momento, demonstrando uma melhoria significativa nas capacidades de processamento para sequências longas.
Aproveitar os históricos de engajamento de longo prazo dos usuários é essencial para recomendações de conteúdo personalizadas. O sucesso dos modelos de linguagem pré-treinados (PLMs) em PLN levou ao seu uso na codificação de históricos de usuários e itens candidatos, enquadrando as recomendações de conteúdo como tarefas de correspondência semântica textual. No entanto, trabalhos existentes ainda enfrentam dificuldades ao processar textos históricos de usuários muito longos e interações insuficientes entre usuários e itens. Neste artigo, introduzimos um framework de recomendação baseado em conteúdo, SPAR, que aborda efetivamente os desafios de extração holística de interesses do usuário a partir de um histórico de engajamento longo. Ele faz isso aproveitando PLMs, camadas de poli-atenção e mecanismos de esparsidade de atenção para codificar o histórico do usuário de maneira baseada em sessões. As características do lado do usuário e do item são suficientemente fundidas para a previsão de engajamento, mantendo representações independentes para ambos os lados, o que é eficiente para a implantação prática do modelo. Além disso, aprimoramos o perfilamento do usuário explorando modelos de linguagem de grande escala (LLMs) para extrair interesses globais do histórico de engajamento do usuário. Experimentos extensivos em dois conjuntos de dados de referência demonstram que nosso framework supera os métodos state-of-the-art (SoTA) existentes.
Os grandes modelos de linguagem (LLMs, na sigla em inglês) tornaram-se uma ferramenta dominante e importante para pesquisadores de PLN em uma ampla gama de tarefas. Atualmente, muitos pesquisadores utilizam LLMs na geração de dados sintéticos, avaliação de tarefas, ajuste fino, destilação e outros fluxos de trabalho de pesquisa que envolvem modelos em loop. No entanto, desafios surgem ao usar esses modelos, decorrentes de sua escala, natureza de código fechado e da falta de ferramentas padronizadas para esses novos e emergentes fluxos de trabalho. A rápida ascensão ao destaque desses modelos e desses desafios únicos teve impactos adversos imediatos na ciência aberta e na reprodutibilidade de trabalhos que os utilizam. Neste artigo, apresentamos o DataDreamer, uma biblioteca Python de código aberto que permite aos pesquisadores escrever códigos simples para implementar fluxos de trabalho poderosos com LLMs. O DataDreamer também ajuda os pesquisadores a aderir às melhores práticas que propomos para incentivar a ciência aberta e a reprodutibilidade. A biblioteca e a documentação estão disponíveis em https://github.com/datadreamer-dev/DataDreamer.
A criação de vídeos tem se tornado cada vez mais popular, mas a expertise e o esforço necessários para a edição frequentemente representam barreiras para iniciantes. Neste artigo, exploramos a integração de modelos de linguagem de grande escala (LLMs) no fluxo de trabalho de edição de vídeos para reduzir essas barreiras. Nossa visão de design é materializada no LAVE, um sistema inovador que oferece assistência de agentes alimentados por LLMs e recursos de edição aprimorados por linguagem. O LAVE gera automaticamente descrições em linguagem natural para as filmagens do usuário, servindo como base para permitir que o LLM processe os vídeos e auxilie em tarefas de edição. Quando o usuário fornece objetivos de edição, o agente planeja e executa ações relevantes para cumpri-los. Além disso, o LAVE permite que os usuários editem vídeos tanto por meio do agente quanto por manipulação direta da interface, oferecendo flexibilidade e permitindo o refinamento manual das ações do agente. Nosso estudo com usuários, que incluiu oito participantes variando de iniciantes a editores proficientes, demonstrou a eficácia do LAVE. Os resultados também lançaram luz sobre as percepções dos usuários em relação ao paradigma de edição assistida por LLMs proposto e seu impacto na criatividade e no senso de cocriação dos usuários. Com base nessas descobertas, propomos implicações de design para orientar o desenvolvimento futuro da edição de conteúdo assistida por agentes.
A avaliação automática lado a lado surgiu como uma abordagem promissora para avaliar a qualidade das respostas de modelos de linguagem de grande escala (LLMs). No entanto, a análise dos resultados dessa abordagem de avaliação apresenta desafios de escalabilidade e interpretabilidade. Neste artigo, apresentamos o LLM Comparator, uma nova ferramenta de análise visual para analisar interativamente os resultados da avaliação automática lado a lado. A ferramenta suporta fluxos de trabalho interativos que permitem aos usuários entender quando e por que um modelo tem desempenho melhor ou pior do que um modelo de referência, e como as respostas de dois modelos são qualitativamente diferentes. Projetamos e desenvolvemos a ferramenta de forma iterativa, trabalhando em estreita colaboração com pesquisadores e engenheiros de uma grande empresa de tecnologia. Este artigo detalha os desafios dos usuários que identificamos, o design e o desenvolvimento da ferramenta, e um estudo observacional com participantes que avaliam regularmente seus modelos.
Modelos de linguagem de grande escala (LLMs) estão se tornando cada vez mais prevalentes em sistemas conversacionais devido à sua compreensão avançada e capacidades generativas em contextos gerais. No entanto, sua eficácia em diálogos orientados por tarefas (TOD), que exigem não apenas a geração de respostas, mas também o rastreamento eficaz do estado do diálogo (DST) dentro de tarefas e domínios específicos, permanece menos satisfatória. Neste trabalho, propomos uma nova abordagem, FnCTOD, para resolver o DST com LLMs por meio de chamadas de função. Esse método melhora o DST zero-shot, permitindo a adaptação a diversos domínios sem a necessidade de coleta extensiva de dados ou ajuste do modelo. Nossos resultados experimentais demonstram que nossa abordagem alcança um desempenho excepcional tanto com modelos de código aberto de tamanho modesto quanto com modelos proprietários: com prompts no contexto, ela permite que vários modelos de 7B ou 13B parâmetros superem o estado da arte (SOTA) anterior alcançado pelo ChatGPT e melhora o desempenho do ChatGPT, superando o SOTA em 5,6% de JGA médio. Os resultados individuais para GPT-3.5 e GPT-4 são impulsionados em 4,8% e 14%, respectivamente. Também mostramos que, ao ajustar finamente uma pequena coleção de diálogos orientados por tarefas diversos, podemos equipar modelos de tamanho modesto, especificamente um modelo LLaMA2-Chat de 13B parâmetros, com capacidades de chamada de função e desempenho de DST comparável ao ChatGPT, mantendo suas capacidades de chat. Planejamos disponibilizar o código experimental e o modelo em código aberto.
Os modelos de difusão têm se mostrado altamente eficazes na geração de imagens e vídeos; no entanto, ainda enfrentam desafios de composição ao gerar imagens de tamanhos variados devido a dados de treinamento em escala única. Adaptar grandes modelos de difusão pré-treinados para resoluções mais altas demanda recursos computacionais e de otimização substanciais, mas alcançar uma capacidade de geração comparável a modelos de baixa resolução permanece difícil. Este artigo propõe um novo modelo de difusão em autocascata que aproveita o conhecimento rico obtido de um modelo bem treinado em baixa resolução para uma rápida adaptação à geração de imagens e vídeos em alta resolução, empregando paradigmas de ajuste sem sintonização ou com upsamplers de baixo custo. Integrando uma sequência de módulos de upsampler multiescala, o modelo de difusão em autocascata pode se adaptar eficientemente a uma resolução mais alta, preservando a composição original e as capacidades de geração. Propomos ainda uma estratégia de reescalonamento de ruído guiada por pivô para acelerar o processo de inferência e melhorar os detalhes estruturais locais. Em comparação com o ajuste fino completo, nossa abordagem alcança uma aceleração de 5X no treinamento e requer apenas 0,002M de parâmetros adicionais de ajuste. Experimentos extensivos demonstram que nossa abordagem pode se adaptar rapidamente à síntese de imagens e vídeos em alta resolução com apenas 10k passos de ajuste fino, praticamente sem tempo adicional de inferência.
Este artigo demonstra que um modelo de linguagem progressivamente alinhado pode efetivamente conectar codificadores de visão congelados e grandes modelos de linguagem (LLMs). Embora a arquitetura fundamental e os métodos de pré-treinamento dos codificadores de visão e dos LLMs tenham sido extensivamente estudados, a arquitetura e a estratégia de treinamento dos adaptadores visão-linguagem variam significativamente entre os trabalhos recentes. Nossa pesquisa realiza uma exploração detalhada da arquitetura de estado da arte do perceiver resampler e estabelece uma forte linha de base. No entanto, observamos que o alinhamento visão-linguagem com o perceiver resampler apresenta convergência lenta e escalabilidade limitada, com falta de supervisão direta. Para abordar esse problema, propomos o PaLM2-VAdapter, empregando um modelo de linguagem progressivamente alinhado como o adaptador visão-linguagem. Em comparação com a forte linha de base que utiliza o perceiver resampler, nosso método demonstra empiricamente convergência mais rápida, maior desempenho e escalabilidade mais robusta. Experimentos extensivos em várias tarefas de Resposta a Perguntas Visuais (VQA) e legendagem em imagens e vídeos mostram que nosso modelo exibe capacidades de compreensão visual e raciocínio multimodal de estado da arte. Notavelmente, nosso método alcança esses avanços com 30~70% menos parâmetros do que os grandes modelos visão-linguagem de estado da arte, marcando uma melhoria significativa em eficiência.
Apresentamos a Interface Universal de Manipulação (UMI) — uma estrutura de coleta de dados e aprendizado de políticas que permite a transferência direta de habilidades a partir de demonstrações humanas em ambientes reais para políticas robóticas implantáveis. A UMI utiliza pinças portáteis acopladas a um design cuidadoso da interface para permitir a coleta de dados portátil, de baixo custo e rica em informações para demonstrações desafiadoras de manipulação bimanual e dinâmica. Para facilitar o aprendizado de políticas implantáveis, a UMI incorpora uma interface de política cuidadosamente projetada com correspondência de latência no tempo de inferência e uma representação de ação de trajetória relativa. As políticas aprendidas resultantes são independentes de hardware e podem ser implantadas em várias plataformas robóticas. Equipada com esses recursos, a estrutura UMI desbloqueia novas capacidades de manipulação robótica, permitindo comportamentos dinâmicos, bimanuais, precisos e de longo horizonte generalizáveis sem necessidade de ajustes, apenas alterando os dados de treinamento para cada tarefa. Demonstramos a versatilidade e eficácia da UMI com experimentos abrangentes no mundo real, onde políticas aprendidas via UMI generalizam sem ajustes para novos ambientes e objetos quando treinadas em diversas demonstrações humanas. O sistema de hardware e software da UMI é de código aberto em https://umi-gripper.github.io.
Reconstruir e renderizar objetos 3D a partir de visões altamente esparsas é de extrema importância para promover aplicações de técnicas de visão 3D e melhorar a experiência do usuário. No entanto, imagens de visões esparsas contêm informações 3D muito limitadas, levando a dois desafios significativos: 1) Dificuldade em estabelecer consistência multivista, pois as imagens disponíveis para correspondência são muito poucas; 2) Informações parcialmente omitidas ou altamente comprimidas do objeto, devido à cobertura insuficiente das visões. Para enfrentar esses desafios, propomos o GaussianObject, um framework para representar e renderizar o objeto 3D com splatting Gaussiano, que alcança alta qualidade de renderização com apenas 4 imagens de entrada. Primeiro, introduzimos técnicas de visual hull e eliminação de floaters, que injetam explicitamente prioridades estruturais no processo inicial de otimização para ajudar a construir consistência multivista, resultando em uma representação Gaussiana 3D inicial. Em seguida, construímos um modelo de reparo Gaussiano baseado em modelos de difusão para complementar as informações omitidas do objeto, onde os Gaussianos são ainda mais refinados. Projetamos uma estratégia de autogeração para obter pares de imagens para treinar o modelo de reparo. Nosso GaussianObject é avaliado em vários conjuntos de dados desafiadores, incluindo MipNeRF360, OmniObject3D e OpenIllumination, alcançando resultados de reconstrução robustos a partir de apenas 4 visões e superando significativamente os métodos state-of-the-art anteriores.
A diversidade de contextos em que modelos de linguagem de grande escala (LLMs) são implantados exige a capacidade de modificar ou personalizar os comportamentos padrão dos modelos para incorporar requisitos e preferências mais sutis. Uma interface conveniente para especificar tais ajustes no modelo é o feedback verbal de alto nível, como "Não use emojis ao redigir e-mails para meu chefe". No entanto, embora escrever feedback de alto nível seja muito mais simples do que coletar anotações para o aprendizado por reforço com feedback humano (RLHF), descobrimos que simplesmente solicitar ao modelo com esse feedback leva a uma generalização excessiva do feedback para contextos onde ele não é relevante. Estudamos o problema de incorporar feedback verbal sem essa generalização excessiva, inspirando um novo método chamado Críticas Contextualizadas com Otimização de Preferências Restritas (C3PO). O C3PO utiliza um feedback de alto nível para gerar um pequeno conjunto de dados sintéticos de preferências que especifica como o feedback deve (e não deve) ser aplicado. Em seguida, ele ajusta o modelo de acordo com os dados sintéticos de preferência, minimizando a divergência do modelo original para prompts onde o feedback não se aplica. Nossos resultados experimentais indicam que nossa abordagem aplica efetivamente o feedback verbal a cenários relevantes, preservando os comportamentos existentes para outros contextos. Tanto para feedback de alto nível gerado por humanos quanto pelo GPT-4, o C3PO adere efetivamente ao feedback fornecido de forma comparável às linhas de base em contexto, reduzindo a generalização excessiva em 30%.