Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado grande potencial na integração de diversos modelos especializados para abordar tarefas complexas de linguagem e visão. Apesar de sua importância no avanço do campo de Conteúdo Gerado por Inteligência Artificial (AIGC), seu potencial na criação inteligente de conteúdo de áudio permanece inexplorado. Neste trabalho, abordamos o problema de criar conteúdo de áudio com narrativas que abrangem fala, música e efeitos sonoros, orientadas por instruções textuais. Apresentamos o WavJourney, um sistema que utiliza LLMs para conectar diversos modelos de áudio na geração de conteúdo sonoro. Dada uma descrição textual de uma cena auditiva, o WavJourney primeiro solicita que os LLMs gerem um roteiro estruturado dedicado à narrativa de áudio. O roteiro de áudio incorpora diversos elementos sonoros, organizados com base em suas relações espaço-temporais. Como uma representação conceitual do áudio, o roteiro fornece uma justificativa interativa e interpretável para o engajamento humano. Posteriormente, o roteiro de áudio é alimentado em um compilador de scripts, convertendo-o em um programa de computador. Cada linha do programa chama um modelo de geração de áudio específico para uma tarefa ou uma função de operação computacional (por exemplo, concatenar, mixar). O programa de computador é então executado para obter uma solução explicável para a geração de áudio. Demonstramos a praticidade do WavJourney em diversos cenários do mundo real, incluindo ficção científica, educação e radionovela. O design explicável e interativo do WavJourney promove a cocriação humano-máquina em diálogos de múltiplas rodadas, aumentando o controle criativo e a adaptabilidade na produção de áudio. O WavJourney audioliza a imaginação humana, abrindo novos caminhos para a criatividade na criação de conteúdo multimídia.
Adaptações de baixo posto (LoRA) são frequentemente empregadas para ajustar finamente modelos de linguagem de grande escala (LLMs) para novas tarefas. Este artigo investiga a composabilidade de LoRA para generalização entre tarefas e introduz o LoraHub, um framework estratégico concebido para a montagem proposital de módulos LoRA treinados em diversas tarefas dadas, com o objetivo de alcançar desempenho adaptável em tarefas não vistas. Com apenas alguns exemplos de uma nova tarefa, o LoraHub permite a combinação fluida de múltiplos módulos LoRA, eliminando a necessidade de expertise humana. Notavelmente, a composição não requer parâmetros adicionais do modelo nem gradientes. Nossos resultados empíricos, derivados do benchmark Big-Bench Hard (BBH), sugerem que o LoraHub pode efetivamente imitar o desempenho do aprendizado em contexto em cenários de poucos exemplos, excluindo a necessidade de exemplos em contexto junto a cada entrada de inferência. Uma contribuição significativa de nossa pesquisa é o fomento de uma comunidade para LoRA, onde os usuários podem compartilhar seus módulos LoRA treinados, facilitando assim sua aplicação a novas tarefas. Antecipamos que este recurso ampliará o acesso e impulsionará avanços em inteligência geral, bem como em LLMs em produção. O código estará disponível em https://github.com/sail-sg/lorahub.
Modelos de linguagem de grande escala (LLMs) apresentam melhor desempenho quando produzem raciocínios passo a passo, conhecidos como "Cadeia de Pensamento" (Chain-of-Thought, CoT), antes de responder a uma pergunta. No entanto, não está claro se o raciocínio declarado é uma explicação fiel do raciocínio real do modelo (ou seja, seu processo para responder à pergunta). Investigamos hipóteses sobre como o raciocínio CoT pode ser infiel, examinando como as previsões do modelo mudam quando intervimos no CoT (por exemplo, adicionando erros ou parafraseando-o). Os modelos mostram grande variação entre tarefas em quão fortemente eles condicionam suas previsões ao CoT, às vezes dependendo fortemente dele e outras vezes ignorando-o quase completamente. O aumento de desempenho proporcionado pelo CoT não parece vir apenas do cálculo adicional em tempo de teste ou da informação codificada pela formulação específica do CoT. À medida que os modelos se tornam maiores e mais capazes, eles produzem raciocínios menos fiéis na maioria das tarefas que estudamos. No geral, nossos resultados sugerem que o CoT pode ser fiel se as circunstâncias, como o tamanho do modelo e a tarefa, forem cuidadosamente escolhidas.
Com os avanços da IA generativa, surgiu o potencial empolgante de agentes autônomos gerenciarem tarefas diárias por meio de comandos em linguagem natural. No entanto, os agentes atuais são principalmente criados e testados em ambientes sintéticos simplificados, limitando substancialmente a representação de cenários do mundo real. Neste artigo, construímos um ambiente para comando e controle de agentes que é altamente realista e reproduzível. Especificamente, focamos em agentes que executam tarefas em sites, e criamos um ambiente com sites totalmente funcionais de quatro domínios comuns: comércio eletrônico, discussões em fóruns sociais, desenvolvimento colaborativo de software e gerenciamento de conteúdo. Nosso ambiente é enriquecido com ferramentas (por exemplo, um mapa) e bases de conhecimento externas (por exemplo, manuais do usuário) para incentivar a resolução de tarefas de maneira semelhante à humana. Com base em nosso ambiente, lançamos um conjunto de tarefas de referência focadas em avaliar a correção funcional da conclusão das tarefas. As tarefas em nosso benchmark são diversas, de longo prazo e projetadas para emular tarefas que os humanos realizam rotineiramente na internet. Projetamos e implementamos vários agentes autônomos, integrando técnicas recentes, como raciocinar antes de agir. Os resultados demonstram que resolver tarefas complexas é desafiador: nosso melhor agente baseado em GPT-4 alcança apenas uma taxa de sucesso de 10,59% na conclusão de tarefas de ponta a ponta. Esses resultados destacam a necessidade de um maior desenvolvimento de agentes robustos, que os modelos de linguagem (LMs) de última geração estão longe de um desempenho perfeito nessas tarefas da vida real, e que o WebArena pode ser usado para medir esse progresso. Nosso código, dados, recursos de reprodução do ambiente e demonstrações em vídeo estão publicamente disponíveis em https://webarena.dev/.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado desempenho notável em diversos benchmarks de raciocínio quantitativo e conhecimento. No entanto, muitos desses benchmarks estão perdendo utilidade à medida que os LLMs alcançam pontuações cada vez mais altas, apesar de ainda não atingirem desempenho especializado nesses domínios. Apresentamos o ARB, um novo benchmark composto por problemas avançados de raciocínio em múltiplas áreas. O ARB oferece um teste mais desafiador do que benchmarks anteriores, apresentando problemas em matemática, física, biologia, química e direito. Como um subconjunto do ARB, introduzimos um conjunto desafiador de problemas de matemática e física que exigem raciocínio simbólico avançado e conhecimento de domínio. Avaliamos modelos recentes, como GPT-4 e Claude, no ARB e demonstramos que os modelos atuais pontuam bem abaixo de 50% em tarefas mais exigentes. Para melhorar tanto as capacidades de avaliação automática quanto assistida, introduzimos uma abordagem de avaliação baseada em rubricas, permitindo que o GPT-4 pontue suas próprias etapas intermediárias de raciocínio. Além disso, conduzimos uma avaliação humana do subconjunto simbólico do ARB, encontrando uma concordância promissora entre os anotadores e as pontuações de avaliação por rubrica do GPT-4.
A cobertura de código é uma métrica amplamente utilizada para quantificar a extensão em que elementos de um programa, como instruções ou ramificações, são executados durante os testes. O cálculo da cobertura de código é intensivo em recursos, exigindo a construção e execução do código com sobrecarga adicional para a instrumentação. Além disso, o cálculo da cobertura de qualquer trecho de código requer o contexto completo do programa. O uso de Aprendizado de Máquina para amortizar esse processo caro poderia reduzir o custo da cobertura de código, exigindo apenas o contexto do código-fonte, e a tarefa de previsão de cobertura de código pode ser um novo benchmark para avaliar a capacidade dos modelos de entender código. Propomos uma nova tarefa de benchmark chamada Previsão de Cobertura de Código para Modelos de Linguagem de Grande Escala (LLMs). Formalizamos essa tarefa para avaliar a capacidade dos LLMs em entender a execução de código, determinando quais linhas de um método são executadas por um caso de teste e entradas específicos. Curamos e lançamos um conjunto de dados que chamamos de COVERAGEEVAL, executando testes e códigos do conjunto de dados HumanEval e coletando informações de cobertura de código. Relatamos o desempenho de quatro LLMs state-of-the-art usados para tarefas relacionadas a código, incluindo GPT-4 e GPT-3.5-Turbo da OpenAI, BARD da Google e Claude da Anthropic, na tarefa de Previsão de Cobertura de Código. Por fim, argumentamos que a cobertura de código como métrica e fonte de dados de pré-treinamento é valiosa para o desempenho geral dos LLMs em tarefas de engenharia de software.
Os sistemas tradicionais de recomendação utilizam o histórico de preferências de itens dos usuários para sugerir novos conteúdos que eles possam gostar. No entanto, as interfaces modernas de diálogo que permitem aos usuários expressar preferências baseadas em linguagem oferecem uma modalidade fundamentalmente diferente para a entrada de preferências. Inspirados pelos recentes sucessos dos paradigmas de _prompting_ para modelos de linguagem de grande escala (LLMs), estudamos seu uso para fazer recomendações a partir de preferências baseadas tanto em itens quanto em linguagem, em comparação com métodos state-of-the-art de filtragem colaborativa (CF) baseada em itens. Para apoiar essa investigação, coletamos um novo conjunto de dados que consiste em preferências baseadas em itens e em linguagem, obtidas de usuários, juntamente com suas avaliações sobre uma variedade de itens recomendados (tendenciosos) e itens aleatórios (não tendenciosos). Dentre os diversos resultados experimentais, descobrimos que os LLMs oferecem um desempenho competitivo de recomendação para preferências puramente baseadas em linguagem (sem preferências de itens) em casos próximos ao _cold-start_, em comparação com métodos de CF baseados em itens, apesar de não terem treinamento supervisionado para essa tarefa específica (_zero-shot_) ou apenas algumas etiquetas (_few-shot_). Isso é particularmente promissor, pois as representações de preferências baseadas em linguagem são mais explicáveis e inspecionáveis do que as representações baseadas em itens ou vetores.
Propomos o Strivec, uma nova representação neural que modela uma cena 3D como um campo de radiação com grades de tensores locais distribuídos de forma esparsa e compactamente fatorizados. Nossa abordagem aproveita a decomposição tensorial, seguindo o trabalho recente TensoRF, para modelar as grades de tensores. Em contraste com o TensoRF, que utiliza um tensor global e se concentra em sua decomposição vetor-matriz, propomos utilizar uma nuvem de tensores locais e aplicar a clássica decomposição CANDECOMP/PARAFAC (CP) para fatorizar cada tensor em triplos de vetores que expressam distribuições de características locais ao longo dos eixos espaciais e codificam compactamente um campo neural local. Também aplicamos grades de tensores multiescala para descobrir as similaridades geométricas e de aparência e explorar a coerência espacial com a fatorização tri-vetorial em múltiplas escalas locais. As propriedades finais do campo de radiação são regredidas agregando características neurais de múltiplos tensores locais em todas as escalas. Nossos tensores tri-vetoriais são distribuídos de forma esparsa ao redor da superfície real da cena, descoberta por uma reconstrução grosseira rápida, aproveitando a esparsidade de uma cena 3D. Demonstramos que nosso modelo pode alcançar uma qualidade de renderização superior enquanto utiliza significativamente menos parâmetros do que métodos anteriores, incluindo TensoRF e Instant-NGP.
Embora muitos problemas do mundo real possam se beneficiar do aprendizado por reforço, esses problemas raramente se encaixam no molde de MDP: interagir com o ambiente é frequentemente custoso e especificar funções de recompensa é desafiador. Motivados por esses desafios, trabalhos anteriores desenvolveram abordagens baseadas em dados que aprendem inteiramente a partir de amostras da dinâmica de transição e exemplos de estados de alto retorno. Esses métodos normalmente aprendem uma função de recompensa a partir de estados de alto retorno, usam essa função de recompensa para rotular as transições e, em seguida, aplicam um algoritmo de RL offline a essas transições. Embora esses métodos possam alcançar bons resultados em muitas tarefas, eles podem ser complexos, frequentemente exigindo regularização e atualizações de diferença temporal. Neste artigo, propomos um método para controle offline baseado em exemplos que aprende um modelo implícito de transições de múltiplos passos, em vez de uma função de recompensa. Mostramos que esse modelo implícito pode representar os valores Q para o problema de controle baseado em exemplos. Em uma variedade de tarefas de controle offline baseadas em estado e em imagens, nosso método supera as linhas de base que usam funções de recompensa aprendidas; experimentos adicionais demonstram maior robustez e escalabilidade com o tamanho do conjunto de dados.