HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

19 papers found

RWKV: Reinventando RNNs para a Era dos Transformers
RWKV: Reinventing RNNs for the Transformer Era

May 22

ByBo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Xiangru Tang, Bolun Wang, Johan S. Wind, Stansilaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu

Os Transformers revolucionaram quase todas as tarefas de processamento de linguagem natural (NLP), mas sofrem com complexidade de memória e computação que escala quadraticamente com o comprimento da sequência. Em contraste, as redes neurais recorrentes (RNNs) exibem escalonamento linear em requisitos de memória e computação, mas lutam para igualar o mesmo desempenho dos Transformers devido a limitações em paralelização e escalabilidade. Propomos uma nova arquitetura de modelo, Receptance Weighted Key Value (RWKV), que combina o treinamento paralelizável eficiente dos Transformers com a inferência eficiente das RNNs. Nossa abordagem aproveita um mecanismo de atenção linear e nos permite formular o modelo tanto como um Transformer quanto como uma RNN, o que paraleliza os cálculos durante o treinamento e mantém complexidade computacional e de memória constante durante a inferência, levando à primeira arquitetura não-Transformer a ser escalada para dezenas de bilhões de parâmetros. Nossos experimentos revelam que o RWKV tem desempenho equivalente a Transformers de tamanho similar, sugerindo que trabalhos futuros podem aproveitar essa arquitetura para criar modelos mais eficientes. Este trabalho representa um passo significativo para conciliar as compensações entre eficiência computacional e desempenho do modelo em tarefas de processamento de sequências.

CRITIC: Modelos de Linguagem de Grande Escala Podem se Autocorrigir com Críticas Interativas de Ferramentas
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

May 19

ByZhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen

Os recentes avanços nos modelos de linguagem de grande escala (LLMs) têm sido impressionantes. No entanto, esses modelos às vezes apresentam inconsistências e comportamentos problemáticos, como alucinar fatos, gerar códigos com falhas ou criar conteúdo ofensivo e tóxico. Diferentemente desses modelos, os seres humanos geralmente utilizam ferramentas externas para verificar e refinar seu conteúdo inicial, como usar um mecanismo de busca para verificar fatos ou um interpretador de código para depuração. Inspirados por essa observação, introduzimos um framework chamado CRITIC que permite que LLMs, que são essencialmente "caixas pretas", validem e aprimorem progressivamente suas próprias saídas de maneira semelhante à interação humana com ferramentas. Mais especificamente, começando com uma saída inicial, o CRITIC interage com ferramentas apropriadas para avaliar certos aspectos do texto e, em seguida, revisa a saída com base no feedback obtido durante esse processo de validação. Avaliações abrangentes envolvendo respostas a perguntas de forma livre, síntese de programas matemáticos e redução de toxicidade demonstram que o CRITIC melhora consistentemente o desempenho dos LLMs. Enquanto isso, nossa pesquisa destaca a importância crucial do feedback externo para promover a melhoria contínua dos LLMs.

ControlVideo: Geração Controlável de Vídeo a partir de Texto sem Treinamento
ControlVideo: Training-free Controllable Text-to-Video Generation

May 22

ByYabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian

Modelos de difusão orientados por texto desbloquearam habilidades sem precedentes na geração de imagens, enquanto sua contraparte para vídeo ainda está atrás devido ao custo excessivo de treinamento da modelagem temporal. Além do ônus de treinamento, os vídeos gerados também sofrem com inconsistência de aparência e cintilações estruturais, especialmente na síntese de vídeos longos. Para enfrentar esses desafios, projetamos uma estrutura sem necessidade de treinamento chamada ControlVideo para permitir a geração natural e eficiente de texto para vídeo. O ControlVideo, adaptado do ControlNet, aproveita a consistência estrutural grosseira de sequências de movimento de entrada e introduz três módulos para melhorar a geração de vídeo. Primeiramente, para garantir coerência de aparência entre os quadros, o ControlVideo adiciona interação totalmente cruzada entre quadros nos módulos de auto-atenção. Em segundo lugar, para mitigar o efeito de cintilação, ele introduz um suavizador de quadros intercalados que emprega interpolação de quadros em quadros alternados. Por fim, para produzir vídeos longos de forma eficiente, ele utiliza um amostrador hierárquico que sintetiza separadamente cada clipe curto com coerência holística. Dotado desses módulos, o ControlVideo supera os state-of-the-arts em pares extensos de movimento-prompt quantitativa e qualitativamente. Notavelmente, graças aos designs eficientes, ele gera tanto vídeos curtos quanto longos em alguns minutos usando uma NVIDIA 2080Ti. O código está disponível em https://github.com/YBYBZhang/ControlVideo.

Navegação Multimodal na Web com Modelos de Fundamento Ajustados por Instrução
Multimodal Web Navigation with Instruction-Finetuned Foundation Models

May 19

ByHiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu, Izzeddin Gur

O progresso da navegação web autônoma tem sido dificultado pela dependência de bilhões de interações exploratórias via aprendizado por reforço online e por designs de modelos específicos de domínio que dificultam a generalização a partir de dados ricos fora do domínio. Neste trabalho, estudamos o treinamento offline orientado por dados para agentes web com modelos de base visão-linguagem. Propomos um agente multimodal que segue instruções, o WebGUM, que observa tanto capturas de tela de páginas web quanto páginas HTML e gera ações de navegação web, como clicar e digitar. O WebGUM é treinado por meio do ajuste fino conjunto de um modelo de linguagem ajustado para seguir instruções e de um vision transformer em um grande corpus de demonstrações. Demonstramos empiricamente que essa abordagem melhora a capacidade do agente em percepção visual fundamentada, compreensão de HTML e raciocínio multi-etapas, superando trabalhos anteriores por uma margem significativa. No benchmark MiniWoB, melhoramos os melhores métodos offline anteriores em mais de 31,9%, chegando próximo ao estado da arte (SoTA) ajustado online. No benchmark WebShop, nosso modelo de 3 bilhões de parâmetros alcança desempenho superior ao SoTA existente, o PaLM-540B. Também coletamos 347 mil demonstrações de alta qualidade usando nossos modelos treinados, 38 vezes maior que trabalhos anteriores, e as disponibilizamos para promover pesquisas futuras nessa direção.

Treinando Modelos de Difusão com Aprendizado por Reforço
Training Diffusion Models with Reinforcement Learning

May 22

ByKevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, Sergey Levine

Modelos de difusão são uma classe de modelos generativos flexíveis treinados com uma aproximação do objetivo de log-verossimilhança. No entanto, a maioria dos casos de uso de modelos de difusão não está preocupada com verossimilhanças, mas sim com objetivos subsequentes, como a qualidade de imagem percebida por humanos ou a eficácia de medicamentos. Neste artigo, investigamos métodos de aprendizado por reforço para otimizar diretamente modelos de difusão para tais objetivos. Descrevemos como a formulação da remoção de ruído como um problema de tomada de decisão em múltiplos passos permite uma classe de algoritmos de gradiente de política, que denominamos de otimização de política de difusão de remoção de ruído (DDPO), que são mais eficazes do que abordagens alternativas de verossimilhança ponderada por recompensa. Empiricamente, o DDPO é capaz de adaptar modelos de difusão de texto para imagem a objetivos que são difíceis de expressar por meio de prompts, como a compressibilidade de imagem, e aqueles derivados de feedback humano, como a qualidade estética. Por fim, mostramos que o DDPO pode melhorar o alinhamento entre prompt e imagem utilizando feedback de um modelo de visão e linguagem, sem a necessidade de coleta adicional de dados ou anotação humana.

AudioToken: Adaptação de Modelos de Difusão Condicionados por Texto para Geração de Áudio para Imagem
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

May 22

ByGuy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz

Nos últimos anos, a geração de imagens apresentou um grande salto em desempenho, com os modelos de difusão desempenhando um papel central. Embora gerem imagens de alta qualidade, esses modelos são principalmente condicionados por descrições textuais. Isso levanta a questão: "como podemos adaptar esses modelos para serem condicionados por outras modalidades?". Neste artigo, propomos um novo método que utiliza modelos de difusão latente treinados para geração de texto para imagem para gerar imagens condicionadas por gravações de áudio. Usando um modelo de codificação de áudio pré-treinado, o método proposto codifica o áudio em um novo token, que pode ser considerado como uma camada de adaptação entre as representações de áudio e texto. Esse paradigma de modelagem requer um número reduzido de parâmetros treináveis, tornando a abordagem proposta atraente para otimização leve. Os resultados sugerem que o método proposto é superior aos métodos de linha de base avaliados, considerando métricas objetivas e subjetivas. O código e as amostras estão disponíveis em: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.

Como a Recuperação Generativa Escala para Milhões de Passagens?
How Does Generative Retrieval Scale to Millions of Passages?

May 19

ByRonak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran

Popularizado pelo Differentiable Search Index, o paradigma emergente de recuperação generativa reformula o clássico problema de recuperação de informação como uma tarefa de modelagem sequência-para-sequência, dispensando índices externos e codificando um corpus documentário inteiro dentro de um único Transformer. Embora muitas abordagens diferentes tenham sido propostas para melhorar a eficácia da recuperação generativa, elas só foram avaliadas em corpora documentários da ordem de 100 mil documentos. Realizamos o primeiro estudo empírico de técnicas de recuperação generativa em várias escalas de corpus, escalando até a tarefa completa de ranqueamento de passagens do MS MARCO com um corpus de 8,8 milhões de passagens e avaliando modelos com até 11 bilhões de parâmetros. Descobrimos várias descobertas sobre a escalabilidade da recuperação generativa para milhões de passagens; notavelmente, a importância central de usar consultas sintéticas como representações de documentos durante a indexação, a ineficácia das modificações arquitetônicas propostas existentes ao considerar o custo computacional, e os limites da escalabilidade ingênua de parâmetros do modelo em relação ao desempenho de recuperação. Embora tenhamos constatado que a recuperação generativa é competitiva com os codificadores duais state-of-the-art em corpora pequenos, escalar para milhões de passagens continua sendo um desafio importante e não resolvido. Acreditamos que essas descobertas serão valiosas para a comunidade, esclarecendo o estado atual da recuperação generativa, destacando os desafios únicos e inspirando novas direções de pesquisa.

A Supervisão Translingual Melhora o Pré-treinamento de Modelos de Linguagem de Grande Escala
Cross-Lingual Supervision improves Large Language Models Pre-training

May 19

ByAndrea Schioppa, Xavier Garcia, Orhan Firat

O recente progresso acelerado no pré-treinamento de Modelos de Linguagem de Grande Escala tem se baseado no uso de objetivos de modelagem de linguagem auto-supervisionados, como a previsão do próximo token ou a corrupção de trechos. Por outro lado, os Sistemas de Tradução Automática são principalmente treinados usando supervisão cruzada entre idiomas, o que requer dados alinhados entre as línguas de origem e destino. Demonstramos que o pré-treinamento de Modelos de Linguagem de Grande Escala com uma mistura de um objetivo de Modelagem de Linguagem auto-supervisionado e o objetivo supervisionado de Tradução Automática, incluindo assim dados paralelos cruzados durante o pré-treinamento, resulta em modelos com melhores habilidades de aprendizado em contexto. Como o pré-treinamento é um processo muito intensivo em recursos e uma busca em grade pela melhor proporção de mistura entre os dois objetivos é proibitivamente cara, propomos uma estratégia simples, porém eficaz, para aprendê-la durante o pré-treinamento.

Visualizando a Diversidade Linguística de Conjuntos de Dados de Texto Sintetizados por Modelos de Linguagem de Grande Escala
Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models

May 19

ByEmily Reif, Minsuk Kahng, Savvas Petridis

Modelos de linguagem de grande escala (LLMs) podem ser usados para gerar conjuntos de dados menores e mais refinados por meio de prompts de poucos exemplos (few-shot) para benchmarking, ajuste fino (fine-tuning) ou outros casos de uso. No entanto, compreender e avaliar esses conjuntos de dados é desafiador, e os modos de falha dos dados gerados por LLMs ainda não são bem compreendidos. Especificamente, os dados podem ser repetitivos de maneiras surpreendentes, não apenas semanticamente, mas também sintaticamente e lexicalmente. Apresentamos o LinguisticLens, uma nova ferramenta de visualização interativa para compreender e analisar a diversidade sintática de conjuntos de dados gerados por LLMs. O LinguisticLens agrupa textos ao longo de eixos sintáticos, lexicais e semânticos. Ele suporta a visualização hierárquica de um conjunto de dados de texto, permitindo que os usuários façam uma varredura rápida para obter uma visão geral e inspecionem exemplos individuais. A demonstração ao vivo está disponível em shorturl.at/zHOUV.

Controlando a Extração de Dados Memorizados em Modelos de Linguagem de Grande Escala por meio de Ajuste de Prompts
Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

May 19

ByMustafa Safa Ozdayi, Charith Peris, Jack FitzGerald, Christophe Dupuy, Jimit Majmudar, Haidar Khan, Rahil Parikh, Rahul Gupta

Grandes Modelos de Linguagem (LLMs) são conhecidos por memorizar partes significativas de seus dados de treinamento. Demonstrou-se que partes desse conteúdo memorizado podem ser extraídas simplesmente consultando o modelo, o que representa um risco à privacidade. Apresentamos uma abordagem inovadora que utiliza ajuste de prompts para controlar as taxas de extração de conteúdo memorizado em LLMs. Apresentamos duas estratégias de treinamento de prompts para aumentar e diminuir as taxas de extração, que correspondem, respectivamente, a um ataque e a uma defesa. Demonstramos a eficácia de nossas técnicas utilizando modelos da família GPT-Neo em um benchmark público. Para o modelo GPT-Neo de 1,3 bilhão de parâmetros, nosso ataque resulta em um aumento de 9,3 pontos percentuais na taxa de extração em comparação com nossa linha de base. Nossa defesa pode ser ajustada para alcançar diferentes compensações entre privacidade e utilidade por meio de um hiperparâmetro especificado pelo usuário. Conseguimos uma redução na taxa de extração de até 97,7% em relação à nossa linha de base, com um aumento de 16,9% na perplexidade.

Pengi: Um Modelo de Linguagem de Áudio para Tarefas de Áudio
Pengi: An Audio Language Model for Audio Tasks

May 19

BySoham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang

No domínio do processamento de áudio, o Aprendizado por Transferência facilitou o surgimento de técnicas de Aprendizado Autossupervisionado e Aprendizado Zero-Shot. Essas abordagens levaram ao desenvolvimento de modelos versáteis capazes de lidar com uma ampla gama de tarefas, ao mesmo tempo em que oferecem desempenho de ponta. No entanto, os modelos atuais carecem inerentemente da capacidade de produzir a linguagem necessária para tarefas de natureza aberta, como Legendagem de Áudio ou Perguntas e Respostas em Áudio. Apresentamos o Pengi, um novo Modelo de Linguagem de Áudio que aproveita o Aprendizado por Transferência ao enquadrar todas as tarefas de áudio como tarefas de geração de texto. Ele recebe como entrada uma gravação de áudio e texto, e gera texto livre como saída. O áudio de entrada é representado como uma sequência de embeddings contínuos por um codificador de áudio. Um codificador de texto faz o mesmo para o texto de entrada correspondente. Ambas as sequências são combinadas como um prefixo para orientar um modelo de linguagem pré-treinado e congelado. A arquitetura unificada do Pengi permite tarefas de natureza aberta e fechada sem a necessidade de ajuste adicional ou extensões específicas para cada tarefa. Quando avaliado em 22 tarefas subsequentes, nossa abordagem alcança desempenho de ponta em várias delas. Nossos resultados mostram que conectar modelos de linguagem com modelos de áudio é um grande passo em direção à compreensão de áudio de propósito geral.

Comparando Máquinas e Crianças: Utilizando Experimentos de Psicologia do Desenvolvimento para Avaliar os Pontos Fortes e Fracos das Respostas do LaMDA
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses

May 18

ByEliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb

Psicólogos do desenvolvimento passaram décadas criando experimentos para testar a inteligência e o conhecimento de bebês e crianças, rastreando a origem de conceitos e capacidades cruciais. Além disso, as técnicas experimentais em psicologia do desenvolvimento foram cuidadosamente projetadas para discriminar as capacidades cognitivas que fundamentam comportamentos específicos. Propomos que o uso de experimentos clássicos do desenvolvimento infantil é uma maneira particularmente eficaz de investigar as habilidades computacionais de modelos de IA, em geral, e de LLMs (Large Language Models) em particular. Primeiro, as técnicas metodológicas da psicologia do desenvolvimento, como o uso de estímulos novos para controlar experiências passadas ou condições de controle para determinar se as crianças estão usando associações simples, podem ser igualmente úteis para avaliar as capacidades de LLMs. Paralelamente, testar LLMs dessa forma pode nos dizer se a informação codificada em texto é suficiente para permitir respostas específicas ou se essas respostas dependem de outros tipos de informação, como a exploração do mundo físico. Neste trabalho, adaptamos experimentos clássicos do desenvolvimento para avaliar as capacidades do LaMDA, um grande modelo de linguagem da Google. Propomos uma nova métrica chamada LLM Response Score (LRS), que pode ser usada para avaliar outros modelos de linguagem, como o GPT. Descobrimos que o LaMDA gera respostas apropriadas semelhantes às de crianças em experimentos envolvendo compreensão social, talvez fornecendo evidências de que o conhecimento desses domínios é descoberto por meio da linguagem. Por outro lado, as respostas do LaMDA em tarefas de compreensão inicial de objetos e ações, teoria da mente e, especialmente, raciocínio causal são muito diferentes das de crianças pequenas, talvez mostrando que esses domínios exigem mais exploração autodirigida do mundo real e não podem ser simplesmente aprendidos a partir de padrões na entrada de linguagem.

Capacitar Modelos de Linguagem de Grande Escala para Desempenho Superior em Respostas a Perguntas Específicas de Domínios Industriais
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering

May 19

ByZezhong Wang, Fangkai Yang, Pu Zhao, Lu Wang, Jue Zhang, Mohit Garg, Qingwei Lin, Dongmei Zhang

O Large Language Model (LLM) tem ganhado popularidade e alcançado resultados notáveis em tarefas de domínio aberto, mas seu desempenho em cenários industriais específicos do domínio real é mediano, uma vez que não possui conhecimento específico. Esse problema tem atraído atenção generalizada, mas há poucos benchmarks relevantes disponíveis. Neste artigo, fornecemos um conjunto de dados de Question Answering (QA) chamado MSQA, que trata de produtos da Microsoft e problemas técnicos de TI enfrentados pelos clientes. Esse conjunto de dados contém conhecimento específico de QA relacionado à nuvem industrial, que não está disponível para LLMs gerais, sendo, portanto, muito adequado para avaliar métodos voltados à melhoria das capacidades de domínio específico do LLM. Além disso, propomos um novo paradigma de interação de modelos que pode capacitar o LLM a alcançar um desempenho melhor em tarefas de domínio específico nas quais ele não é proficiente. Experimentos extensivos demonstram que a abordagem que segue nossa estrutura de fusão de modelos supera o LLM comumente usado com métodos de recuperação.

Dicas Introspectivas: Modelo de Linguagem de Grande Escala para Tomada de Decisão em Contexto
Introspective Tips: Large Language Model for In-Context Decision Making

May 19

ByLiting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang

O surgimento de grandes modelos de linguagem (LLMs, do inglês *Large Language Models*) influenciou substancialmente o processamento de linguagem natural, demonstrando resultados excepcionais em diversas tarefas. Neste estudo, empregamos "Dicas Introspectivas" para facilitar que os LLMs otimizem sua própria tomada de decisões. Ao examinar introspectivamente trajetórias, o LLM refina sua política gerando dicas sucintas e valiosas. Nosso método melhora o desempenho do agente tanto em situações de aprendizado *few-shot* quanto *zero-shot*, considerando três cenários essenciais: aprender com as experiências passadas do agente, integrar demonstrações de especialistas e generalizar entre diversos jogos. Importante destacar que alcançamos essas melhorias sem ajustar os parâmetros do LLM; em vez disso, adaptamos o *prompt* para generalizar insights a partir dos três cenários mencionados. Nosso framework não apenas apoia, mas também enfatiza a vantagem de empregar LLMs na tomada de decisões em contexto. Experimentos envolvendo mais de 100 jogos no TextWorld ilustram o desempenho superior da nossa abordagem.

QUEST: Um Conjunto de Dados de Recuperação de Consultas de Busca de Entidades com Operações Implícitas de Conjunto
QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

May 19

ByChaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

A formulação de necessidades seletivas de informação resulta em consultas que especificam implicitamente operações de conjuntos, como interseção, união e diferença. Por exemplo, pode-se pesquisar por "aves costeiras que não são maçaricos" ou "filmes de ficção científica filmados na Inglaterra". Para estudar a capacidade dos sistemas de recuperação de atender a tais necessidades de informação, construímos o QUEST, um conjunto de dados com 3357 consultas em linguagem natural que contêm operações implícitas de conjuntos, mapeadas para um conjunto de entidades correspondentes a documentos da Wikipédia. O conjunto de dados desafia os modelos a combinar múltiplas restrições mencionadas nas consultas com evidências correspondentes nos documentos e a realizar corretamente diversas operações de conjuntos. O conjunto de dados foi construído de forma semiautomática utilizando nomes de categorias da Wikipédia. As consultas são compostas automaticamente a partir de categorias individuais, depois parafraseadas e validadas quanto à naturalidade e fluência por trabalhadores colaborativos. Esses trabalhadores também avaliam a relevância das entidades com base em seus documentos e destacam a atribuição das restrições das consultas a trechos do texto dos documentos. Analisamos vários sistemas modernos de recuperação e constatamos que eles frequentemente enfrentam dificuldades com tais consultas. Consultas que envolvem negação e conjunção são particularmente desafiadoras, e os sistemas são ainda mais testados com combinações dessas operações.

Leis de escalonamento para modelos de codificação de linguagem em fMRI
Scaling laws for language encoding models in fMRI

May 19

ByRichard Antonello, Aditya Vaidya, Alexander G. Huth

Representações de modelos de linguagem unidirecionais baseados em transformadores são conhecidas por serem eficazes na previsão de respostas cerebrais à linguagem natural. No entanto, a maioria dos estudos que comparam modelos de linguagem ao cérebro utilizou GPT-2 ou modelos de tamanho semelhante. Aqui, testamos se modelos maiores de código aberto, como os das famílias OPT e LLaMA, são melhores na previsão de respostas cerebrais registradas por meio de fMRI. Refletindo resultados de escalonamento em outros contextos, descobrimos que o desempenho na previsão cerebral escala log-linearmente com o tamanho do modelo, de 125M a 30B de parâmetros, com um aumento de ~15% no desempenho de codificação, medido pela correlação com um conjunto de teste retido em 3 indivíduos. Um comportamento log-linear semelhante foi observado ao escalonar o tamanho do conjunto de treinamento de fMRI. Também caracterizamos o escalonamento para modelos de codificação acústica que utilizam HuBERT, WavLM e Whisper, e encontramos melhorias comparáveis com o tamanho do modelo. Uma análise de teto de ruído desses modelos de codificação grandes e de alto desempenho mostrou que o desempenho está se aproximando do máximo teórico para áreas cerebrais como o precuneus e o córtex auditivo superior. Esses resultados sugerem que o aumento de escala tanto em modelos quanto em dados produzirá modelos incrivelmente eficazes de processamento de linguagem no cérebro, permitindo um melhor entendimento científico, bem como aplicações como a decodificação.

SeeGULL: Um Benchmark de Estereótipos com Amplo Alcance Geocultural Utilizando Modelos Generativos
SeeGULL: A Stereotype Benchmark with Broad Geo-Cultural Coverage Leveraging Generative Models

May 19

ByAkshita Jha, Aida Davani, Chandan K. Reddy, Shachi Dave, Vinodkumar Prabhakaran, Sunipa Dev

Conjuntos de dados de referência para estereótipos são cruciais para detectar e mitigar estereótipos sociais sobre grupos de pessoas em modelos de PLN. No entanto, os conjuntos de dados existentes são limitados em tamanho e cobertura, e estão amplamente restritos a estereótipos prevalentes na sociedade ocidental. Isso é especialmente problemático à medida que as tecnologias de linguagem ganham espaço em todo o mundo. Para abordar essa lacuna, apresentamos o SeeGULL, um conjunto de dados de estereótipos de ampla cobertura, construído utilizando as capacidades generativas de modelos de linguagem de grande escala, como PaLM e GPT-3, e aproveitando um grupo diversificado de avaliadores globalmente distribuídos para validar a prevalência desses estereótipos na sociedade. O SeeGULL está em inglês e contém estereótipos sobre grupos de identidade que abrangem 178 países em 8 diferentes regiões geopolíticas e 6 continentes, além de identidades em nível estadual nos EUA e na Índia. Também incluímos pontuações detalhadas de ofensividade para diferentes estereótipos e demonstramos suas disparidades globais. Além disso, incluímos anotações comparativas sobre os mesmos grupos feitas por anotadores que vivem na região versus aqueles baseados na América do Norte, e demonstramos que os estereótipos sobre grupos dentro de uma região diferem daqueles prevalentes na América do Norte. AVISO DE CONTEÚDO: Este artigo contém exemplos de estereótipos que podem ser ofensivos.

Comparando Desenvolvedores de Software com o ChatGPT: Uma Investigação Empírica
Comparing Software Developers with ChatGPT: An Empirical Investigation

May 19

ByNathalia Nascimento, Paulo Alencar, Donald Cowan

O advento da automação em tarefas específicas de Engenharia de Software (ES) tem transicionado da teoria para a realidade. Numerosos artigos acadêmicos documentaram a aplicação bem-sucedida da Inteligência Artificial para abordar problemas em áreas como gerenciamento de projetos, modelagem, testes e desenvolvimento. Uma inovação recente é a introdução do ChatGPT, um chatbot baseado em Aprendizado de Máquina, considerado um recurso proficiente na geração de códigos de programação e na formulação de estratégias de teste de software para desenvolvedores e testadores, respectivamente. Embora haja especulações de que a computação baseada em IA possa aumentar a produtividade e até mesmo substituir engenheiros de software no desenvolvimento de software, atualmente há uma falta de evidências empíricas para verificar isso. Além disso, apesar do foco principal no aprimoramento da precisão dos sistemas de IA, requisitos não funcionais, incluindo eficiência energética, vulnerabilidade, justiça (ou seja, viés humano) e segurança, frequentemente recebem atenção insuficiente. Este artigo propõe que uma comparação abrangente entre engenheiros de software e soluções baseadas em IA, considerando vários critérios de avaliação, é fundamental para promover a colaboração humano-máquina, aprimorar a confiabilidade dos métodos baseados em IA e entender a adequação de tarefas para humanos ou IA. Além disso, facilita a implementação eficaz de estruturas de trabalho cooperativo e processos com humanos no loop. Este artigo realiza uma investigação empírica, contrastando o desempenho de engenheiros de software e sistemas de IA, como o ChatGPT, em diferentes métricas de avaliação. O estudo empírico inclui um caso de avaliação de código gerado pelo ChatGPT versus código produzido por desenvolvedores e carregado no Leetcode.

Contrafactuais para Design: Um Método Agnóstico a Modelos para Recomendações de Design
Counterfactuals for Design: A Model-Agnostic Method For Design Recommendations

May 18

ByLyle Regenwetter, Yazan Abu Obaideh, Faez Ahmed

Apresentamos os Contra-factuais Multiobjetivo para Design (MCD), um método inovador para otimização contra-factual em problemas de design. Contra-factuais são situações hipotéticas que podem levar a uma decisão ou escolha diferente. Neste artigo, os autores enquadram o problema de busca contra-factual como uma ferramenta de recomendação de design que pode ajudar a identificar modificações em um projeto, levando a um melhor desempenho funcional. O MCD aprimora os métodos existentes de busca contra-factual ao suportar consultas multiobjetivo, que são cruciais em problemas de design, e ao desacoplar os processos de busca e amostragem contra-factuais, aumentando assim a eficiência e facilitando a visualização de trade-offs entre objetivos. O artigo demonstra a funcionalidade central do MCD usando um caso de teste bidimensional, seguido por três estudos de caso de design de bicicletas que mostram a eficácia do MCD em problemas de design do mundo real. No primeiro estudo de caso, o MCD se destaca ao recomendar modificações em projetos de consulta que podem melhorar significativamente o desempenho funcional, como redução de peso e melhorias no fator de segurança estrutural. O segundo estudo de caso demonstra que o MCD pode trabalhar com um modelo de linguagem pré-treinado para sugerir alterações de design com base em um prompt de texto subjetivo de forma eficaz. Por fim, os autores atribuem ao MCD a tarefa de aumentar a similaridade de um projeto de consulta com uma imagem e um prompt de texto alvo, ao mesmo tempo em que reduz o peso e melhora o desempenho estrutural, demonstrando o desempenho do MCD em uma consulta multimodal complexa. No geral, o MCD tem o potencial de fornecer recomendações valiosas para profissionais e pesquisadores de automação de design que buscam respostas para suas perguntas do tipo "E se", explorando modificações hipotéticas de design e seu impacto em múltiplos objetivos de projeto. O código, problemas de teste e conjuntos de dados utilizados no artigo estão disponíveis publicamente em decode.mit.edu/projects/counterfactuals/.

Comparando Máquinas e Crianças: Utilizando Experimentos de Psicologia do Desenvolvimento para Avaliar os Pontos Fortes e Fracos das Respostas do LaMDA
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses

May 18

ByEliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb