HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

21 papers found

TinyStories: Quão Pequenos Podem Ser os Modelos de Linguagem e Ainda Falar Inglês de Forma Coerente?
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

May 12

ByRonen Eldan, Yuanzhi Li

Modelos de linguagem (LMs) são ferramentas poderosas para o processamento de linguagem natural, mas frequentemente enfrentam dificuldades para produzir textos coerentes e fluentes quando são pequenos. Modelos com cerca de 125 milhões de parâmetros, como o GPT-Neo (pequeno) ou o GPT-2 (pequeno), raramente conseguem gerar textos em inglês coerentes e consistentes além de algumas palavras, mesmo após treinamento extensivo. Isso levanta a questão de saber se a emergência da capacidade de produzir textos em inglês coerentes ocorre apenas em escalas maiores (com centenas de milhões de parâmetros ou mais) e arquiteturas complexas (com muitas camadas de atenção global). Neste trabalho, apresentamos o TinyStories, um conjunto de dados sintético de histórias curtas que contêm apenas palavras que uma criança típica de 3 a 4 anos de idade geralmente entende, geradas pelo GPT-3.5 e GPT-4. Mostramos que o TinyStories pode ser usado para treinar e avaliar LMs que são muito menores do que os modelos state-of-the-art (abaixo de 10 milhões de parâmetros totais) ou têm arquiteturas muito mais simples (com apenas um bloco de transformador), mas ainda assim produzem histórias fluentes e consistentes com vários parágrafos que são diversificadas e têm gramática quase perfeita, além de demonstrar capacidades de raciocínio. Também introduzimos um novo paradigma para a avaliação de modelos de linguagem: sugerimos uma estrutura que utiliza o GPT-4 para classificar o conteúdo gerado por esses modelos como se fossem histórias escritas por alunos e avaliadas por um professor (humano). Esse novo paradigma supera as falhas dos benchmarks padrão, que frequentemente exigem que a saída do modelo seja muito estruturada, e, além disso, fornece uma pontuação multidimensional para o modelo, atribuindo notas para diferentes capacidades, como gramática, criatividade e consistência. Esperamos que o TinyStories possa facilitar o desenvolvimento, análise e pesquisa de LMs, especialmente para domínios de baixos recursos ou especializados, e lançar luz sobre a emergência de capacidades linguísticas em LMs.

SoundStorm: Geração Eficiente de Áudio em Paralelo
SoundStorm: Efficient Parallel Audio Generation

May 16

ByZalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi

Apresentamos o SoundStorm, um modelo para geração eficiente e não autorregressiva de áudio. O SoundStorm recebe como entrada os tokens semânticos do AudioLM e se baseia em atenção bidirecional e decodificação paralela baseada em confiança para gerar os tokens de um codec neural de áudio. Em comparação com a abordagem de geração autorregressiva do AudioLM, nosso modelo produz áudio da mesma qualidade e com maior consistência na voz e nas condições acústicas, sendo duas ordens de magnitude mais rápido. O SoundStorm gera 30 segundos de áudio em 0,5 segundos em um TPU-v4. Demonstramos a capacidade do nosso modelo de escalar a geração de áudio para sequências mais longas, sintetizando segmentos de diálogo de alta qualidade e naturais, dado uma transcrição anotada com turnos de fala e um prompt curto com as vozes dos falantes.

DarkBERT: Um Modelo de Linguagem para o Lado Sombrio da Internet
DarkBERT: A Language Model for the Dark Side of the Internet

May 15

ByYoungjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin

Pesquisas recentes sugerem que existem diferenças claras na linguagem utilizada na Dark Web em comparação com a Surface Web. Como os estudos sobre a Dark Web geralmente exigem análise textual do domínio, modelos de linguagem específicos para a Dark Web podem fornecer insights valiosos aos pesquisadores. Neste trabalho, apresentamos o DarkBERT, um modelo de linguagem pré-treinado com dados da Dark Web. Descrevemos as etapas tomadas para filtrar e compilar os dados textuais usados para treinar o DarkBERT, a fim de combater a extrema diversidade lexical e estrutural da Dark Web que pode ser prejudicial para a construção de uma representação adequada do domínio. Avaliamos o DarkBERT e sua contraparte padrão, juntamente com outros modelos de linguagem amplamente utilizados, para validar os benefícios que um modelo específico para o domínio da Dark Web oferece em vários casos de uso. Nossas avaliações mostram que o DarkBERT supera os modelos de linguagem atuais e pode servir como um recurso valioso para pesquisas futuras sobre a Dark Web.

CodeT5+: Modelos de Linguagem de Grande Escala Abertos para Compreensão e Geração de Código
CodeT5+: Open Code Large Language Models for Code Understanding and Generation

May 13

ByYue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D. Q. Bui, Junnan Li, Steven C. H. Hoi

Modelos de linguagem de grande escala (LLMs) pré-treinados em vastos códigos-fonte têm alcançado progressos notáveis em inteligência de código. No entanto, os LLMs de código existentes apresentam duas limitações principais em termos de arquitetura e tarefas de pré-treinamento. Primeiro, eles frequentemente adotam uma arquitetura específica (apenas codificador ou apenas decodificador) ou dependem de uma rede unificada codificador-decodificador para diferentes tarefas subsequentes. O primeiro paradigma é limitado pela inflexibilidade em aplicações, enquanto no segundo, o modelo é tratado como um sistema único para todas as tarefas, resultando em desempenho subótimo em um subconjunto de tarefas. Em segundo lugar, eles frequentemente empregam um conjunto limitado de objetivos de pré-treinamento que podem não ser relevantes para algumas tarefas subsequentes e, portanto, resultam em uma degradação substancial de desempenho. Para abordar essas limitações, propomos o ``CodeT5+'', uma família de LLMs codificador-decodificador para código em que os módulos componentes podem ser combinados de forma flexível para se adequar a uma ampla gama de tarefas de código subsequentes. Essa flexibilidade é possibilitada pela nossa proposta de mistura de objetivos de pré-treinamento para mitigar a discrepância entre pré-treinamento e ajuste fino. Esses objetivos abrangem tarefas de desnudação de trechos, aprendizado contrastivo, correspondência texto-código e pré-treinamento de modelo de linguagem causal, tanto em corpora de código unimodal quanto bimodal multilíngue. Além disso, propomos inicializar o CodeT5+ com LLMs prontos para uso e congelados, sem treinamento a partir do zero, para escalar nossos modelos de forma eficiente, e exploramos o ajuste por instrução para alinhar com instruções em linguagem natural. Avaliamos extensivamente o CodeT5+ em mais de 20 benchmarks relacionados a código em diferentes configurações, incluindo zero-shot, ajuste fino e ajuste por instrução. Observamos desempenho de modelo state-of-the-art (SoTA) em várias tarefas relacionadas a código, como geração e conclusão de código, programação matemática e tarefas de recuperação texto-código. Particularmente, nosso CodeT5+ 16B ajustado por instrução alcança novos resultados SoTA na tarefa de geração de código HumanEval em comparação com outros LLMs de código abertos.

Rumo à Resolução de Perguntas Médicas em Nível de Especialista com Modelos de Linguagem de Grande Escala
Towards Expert-Level Medical Question Answering with Large Language Models

May 16

ByKaran Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan

Sistemas recentes de inteligência artificial (IA) atingiram marcos importantes em "grandes desafios", desde o jogo Go até o dobramento de proteínas. A capacidade de recuperar conhecimento médico, raciocinar sobre ele e responder a perguntas médicas de forma comparável a médicos tem sido vista há muito tempo como um desses grandes desafios. Modelos de linguagem de grande escala (LLMs) catalisaram progressos significativos na resposta a perguntas médicas; o Med-PaLM foi o primeiro modelo a ultrapassar uma pontuação de "aprovação" em questões no estilo do Exame de Licenciamento Médico dos EUA (USMLE), com uma pontuação de 67,2% no conjunto de dados MedQA. No entanto, este e outros trabalhos anteriores sugeriram que há espaço significativo para melhorias, especialmente quando as respostas dos modelos foram comparadas às respostas dos clínicos. Aqui apresentamos o Med-PaLM 2, que preenche essas lacunas ao aproveitar uma combinação de melhorias no LLM base (PaLM 2), ajuste fino no domínio médico e estratégias de prompt, incluindo uma nova abordagem de refinamento por ensemble. O Med-PaLM 2 obteve até 86,5% no conjunto de dados MedQA, superando o Med-PaLM em mais de 19% e estabelecendo um novo estado da arte. Também observamos desempenho próximo ou superior ao estado da arte nos conjuntos de dados MedMCQA, PubMedQA e tópicos clínicos do MMLU. Realizamos avaliações humanas detalhadas em questões de longa duração ao longo de múltiplos eixos relevantes para aplicações clínicas. Em uma classificação comparativa pareada de 1066 questões médicas de consumidores, os médicos preferiram as respostas do Med-PaLM 2 às produzidas por médicos em oito de nove eixos relacionados à utilidade clínica (p < 0,001). Também observamos melhorias significativas em comparação ao Med-PaLM em todos os eixos de avaliação (p < 0,001) em novos conjuntos de dados de 240 questões de longa duração "adversariais" para explorar as limitações dos LLMs. Embora sejam necessários mais estudos para validar a eficácia desses modelos em cenários do mundo real, esses resultados destacam um progresso rápido em direção ao desempenho de nível médico na resposta a perguntas médicas.

Modelos Pequenos são Plug-ins Valiosos para Modelos de Linguagem de Grande Escala
Small Models are Valuable Plug-ins for Large Language Models

May 15

ByCanwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley

Modelos de linguagem de grande escala (LLMs), como GPT-3 e GPT-4, são poderosos, mas seus pesos geralmente não estão disponíveis publicamente, e seus tamanhos imensos tornam esses modelos difíceis de ajustar com hardware comum. Como resultado, ajustar efetivamente esses modelos com dados supervisionados em grande escala pode ser desafiador. Como alternativa, o Aprendizado em Contexto (In-Context Learning, ICL) só pode usar um pequeno número de exemplos supervisionados devido às limitações de comprimento do contexto. Neste artigo, propomos o Aprendizado em Contexto Super (SuperICL), que permite que LLMs de caixa preta trabalhem com modelos menores ajustados localmente, resultando em desempenho superior em tarefas supervisionadas. Nossos experimentos demonstram que o SuperICL pode melhorar o desempenho além dos modelos ajustados state-of-the-art, ao mesmo tempo em que aborda o problema de instabilidade do aprendizado em contexto. Além disso, o SuperICL pode aprimorar as capacidades de modelos menores, como multilingue e interpretabilidade.

Make-An-Animation: Geração de Movimento Humano 3D em Grande Escala Condicionado por Texto
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

May 16

BySamaneh Azadi, Akbar Shah, Thomas Hayes, Devi Parikh, Sonal Gupta

A geração de movimentos humanos guiada por texto tem atraído um interesse significativo devido às suas aplicações impactantes que abrangem animação e robótica. Recentemente, a aplicação de modelos de difusão para geração de movimentos permitiu melhorias na qualidade dos movimentos gerados. No entanto, as abordagens existentes são limitadas por sua dependência de dados de captura de movimento relativamente pequenos, resultando em desempenho insatisfatório em prompts mais diversos e do mundo real. Neste artigo, apresentamos o Make-An-Animation, um modelo de geração de movimentos humanos condicionado por texto que aprende poses e prompts mais diversos a partir de grandes conjuntos de dados de imagem-texto, permitindo uma melhoria significativa no desempenho em relação aos trabalhos anteriores. O Make-An-Animation é treinado em duas etapas. Primeiro, treinamos em um grande conjunto de dados curado de pares (texto, pseudo-pose estática) extraídos de conjuntos de dados de imagem-texto. Em seguida, ajustamos finamente os dados de captura de movimento, adicionando camadas adicionais para modelar a dimensão temporal. Diferente dos modelos de difusão anteriores para geração de movimento, o Make-An-Animation utiliza uma arquitetura U-Net semelhante aos modelos recentes de geração de texto para vídeo. A avaliação humana do realismo do movimento e do alinhamento com o texto de entrada mostra que nosso modelo alcança um desempenho de ponta na geração de texto para movimento.

AR-Diffusion: Modelo de Difusão Auto-Regressiva para Geração de Texto
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

May 16

ByTong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen

Os modelos de difusão têm ganhado atenção significativa no campo de geração de imagens devido ao seu desempenho excepcional. Recentemente, seu sucesso foi expandido para a geração de texto, gerando todos os tokens de uma sequência simultaneamente. No entanto, a linguagem natural exibe uma dependência sequencial muito mais pronunciada em comparação com as imagens, e a maioria dos modelos de linguagem existentes são treinados utilizando uma abordagem auto-regressiva da esquerda para a direita. Para levar em consideração a característica sequencial inerente da linguagem natural, introduzimos a Difusão Auto-Regressiva (AR-Diffusion). A AR-Diffusion garante que a geração de tokens à direita dependa dos tokens gerados à esquerda, um mecanismo alcançado através do emprego de um número dinâmico de etapas de remoção de ruído que variam com base na posição do token. Isso resulta em tokens à esquerda passando por menos etapas de remoção de ruído do que os tokens à direita, permitindo que sejam gerados mais cedo e, consequentemente, influenciem a geração dos tokens à direita. Em uma série de experimentos em várias tarefas de geração de texto, incluindo sumarização de texto, tradução automática e geração de senso comum, a AR-Diffusion demonstrou claramente a superioridade sobre os modelos de difusão de linguagem existentes e pode ser de 100 a 600 vezes mais rápida ao alcançar resultados comparáveis. Nosso código será disponibilizado publicamente.

A sintonia de símbolos aprimora o aprendizado em contexto em modelos de linguagem.
Symbol tuning improves in-context learning in language models

May 15

ByJerry Wei, Le Hou, Andrew Lampinen, Xiangning Chen, Da Huang, Yi Tay, Xinyun Chen, Yifeng Lu, Denny Zhou, Tengyu Ma, Quoc V. Le

Apresentamos o ajuste por símbolos - o ajuste fino de modelos de linguagem em pares entrada-rótulo no contexto, onde os rótulos em linguagem natural (por exemplo, "sentimento positivo/negativo") são substituídos por símbolos arbitrários (por exemplo, "foo/bar"). O ajuste por símbolos aproveita a intuição de que, quando um modelo não pode usar instruções ou rótulos em linguagem natural para entender uma tarefa, ele deve fazê-lo aprendendo os mapeamentos entre entradas e rótulos. Realizamos experimentos com ajuste por símbolos em modelos Flan-PaLM de até 540 bilhões de parâmetros e observamos benefícios em várias configurações. Primeiro, o ajuste por símbolos melhora o desempenho em tarefas de aprendizado no contexto não vistas anteriormente e é muito mais robusto a prompts mal especificados, como aqueles sem instruções ou sem rótulos em linguagem natural. Segundo, os modelos ajustados por símbolos são muito mais fortes em tarefas de raciocínio algorítmico, com até 18,2% de melhoria no benchmark List Functions e até 15,3% de melhoria no benchmark Simple Turing Concepts. Por fim, os modelos ajustados por símbolos mostram grandes melhorias ao seguir rótulos invertidos apresentados no contexto, o que significa que são mais capazes de usar informações no contexto para substituir conhecimentos semânticos prévios.

Aproveitando Modelos de Linguagem de Grande Escala em Sistemas de Recomendação Conversacionais
Leveraging Large Language Models in Conversational Recommender Systems

May 13

ByLuke Friedman, Sameer Ahuja, David Allen, Terry Tan, Hakim Sidahmed, Changbo Long, Jun Xie, Gabriel Schubiner, Ajay Patel, Harsh Lara, Brian Chu, Zexi Chen, Manoj Tiwari

Um Sistema de Recomendação Conversacional (CRS, na sigla em inglês) oferece maior transparência e controle aos usuários, permitindo que eles interajam com o sistema por meio de um diálogo em tempo real e de múltiplas etapas. Recentemente, Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) demonstraram uma capacidade sem precedentes de conversar naturalmente e incorporar conhecimento do mundo e raciocínio de senso comum na compreensão da linguagem, desbloqueando o potencial desse paradigma. No entanto, aproveitar efetivamente os LLMs dentro de um CRS introduz novos desafios técnicos, incluindo a compreensão e o controle adequados de uma conversa complexa e a recuperação de fontes externas de informação. Esses problemas são exacerbados por um grande e dinâmico corpus de itens e pela falta de dados conversacionais para treinamento. Neste artigo, fornecemos um roteiro para a construção de um CRS de grande escala de ponta a ponta usando LLMs. Em particular, propomos novas implementações para compreensão das preferências do usuário, gerenciamento flexível de diálogo e recomendações explicáveis como parte de uma arquitetura integrada alimentada por LLMs. Para melhorar a personalização, descrevemos como um LLM pode consumir perfis de usuário interpretáveis em linguagem natural e usá-los para modular o contexto em nível de sessão. Para superar as limitações de dados conversacionais na ausência de um CRS de produção existente, propomos técnicas para construir um simulador de usuário baseado em LLM controlável para gerar conversas sintéticas. Como prova de conceito, apresentamos o RecLLM, um CRS de grande escala para vídeos do YouTube construído sobre o LaMDA, e demonstramos sua fluência e funcionalidade diversificada por meio de alguns exemplos ilustrativos de conversas.

Decomposição e Interpretação de Linguagem Natural para Declarações Complexas
Natural Language Decomposition and Interpretation of Complex Utterances

May 15

ByHarsh Jhamtani, Hao Fang, Patrick Xia, Eran Levy, Jacob Andreas, Ben Van Durme

Interfaces de linguagem natural frequentemente exigem dados supervisionados para traduzir solicitações dos usuários em programas, consultas de banco de dados ou outras representações estruturadas de intenção. Durante a coleta de dados, pode ser difícil antecipar e formalizar a gama completa de necessidades dos usuários -- por exemplo, em um sistema projetado para lidar com solicitações simples (como encontrar minhas reuniões amanhã ou mover minha reunião com meu gerente para o meio-dia), os usuários também podem expressar solicitações mais elaboradas (como trocar todas as minhas chamadas de segunda e terça-feira). Introduzimos uma abordagem para equipar um modelo simples de linguagem-para-código a lidar com enunciados complexos por meio de um processo de decomposição hierárquica de linguagem natural. Nossa abordagem utiliza um modelo de linguagem pré-treinado para decompor um enunciado complexo em uma sequência de etapas menores de linguagem natural, em seguida, interpreta cada etapa usando o modelo de linguagem-para-código. Para testar nossa abordagem, coletamos e lançamos o DeCU -- um novo benchmark de NL-para-programa para avaliar a Decomposição de Enunciados Complexos. Experimentos mostram que a abordagem proposta permite a interpretação de enunciados complexos com quase nenhum dado de treinamento complexo, superando abordagens padrão de prompting com poucos exemplos.

AutoRecon: Descoberta e Reconstrução Automatizada de Objetos 3D
AutoRecon: Automated 3D Object Discovery and Reconstruction

May 15

ByYuang Wang, Xingyi He, Sida Peng, Haotong Lin, Hujun Bao, Xiaowei Zhou

Um pipeline totalmente automatizado para reconstrução de objetos é crucial para a criação de conteúdo digital. Embora a área de reconstrução 3D tenha testemunhado avanços significativos, a remoção do fundo para obter um modelo limpo do objeto ainda depende de diferentes formas de trabalho manual, como a rotulagem de caixas delimitadoras, anotações de máscaras e manipulações de malhas. Neste artigo, propomos uma nova estrutura chamada AutoRecon para a descoberta e reconstrução automatizada de um objeto a partir de imagens de múltiplas vistas. Demonstramos que objetos em primeiro plano podem ser localizados e segmentados de forma robusta a partir de nuvens de pontos SfM, aproveitando recursos auto-supervisionados de transformadores de visão 2D. Em seguida, reconstruímos representações de cena neural decompostas com supervisão densa fornecida pelas nuvens de pontos decompostas, resultando em reconstrução e segmentação precisas do objeto. Experimentos nos conjuntos de dados DTU, BlendedMVS e CO3D-V2 demonstram a eficácia e robustez do AutoRecon.

Pré-treinamento para Aprender em Contexto
Pre-Training to Learn in Context

May 16

ByYuxian Gu, Li Dong, Furu Wei, Minlie Huang

O aprendizado em contexto, onde modelos de linguagem pré-treinados aprendem a realizar tarefas a partir de exemplos de tarefas e instruções em seus contextos, tem atraído muita atenção na comunidade de PLN. No entanto, a capacidade do aprendizado em contexto não é totalmente explorada porque os modelos de linguagem não são explicitamente treinados para aprender em contexto. Para isso, propomos o PICL (Pre-training for In-Context Learning), uma estrutura para aprimorar a capacidade de aprendizado em contexto dos modelos de linguagem, pré-treinando o modelo em uma grande coleção de "tarefas intrínsecas" no corpus geral de texto simples, utilizando o objetivo simples de modelagem de linguagem. O PICL incentiva o modelo a inferir e realizar tarefas condicionando-se aos contextos, mantendo a generalização de tarefas dos modelos pré-treinados. Avaliamos o desempenho do aprendizado em contexto do modelo treinado com PICL em sete conjuntos de dados amplamente utilizados para classificação de texto e no benchmark Super-NaturalInstructions, que contém mais de 100 tarefas de NLP formuladas para geração de texto. Nossos experimentos mostram que o PICL é mais eficaz e generalizável para tarefas do que uma série de baselines, superando modelos de linguagem maiores com quase 4x mais parâmetros. O código está disponível publicamente em https://github.com/thu-coai/PICL.

ULIP-2: Rumo a um Pré-treinamento Multimodal Escalável para Compreensão 3D
ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding

May 14

ByLe Xue, Ning Yu, Shu Zhang, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese

Os recentes avanços nos métodos de pré-treinamento multimodal têm demonstrado eficácia promissora no aprendizado de representações 3D ao alinhar características entre a modalidade 3D, sua contraparte 2D e a modalidade de linguagem correspondente. No entanto, os métodos utilizados pelas estruturas de pré-treinamento multimodal existentes para coletar dados multimodais para aplicações 3D carecem de escalabilidade e abrangência, potencialmente limitando o pleno potencial do aprendizado multimodal. O principal gargalo reside na escalabilidade e abrangência da modalidade de linguagem. Para abordar esse gargalo, introduzimos o ULIP-2, uma estrutura de pré-treinamento multimodal que aproveita modelos de linguagem grandes (LLMs) multimodais de última geração, pré-treinados com conhecimento extenso, para gerar automaticamente contrapartes de linguagem holísticas para objetos 3D. Realizamos experimentos em dois conjuntos de dados em larga escala, Objaverse e ShapeNet55, e disponibilizamos nossos conjuntos de dados de triplas de três modalidades (Nuvem de Pontos 3D - Imagem - Linguagem), denominados "ULIP-Objaverse Triplets" e "ULIP-ShapeNet Triplets". O ULIP-2 requer apenas os próprios dados 3D e elimina a necessidade de qualquer esforço de anotação manual, demonstrando sua escalabilidade; e o ULIP-2 alcança melhorias notáveis na classificação zero-shot downstream no ModelNet40 (74% de Acurácia Top1). Além disso, o ULIP-2 estabelece um novo recorde no benchmark do mundo real ScanObjectNN (91,5% de Acurácia Geral) enquanto utiliza apenas 1,4 milhão de parâmetros (~10x menos que o SOTA atual), significando um avanço no aprendizado de representações 3D multimodal escalável sem anotações humanas. O código e os conjuntos de dados estão disponíveis em https://github.com/salesforce/ULIP.

Codificadores de Áudio e Texto Mascarados são Reavaliadores Multimodais Eficazes
Masked Audio Text Encoders are Effective Multi-Modal Rescorers

May 11

ByJinglun Cai, Monica Sunkara, Xilai Li, Anshu Bhatia, Xiao Pan, Sravan Bodapati

Modelos de Linguagem Mascarada (MLMs) têm se mostrado eficazes para a reavaliação de segunda passagem em sistemas de Reconhecimento Automático de Fala (ASR). Neste trabalho, propomos o Masked Audio Text Encoder (MATE), um modelo de linguagem mascarada multimodal para reavaliação que incorpora representações acústicas no espaço de entrada do MLM. Adotamos o aprendizado contrastivo para alinhar efetivamente as modalidades por meio da aprendizagem de representações compartilhadas. Demonstramos que o uso de um reavaliador multimodal é benéfico para a generalização de domínio do sistema ASR quando os dados do domínio alvo não estão disponíveis. O MATE reduz a taxa de erro de palavras (WER) em 4%-16% em conjuntos de dados do mesmo domínio e em 3%-7% em conjuntos de dados de domínios diferentes, em comparação com a linha de base que utiliza apenas texto. Além disso, com uma quantidade muito limitada de dados de treinamento (0,8 horas), o MATE alcança uma redução de WER de 8%-23% em relação à linha de base de primeira passagem.

Linhas de base aprimoradas para pré-treinamento de visão e linguagem
Improved baselines for vision-language pre-training

May 15

ByEnrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal

O aprendizado contrastivo emergiu como uma estrutura eficiente para aprender representações multimodais. O CLIP, um trabalho seminal nessa área, alcançou resultados impressionantes ao treinar com dados pareados de imagem-texto usando a função de perda contrastiva. Trabalhos recentes afirmam melhorias em relação ao CLIP utilizando perdas adicionais não contrastivas inspiradas no aprendizado auto-supervisionado. No entanto, às vezes é difícil separar a contribuição dessas perdas adicionais de outros detalhes de implementação, como técnicas de aumento de dados ou regularização, usados para treinar o modelo. Para esclarecer essa questão, neste artigo, primeiro propomos, implementamos e avaliamos várias linhas de base obtidas pela combinação do aprendizado contrastivo com avanços recentes no aprendizado auto-supervisionado. Em particular, usamos as funções de perda que se mostraram bem-sucedidas no aprendizado auto-supervisionado visual para alinhar as modalidades de imagem e texto. Descobrimos que essas linhas de base superam uma implementação básica do CLIP. No entanto, quando uma receita de treinamento mais robusta é empregada, a vantagem desaparece. De fato, descobrimos que uma linha de base simples do CLIP também pode ser substancialmente melhorada, com uma melhoria relativa de até 25% em tarefas de zero-shot, utilizando técnicas de treinamento bem conhecidas que são populares em outros subcampos. Além disso, descobrimos que basta aplicar aumentos de imagem e texto para compensar a maior parte da melhoria obtida por trabalhos anteriores. Com nossa receita de treinamento aprimorada para o CLIP, obtemos desempenho de ponta em quatro conjuntos de dados padrão e superamos consistentemente trabalhos anteriores (até +4% no maior conjunto de dados), sendo substancialmente mais simples.

Dr. LLaMA: Aprimorando Modelos de Linguagem Pequenos em QA Específico de Domínio por meio de Aumento de Dados Generativo
Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation

May 12

ByZhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu

Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm feito avanços significativos no processamento de linguagem natural, mas enfrentam desafios em termos de custo computacional e ineficiência à medida que crescem em tamanho, especialmente em tarefas específicas de domínio. Por outro lado, os Modelos de Linguagem de Pequena Escala (SLMs, na sigla em inglês) frequentemente têm dificuldades nessas tarefas devido à capacidade limitada e ao escasso volume de dados de treinamento. Neste artigo, apresentamos o Dr. LLaMA, um método para aprimorar SLMs por meio de aumento de dados generativo utilizando LLMs, com foco em tarefas de resposta a perguntas médicas e no conjunto de dados PubMedQA. Nossos resultados indicam que os LLMs refinam e diversificam efetivamente pares de perguntas e respostas existentes, resultando em um desempenho aprimorado de um modelo muito menor em conjuntos de dados de perguntas e respostas específicos de domínio após o ajuste fino. Este estudo destaca os desafios de usar LLMs para tarefas de resposta a perguntas específicas de domínio e sugere possíveis direções de pesquisa para abordar essas limitações, visando, em última instância, criar modelos mais eficientes e capazes para aplicações especializadas. Também disponibilizamos nosso código para pesquisadores interessados.

Interpretabilidade em Escala: Identificando Mecanismos Causais no Alpaca
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

May 15

ByZhengxuan Wu, Atticus Geiger, Christopher Potts, Noah D. Goodman

Obter explicações interpretáveis por humanos de modelos de linguagem grandes e de propósito geral é um objetivo urgente para a segurança da IA. No entanto, é igualmente importante que nossos métodos de interpretabilidade sejam fiéis às dinâmicas causais subjacentes ao comportamento do modelo e capazes de generalizar de forma robusta para entradas não vistas. O Distributed Alignment Search (DAS) é um poderoso método de descida de gradiente fundamentado em uma teoria de abstração causal que revelou alinhamentos perfeitos entre algoritmos simbólicos interpretáveis e pequenos modelos de aprendizado profundo ajustados para tarefas específicas. No presente artigo, escalamos significativamente o DAS substituindo as etapas restantes de busca por força bruta por parâmetros aprendidos — uma abordagem que chamamos de DAS. Isso nos permite buscar eficientemente por estrutura causal interpretável em grandes modelos de linguagem enquanto eles seguem instruções. Aplicamos o DAS ao modelo Alpaca (7 bilhões de parâmetros), que, de imediato, resolve um problema simples de raciocínio numérico. Com o DAS, descobrimos que o Alpaca faz isso implementando um modelo causal com duas variáveis booleanas interpretáveis. Além disso, descobrimos que o alinhamento das representações neurais com essas variáveis é robusto a mudanças nas entradas e nas instruções. Essas descobertas marcam um primeiro passo em direção a um entendimento profundo do funcionamento interno de nossos maiores e mais amplamente implantados modelos de linguagem.

Pré-treinamento de Alinhamento Duplo para Incorporação de Sentenças Translinguísticas
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding

May 16

ByZiheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang

Estudos recentes mostraram que modelos de codificador duplo treinados com a tarefa de classificação de tradução em nível de sentença são métodos eficazes para incorporação de sentenças cruzadas. No entanto, nossa pesquisa indica que o alinhamento em nível de token também é crucial em cenários multilíngues, o que não foi totalmente explorado anteriormente. Com base em nossas descobertas, propomos uma estrutura de pré-treinamento de alinhamento duplo (DAP) para incorporação de sentenças cruzadas que incorpora tanto o alinhamento em nível de sentença quanto em nível de token. Para alcançar isso, introduzimos uma nova tarefa de aprendizado de tradução de representação (RTL), na qual o modelo aprende a usar a representação contextualizada de token de um lado para reconstruir sua contraparte de tradução. Esse objetivo de reconstrução incentiva o modelo a incorporar informações de tradução na representação de token. Em comparação com outros métodos de alinhamento em nível de token, como a modelagem de linguagem de tradução, o RTL é mais adequado para arquiteturas de codificador duplo e é computacionalmente eficiente. Experimentos extensivos em três benchmarks cruzados em nível de sentença demonstram que nossa abordagem pode melhorar significativamente a incorporação de sentenças. Nosso código está disponível em https://github.com/ChillingDream/DAP.

GPT-Sentinel: Distinguindo Conteúdo Gerado por Humanos e ChatGPT
GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content

May 13

ByYutian Chen, Hao Kang, Vivian Zhai, Liangze Li, Rita Singh, Bhiksha Ramakrishnan

Este artigo apresenta uma abordagem inovadora para detectar textos gerados pelo ChatGPT versus textos escritos por humanos, utilizando modelos de linguagem. Para isso, inicialmente coletamos e disponibilizamos um conjunto de dados pré-processado chamado OpenGPTText, que consiste em conteúdos reformulados gerados pelo ChatGPT. Em seguida, projetamos, implementamos e treinamos dois modelos diferentes para classificação de texto, utilizando respectivamente a Abordagem de Pré-treinamento BERT Otimizada de Forma Robusta (RoBERTa) e o Transformador de Transferência Texto-para-Texto (T5). Nossos modelos alcançaram resultados notáveis, com uma precisão superior a 97% no conjunto de testes, conforme avaliado por diversas métricas. Além disso, realizamos um estudo de interpretabilidade para demonstrar a capacidade do nosso modelo de extrair e diferenciar características-chave entre textos escritos por humanos e textos gerados pelo ChatGPT. Nossas descobertas fornecem insights importantes sobre o uso eficaz de modelos de linguagem para detectar textos gerados.

RL4F: Geração de Feedback em Linguagem Natural com Aprendizado por Reforço para Correção de Saídas de Modelos
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs

May 15

ByAfra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon

Apesar de seu sucesso sem precedentes, até os maiores modelos de linguagem cometem erros. Semelhante à forma como os humanos aprendem e melhoram com feedback, trabalhos anteriores propuseram fornecer feedback em linguagem natural aos modelos de linguagem para orientá-los na correção de suas saídas. Como as críticas geradas por humanos são caras de obter, os pesquisadores desenvolveram geradores de críticas aprendidos como substitutos para críticos humanos, assumindo que é possível treinar modelos subsequentes para utilizar o feedback gerado. No entanto, essa abordagem não se aplica a modelos de caixa preta ou de acesso limitado, como o ChatGPT, pois eles não podem ser ajustados. Além disso, na era dos grandes agentes de linguagem de propósito geral, o ajuste fino não é eficiente nem computacionalmente nem espacialmente, pois resulta em múltiplas cópias da rede. Neste trabalho, introduzimos o RL4F (Reinforcement Learning for Feedback), uma estrutura colaborativa multiagente em que o gerador de críticas é treinado para maximizar o desempenho da tarefa final do GPT-3, um modelo fixo mais de 200 vezes maior que ele. O RL4F produz críticas que ajudam o GPT-3 a revisar suas saídas. Estudamos três conjuntos de dados para planejamento de ações, sumarização e alfabetização e mostramos melhorias (~5% em média) em múltiplas métricas de similaridade de texto em relação a linhas de base fortes em todas as três tarefas.

Rumo à Resolução de Perguntas Médicas em Nível de Especialista com Modelos de Linguagem de Grande Escala
Towards Expert-Level Medical Question Answering with Large Language Models

May 16