Artigos de pesquisa em IA selecionados diariamente com traduções
A personalização de modelos de texto para imagem visa introduzir um conceito fornecido pelo usuário ao modelo, permitindo sua síntese em diversos contextos. No entanto, os métodos atuais concentram-se principalmente no caso de aprender um único conceito a partir de múltiplas imagens com variações de fundos e poses, e enfrentam dificuldades quando adaptados a um cenário diferente. Neste trabalho, introduzimos a tarefa de decomposição textual de cenas: dada uma única imagem de uma cena que pode conter vários conceitos, nosso objetivo é extrair um token de texto distinto para cada conceito, permitindo um controle refinado sobre as cenas geradas. Para isso, propomos aumentar a imagem de entrada com máscaras que indicam a presença de conceitos-alvo. Essas máscaras podem ser fornecidas pelo usuário ou geradas automaticamente por um modelo de segmentação pré-treinado. Em seguida, apresentamos um novo processo de personalização em duas fases que otimiza um conjunto de embeddings textuais dedicados (handles), bem como os pesos do modelo, alcançando um equilíbrio delicado entre capturar os conceitos com precisão e evitar o overfitting. Empregamos uma perda de difusão mascarada para permitir que os handles gerem seus conceitos atribuídos, complementada por uma nova perda em mapas de atenção cruzada para evitar o entrelaçamento. Também introduzimos o union-sampling, uma estratégia de treinamento que visa melhorar a capacidade de combinar múltiplos conceitos em imagens geradas. Utilizamos várias métricas automáticas para comparar quantitativamente nosso método com várias baselines, e confirmamos ainda mais os resultados por meio de um estudo com usuários. Por fim, apresentamos várias aplicações do nosso método. A página do projeto está disponível em: https://omriavrahami.com/break-a-scene/
Neste artigo, apresentamos o ControlVideo, um método inovador para edição de vídeo orientada por texto. Aproveitando as capacidades dos modelos de difusão texto-para-imagem e do ControlNet, o ControlVideo visa aprimorar a fidelidade e a consistência temporal de vídeos que se alinham a um texto fornecido, preservando a estrutura do vídeo original. Isso é alcançado por meio da incorporação de condições adicionais, como mapas de borda, e do ajuste fino da atenção em quadros-chave e temporal no par vídeo-texto de origem, com estratégias cuidadosamente projetadas. Uma exploração detalhada do design do ControlVideo é realizada para orientar pesquisas futuras sobre o ajuste único de modelos de difusão de vídeo. Quantitativamente, o ControlVideo supera uma série de linhas de base competitivas em termos de fidelidade e consistência, mantendo-se alinhado ao prompt textual. Além disso, ele produz vídeos com alto realismo visual e fidelidade em relação ao conteúdo original, demonstrando flexibilidade na utilização de controles que contêm diferentes níveis de informação do vídeo de origem e o potencial para múltiplas combinações de controles. A página do projeto está disponível em https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
A arquitetura Transformer tem demonstrado desempenho impressionante em múltiplos domínios de pesquisa e se tornou a base de muitos modelos de redes neurais. No entanto, há uma compreensão limitada sobre como ela funciona. Em particular, com uma simples função de perda preditiva, como a representação emerge da dinâmica de treinamento por gradiente permanece um mistério. Neste artigo, para um Transformer de uma camada composto por uma camada de autoatenção mais uma camada decodificadora, analisamos sua dinâmica de treinamento com SGD (Descida de Gradiente Estocástica) para a tarefa de previsão do próximo token de forma matematicamente rigorosa. Abrimos a caixa preta do processo dinâmico de como a camada de autoatenção combina os tokens de entrada e revelamos a natureza do viés indutivo subjacente. Mais especificamente, com as suposições de (a) ausência de codificação posicional, (b) sequência de entrada longa e (c) a camada decodificadora aprendendo mais rápido que a camada de autoatenção, provamos que a autoatenção age como um algoritmo de varredura discriminativo: partindo de uma atenção uniforme, ela gradualmente passa a atender mais a tokens-chave distintos para um próximo token específico a ser previsto, e presta menos atenção a tokens-chave comuns que ocorrem em diferentes próximos tokens. Entre os tokens distintos, ela progressivamente reduz os pesos de atenção, seguindo a ordem de baixa para alta co-ocorrência entre o token-chave e o token de consulta no conjunto de treinamento. Curiosamente, esse procedimento não leva a um cenário de "vencedor leva tudo", mas desacelera devido a uma transição de fase que é controlável pelas taxas de aprendizado das duas camadas, resultando em uma combinação de tokens (quase) fixa. Verificamos essa dinâmica de \emph{varredura e fixação} em dados sintéticos e do mundo real (WikiText).
Tanto a "sociedade da mente" de Minsky quanto o "aprender a pensar" de Schmidhuber inspiram sociedades diversas de grandes redes neurais multimodais (NNs) que resolvem problemas ao se entrevistarem mutuamente em uma "tempestade mental". Implementações recentes de sociedades da mente baseadas em NNs consistem em grandes modelos de linguagem (LLMs) e outros especialistas baseados em NNs que se comunicam por meio de uma interface de linguagem natural. Ao fazer isso, elas superam as limitações de LLMs individuais, melhorando o raciocínio multimodal zero-shot. Nessas sociedades da mente baseadas em linguagem natural (NLSOMs), novos agentes — todos se comunicando através da mesma linguagem simbólica universal — são facilmente adicionados de forma modular. Para demonstrar o poder das NLSOMs, montamos e experimentamos com várias delas (com até 129 membros), aproveitando tempestades mentais nelas para resolver algumas tarefas práticas de IA: resposta a perguntas visuais, legendagem de imagens, síntese de texto para imagem, geração 3D, recuperação egocêntrica, IA incorporada e resolução geral de tarefas baseadas em linguagem. Vemos isso como um ponto de partida para NLSOMs muito maiores com bilhões de agentes — alguns dos quais podem ser humanos. E com o surgimento dessas grandes sociedades de mentes heterogêneas, muitas novas questões de pesquisa tornaram-se repentinamente fundamentais para o futuro da inteligência artificial. Qual deve ser a estrutura social de uma NLSOM? Quais seriam as (des)vantagens de ter uma estrutura monárquica em vez de democrática? Como os princípios das economias de NNs podem ser usados para maximizar a recompensa total de uma NLSOM de aprendizado por reforço? Neste trabalho, identificamos, discutimos e tentamos responder a algumas dessas questões.
Agentes de tomada de decisão baseados em modelos de linguagem de grande escala (LLMs) demonstraram a capacidade de generalizar em múltiplas tarefas. No entanto, seu desempenho depende de grandes volumes de dados e poder computacional. Argumentamos que essa ineficiência decorre do fenômeno de esquecimento, no qual um modelo memoriza seus comportamentos nos parâmetros ao longo do treinamento. Como resultado, o treinamento em uma nova tarefa pode deteriorar o desempenho do modelo em tarefas anteriores. Em contraste com o mecanismo de memória implícita dos LLMs, o cérebro humano utiliza um armazenamento de memória distribuído, que ajuda a gerenciar e organizar múltiplas habilidades de forma eficiente, mitigando o fenômeno de esquecimento. Assim inspirados, propomos um módulo de memória de trabalho interno para armazenar, combinar e recuperar informações para diferentes tarefas subsequentes. Os resultados da avaliação mostram que o método proposto melhora a eficiência do treinamento e a generalização tanto em jogos Atari quanto em tarefas de manipulação de objetos no meta-mundo. Além disso, demonstramos que o ajuste fino da memória aprimora ainda mais a adaptabilidade da arquitetura proposta.
Aprender com o feedback humano tem se mostrado eficaz para melhorar modelos de texto para imagem. Essas técnicas primeiro aprendem uma função de recompensa que captura o que os humanos consideram importante na tarefa e, em seguida, aprimoram os modelos com base na função de recompensa aprendida. Embora abordagens relativamente simples (por exemplo, amostragem por rejeição com base em pontuações de recompensa) tenham sido investigadas, o ajuste fino de modelos de texto para imagem com a função de recompensa ainda é desafiador. Neste trabalho, propomos o uso de aprendizado por reforço online (RL) para ajustar modelos de texto para imagem. Focamos em modelos de difusão, definindo a tarefa de ajuste fino como um problema de RL e atualizando os modelos pré-treinados de difusão de texto para imagem usando gradiente de política para maximizar a recompensa treinada com feedback. Nossa abordagem, denominada DPOK, integra otimização de política com regularização KL. Realizamos uma análise da regularização KL tanto para ajuste fino com RL quanto para ajuste fino supervisionado. Em nossos experimentos, mostramos que o DPOK geralmente supera o ajuste fino supervisionado em termos de alinhamento texto-imagem e qualidade da imagem.
À medida que os agentes de diálogo se tornam cada vez mais humanizados em seu desempenho, é essencial que desenvolvamos maneiras eficazes de descrever seu comportamento em termos de alto nível, sem cair na armadilha do antropomorfismo. Neste artigo, destacamos o conceito de interpretação de papéis. Enquadrar o comportamento dos agentes de diálogo em termos de interpretação de papéis nos permite recorrer a termos familiares da psicologia popular, sem atribuir características humanas a modelos de linguagem que, na verdade, não as possuem. Dois casos importantes do comportamento de agentes de diálogo são abordados dessa forma, a saber, a (aparente) decepção e a (aparente) autoconsciência.
Apresentamos o PandaGPT, uma abordagem para capacitar grandes modelos de linguagem com habilidades de seguir instruções visuais e auditivas. Nossos experimentos preliminares mostram que o PandaGPT pode realizar tarefas complexas, como a geração de descrições detalhadas de imagens, a criação de histórias inspiradas em vídeos e a resposta a perguntas sobre áudios. Mais interessante ainda, o PandaGPT pode receber entradas multimodais simultaneamente e compor suas semânticas de forma natural. Por exemplo, o PandaGPT pode conectar a aparência de objetos em uma imagem/vídeo com o som que eles emitem em um áudio. Para isso, o PandaGPT combina os codificadores multimodais do ImageBind e os grandes modelos de linguagem do Vicuna. Vale destacar que apenas pares de imagem-texto alinhados são necessários para o treinamento do PandaGPT. Graças à forte capacidade do ImageBind em incorporar dados de diferentes modalidades no mesmo espaço, o PandaGPT exibe comportamentos emergentes, ou seja, zero-shot, para dados além de imagem e texto (por exemplo, vídeo, áudio, profundidade, térmico e IMU). Esperamos que o PandaGPT sirva como um passo inicial na construção de uma IAG (Inteligência Artificial Geral) que possa perceber e entender entradas em diferentes modalidades de forma holística, como nós, humanos, fazemos. Nossa página do projeto está em https://panda-gpt.github.io/.
Pesquisas recentes mostram o potencial de aprimorar a capacidade de resolução de problemas de grandes modelos de linguagem (LLMs) por meio do uso de ferramentas externas. No entanto, trabalhos anteriores nessa linha dependem da disponibilidade de ferramentas existentes. Neste trabalho, damos um passo inicial para remover essa dependência propondo uma estrutura de loop fechado, denominada LLMs As Tool Makers (LATM), na qual os LLMs criam suas próprias ferramentas reutilizáveis para a resolução de problemas. Nossa abordagem consiste em duas fases principais: 1) criação de ferramentas: um LLM atua como o criador de ferramentas que desenvolve ferramentas para tarefas específicas, onde uma ferramenta é implementada como uma função utilitária em Python. 2) uso de ferramentas: um LLM atua como o usuário da ferramenta, aplicando a ferramenta construída pelo criador para resolver problemas. O usuário da ferramenta pode ser o mesmo LLM ou um LLM diferente do criador. A criação de ferramentas permite que um LLM gere continuamente ferramentas que podem ser aplicadas a diferentes solicitações, de modo que futuras solicitações possam chamar as APIs correspondentes quando for benéfico para resolver as tarefas. Além disso, a divisão de trabalho entre LLMs para as fases de criação e uso de ferramentas introduz a oportunidade de alcançar eficiência de custos sem degradar a qualidade das ferramentas geradas e das soluções de problemas. Por exemplo, reconhecendo que a criação de ferramentas exige capacidades mais sofisticadas do que o uso de ferramentas, podemos aplicar um modelo poderoso, porém intensivo em recursos, como o criador de ferramentas, e um modelo leve e econômico como o usuário da ferramenta. Validamos a eficácia de nossa abordagem em uma variedade de tarefas complexas de raciocínio, incluindo tarefas do Big-Bench. Com o GPT-4 como criador de ferramentas e o GPT-3.5 como usuário da ferramenta, o LATM pode alcançar um desempenho equivalente ao uso do GPT-4 para ambas as fases, enquanto o custo de inferência é significativamente reduzido.
O alinhamento social em sistemas de IA visa garantir que esses modelos se comportem de acordo com os valores sociais estabelecidos. No entanto, ao contrário dos humanos, que alcançam consenso sobre julgamentos de valor por meio de interações sociais, os modelos de linguagem (LMs) atuais são treinados para replicar rigidamente seu corpus de treinamento de forma isolada, resultando em generalização insatisfatória em cenários desconhecidos e vulnerabilidade a ataques adversariais. Este trabalho apresenta um novo paradigma de treinamento que permite que os LMs aprendam a partir de interações sociais simuladas. Em comparação com as metodologias existentes, nossa abordagem é consideravelmente mais escalável e eficiente, demonstrando desempenho superior em benchmarks de alinhamento e avaliações humanas. Essa mudança de paradigma no treinamento de LMs nos aproxima um passo mais perto de desenvolver sistemas de IA que possam refletir de forma robusta e precisa as normas e valores sociais.
Apresentamos o Three Towers (3T), um método flexível para aprimorar o aprendizado contrastivo de modelos de visão e linguagem ao incorporar classificadores de imagem pré-treinados. Embora os modelos contrastivos sejam geralmente treinados do zero, o LiT (Zhai et al., 2022) demonstrou recentemente ganhos de desempenho ao utilizar embeddings de classificadores pré-treinados. No entanto, o LiT substitui diretamente a torre de imagem pelos embeddings congelados, excluindo quaisquer benefícios potenciais do treinamento contrastivo da torre de imagem. Com o 3T, propomos uma estratégia mais flexível que permite que a torre de imagem se beneficie tanto dos embeddings pré-treinados quanto do treinamento contrastivo. Para isso, introduzimos uma terceira torre que contém os embeddings pré-treinados congelados, e incentivamos o alinhamento entre essa terceira torre e as principais torres de imagem e texto. Empiricamente, o 3T consistentemente supera o LiT e a linha de base estilo CLIP treinada do zero em tarefas de recuperação. Para classificação, o 3T melhora de forma confiável em relação à linha de base treinada do zero, e embora tenha desempenho inferior ao LiT para modelos pré-treinados com JFT, ele supera o LiT para pré-treinamento com ImageNet-21k e Places365.
Modelos de linguagem autoregressivos são treinados minimizando a entropia cruzada da distribuição do modelo Q em relação à distribuição dos dados P — ou seja, minimizando a entropia cruzada direta, o que equivale à estimativa de máxima verossimilhança (MLE). Observamos que modelos treinados dessa forma podem "supergeneralizar", no sentido de que produzem textos que não parecem humanos. Além disso, acreditamos que a entropia cruzada reversa, ou seja, a entropia cruzada de P em relação a Q, reflete melhor como um humano avaliaria o texto gerado por um modelo. Portanto, propomos o aprendizado com MixCE, uma função objetivo que combina as entropias cruzadas direta e reversa. Avaliamos modelos treinados com essa função em cenários de dados sintéticos (onde P é conhecido) e em dados reais, e mostramos que os modelos resultantes produzem textos gerados de melhor qualidade sem a necessidade de estratégias complexas de decodificação. Nosso código e modelos estão disponíveis publicamente em https://github.com/bloomberg/mixce-acl2023.
Embeddings de tokens, um mapeamento de símbolos lexicais discretos para vetores contínuos, estão no cerne de qualquer modelo de linguagem (LM). No entanto, os significados dos símbolos lexicais também podem ser determinados e até redefinidos por seu papel estrutural em um contexto longo. Neste artigo, perguntamos: é possível que um modelo de linguagem seja eficaz sem embeddings de tokens fixos? Tal modelo de linguagem teria que depender inteiramente da co-ocorrência e repetição de tokens no contexto, em vez da identidade a priori de qualquer token. Para responder a isso, estudamos modelos de linguagem lexinvariantes que são invariantes a símbolos lexicais e, portanto, não precisam de embeddings de tokens fixos na prática. Primeiro, provamos que podemos construir um LM lexinvariante para convergir ao modelo de linguagem verdadeiro a uma taxa uniforme que é polinomial em termos do comprimento do contexto, com um fator constante que é sublinear no tamanho do vocabulário. Segundo, para construir um LM lexinvariante, simplesmente codificamos tokens usando vetores gaussianos aleatórios, de modo que cada token mapeie para a mesma representação dentro de cada sequência, mas diferentes representações entre sequências. Empiricamente, demonstramos que ele pode de fato atingir perplexidade comparável à de um modelo de linguagem padrão, dado um contexto suficientemente longo. Exploramos ainda duas propriedades dos modelos de linguagem lexinvariantes: Primeiro, dado texto gerado a partir de uma cifra de substituição do inglês, ele implementa implicitamente a decifração bayesiana no contexto e infere o mapeamento para os tokens reais subjacentes com alta precisão. Segundo, ele tem, em média, 4X melhor precisão em tarefas de raciocínio sintético no contexto. Por fim, discutimos a regularização de modelos de linguagem padrão em direção à lexinvariância e potenciais aplicações práticas.
Modelos de Linguagem de Grande Escala (LLMs) estão transformando a sociedade e permeando diversas aplicações. Como resultado, os LLMs frequentemente interagirão conosco e com outros agentes. Portanto, é de grande valor social entender como os LLMs se comportam em cenários sociais interativos. Aqui, propomos usar a teoria dos jogos comportamental para estudar o comportamento de cooperação e coordenação dos LLMs. Para isso, fizemos diferentes LLMs (GPT-3, GPT-3.5 e GPT-4) jogarem jogos repetidos finitos entre si e com outras estratégias semelhantes às humanas. Nossos resultados mostram que os LLMs geralmente se saem bem nessas tarefas e também revelam assinaturas comportamentais persistentes. Em um grande conjunto de jogos de dois jogadores e duas estratégias, descobrimos que os LLMs são particularmente bons em jogos onde valorizar o próprio interesse é vantajoso, como na família do Dilema do Prisioneiro iterado. No entanto, eles se comportam de forma subótima em jogos que exigem coordenação. Portanto, focamos ainda mais em dois jogos dessas famílias distintas. No Dilema do Prisioneiro iterado canônico, descobrimos que o GPT-4 age de forma particularmente implacável, sempre desertando após outro agente ter desertado apenas uma vez. No Jogo da Batalha dos Sexos, descobrimos que o GPT-4 não consegue igualar o comportamento da simples convenção de alternar entre as opções. Verificamos que essas assinaturas comportamentais são estáveis em verificações de robustez. Por fim, mostramos como o comportamento do GPT-4 pode ser modificado fornecendo mais informações sobre o outro jogador e pedindo que ele preveja as ações do outro jogador antes de fazer uma escolha. Esses resultados enriquecem nossa compreensão do comportamento social dos LLMs e abrem caminho para uma teoria dos jogos comportamental para máquinas.
Os Transformadores possuem capacidades impressionantes de generalização em tarefas com um comprimento de contexto fixo. No entanto, eles falham em generalizar para sequências de comprimento arbitrário, mesmo para tarefas aparentemente simples, como duplicar uma string. Além disso, simplesmente treinar em sequências mais longas é ineficiente devido à complexidade computacional quadrática do mecanismo de atenção global. Neste trabalho, demonstramos que essa falha está relacionada às codificações posicionais estarem fora da distribuição para sequências mais longas (mesmo para codificações relativas) e introduzimos uma nova família de codificações posicionais que pode superar esse problema. Concretamente, nosso esquema de codificação posicional randomizada simula as posições de sequências mais longas e seleciona aleatoriamente um subconjunto ordenado para se ajustar ao comprimento da sequência. Nossa avaliação empírica em larga escala de 6000 modelos em 15 tarefas de raciocínio algorítmico mostra que nosso método permite que os Transformadores generalizem para sequências de comprimento não visto (aumentando a precisão do teste em 12,0% em média).
É comumente percebido que os modelos de linguagem (LMs) mais poderosos dependem de uma combinação de escala massiva, dados de instrução e feedback humano para realizar tarefas especializadas -- por exemplo, sumarização e paráfrase, sem supervisão. Neste artigo, propomos que os modelos de linguagem podem aprender a sumarizar e parafrasear frases, sem nenhum desses 3 fatores. Apresentamos a Destilação Impossível, uma estrutura que destila um conjunto de dados específico para uma tarefa diretamente de um LM pronto para uso, mesmo quando é impossível para o próprio LM resolver a tarefa de forma confiável. Ao treinar um modelo estudante no conjunto de dados gerado e ampliar sua capacidade por meio de auto-destilação, nosso método produz um modelo e um conjunto de dados de alta qualidade a partir de um modelo professor de baixa qualidade, sem a necessidade de escala ou supervisão. Usando a Destilação Impossível, conseguimos destilar um modelo uma ordem de magnitude menor (com apenas 770M de parâmetros) que supera o GPT-3 de 175B de parâmetros, tanto em qualidade quanto em controlabilidade, conforme confirmado por avaliações automáticas e humanas. Além disso, como um subproduto útil de nossa abordagem, obtemos o DIMSUM+, um conjunto de dados de alta qualidade com 3,4M de resumos e paráfrases de frases. Nossas análises mostram que este conjunto de dados, como um corpus puramente gerado por LM, é mais diverso e mais eficaz para generalização para domínios não vistos do que todos os conjuntos de dados criados por humanos -- incluindo o Gigaword com 4M de amostras.
O aprendizado em contexto, uma capacidade que permite a um modelo aprender a partir de exemplos de entrada de forma dinâmica sem a necessidade de atualizações de pesos, é uma característica definidora dos grandes modelos de linguagem. Neste trabalho, seguimos o cenário proposto em (Garg et al., 2022) para compreender melhor a generalidade e as limitações do aprendizado em contexto sob a perspectiva da tarefa simples, porém fundamental, de regressão linear. A questão central que buscamos abordar é: os transformadores são mais habilidosos do que algumas arquiteturas naturais e mais simples na execução do aprendizado em contexto sob diferentes mudanças de distribuição? Para comparar os transformadores, propomos o uso de uma arquitetura simples baseada em Perceptrons Multicamadas (MLPs) baseados em conjuntos. Descobrimos que tanto os transformadores quanto os MLPs baseados em conjuntos exibem aprendizado em contexto em avaliações dentro da distribuição, mas os transformadores se aproximam mais do desempenho dos mínimos quadrados ordinários (OLS). Os transformadores também demonstram maior resiliência a mudanças leves de distribuição, onde os MLPs baseados em conjuntos falham. No entanto, sob mudanças severas de distribuição, as habilidades de aprendizado em contexto de ambos os modelos diminuem.
Avanços recentes na geração de texto para imagem permitiram progressos significativos na geração de formas 3D em zero-shot. Isso é alcançado por meio da destilação de pontuação, uma metodologia que utiliza modelos de difusão pré-treinados de texto para imagem para otimizar os parâmetros de uma representação neural 3D, como o Neural Radiance Field (NeRF). Embora mostrem resultados promissores, os métodos existentes frequentemente não conseguem preservar a geometria de formas complexas, como corpos humanos. Para enfrentar esse desafio, apresentamos o ZeroAvatar, um método que introduz o conhecimento prévio explícito do corpo humano 3D no processo de otimização. Especificamente, primeiro estimamos e refinamos os parâmetros de um corpo humano paramétrico a partir de uma única imagem. Em seguida, durante a otimização, usamos o corpo paramétrico posicionado como uma restrição geométrica adicional para regularizar o modelo de difusão, bem como o campo de densidade subjacente. Por fim, propomos um termo de regularização de textura guiada por UV para orientar ainda mais a conclusão da textura em partes invisíveis do corpo. Demonstramos que o ZeroAvatar melhora significativamente a robustez e a consistência 3D da geração de avatares 3D baseada em otimização de imagem, superando os métodos existentes de imagem para 3D em zero-shot.
Modelos de Linguagem de Grande Escala (LLMs), como o GPT-3, surgiram como modelos de linguagem de propósito geral capazes de abordar diversas tarefas de geração ou compreensão de linguagem natural. No contexto de Tradução Automática (MT), vários trabalhos investigaram mecanismos de "few-shot prompting" para eliciar traduções melhores a partir de LLMs. No entanto, houve relativamente pouca investigação sobre como essas traduções diferem qualitativamente das geradas por modelos padrão de Tradução Automática Neural (NMT). Neste trabalho, investigamos essas diferenças em termos da literalidade das traduções produzidas pelos dois sistemas. Utilizando medidas de literalidade que envolvem alinhamento de palavras e monotonicidade, descobrimos que as traduções do inglês para outras línguas (E-X) geradas pelos GPTs tendem a ser menos literais, ao mesmo tempo que exibem pontuações similares ou melhores em métricas de qualidade de MT. Demonstramos que essa descoberta também é corroborada em avaliações humanas. Em seguida, mostramos que essas diferenças são especialmente pronunciadas ao traduzir sentenças que contêm expressões idiomáticas.
Na maioria das pesquisas atuais, os grandes modelos de linguagem (LLMs) são capazes de realizar tarefas de raciocínio gerando cadeias de pensamento por meio da orientação de prompts específicos. No entanto, ainda existe uma discrepância significativa entre sua capacidade de resolver problemas complexos de raciocínio e a dos seres humanos. Atualmente, a maioria das abordagens se concentra em cadeias de pensamento (COT) e no uso de ferramentas, sem considerar a adoção e aplicação de estruturas cognitivas humanas. É bem sabido que, ao enfrentar desafios complexos de raciocínio, os seres humanos geralmente empregam várias habilidades cognitivas e necessitam de interação com todos os aspectos de ferramentas, conhecimento e informações do ambiente externo para realizar tarefas intrincadas. Este artigo introduz uma nova estrutura inteligente, denominada OlaGPT. O OlaGPT estudou cuidadosamente uma estrutura de arquitetura cognitiva e propõe simular certos aspectos da cognição humana. A estrutura envolve a aproximação de diferentes módulos cognitivos, incluindo atenção, memória, raciocínio, aprendizado e mecanismos correspondentes de agendamento e tomada de decisão. Inspirado pelo mecanismo de aprendizado ativo dos seres humanos, propõe uma unidade de aprendizado para registrar erros anteriores e opiniões de especialistas, e referenciá-los dinamicamente para fortalecer sua capacidade de resolver problemas semelhantes. O artigo também descreve estruturas comuns de raciocínio eficazes para a resolução de problemas humanos e projeta modelos de Chain-of-Thought (COT) de acordo. Um mecanismo abrangente de tomada de decisão também é proposto para maximizar a precisão do modelo. A eficácia do OlaGPT foi rigorosamente avaliada em vários conjuntos de dados de raciocínio, e os resultados experimentais revelam que o OlaGPT supera os benchmarks state-of-the-art, demonstrando seu desempenho superior. Nossa implementação do OlaGPT está disponível no GitHub: https://github.com/oladata-team/OlaGPT.
Apresentamos as Backpacks: uma nova arquitetura neural que combina forte desempenho de modelagem com uma interface para interpretabilidade e controle. As Backpacks aprendem múltiplos vetores de sentido não contextuais para cada palavra em um vocabulário e representam uma palavra em uma sequência como uma combinação linear não negativa e dependente do contexto desses vetores de sentido. Descobrimos que, após o treinamento, os vetores de sentido se especializam, cada um codificando um aspecto diferente de uma palavra. Podemos interpretar um vetor de sentido inspecionando sua projeção (não contextual e linear) no espaço de saída e intervir nesses ganchos interpretáveis para alterar o comportamento do modelo de maneiras previsíveis. Treinamos um modelo de linguagem Backpack com 170 milhões de parâmetros no OpenWebText, igualando a perda de um Transformer GPT-2 small (124 milhões de parâmetros). Em avaliações de similaridade lexical, constatamos que os vetores de sentido das Backpacks superam até mesmo os embeddings de palavras de um Transformer LM com 6 bilhões de parâmetros. Por fim, apresentamos algoritmos simples que intervêm nos vetores de sentido para realizar geração de texto controlável e redução de viés. Por exemplo, podemos editar o vocabulário de sentido para tender mais a um tópico ou localizar uma fonte de viés de gênero em um vetor de sentido e suprimir globalmente esse sentido.