Artigos de pesquisa em IA selecionados diariamente com traduções
O aprendizado em contexto (In-context Learning - ICL) em Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) surgiu como um novo e poderoso paradigma de aprendizado. No entanto, seu mecanismo subjacente ainda não é bem compreendido. Em particular, é desafiador mapeá-lo para o framework "padrão" de aprendizado de máquina, onde se utiliza um conjunto de treinamento S para encontrar uma função f(x) que melhor se ajusta em uma determinada classe de hipóteses. Aqui, avançamos nesse problema ao demonstrar que as funções aprendidas pelo ICL frequentemente possuem uma estrutura muito simples: elas correspondem ao transformer LLM cujas únicas entradas são a consulta x e um único "vetor de tarefa" calculado a partir do conjunto de treinamento. Assim, o ICL pode ser visto como a compressão de S em um único vetor de tarefa theta(S), que é então utilizado para modular o transformer e produzir a saída. Nossa afirmação é respaldada por experimentos abrangentes realizados em uma variedade de modelos e tarefas.
O cenário de modelos de base de visão (VFMs) publicamente disponíveis, como CLIP e o Segment Anything Model (SAM), está se expandindo rapidamente. Os VFMs são dotados de capacidades distintas decorrentes de seus objetivos de pré-treinamento. Por exemplo, o CLIP se destaca na compreensão semântica, enquanto o SAM é especializado na compreensão espacial para segmentação. Neste trabalho, apresentamos uma receita simples para fundir eficientemente VFMs em um modelo unificado que assimila suas expertises. Nosso método proposto integra aprendizado multitarefa, técnicas de aprendizado contínuo e destilação professor-aluno. Essa estratégia envolve um custo computacional significativamente menor em comparação com o treinamento multitarefa tradicional a partir do zero. Além disso, exige apenas uma pequena fração dos conjuntos de dados de pré-treinamento que foram inicialmente usados para treinar os modelos individuais. Ao aplicar nosso método ao SAM e ao CLIP, derivamos o SAM-CLIP: um modelo unificado que amalgama os pontos fortes do SAM e do CLIP em uma única arquitetura, tornando-o adequado para aplicações em dispositivos de borda. Mostramos que o SAM-CLIP aprende representações visuais mais ricas, equipadas com características de localização e semânticas, adequadas para uma ampla gama de tarefas de visão. O SAM-CLIP obtém desempenho aprimorado em várias tarefas de sondagem de cabeça quando comparado ao SAM e ao CLIP. Além disso, demonstramos que o SAM-CLIP não apenas mantém os pontos fortes fundamentais de seus modelos predecessores, mas também introduz funcionalidades sinérgicas, mais notavelmente na segmentação semântica zero-shot, onde o SAM-CLIP estabelece novos resultados de ponta em 5 benchmarks. Ele supera modelos anteriores especificamente projetados para essa tarefa por uma grande margem, incluindo melhorias de +6,8% e +5,9% na média IoU nos conjuntos de dados Pascal-VOC e COCO-Stuff, respectivamente.
A alucinação é uma grande sombra que paira sobre os Modelos de Linguagem Multimodal de Grande Escala (MLLMs) em rápida evolução, referindo-se ao fenômeno em que o texto gerado é inconsistente com o conteúdo da imagem. Para mitigar as alucinações, os estudos existentes recorrem principalmente a uma abordagem de ajuste por instrução que requer o retreinamento dos modelos com dados específicos. Neste artigo, trilhamos um caminho diferente, introduzindo um método sem necessidade de treinamento chamado Woodpecker. Como um pica-pau que cura árvores, ele identifica e corrige alucinações no texto gerado. Concretamente, o Woodpecker consiste em cinco estágios: extração de conceitos-chave, formulação de perguntas, validação de conhecimento visual, geração de afirmações visuais e correção de alucinações. Implementado de maneira pós-remédio, o Woodpecker pode facilmente servir a diferentes MLLMs, ao mesmo tempo em que é interpretável ao acessar as saídas intermediárias dos cinco estágios. Avaliamos o Woodpecker tanto quantitativa quanto qualitativamente e mostramos o enorme potencial desse novo paradigma. No benchmark POPE, nosso método obtém uma melhoria de 30,66%/24,33% na precisão em relação à linha de base MiniGPT-4/mPLUG-Owl. O código-fonte é disponibilizado em https://github.com/BradyFU/Woodpecker.
A maior parte do trabalho recente em aproveitar Modelos de Linguagem de Grande Escala (LLMs), como o GPT-3, para Tradução Automática (MT) tem se concentrado na seleção de exemplos few-shot para prompting. Neste trabalho, buscamos compreender melhor o papel dos atributos de demonstração para o aprendizado in-context de traduções por meio de perturbações de demonstrações de alta qualidade e dentro do domínio. Descobrimos que perturbações assimétricas dos mapeamentos fonte-alvo produzem resultados bastante diferentes. Mostramos que a perturbação do lado da fonte tem, surpreendentemente, pouco impacto, enquanto a perturbação do lado do alvo pode reduzir drasticamente a qualidade da tradução, sugerindo que é a distribuição do texto de saída que fornece o sinal de aprendizado mais importante durante o aprendizado in-context de traduções. Propomos um método chamado Zero-Shot-Context para adicionar esse sinal automaticamente em prompts zero-shot. Demonstramos que ele melhora o desempenho de tradução zero-shot do GPT-3, tornando-o até mesmo competitivo com traduções baseadas em prompts few-shot.
Neste artigo, apresentamos o Recognize Anything Plus Model (RAM++), um modelo fundamental de reconhecimento de imagem com fortes capacidades de reconhecimento em conjunto aberto, ao injetar conceitos semânticos no framework de treinamento de etiquetagem de imagens. Abordagens anteriores são modelos de etiquetagem de imagens limitados por semântica restrita ou modelos de visão-linguagem com interação superficial, resultando em desempenho subótimo no reconhecimento de múltiplas etiquetas. Em contraste, o RAM++ integra alinhamento imagem-texto e etiquetagem de imagens dentro de um framework unificado de interação refinada baseado em triplas imagem-etiqueta-texto. Esse design permite que o RAM++ não apenas se destaque na identificação de categorias predefinidas, mas também aumente significativamente a capacidade de reconhecimento em categorias de conjunto aberto. Além disso, o RAM++ emprega grandes modelos de linguagem (LLMs) para gerar descrições visuais de etiquetas diversas, pioneiro na integração do conhecimento de LLMs no treinamento de etiquetagem de imagens. Essa abordagem capacita o RAM++ a integrar conceitos de descrição visual para reconhecimento em conjunto aberto durante a inferência. Avaliações em benchmarks abrangentes de reconhecimento de imagem demonstram que o RAM++ supera os modelos fundamentais de reconhecimento de imagem state-of-the-art (SOTA) na maioria dos aspectos. Especificamente, para categorias de etiquetas comuns predefinidas, o RAM++ apresenta melhorias de 10,2 mAP e 15,4 mAP sobre o CLIP em OpenImages e ImageNet. Para categorias de conjunto aberto além das predefinidas, o RAM++ registra melhorias de 5 mAP e 6,4 mAP sobre o CLIP e o RAM, respectivamente, em OpenImages. Para frases diversas de interação humano-objeto, o RAM++ alcança melhorias de 7,8 mAP e 4,7 mAP no benchmark HICO. Código, datasets e modelos pré-treinados estão disponíveis em https://github.com/xinyu1205/recognize-anything.
Estudamos a capacidade de modelos de última geração em responder a consultas de satisfação de restrições para recuperação de informações (por exemplo, 'uma lista de sorveterias em San Diego'). No passado, tais consultas eram consideradas tarefas que só poderiam ser resolvidas por meio de buscas na web ou bases de conhecimento. Mais recentemente, modelos de linguagem de grande escala (LLMs) demonstraram habilidades emergentes iniciais nessa tarefa. No entanto, muitos benchmarks atuais de recuperação estão saturados ou não medem a satisfação de restrições. Motivados por preocupações crescentes em torno de incorreções factuais e alucinações de LLMs, apresentamos KITAB, um novo conjunto de dados para medir as habilidades de satisfação de restrições de modelos de linguagem. KITAB consiste em dados relacionados a livros de mais de 600 autores e 13.000 consultas, e também oferece uma abordagem associada de coleta dinâmica de dados e verificação de restrições para adquirir dados de teste semelhantes para outros autores. Nossos experimentos estendidos com GPT4 e GPT3.5 caracterizam e desacoplam modos comuns de falha em dimensões como popularidade da informação, tipos de restrições e disponibilidade de contexto. Os resultados mostram que, na ausência de contexto, os modelos exibem limitações severas, medidas por informações irrelevantes, erros factuais e incompletude, muitos dos quais se agravam à medida que a popularidade da informação diminui. Embora a disponibilidade de contexto mitigue informações irrelevantes, ela não é útil para satisfazer restrições, identificando barreiras fundamentais para a satisfação de restrições. Disponibilizamos nossas contribuições em código aberto para fomentar mais pesquisas sobre a melhoria das habilidades de satisfação de restrições de modelos futuros.
A arquitetura Transformer é crucial para diversos modelos de IA, mas ainda enfrenta desafios na modelagem de linguagem de longo alcance. Embora várias arquiteturas específicas de Transformer tenham sido projetadas para lidar com problemas de dependências de longo alcance, métodos existentes como o Transformer-XL são prejudicados por uma alta porcentagem de memórias ineficazes. Neste estudo, apresentamos uma estratégia plug-and-play, conhecida como Seleção de Memória sem Treinamento (TRAMS), que seleciona os tokens que participam do cálculo de atenção com base em uma métrica simples. Essa estratégia nos permite manter os tokens que provavelmente terão uma pontuação de atenção alta com as consultas atuais e ignorar os demais. Testamos nossa abordagem no benchmark de nível de palavra (WikiText-103) e no benchmark de nível de caractere (enwik8), e os resultados indicam uma melhoria sem a necessidade de treinamento adicional ou adição de parâmetros extras.
A teoria dos fundamentos morais (MFT) é uma ferramenta de avaliação psicológica que decompõe o raciocínio moral humano em cinco fatores, incluindo cuidado/dano, liberdade/opressão e santidade/degradação (Graham et al., 2009). As pessoas variam no peso que atribuem a essas dimensões ao tomar decisões morais, em parte devido à sua criação cultural e ideologia política. Como os grandes modelos de linguagem (LLMs) são treinados em conjuntos de dados coletados da internet, eles podem refletir os vieses presentes nesses corpora. Este artigo utiliza a MFT como uma lente para analisar se os LLMs populares adquiriram um viés em direção a um conjunto particular de valores morais. Analisamos LLMs conhecidos e descobrimos que eles exibem fundamentos morais específicos, mostrando como esses se relacionam com os fundamentos morais humanos e afiliações políticas. Também medimos a consistência desses vieses, ou seja, se eles variam fortemente dependendo do contexto em que o modelo é solicitado. Por fim, demonstramos que podemos selecionar adversariamente prompts que incentivam o modelo a exibir um conjunto específico de fundamentos morais, e que isso pode afetar o comportamento do modelo em tarefas subsequentes. Essas descobertas ajudam a ilustrar os riscos potenciais e as consequências não intencionais de LLMs assumirem uma postura moral particular.