Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala são construídos sobre uma arquitetura baseada em transformadores para processar entradas textuais. Por exemplo, o LLaMA se destaca entre muitas implementações de código aberto. O mesmo transformador pode ser usado para processar imagens 2D? Neste artigo, respondemos a essa questão ao apresentar um transformador de visão semelhante ao LLaMA, em formas simples e piramidais, denominado VisionLLaMA, que foi projetado especificamente para esse propósito. O VisionLLaMA é uma estrutura de modelagem unificada e genérica para resolver a maioria das tarefas de visão. Avaliamos extensivamente sua eficácia utilizando paradigmas típicos de pré-treinamento em uma ampla gama de tarefas subsequentes de percepção de imagem e, especialmente, de geração de imagens. Em muitos casos, o VisionLLaMA demonstrou ganhos substanciais em relação aos transformadores de visão de última geração anteriores. Acreditamos que o VisionLLaMA pode servir como um novo modelo de linha de base robusto para geração e compreensão de visão. Nosso código será liberado em https://github.com/Meituan-AutoML/VisionLLaMA.
A Arquitetura Preditiva de Incorporação Conjunta (JEPA) surgiu como uma abordagem promissora de auto-supervisão que aprende ao aproveitar um modelo de mundo. Embora anteriormente limitada à previsão de partes ausentes de uma entrada, exploramos como generalizar a tarefa de previsão da JEPA para um conjunto mais amplo de corrupções. Introduzimos Modelos de Mundo de Imagem, uma abordagem que vai além da modelagem de imagens mascaradas e aprende a prever o efeito de transformações fotométricas globais no espaço latente. Estudamos a receita para aprender Modelos de Mundo de Imagem (IWMs) eficazes e mostramos que ela se baseia em três aspectos-chave: condicionamento, dificuldade de previsão e capacidade. Além disso, demonstramos que o modelo de mundo preditivo aprendido pelo IWM pode ser adaptado por meio de ajuste fino para resolver diversas tarefas; um modelo de mundo IWM ajustado supera ou iguala o desempenho de métodos anteriores de auto-supervisão. Por fim, mostramos que aprender com um IWM permite controlar o nível de abstração das representações aprendidas, aprendendo representações invariantes, como métodos contrastivos, ou representações equivariantes, como a modelagem de imagens mascaradas.
Este artigo aborda o desafio dos cenários de treino-curto-teste-longo (TSTL) em Modelos de Linguagem de Grande Escala (LLMs) equipados com Embedding de Posição Rotacional (RoPE), onde modelos pré-treinados em sequências mais curtas enfrentam dificuldades com posições de tokens fora da distribuição (OOD) em sequências mais longas. Introduzimos o Resonance RoPE, uma abordagem inovadora projetada para reduzir a lacuna de generalização em cenários TSTL, refinando a interpolação das características do RoPE para posições OOD, melhorando significativamente o desempenho do modelo sem custos computacionais adicionais em tempo de execução. Além disso, apresentamos o PosGen, um novo benchmark sintético especificamente projetado para análise de comportamento detalhada em cenários TSTL, visando isolar a dificuldade constantemente crescente de geração de tokens em contextos longos dos desafios de reconhecer novas posições de tokens. Nossos experimentos em tarefas sintéticas mostram que, após a aplicação do Resonance RoPE, os Transformers reconhecem posições OOD de forma melhor e mais robusta. Nossos extensos experimentos com LLMs também mostram um desempenho superior após a aplicação do Resonance RoPE ao método atual de escalonamento RoPE de última geração, YaRN, tanto em tarefas de modelagem de linguagem upstream quanto em uma variedade de aplicações de texto longo downstream.
A personalização de texto para imagem, que visa sintetizar imagens orientadas por texto para os sujeitos dados, revolucionou recentemente a criação de conteúdo. Os trabalhos existentes seguem o paradigma de pseudo-palavras, ou seja, representam os sujeitos dados como pseudo-palavras e depois as compõem com o texto fornecido. No entanto, o escopo de influência inerentemente entrelaçado das pseudo-palavras com o texto fornecido resulta em um paradoxo de duplo ótimo, ou seja, a similaridade dos sujeitos dados e a controlabilidade do texto fornecido não podem ser ótimas simultaneamente. Apresentamos o RealCustom que, pela primeira vez, desacopla a similaridade da controlabilidade ao limitar precisamente a influência do sujeito apenas às partes relevantes, alcançado ao gradualmente estreitar a palavra de texto real de sua conotação geral para o sujeito específico e usar sua atenção cruzada para distinguir relevância. Especificamente, o RealCustom introduz uma nova estrutura "treino-inferência" desacoplada: (1) durante o treinamento, o RealCustom aprende o alinhamento geral entre condições visuais e condições textuais originais por meio de um novo módulo de pontuação adaptativa para modular adaptativamente a quantidade de influência; (2) durante a inferência, uma nova estratégia de orientação por máscara adaptativa é proposta para atualizar iterativamente o escopo de influência e a quantidade de influência dos sujeitos dados para gradualmente estreitar a geração da palavra de texto real. Experimentos abrangentes demonstram a superior capacidade de personalização em tempo real do RealCustom no domínio aberto, alcançando tanto uma similaridade sem precedentes dos sujeitos dados quanto a controlabilidade do texto fornecido pela primeira vez. A página do projeto é https://corleone-huang.github.io/realcustom/.
A técnica de **Patch de Ativação** é um método para calcular diretamente as atribuições causais de comportamentos a componentes de modelos. No entanto, aplicá-la de forma exaustiva requer uma varredura com custo que escala linearmente com o número de componentes do modelo, o que pode ser proibitivamente caro para modelos de linguagem de última geração (LLMs, na sigla em inglês). Investigamos o **Patch de Atribuição** (AtP, na sigla em inglês), uma aproximação rápida baseada em gradientes para o Patch de Ativação, e identificamos duas classes de modos de falha do AtP que levam a falsos negativos significativos. Propomos uma variante do AtP, chamada **AtP***, com duas alterações para abordar esses modos de falha, mantendo a escalabilidade. Apresentamos o primeiro estudo sistemático do AtP e de métodos alternativos para realizar o patch de ativação de forma mais rápida, demonstrando que o AtP supera significativamente todos os outros métodos investigados, com o AtP* proporcionando uma melhoria adicional significativa. Por fim, fornecemos um método para limitar a probabilidade de falsos negativos remanescentes nas estimativas do AtP*.