Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos um relatório abrangente sobre a compressão dos modelos Llama 3.1 8B e Mistral NeMo 12B para parâmetros de 4B e 8B, respectivamente, utilizando poda e destilação. Exploramos duas estratégias distintas de poda: (1) poda de profundidade e (2) poda conjunta de camadas ocultas/atencão/MLP (largura), e avaliamos os resultados em benchmarks comuns do LM Evaluation Harness. Os modelos são então alinhados com o NeMo Aligner e testados em versões ajustadas para instruções. Essa abordagem produz um modelo convincente de 4B a partir do Llama 3.1 8B e um modelo de ponta Mistral-NeMo-Minitron-8B (MN-Minitron-8B para abreviar) a partir do Mistral NeMo 12B. Descobrimos que, sem acesso aos dados originais, é benéfico ajustar levemente os modelos professores no conjunto de dados de destilação. Disponibilizamos os pesos de nosso modelo base no Hugging Face com uma licença permissiva.
Neste trabalho, discutimos a avaliação de modelos fundamentais de vídeo de maneira justa e robusta. Ao contrário dos modelos fundamentais de linguagem ou imagem, muitos modelos fundamentais de vídeo são avaliados com parâmetros diferentes (como taxa de amostragem, número de quadros, etapas de pré-treinamento, etc.), tornando desafiadoras as comparações justas e robustas. Portanto, apresentamos um framework de avaliação cuidadosamente projetado para medir duas capacidades principais de compreensão de vídeo: aparência e compreensão de movimento. Nossas descobertas revelam que os modelos fundamentais de vídeo existentes, sejam supervisionados por texto como UMT ou InternVideo2, ou auto-supervisionados como V-JEPA, apresentam limitações em pelo menos uma dessas capacidades. Como alternativa, introduzimos o TWLV-I, um novo modelo fundamental de vídeo que constrói representações visuais robustas para vídeos baseados em movimento e aparência. Com base na precisão média de top-1 do linear probing em cinco benchmarks de reconhecimento de ação, pré-treinados apenas em conjuntos de dados publicamente acessíveis, nosso modelo mostra uma melhoria de 4,6%p em comparação com V-JEPA (ViT-L) e uma melhoria de 7,7%p em comparação com UMT (ViT-L). Mesmo quando comparado a modelos muito maiores, nosso modelo demonstra uma melhoria de 7,2%p em comparação com DFN (ViT-H), uma melhoria de 2,7%p em comparação com V-JEPA (ViT-H) e uma melhoria de 2,8%p em comparação com InternVideo2 (ViT-g). Fornecemos vetores de incorporação obtidos pelo TWLV-I de vídeos de vários benchmarks de vídeo comumente utilizados, juntamente com o código-fonte de avaliação que pode utilizar diretamente essas incorporações. O código está disponível em "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
Capacitar LLMs com a habilidade de utilizar informações úteis de um contexto longo é crucial para muitas aplicações subsequentes. No entanto, alcançar comprimentos de contexto longos com a arquitetura de transformer convencional requer recursos substanciais de treinamento e inferência. Neste artigo, apresentamos o FocusLLM, um framework projetado para estender o comprimento do contexto de qualquer LLM apenas decodificador, permitindo que o modelo se concentre em informações relevantes de sequências muito longas. O FocusLLM processa entradas de texto longas dividindo-as em pedaços com base no comprimento original do contexto do modelo para aliviar o problema da distração de atenção. Em seguida, ele anexa o contexto local a cada pedaço como um prompt para extrair informações essenciais de cada pedaço com base em um mecanismo de decodificação paralela inovador e, por fim, integra as informações extraídas ao contexto local. O FocusLLM se destaca pela grande eficiência de treinamento e versatilidade: treinado com um comprimento de entrada de 8K com um custo de treinamento muito menor do que métodos anteriores, o FocusLLM apresenta desempenho superior em tarefas subsequentes de contexto longo e mantém uma forte capacidade de modelagem de linguagem ao lidar com textos longos extensos, até 400K tokens. Nosso código está disponível em https://github.com/leezythu/FocusLLM.
Os últimos anos têm visto um progresso substancial na geração de vídeos controláveis baseada em difusão. No entanto, alcançar controle preciso em cenários complexos, incluindo partes de objetos detalhadas, trajetórias de movimento sofisticadas e movimento de plano de fundo coerente, continua sendo um desafio. Neste artigo, apresentamos o TrackGo, uma abordagem inovadora que utiliza máscaras e setas de forma livre para geração condicional de vídeos. Este método oferece aos usuários um mecanismo flexível e preciso para manipular o conteúdo de vídeo. Também propomos o TrackAdapter para implementação de controle, um adaptador eficiente e leve projetado para ser integrado perfeitamente nas camadas temporais de autoatenção de um modelo de geração de vídeo pré-treinado. Este design aproveita nossa observação de que o mapa de atenção dessas camadas pode ativar com precisão regiões correspondentes a movimento em vídeos. Nossos resultados experimentais demonstram que nossa nova abordagem, aprimorada pelo TrackAdapter, alcança desempenho de ponta em métricas-chave como FVD, FID e escores ObjMC. A página do projeto TrackGo pode ser encontrada em: https://zhtjtcz.github.io/TrackGo-Page/
Grandes modelos multimodais (LMMs) têm demonstrado proficiência em diversas tarefas visuais. Embora existam inúmeros benchmarks conhecidos para avaliar o desempenho do modelo, eles cada vez mais apresentam limitações. Portanto, há uma necessidade urgente de uma nova geração de benchmarks desafiadores o suficiente para a próxima geração de LMMs. Uma área em que os LMMs mostram potencial é a análise de gráficos, especificamente as tarefas que um analista normalmente realiza ao interpretar figuras, como estimar a média, interceptações ou correlações de funções e séries de dados. Neste trabalho, apresentamos o GRAB, um benchmark de análise de gráficos, adequado para os atuais e futuros LMMs de ponta. Nosso benchmark é totalmente sintético, garantindo perguntas de alta qualidade e livres de ruído. O GRAB é composto por 2170 perguntas, abrangendo quatro tarefas e 23 propriedades de gráficos. Avaliamos 20 LMMs no GRAB, constatando que é um benchmark desafiador, com o modelo de melhor desempenho alcançando uma pontuação de apenas 21,7%. Por fim, realizamos várias ablações para investigar onde os modelos têm sucesso e enfrentam dificuldades. Lançamos o GRAB para incentivar o progresso nesse importante e crescente domínio.
Os modelos de difusão texto-imagem (T2I) têm demonstrado capacidades impressionantes na geração de imagens de alta qualidade a partir de um texto de entrada. No entanto, garantir o alinhamento entre o texto e a imagem continua a ser um desafio considerável, ou seja, gerar imagens que se alinhem fielmente com a semântica do texto de entrada. Trabalhos recentes tentam melhorar a fidelidade otimizando o código latente, o que potencialmente poderia fazer com que o código latente saísse da distribuição e, assim, produzisse imagens irreais. Neste artigo, propomos o FRAP, uma abordagem simples, porém eficaz, baseada no ajuste adaptativo dos pesos do texto por token para melhorar o alinhamento entre o texto e a imagem e a autenticidade das imagens geradas. Projetamos um algoritmo online para atualizar adaptativamente o coeficiente de peso de cada token, o que é alcançado minimizando uma função objetivo unificada que incentiva a presença de objetos e a ligação de pares objeto-modificador. Através de avaliações extensivas, mostramos que o FRAP gera imagens com um alinhamento significativamente maior com os textos de entrada de conjuntos de dados complexos, enquanto tem uma latência média menor em comparação com os métodos recentes de otimização de código latente, por exemplo, 4 segundos mais rápido que o D&B no conjunto de dados COCO-Subject. Além disso, por meio de comparações visuais e avaliações na métrica CLIP-IQA-Real, mostramos que o FRAP não só melhora o alinhamento entre o texto e a imagem, mas também gera imagens mais autênticas com aparências realistas. Também exploramos a combinação do FRAP com a LLM de reformulação do texto para recuperar o alinhamento degradado entre o texto e a imagem, onde observamos melhorias tanto no alinhamento entre o texto e a imagem quanto na qualidade da imagem.
Os sistemas modernos de aprendizado de máquina dependem de grandes conjuntos de dados para alcançar uma generalização ampla, o que frequentemente representa um desafio na aprendizagem de robôs, onde cada plataforma robótica e tarefa podem ter apenas um pequeno conjunto de dados. Ao treinar uma única política em diversos tipos de robôs, um método de aprendizado de robôs pode aproveitar conjuntos de dados muito mais amplos e diversos, o que, por sua vez, pode levar a uma melhor generalização e robustez. No entanto, treinar uma única política em dados de vários robôs é desafiador porque os robôs podem ter sensores, atuadores e frequências de controle amplamente variados. Propomos o CrossFormer, uma política escalável e flexível baseada em transformer que pode consumir dados de qualquer configuração. Treinamos o CrossFormer no maior e mais diversificado conjunto de dados até o momento, com 900 mil trajetórias em 20 configurações de robôs diferentes. Demonstramos que os mesmos pesos de rede podem controlar robôs muito diferentes, incluindo sistemas de manipulação de braço único e duplo, robôs com rodas, quadricópteros e quadrúpedes. Ao contrário de trabalhos anteriores, nosso modelo não requer alinhamento manual dos espaços de observação ou ação. Experimentos extensivos no mundo real mostram que nosso método iguala o desempenho de políticas especializadas adaptadas para cada configuração, enquanto também supera significativamente o estado da arte anterior em aprendizado entre configurações.
Abordamos um desafio persistente em modelos de texto para imagem: gerar com precisão um número especificado de objetos. Os modelos atuais, que aprendem a partir de pares imagem-texto, têm dificuldade inerente com a contagem, uma vez que os dados de treinamento não podem representar todos os possíveis números de objetos para um determinado objeto. Para resolver isso, propomos otimizar a imagem gerada com base em uma perda de contagem derivada de um modelo de contagem que agrega o potencial de um objeto. Utilizar um modelo de contagem pronto para uso é desafiador por duas razões: primeiro, o modelo requer um hiperparâmetro de escala para a agregação de potencial que varia dependendo do ponto de vista dos objetos, e segundo, técnicas de orientação de classificadores requerem modelos modificados que operam em etapas de difusão intermediárias ruidosas. Para lidar com esses desafios, propomos um modo de treinamento online iterativo que melhora a precisão das imagens inferidas ao alterar a incorporação de condicionamento de texto e ajustar dinamicamente os hiperparâmetros. Nosso método oferece três principais vantagens: (i) pode considerar técnicas de contagem não deriváveis com base em modelos de detecção, (ii) é uma solução plug-and-play de zero-shot que facilita mudanças rápidas nas técnicas de contagem e nos métodos de geração de imagem, e (iii) o token de contagem otimizado pode ser reutilizado para gerar imagens precisas sem otimização adicional. Avaliamos a geração de vários objetos e mostramos melhorias significativas na precisão. A página do projeto está disponível em https://ozzafar.github.io/count_token.
Detectar dados fora da distribuição (OOD) é crucial em aplicações de aprendizado de máquina para mitigar o risco de excesso de confiança do modelo, aumentando assim a confiabilidade e segurança dos sistemas implantados. A maioria dos métodos existentes de detecção de OOD aborda predominantemente entradas unimodais, como imagens ou textos. No contexto de documentos multimodais, há uma notável falta de pesquisa extensiva sobre o desempenho desses métodos, que foram desenvolvidos principalmente com foco em tarefas de visão computacional. Propomos uma metodologia inovadora denominada máscara de cabeçalho de atenção (AHM) para tarefas OOD multimodais em sistemas de classificação de documentos. Nossos resultados empíricos demonstram que o método AHM proposto supera todas as abordagens de ponta e diminui significativamente a taxa de falsos positivos (FPR) em comparação com as soluções existentes em até 7,5\%. Esta metodologia generaliza bem para dados multimodais, como documentos, nos quais informações visuais e textuais são modeladas sob a mesma arquitetura Transformer. Para lidar com a escassez de conjuntos de dados de documentos publicamente disponíveis de alta qualidade e incentivar pesquisas adicionais sobre detecção de OOD para documentos, apresentamos o FinanceDocs, um novo conjunto de dados de IA para documentos. Nosso código e conjunto de dados estão publicamente disponíveis.
Os sistemas de recuperação visual enfrentam desafios significativos ao atualizar modelos com representações aprimoradas devido ao desalinhamento entre as representações antigas e novas. O processo dispendioso e intensivo em recursos de preenchimento envolve recalcular vetores de características para imagens no conjunto de galeria sempre que um novo modelo é introduzido. Para lidar com isso, pesquisas anteriores exploraram métodos de treinamento retrocompatíveis que permitem comparações diretas entre as novas e antigas representações sem preenchimento. Apesar desses avanços, alcançar um equilíbrio entre retrocompatibilidade e o desempenho de modelos treinados de forma independente continua sendo um problema em aberto. Neste artigo, abordamos isso expandindo o espaço de representação com dimensões adicionais e aprendendo uma transformação ortogonal para alcançar compatibilidade com os modelos antigos e, ao mesmo tempo, integrar novas informações. Essa transformação preserva a geometria do espaço de características original, garantindo que nosso modelo se alinhe com versões anteriores e aprenda novos dados. Nossa abordagem Ortogonalmente Compatível e Alinhada (OCA) elimina a necessidade de reindexação durante as atualizações do modelo e garante que as características possam ser comparadas diretamente em diferentes atualizações do modelo sem funções de mapeamento adicionais. Resultados experimentais no CIFAR-100 e ImageNet-1k demonstram que nosso método não apenas mantém a compatibilidade com modelos anteriores, mas também alcança precisão de ponta, superando vários métodos existentes.
Os Modelos de Linguagem de Grande Escala (LLMs) são propensos a herdar e amplificar preconceitos sociais incorporados em seus dados de treinamento, potencialmente reforçando estereótipos prejudiciais relacionados a gênero, ocupação e outras categorias sensíveis. Esse problema se torna particularmente problemático, pois LLMs tendenciosos podem ter consequências de longo alcance, levando a práticas injustas e exacerbando desigualdades sociais em diversos domínios, como recrutamento, moderação de conteúdo online ou até mesmo no sistema de justiça criminal. Embora pesquisas anteriores tenham se concentrado em detectar viés em LLMs usando conjuntos de dados especializados projetados para destacar preconceitos intrínsecos, houve uma notável falta de investigação sobre como essas descobertas se correlacionam com conjuntos de dados autoritativos, como os do U.S. National Bureau of Labor Statistics (NBLS). Para abordar essa lacuna, realizamos uma pesquisa empírica que avalia LLMs em um cenário de "viés-saído-da-caixa", analisando como as saídas geradas se comparam com as distribuições encontradas nos dados do NBLS. Além disso, propomos um mecanismo de desviés direto e eficaz que incorpora diretamente instâncias do NBLS para mitigar o viés dentro dos LLMs. Nosso estudo abrange sete LLMs diferentes, incluindo modelos instrutíveis, base e mistura de especialistas, e revela níveis significativos de viés frequentemente ignorados pelas técnicas de detecção de viés existentes. Importante ressaltar que nosso método de desviés, que não depende de conjuntos de dados externos, demonstra uma redução substancial nos escores de viés, destacando a eficácia de nossa abordagem na criação de LLMs mais justos e confiáveis.
Como parte das tarefas compartilhadas da Iniciativa de Dados Linguísticos Abertos, expandimos o conjunto de avaliação FLORES+ para incluir o Emakhuwa, um idioma de baixos recursos amplamente falado em Moçambique. Traduzimos os conjuntos dev e devtest do português para o Emakhuwa e detalhamos o processo de tradução e as medidas de garantia de qualidade utilizadas. Nossa metodologia envolveu diversos controles de qualidade, incluindo revisões pós-edição e avaliações de adequação. Os conjuntos de dados resultantes consistem em várias frases de referência para cada origem. Apresentamos resultados básicos a partir do treinamento de um sistema de tradução neural e do ajuste fino de modelos de tradução multilíngue existentes. Nossas descobertas sugerem que inconsistências de ortografia continuam sendo um desafio no Emakhuwa. Além disso, os modelos básicos tiveram desempenho inferior neste conjunto de avaliação, destacando a necessidade de mais pesquisas para aprimorar a qualidade da tradução automática para o Emakhuwa. Os dados estão disponíveis publicamente em https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.