Artigos de pesquisa em IA selecionados diariamente com traduções
A animação de imagem de personagem, que gera vídeos de alta qualidade a partir de uma imagem de referência e uma sequência de poses-alvo, tem visto um progresso significativo nos últimos anos. No entanto, a maioria dos métodos existentes se aplica apenas a figuras humanas, o que geralmente não se generaliza bem em personagens antropomórficos comumente usados em indústrias como jogos e entretenimento. Nossa análise aprofundada sugere que essa limitação se deve principalmente a uma modelagem de movimento insuficiente, que não consegue compreender o padrão de movimento do vídeo de referência, impondo rigidamente uma sequência de poses no personagem-alvo. Para resolver isso, este artigo propõe Animate-X, um framework de animação universal baseado em LDM para vários tipos de personagens (coletivamente nomeados X), incluindo personagens antropomórficos. Para aprimorar a representação de movimento, introduzimos o Indicador de Pose, que captura o padrão de movimento abrangente do vídeo de referência de maneira implícita e explícita. O primeiro utiliza características visuais CLIP de um vídeo de referência para extrair sua essência de movimento, como o padrão geral de movimento e as relações temporais entre os movimentos, enquanto o segundo fortalece a generalização de LDM ao simular possíveis entradas antecipadamente que podem surgir durante a inferência. Além disso, introduzimos um novo Benchmark de Antropomorfização Animada (A^2Bench) para avaliar o desempenho do Animate-X em imagens de animação universais e amplamente aplicáveis. Experimentos extensivos demonstram a superioridade e eficácia do Animate-X em comparação com os métodos de ponta.
Com o rápido desenvolvimento de conteúdo gerado por IA, o futuro da internet pode ser inundado com dados sintéticos, tornando cada vez mais desafiadora a discriminação entre dados multimodais autênticos e confiáveis. A detecção de dados sintéticos tem recebido ampla atenção, e o desempenho de grandes modelos multimodais (LMMs) nessa tarefa tem atraído interesse significativo. Os LMMs podem fornecer explicações em linguagem natural para suas avaliações de autenticidade, melhorando a explicabilidade da detecção de conteúdo sintético. Simultaneamente, a tarefa de distinguir entre dados reais e sintéticos testa efetivamente as capacidades de percepção, conhecimento e raciocínio dos LMMs. Em resposta, apresentamos o LOKI, um novo benchmark projetado para avaliar a capacidade dos LMMs de detectar dados sintéticos em várias modalidades. O LOKI abrange modalidades de vídeo, imagem, 3D, texto e áudio, compreendendo 18 mil perguntas cuidadosamente selecionadas em 26 subcategorias com níveis claros de dificuldade. O benchmark inclui julgamento em nível macro e perguntas de múltipla escolha, bem como seleção de anomalias em nível micro e tarefas de explicação, permitindo uma análise abrangente dos LMMs. Avaliamos 22 LMMs de código aberto e 6 modelos de código fechado no LOKI, destacando seu potencial como detectores de dados sintéticos e também revelando algumas limitações no desenvolvimento das capacidades dos LMMs. Mais informações sobre o LOKI podem ser encontradas em https://opendatalab.github.io/LOKI/
A compreensão e geração multimodal entrelaçada, permitindo que os modelos produzam e interpretem tanto imagens quanto texto em sequências arbitrárias, tornaram-se uma área fundamental na aprendizagem multimodal. Apesar dos avanços significativos, a avaliação dessa capacidade ainda é insuficiente. Os benchmarks existentes sofrem de limitações em escala de dados, escopo e profundidade de avaliação, enquanto as métricas de avaliação atuais frequentemente são custosas ou tendenciosas, carecendo de confiabilidade para aplicações práticas. Para enfrentar esses desafios, apresentamos o MMIE, um benchmark intensivo em conhecimento em larga escala para avaliar a compreensão e geração multimodal entrelaçada em Modelos de Grande Escala de Visão e Linguagem (LVLMs). O MMIE é composto por 20 mil consultas multimodais meticulosamente selecionadas, abrangendo 3 categorias, 12 campos e 102 subcampos, incluindo matemática, programação, física, literatura, saúde e artes. Ele suporta tanto entradas quanto saídas entrelaçadas, oferecendo uma mistura de formatos de perguntas de múltipla escolha e abertas para avaliar competências diversas. Além disso, propomos uma métrica de avaliação automatizada confiável, aproveitando um modelo de pontuação ajustado com dados anotados por humanos e critérios de avaliação sistemáticos, com o objetivo de reduzir viés e melhorar a precisão da avaliação. Experimentos extensivos demonstram a eficácia de nosso benchmark e métricas em fornecer uma avaliação abrangente de LVLMs entrelaçados. Especificamente, avaliamos oito LVLMs, revelando que mesmo os melhores modelos mostram significativo espaço para melhoria, com a maioria alcançando apenas resultados moderados. Acreditamos que o MMIE impulsionará novos avanços no desenvolvimento de LVLMs entrelaçados. Disponibilizamos publicamente nosso benchmark e código em https://mmie-bench.github.io/.
Seguir instruções naturais é crucial para a aplicação eficaz de sistemas de Geração com Recuperação (RAG). Apesar dos avanços recentes em Modelos de Linguagem Grandes (LLMs), a pesquisa sobre avaliação e melhoria da alinhamento na execução de instruções (IF) no domínio RAG ainda é limitada. Para abordar essa questão, propomos VIF-RAG, o primeiro pipeline sintético automatizado, escalável e verificável para alinhamento na execução de instruções em sistemas RAG. Começamos criando manualmente um conjunto mínimo de instruções atômicas (<100) e desenvolvendo regras de combinação para sintetizar e verificar instruções complexas para um conjunto inicial. Em seguida, utilizamos modelos supervisionados para reescrever instruções enquanto geramos código para automatizar a verificação da qualidade da instrução por meio de um executor Python. Por fim, integramos essas instruções com extensas amostras de dados RAG e gerais, escalando para um conjunto de dados VIF-RAG-QA de alta qualidade (>100k) por meio de processos automatizados. Para preencher ainda mais a lacuna na autoavaliação da execução de instruções para sistemas RAG, introduzimos o Benchmark FollowRAG, que inclui aproximadamente 3K amostras de teste, cobrindo 22 categorias de restrições de instruções gerais e quatro conjuntos de dados QA intensivos em conhecimento. Devido ao seu design robusto de pipeline, o FollowRAG pode ser integrado facilmente com diferentes benchmarks RAG. Usando o FollowRAG e oito benchmarks amplamente utilizados de IF e habilidades fundamentais para LLMs, demonstramos que o VIF-RAG melhora significativamente o desempenho do LLM em uma ampla gama de restrições de instruções gerais, aproveitando efetivamente suas capacidades em cenários RAG. Análises adicionais oferecem insights práticos para alcançar o alinhamento na execução de instruções em sistemas RAG. Nosso código e conjuntos de dados estão disponíveis em https://FollowRAG.github.io.
Apresentamos o MEGA-Bench, uma suíte de avaliação que amplia a avaliação multimodal para mais de 500 tarefas do mundo real, para lidar com os casos de uso altamente heterogêneos dos usuários finais. Nosso objetivo é otimizar um conjunto de amostras de dados de alta qualidade que cubram um conjunto altamente diversificado e rico de tarefas multimodais, ao mesmo tempo que possibilitam uma avaliação de modelo eficaz e precisa em termos de custo. Em particular, coletamos 505 tarefas realistas abrangendo mais de 8.000 amostras de 16 anotadores especialistas para cobrir extensivamente o espaço de tarefas multimodais. Em vez de unificar esses problemas em perguntas de múltipla escolha padrão (como MMMU, MMBench e MMT-Bench), abraçamos uma ampla gama de formatos de saída como números, frases, código, \LaTeX, coordenadas, JSON, livre, etc. Para acomodar esses formatos, desenvolvemos mais de 40 métricas para avaliar essas tarefas. Ao contrário de benchmarks existentes, o MEGA-Bench oferece um relatório de capacidades detalhado em várias dimensões (por exemplo, aplicação, tipo de entrada, formato de saída, habilidade), permitindo que os usuários interajam e visualizem as capacidades do modelo em profundidade. Avaliamos uma ampla variedade de modelos de visão-linguagem de ponta no MEGA-Bench para entender suas capacidades em relação a essas dimensões.
Os avanços recentes em modelos de linguagem grandes (LLMs) têm levado a avanços significativos nas capacidades de raciocínio matemático. No entanto, benchmarks existentes como GSM8K ou MATH estão agora sendo resolvidos com alta precisão (por exemplo, o OpenAI o1 atinge 94,8% no conjunto de dados MATH), indicando sua inadequação para desafiar verdadeiramente esses modelos. Para preencher essa lacuna, propomos um benchmark abrangente e desafiador especificamente projetado para avaliar o raciocínio matemático dos LLMs no nível da Olimpíada. Ao contrário dos benchmarks relacionados à Olimpíada existentes, nosso conjunto de dados foca exclusivamente em matemática e compreende uma vasta coleção de 4428 problemas de nível de competição com anotações humanas rigorosas. Esses problemas são meticulosamente categorizados em mais de 33 subdomínios e abrangem mais de 10 níveis de dificuldade distintos, possibilitando uma avaliação holística do desempenho do modelo no raciocínio matemático da Olimpíada. Além disso, realizamos uma análise aprofundada com base nesse benchmark. Nossos resultados experimentais mostram que mesmo os modelos mais avançados, OpenAI o1-mini e OpenAI o1-preview, têm dificuldade com problemas de nível olímpico altamente desafiadores, com precisão de 60,54% e 52,55%, destacando desafios significativos no raciocínio matemático de nível olímpico.
Modelos generativos transformam ruído aleatório em imagens; sua inversão visa transformar imagens de volta em ruído estruturado para recuperação e edição. Este artigo aborda duas tarefas-chave: (i) inversão e (ii) edição de uma imagem real usando equivalentes estocásticos de modelos de fluxo retificado (como Flux). Embora os Modelos de Difusão (DMs) tenham dominado recentemente o campo da modelagem generativa para imagens, sua inversão apresenta desafios de fidelidade e editabilidade devido a não linearidades no deslocamento e difusão. As abordagens de inversão de DMs de última geração existentes dependem do treinamento de parâmetros adicionais ou da otimização de variáveis latentes no tempo de teste; ambos são caros na prática. Os Fluxos Retificados (RFs) oferecem uma alternativa promissora aos modelos de difusão, no entanto, sua inversão tem sido pouco explorada. Propomos a inversão de RF usando controle ótimo dinâmico derivado por meio de um regulador quadrático linear. Provamos que o campo vetorial resultante é equivalente a uma equação diferencial estocástica retificada. Além disso, estendemos nosso framework para projetar um amostrador estocástico para Flux. Nosso método de inversão permite um desempenho de última geração na inversão e edição de zero-shot, superando trabalhos anteriores na síntese de imagem a partir de traços e edição semântica de imagem, com avaliações humanas em larga escala confirmando a preferência do usuário.
O treinamento em larga escala de modelos multimodais em dados coletados da web tem demonstrado uma utilidade excepcional ao impregnar esses modelos com o conhecimento do mundo necessário para desempenhar efetivamente em várias tarefas subsequentes. No entanto, uma desvantagem de coletar dados da web pode ser o potencial sacrifício dos benchmarks nos quais as habilidades desses modelos são frequentemente avaliadas. Para proteger contra a contaminação dos dados de teste e testar verdadeiramente as habilidades desses modelos fundamentais, propomos o LiveXiv: um benchmark ao vivo escalável e em evolução baseado em artigos científicos do ArXiv. O LiveXiv acessa manuscritos específicos de um domínio em qualquer momento e propõe gerar automaticamente pares de perguntas e respostas visuais (VQA). Isso é feito sem a intervenção humana, utilizando o conteúdo multimodal nos manuscritos, como gráficos, tabelas e figuras. Além disso, introduzimos uma abordagem de avaliação eficiente que estima o desempenho de todos os modelos no benchmark em evolução usando avaliações de apenas um subconjunto de modelos. Isso reduz significativamente o custo total de avaliação. Avaliamos vários Modelos Multimodais Grandes (LMMs) abertos e proprietários na primeira versão de nosso benchmark, demonstrando sua natureza desafiadora e expondo as verdadeiras habilidades dos modelos, evitando contaminação. Por fim, em nosso compromisso com a alta qualidade, coletamos e avaliamos um subconjunto verificado manualmente. Ao comparar seus resultados gerais com nossas anotações automáticas, descobrimos que a variação de desempenho é realmente mínima (<2,5%). Nosso conjunto de dados está disponível online no HuggingFace, e nosso código estará disponível aqui.
A geração aumentada por recuperação (RAG) é uma técnica eficaz que permite que grandes modelos de linguagem (LLMs) utilizem fontes de conhecimento externas para geração. No entanto, os sistemas RAG atuais são baseados exclusivamente em texto, tornando impossível utilizar informações visuais como layout e imagens que desempenham papéis cruciais em documentos multimodais do mundo real. Neste artigo, apresentamos o VisRAG, que aborda esse problema estabelecendo um pipeline RAG baseado em um modelo de visão-linguagem (VLM). Neste pipeline, em vez de primeiro analisar o documento para obter texto, o documento é diretamente incorporado usando um VLM como uma imagem e depois recuperado para aprimorar a geração de um VLM. Comparado ao RAG tradicional baseado em texto, o VisRAG maximiza a retenção e utilização das informações de dados nos documentos originais, eliminando a perda de informações introduzida durante o processo de análise. Coletamos dados de código aberto e sintéticos para treinar o recuperador no VisRAG e explorar uma variedade de métodos de geração. Experimentos demonstram que o VisRAG supera o RAG tradicional em ambas as etapas de recuperação e geração, alcançando um ganho de desempenho de 25 a 39% em todo o processo em comparação com o pipeline tradicional de RAG baseado em texto. Uma análise adicional revela que o VisRAG é eficaz na utilização de dados de treinamento e demonstra uma forte capacidade de generalização, posicionando-o como uma solução promissora para RAG em documentos multimodais. Nosso código e dados estão disponíveis em https://github.com/openbmb/visrag.
Nos últimos anos, têm ocorrido avanços notáveis na geração de imagens para vídeos. No entanto, a consistência tridimensional e a controlabilidade da câmera dos frames gerados permanecem sem solução. Estudos recentes têm tentado incorporar o controle da câmera no processo de geração, mas seus resultados frequentemente se limitam a trajetórias simples ou carecem da capacidade de gerar vídeos consistentes a partir de múltiplos caminhos de câmera distintos para a mesma cena. Para lidar com essas limitações, apresentamos o Cavia, um novo framework para geração de vídeos multi-view controláveis por câmera, capaz de converter uma imagem de entrada em múltiplos vídeos espaciotemporalmente consistentes. Nosso framework estende os módulos de atenção espacial e temporal em módulos de atenção integrados à visualização, melhorando tanto a consistência de ponto de vista quanto a temporal. Esse design flexível permite o treinamento conjunto com diversas fontes de dados curadas, incluindo vídeos estáticos em nível de cena, vídeos dinâmicos multi-view sintéticos em nível de objeto e vídeos dinâmicos monoculares do mundo real. Até onde sabemos, o Cavia é o primeiro de seu tipo que permite ao usuário especificar precisamente o movimento da câmera ao obter o movimento do objeto. Experimentos extensivos demonstram que o Cavia supera os métodos de ponta em termos de consistência geométrica e qualidade perceptual. Página do Projeto: https://ir1d.github.io/Cavia/
LLMs são tipicamente treinados para responder perguntas de usuários ou seguir instruções de forma semelhante à resposta de especialistas humanos. No entanto, no framework de alinhamento padrão, eles carecem da habilidade básica de pensar explicitamente antes de responder. O pensamento é importante para perguntas complexas que exigem raciocínio e planejamento - mas pode ser aplicado a qualquer tarefa. Propomos um método de treinamento para equipar LLMs existentes com tais habilidades de pensamento para seguir instruções gerais sem o uso de dados humanos adicionais. Conseguimos isso por meio de um procedimento de busca e otimização iterativos que exploram o espaço de gerações de pensamento possíveis, permitindo que o modelo aprenda a pensar sem supervisão direta. Para cada instrução, os candidatos a pensamento são pontuados usando um modelo de juiz para avaliar suas respostas apenas, e então otimizados por meio de otimização de preferência. Mostramos que esse procedimento leva a um desempenho superior no AlpacaEval e Arena-Hard, e demonstra ganhos a partir do pensamento em categorias não relacionadas ao raciocínio, como marketing, saúde e conhecimento geral, além de tarefas mais tradicionais de raciocínio e resolução de problemas.
Compreender a dinâmica temporal refinada é crucial para a compreensão e geração de vídeos multimodais. Devido à falta de anotações temporais refinadas, os benchmarks de vídeo existentes se assemelham principalmente aos benchmarks de imagens estáticas e são inadequados para avaliar modelos de compreensão temporal. Neste artigo, apresentamos o TemporalBench, um novo benchmark dedicado a avaliar a compreensão temporal refinada em vídeos. O TemporalBench é composto por ~10 mil pares de perguntas e respostas em vídeo, derivados de ~2 mil anotações humanas de alta qualidade detalhando a dinâmica temporal em clipes de vídeo. Como resultado, nosso benchmark fornece um ambiente de teste único para avaliar várias habilidades de compreensão e raciocínio temporal, como frequência de ação, magnitude de movimento, ordem de eventos, etc. Além disso, ele possibilita avaliações em várias tarefas, como responder a perguntas em vídeo e legendagem, compreensão de vídeos curtos e longos, bem como diferentes modelos, como modelos de incorporação multimodal de vídeo e modelos de geração de texto. Os resultados mostram que modelos de ponta como o GPT-4o alcançam apenas 38,5% de precisão na resposta a perguntas no TemporalBench, demonstrando uma lacuna significativa (~30%) entre humanos e IA na compreensão temporal. Além disso, observamos uma armadilha crítica para QA de múltipla escolha, onde LLMs podem detectar as mudanças sutis em legendas negativas e encontrar uma descrição centralizada como pista para sua previsão, onde propomos a Acurácia Binária Múltipla (MBA) para corrigir tal viés. Esperamos que o TemporalBench possa promover a pesquisa na melhoria das capacidades de raciocínio temporal dos modelos. Tanto o conjunto de dados quanto o código de avaliação estarão disponíveis.
O ajuste fino supervisionado (AFS) é crucial para alinhar os Modelos de Linguagem de Grande Escala (MLEs) com instruções humanas. O objetivo principal durante o AFS é selecionar um subconjunto pequeno, porém representativo, de dados de treinamento do pool maior, de forma que o ajuste fino com este subconjunto alcance resultados comparáveis ou até mesmo superiores aos obtidos usando todo o conjunto de dados. No entanto, a maioria das técnicas de seleção de dados existentes são projetadas para pools de dados em pequena escala, o que não atende às demandas de cenários reais de AFS. Neste artigo, replicamos vários métodos de autoavaliação que não dependem de assistência de modelo externo em conjuntos de dados de dois milhões de escalas, e descobrimos que quase todos os métodos tiveram dificuldade em superar significativamente a seleção aleatória ao lidar com pools de dados em grande escala. Além disso, nossas comparações sugerem que, durante o AFS, a diversidade na seleção de dados é mais crítica do que simplesmente focar em dados de alta qualidade. Também analisamos as limitações de várias abordagens atuais, explicando por que elas têm um desempenho ruim em conjuntos de dados em grande escala e por que não são adequadas para tais contextos. Por fim, descobrimos que filtrar dados por comprimento de token oferece um método estável e eficiente para melhorar os resultados. Esta abordagem, especialmente ao treinar em dados de texto longo, se mostra altamente benéfica para modelos de base relativamente mais fracos, como o Llama3.
Os recentes sistemas de assistentes de chat impulsionados por modelos de linguagem de grande escala (LLM) integraram componentes de memória para rastrear históricos de conversas entre usuário e assistente, permitindo respostas mais precisas e personalizadas. No entanto, suas capacidades de memória de longo prazo em interações sustentadas permanecem pouco exploradas. Este artigo apresenta o LongMemEval, um benchmark abrangente projetado para avaliar cinco habilidades principais de memória de longo prazo de assistentes de chat: extração de informações, raciocínio multi-sessão, raciocínio temporal, atualizações de conhecimento e abstenção. Com 500 perguntas meticulosamente selecionadas incorporadas em históricos de conversas entre usuário e assistente livremente escaláveis, o LongMemEval apresenta um desafio significativo para os sistemas de memória de longo prazo existentes, com assistentes de chat comerciais e LLMs de longo contexto mostrando uma queda de 30% na precisão ao memorizar informações ao longo de interações sustentadas. Em seguida, apresentamos um framework unificado que divide o design de memória de longo prazo em quatro escolhas de design nas etapas de indexação, recuperação e leitura. Com base em insights experimentais-chave, propomos vários designs de memória, incluindo decomposição de sessão para otimização da granularidade de valor, expansão de chave aumentada por fatos para aprimorar a estrutura do índice e expansão de consulta consciente do tempo para refinar o escopo da pesquisa. Os resultados dos experimentos mostram que essas otimizações melhoram significativamente tanto a recuperação de memória quanto a resposta a perguntas subsequentes no LongMemEval. No geral, nosso estudo fornece recursos valiosos e orientações para avançar as capacidades de memória de longo prazo dos assistentes de chat baseados em LLM, abrindo caminho para uma IA conversacional mais personalizada e confiável.
O surgimento de grandes Modelos Visão-Linguagem (VLMs) avançou significativamente a compreensão multimodal, possibilitando uma integração mais sofisticada e precisa de informações visuais e textuais em diversas tarefas, incluindo legendagem de imagens e vídeos, resposta a perguntas visuais e recuperação cruzada de modalidades. Apesar das capacidades superiores dos VLMs, os pesquisadores carecem de uma compreensão abrangente de sua composicionalidade - a capacidade de compreender e produzir combinações inovadoras de componentes visuais e textuais conhecidos. Avaliações anteriores fornecem apenas uma avaliação relativamente rudimentar da composicionalidade sob as perspectivas de objetos, relações e atributos, negligenciando um raciocínio mais profundo sobre interações entre objetos, contagem e composições complexas. No entanto, a composicionalidade é uma habilidade crítica que facilita o raciocínio coerente e a compreensão entre modalidades para os VLMs. Para abordar essa limitação, propomos MMCOMPOSITION, um novo benchmark anotado por humanos para avaliar de forma abrangente e precisa a composicionalidade dos VLMs. Nosso benchmark proposto serve como um complemento a esses trabalhos anteriores. Com o MMCOMPOSITION, podemos quantificar e explorar a composicionalidade dos VLMs mainstream. Surpreendentemente, descobrimos que a composicionalidade do GPT-4o é inferior à do melhor modelo de código aberto, e analisamos as razões subjacentes. Nossa análise experimental revela as limitações dos VLMs na percepção e raciocínio composicional detalhados, apontando áreas para melhoria no design e treinamento de VLMs. Recursos disponíveis em: https://hanghuacs.github.io/MMComposition/
Grandes Modelos de Linguagem (LLMs) têm demonstrado um desempenho notável em várias tarefas por meio de aprendizado contextual. Para tarefas de raciocínio complexo que exigem um pensamento passo a passo, a técnica de Encadeamento de Pensamento (CoT) tem apresentado resultados impressionantes, especialmente quando combinada com autoconsistência. No entanto, algumas tarefas permanecem particularmente difíceis para os LLMs resolverem. A Árvore de Pensamentos (ToT) e o Grafo de Pensamentos (GoT) surgiram como alternativas, dividindo o problema complexo em caminhos de subproblemas. Neste artigo, propomos a Árvore de Problemas (ToP), uma versão mais simples da ToT, que hipotetizamos que pode funcionar melhor para tarefas complexas que podem ser divididas em sub tarefas idênticas. Nossos resultados empíricos mostram que nossa abordagem supera a ToT e o GoT, e além disso, tem um desempenho superior ao CoT em tarefas de raciocínio complexas. Todo o código para este artigo está publicamente disponível aqui: https://github.com/ArmelRandy/tree-of-problems.
A implantação de modelos de linguagem grandes de contexto longo (LLMs) é essencial, mas apresenta desafios significativos de computação e memória. Armazenar em cache todos os estados de Chave e Valor (KV) em todas as cabeças de atenção consome uma quantidade considerável de memória. Os métodos existentes de poda de cache KV danificam as capacidades de contexto longo dos LLMs ou oferecem apenas melhorias de eficiência limitadas. Neste artigo, identificamos que apenas uma fração das cabeças de atenção, também conhecidas como Cabeças de Recuperação, são críticas para processar contextos longos e exigem atenção total em todos os tokens. Em contraste, todas as outras cabeças, que se concentram principalmente em tokens recentes e pontos de atenção - denominadas Cabeças de Fluxo - não requerem atenção total. Com base nessa percepção, introduzimos o DuoAttention, um framework que aplica um cache KV completo apenas às cabeças de recuperação, enquanto utiliza um cache KV leve e de comprimento constante para as cabeças de fluxo, reduzindo tanto a memória de decodificação quanto de pré-preenchimento do LLM e a latência sem comprometer suas capacidades de contexto longo. O DuoAttention utiliza um algoritmo leve baseado em otimização com dados sintéticos para identificar com precisão as cabeças de recuperação. Nosso método reduz significativamente a memória de inferência de contexto longo em até 2,55 vezes para modelos MHA e 1,67 vezes para modelos GQA, acelerando a decodificação em até 2,18 vezes e 1,50 vezes e acelerando o pré-preenchimento em até 1,73 vezes e 1,63 vezes para modelos MHA e GQA, respectivamente, com perda mínima de precisão em comparação com a atenção total. Notavelmente, combinado com a quantização, o DuoAttention permite a decodificação do Llama-3-8B com um comprimento de contexto de 3,3 milhões em uma única GPU A100. O código está disponível em https://github.com/mit-han-lab/duo-attention.
Robôs humanoides capazes de operação autônoma em ambientes diversos têm sido há muito tempo um objetivo para os roboticistas. No entanto, a manipulação autônoma por robôs humanoides tem sido amplamente restrita a uma cena específica, principalmente devido à dificuldade de adquirir habilidades generalizáveis. Avanços recentes em políticas visuomotoras 3D, como a Política de Difusão 3D (DP3), têm demonstrado promessa em estender essas capacidades para ambientes mais selvagens. No entanto, as políticas visuomotoras 3D frequentemente dependem da calibração da câmera e da segmentação de nuvem de pontos, o que apresenta desafios para implantação em robôs móveis como os humanoides. Neste trabalho, apresentamos a Política de Difusão 3D Melhorada (iDP3), uma nova política visuomotora 3D que elimina essas restrições ao alavancar representações visuais 3D egocêntricas. Demonstramos que o iDP3 permite que um robô humanoide em tamanho real execute autonomamente habilidades em diversos cenários do mundo real, usando apenas dados coletados no laboratório. Vídeos estão disponíveis em: https://humanoid-manipulation.github.io
Grandes modelos de linguagem têm demonstrado um desempenho impressionante quando integrados com modelos de visão, possibilitando até mesmo a compreensão de vídeos. No entanto, avaliar esses modelos de vídeo apresenta seus próprios desafios únicos, para os quais foram propostos vários benchmarks. Neste artigo, mostramos que os benchmarks de vídeo-linguagem mais utilizados atualmente podem ser resolvidos sem exigir muito raciocínio temporal. Identificamos três problemas principais nos conjuntos de dados existentes: (i) informações estáticas de quadros individuais frequentemente são suficientes para resolver as tarefas; (ii) o texto das perguntas e respostas candidatas é excessivamente informativo, permitindo que os modelos respondam corretamente sem depender de qualquer entrada visual; (iii) o conhecimento do mundo por si só pode responder a muitas das perguntas, tornando os benchmarks um teste de replicação de conhecimento em vez de raciocínio visual. Além disso, descobrimos que benchmarks de perguntas e respostas abertas para compreensão de vídeo sofrem de problemas semelhantes, enquanto o processo de avaliação automática com Grandes Modelos de Linguagem é pouco confiável, tornando-o uma alternativa inadequada. Como solução, propomos o TVBench, um novo benchmark de perguntas de múltipla escolha de código aberto para vídeos, e demonstramos por meio de extensas avaliações que ele requer um alto nível de compreensão temporal. Surpreendentemente, descobrimos que a maioria dos modelos de vídeo-linguagem de última geração tem desempenho semelhante ao aleatório no TVBench, sendo apenas o Gemini-Pro e o Tarsier claramente superiores a essa linha de base.
Empregamos novas ferramentas de interpretabilidade mecanicista para questionar se a estrutura interna dos grandes modelos de linguagem (LLMs) apresenta correspondência com as estruturas linguísticas subjacentes às línguas nas quais são treinados. Em particular, questionamos (1) quando duas línguas empregam os mesmos processos morfossintáticos, os LLMs os lidam utilizando circuitos internos compartilhados? e (2) quando duas línguas requerem processos morfossintáticos diferentes, os LLMs os lidam utilizando circuitos internos distintos? Utilizando modelos multilíngues e monolíngues em inglês e chinês, analisamos os circuitos internos envolvidos em duas tarefas. Encontramos evidências de que os modelos empregam o mesmo circuito para lidar com o mesmo processo sintático independentemente da língua na qual ocorre, e que esse é o caso mesmo para modelos monolíngues treinados completamente de forma independente. Além disso, demonstramos que os modelos multilíngues empregam componentes específicos da língua (cabeças de atenção e redes feed-forward) quando necessário para lidar com processos linguísticos (por exemplo, marcação morfológica) que existem apenas em algumas línguas. Em conjunto, nossos resultados fornecem novas perspectivas sobre como os LLMs equilibram entre explorar estruturas comuns e preservar diferenças linguísticas ao lidar com a modelagem de várias línguas simultaneamente.
LayerNorm é um componente crítico em modelos de linguagem grandes modernos (LLMs) para estabilizar o treinamento e garantir uma otimização suave. No entanto, ele introduz desafios significativos em interpretabilidade mecanicista, supressão de características atípicas, propagação fiel de sinal e complexidade computacional e de comunicação da inferência privada. Este trabalho explora funções de ativação desejáveis em LLMs apenas de decodificador sem normalização. Contrariamente à preferência convencional pelo GELU em modelos baseados em transformadores, nossas descobertas empíricas demonstram uma tendência oposta - ReLU supera significativamente o GELU em modelos livres de LayerNorm, resultando em uma melhoria de perplexidade de 8.2%. Descobrimos um problema-chave com o GELU, onde camadas iniciais experimentam sobrecarga entrópica, levando à subutilização da capacidade representacional das cabeças de atenção. Isso destaca que ativações mais suaves como o GELU são inadequadas para arquiteturas sem LayerNorm, enquanto as propriedades geométricas do ReLU - especialização no espaço de entrada e seletividade intra-classe - levam a uma dinâmica de aprendizado aprimorada e melhor retenção de informações na ausência de LayerNorm. Este estudo oferece insights importantes para otimizar arquiteturas de transformadores onde LayerNorm apresenta desafios significativos.
Apresentamos o Treinamento Prévio de Ação Latente para modelos de Ação gerais (LAPA), um método não supervisionado para pré-treinamento de modelos Visão-Linguagem-Ação (VLA) sem rótulos de ação de robôs de verdade. Modelos Visão-Linguagem-Ação existentes requerem rótulos de ação normalmente coletados por teleoperadores humanos durante o pré-treinamento, o que limita significativamente as fontes de dados e a escala possíveis. Neste trabalho, propomos um método para aprender a partir de vídeos em escala da internet que não possuem rótulos de ação de robôs. Primeiramente, treinamos um modelo de quantização de ação utilizando um objetivo baseado em VQ-VAE para aprender ações latentes discretas entre frames de imagem, em seguida, pré-treinamos um modelo VLA latente para prever essas ações latentes a partir de observações e descrições de tarefas, e por fim, refinamos o VLA em dados de manipulação de robô em pequena escala para mapear de latente para ações de robô. Resultados experimentais demonstram que nosso método supera significativamente técnicas existentes que treinam políticas de manipulação de robôs a partir de vídeos em grande escala. Além disso, supera o modelo VLA de última geração treinado com rótulos de ação robótica em tarefas reais de manipulação que requerem condicionamento de linguagem, generalização para objetos não vistos e generalização semântica para instruções não vistas. O treinamento apenas em vídeos de manipulação humana também apresenta transferência positiva, abrindo o potencial para aproveitar dados em escala da web para modelos fundamentais de robótica.