Artigos de pesquisa em IA selecionados diariamente com traduções
Comparado aos dados de pares de imagem-texto, corpora intercalados permitem que Modelos de Visão-Linguagem (VLMs) compreendam o mundo de forma mais natural, como os humanos. No entanto, tais conjuntos de dados existentes são coletados de páginas da web, enfrentando desafios como baixa densidade de conhecimento, relações frouxas entre imagem e texto e fraca coerência lógica entre as imagens. Por outro lado, a internet hospeda vastos vídeos instrutivos (por exemplo, cursos de geometria online) amplamente utilizados pelos humanos para aprender disciplinas fundamentais, no entanto, esses recursos valiosos permanecem pouco explorados no treinamento de VLMs. Neste artigo, apresentamos um corpus multimodal de alta qualidade de livros didáticos com conhecimento fundamental mais rico para pré-treinamento de VLM. Ele coleta mais de 2,5 anos de vídeos instrutivos, totalizando 22.000 horas de aula. Primeiramente, utilizamos uma taxonomia proposta por LLM para coletar sistematicamente vídeos instrutivos. Em seguida, extraímos e refinamos progressivamente o conhecimento visual (keyframes), áudio (ASR) e textual (OCR) dos vídeos, e organizamos como um corpus intercalado de imagem-texto com base na ordem temporal. Em comparação com seus equivalentes, nosso livro didático centrado em vídeo oferece um contexto mais coerente, conhecimento mais rico e melhor alinhamento entre imagem e texto. Experimentos demonstram seu excelente desempenho de pré-treinamento, especialmente em tarefas intensivas em conhecimento e raciocínio, como ScienceQA e MathVista. Além disso, os VLMs pré-treinados em nosso livro demonstram uma notável consciência de contexto intercalado, aproveitando pistas visuais e textuais em seu contexto de poucas amostras para a resolução de tarefas. Nosso código está disponível em \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
Apesar dos avanços significativos na geração de vídeos, inserir um objeto específico em vídeos continua sendo uma tarefa desafiadora. A dificuldade reside em preservar os detalhes de aparência do objeto de referência e modelar com precisão movimentos coerentes ao mesmo tempo. Neste artigo, propomos o VideoAnydoor, um framework de inserção de objetos em vídeos sem necessidade de treinamento prévio, com preservação de detalhes de alta fidelidade e controle preciso de movimento. Partindo de um modelo de texto para vídeo, utilizamos um extrator de ID para injetar a identidade global e aproveitamos uma sequência de caixas para controlar o movimento geral. Para preservar a aparência detalhada e ao mesmo tempo suportar um controle de movimento refinado, projetamos um warp de pixels. Ele recebe a imagem de referência com pontos-chave arbitrários e as trajetórias de pontos-chave correspondentes como entradas. Ele distorce os detalhes dos pixels de acordo com as trajetórias e funde as características distorcidas com a U-Net de difusão, melhorando assim a preservação de detalhes e apoiando os usuários na manipulação das trajetórias de movimento. Além disso, propomos uma estratégia de treinamento envolvendo tanto vídeos quanto imagens estáticas com uma perda de reconstrução de reponderação para melhorar a qualidade da inserção. O VideoAnydoor demonstra uma superioridade significativa sobre os métodos existentes e suporta naturalmente várias aplicações subsequentes (por exemplo, geração de cabeças falantes, provas virtuais de roupas em vídeo, edição de múltiplas regiões) sem ajustes finos específicos da tarefa.
Com o aumento das capacidades de raciocínio de código dos modelos de linguagem grandes (LLMs) existentes e avanços em modelos de raciocínio como o OpenAI o1 e o3, há uma crescente necessidade de desenvolver benchmarks mais desafiadores e abrangentes que testem efetivamente suas sofisticadas habilidades de codificação em nível de competição. Benchmarks existentes, como LiveCodeBench e USACO, deixam a desejar devido à falta de casos de teste privados, à falta de suporte para juízes especiais e a ambientes de execução desalinhados. Para preencher essa lacuna, apresentamos o CodeElo, um benchmark padronizado de geração de código em nível de competição que aborda efetivamente todos esses desafios pela primeira vez. O benchmark CodeElo é baseado principalmente na plataforma oficial CodeForces e tenta se alinhar com a plataforma o máximo possível. Compilamos os problemas dos últimos seis meses de competições no CodeForces com informações detalhadas, como divisões de competições, classificações de dificuldade dos problemas e tags de algoritmos dos problemas. Introduzimos um método de julgamento único no qual os problemas são enviados diretamente para a plataforma e desenvolvemos um sistema confiável de cálculo de classificação Elo que se alinha com a plataforma e é comparável com participantes humanos, mas com menor variância. Ao testar em nosso CodeElo, fornecemos as classificações Elo de 30 LLMs populares de código aberto e 3 proprietários pela primeira vez. Os resultados mostram que o o1-mini e o QwQ-32B-Preview se destacam significativamente, alcançando classificações Elo de 1578 e 1261, respectivamente, enquanto outros modelos têm dificuldade até mesmo com os problemas mais fáceis, ficando entre os 20% mais baixos entre todos os participantes humanos. Experimentos de análise detalhada também são conduzidos para fornecer insights sobre o desempenho em diferentes algoritmos e comparações entre o uso de C++ e Python, o que pode sugerir direções para estudos futuros.
Os Modelos de Linguagem em Vídeo de Grande Escala (Video LLMs) têm demonstrado recentemente capacidades notáveis em compreensão geral de vídeos. No entanto, eles se concentram principalmente na compreensão holística e têm dificuldade em capturar detalhes espaciais e temporais refinados. Além disso, a falta de dados de instrução em vídeo em nível de objeto de alta qualidade e de um benchmark abrangente também dificulta seus avanços. Para enfrentar esses desafios, introduzimos o VideoRefer Suite para capacitar o Video LLM para uma compreensão de vídeo espacial-temporal em níveis mais refinados, ou seja, permitindo a percepção e o raciocínio sobre quaisquer objetos ao longo do vídeo. Especificamente, desenvolvemos minuciosamente o VideoRefer Suite em três aspectos essenciais: conjunto de dados, modelo e benchmark. Em primeiro lugar, introduzimos um mecanismo de dados multiagente para cuidadosamente criar um conjunto de dados de instrução em vídeo em nível de objeto em grande escala e de alta qualidade, denominado VideoRefer-700K. Em seguida, apresentamos o modelo VideoRefer, que equipa um codificador de objeto espacial-temporal versátil para capturar representações regionais e sequenciais precisas. Por fim, criamos minuciosamente um VideoRefer-Bench para avaliar abrangentemente a capacidade de compreensão espacial-temporal de um Video LLM, avaliando-o em vários aspectos. Experimentos extensivos e análises demonstram que nosso modelo VideoRefer não apenas alcança um desempenho promissor em benchmarks de referência de vídeo, mas também facilita as capacidades gerais de compreensão de vídeo.
Apresentamos o LTX-Video, um modelo de difusão latente baseado em transformer que adota uma abordagem holística para geração de vídeos, integrando de forma contínua as responsabilidades do Video-VAE e do transformer de remoção de ruído. Ao contrário de métodos existentes, que tratam esses componentes como independentes, o LTX-Video tem como objetivo otimizar a interação entre eles para melhorar a eficiência e a qualidade. Em seu núcleo, há um Video-VAE cuidadosamente projetado que alcança uma alta taxa de compressão de 1:192, com redução espaciotemporal de 32 x 32 x 8 pixels por token, possibilitada pela realocação da operação de divisão em patches da entrada do transformer para a entrada do VAE. Operar nesse espaço latente altamente comprimido permite que o transformer execute de forma eficiente a autoatenção espaciotemporal completa, o que é essencial para gerar vídeos de alta resolução com consistência temporal. No entanto, a alta compressão limita inerentemente a representação de detalhes finos. Para lidar com isso, nosso decodificador VAE é encarregado tanto da conversão latente para pixel quanto da etapa final de remoção de ruído, produzindo o resultado limpo diretamente no espaço de pixels. Essa abordagem preserva a capacidade de gerar detalhes finos sem incorrer no custo de tempo de execução de um módulo separado de aumento de resolução. Nosso modelo suporta diversos casos de uso, incluindo geração de texto para vídeo e imagem para vídeo, com ambas as capacidades treinadas simultaneamente. Ele alcança uma geração mais rápida que em tempo real, produzindo 5 segundos de vídeo a 24 fps e resolução de 768x512 em apenas 2 segundos em uma GPU Nvidia H100, superando todos os modelos existentes de escala similar. O código-fonte e os modelos pré-treinados estão disponíveis publicamente, estabelecendo um novo referencial para geração de vídeos acessível e escalável.
Os modelos de difusão latente com arquiteturas Transformer destacam-se na geração de imagens de alta fidelidade. No entanto, estudos recentes revelam um dilema de otimização nesse design de dois estágios: aumentar a dimensão da característica por token nos tokenizadores visuais melhora a qualidade da reconstrução, mas exige modelos de difusão substancialmente maiores e mais iterações de treinamento para alcançar desempenho de geração comparável. Consequentemente, os sistemas existentes frequentemente se contentam com soluções subótimas, seja produzindo artefatos visuais devido à perda de informação nos tokenizadores ou falhando em convergir completamente devido aos custos computacionais elevados. Argumentamos que esse dilema decorre da dificuldade inerente em aprender espaços latentes de alta dimensão não restritos. Para lidar com isso, propomos alinhar o espaço latente com modelos de fundação visual pré-treinados ao treinar os tokenizadores visuais. Nosso VA-VAE proposto (Variational AutoEncoder Alinhado com Modelo de Fundação Visual) expande significativamente a fronteira de reconstrução-geração de modelos de difusão latente, permitindo uma convergência mais rápida dos Transformadores de Difusão (DiT) em espaços latentes de alta dimensão. Para explorar todo o potencial do VA-VAE, construímos uma linha de base DiT aprimorada com estratégias de treinamento e designs de arquitetura melhorados, denominada LightningDiT. O sistema integrado alcança desempenho de ponta (SOTA) na geração do ImageNet 256x256 com uma pontuação FID de 1.35, demonstrando notável eficiência de treinamento ao atingir uma pontuação FID de 2.11 em apenas 64 épocas - representando um aumento de mais de 21 vezes na velocidade de convergência em comparação com o DiT original. Modelos e códigos estão disponíveis em: https://github.com/hustvl/LightningDiT.
A segurança de conteúdo de imagens tornou-se um desafio significativo com o aumento de mídias visuais em plataformas online. Enquanto isso, na era do conteúdo gerado por IA (CGIA), muitos modelos de geração de imagens são capazes de produzir conteúdo prejudicial, como imagens contendo material sexual ou violento. Portanto, torna-se crucial identificar tais imagens inseguras com base em regras de segurança estabelecidas. Modelos de Linguagem Multimodais de Grande Porte (MLLMs) pré-treinados oferecem potencial nesse sentido, dadas suas fortes habilidades de reconhecimento de padrões. As abordagens existentes geralmente ajustam finamente os MLLMs com conjuntos de dados rotulados por humanos, o que, no entanto, traz uma série de desvantagens. Em primeiro lugar, depender de anotadores humanos para rotular dados seguindo diretrizes intricadas e detalhadas é tanto caro quanto intensivo em mão de obra. Além disso, os usuários de sistemas de julgamento de segurança podem precisar atualizar frequentemente as regras de segurança, tornando o ajuste fino com base em anotação humana mais desafiador. Isso levanta a questão de pesquisa: Podemos detectar imagens inseguras consultando MLLMs em um cenário de zero-shot usando uma constituição de segurança predefinida (um conjunto de regras de segurança)? Nossa pesquisa mostrou que simplesmente consultar MLLMs pré-treinados não produz resultados satisfatórios. Essa falta de eficácia decorre de fatores como a subjetividade das regras de segurança, a complexidade de constituições extensas e os vieses inerentes nos modelos. Para enfrentar esses desafios, propomos um método baseado em MLLM que inclui a objetificação de regras de segurança, avaliação da relevância entre regras e imagens, realização de julgamentos rápidos com base em probabilidades de tokens desviados com cadeias de pré-condições logicamente completas, porém simplificadas, para regras de segurança, e condução de raciocínio mais aprofundado com processos encadeados de pensamento, se necessário. Os resultados experimentais demonstram que nosso método é altamente eficaz para tarefas de julgamento de segurança de imagens em cenários de zero-shot.
A Auto-Correção tem como objetivo permitir que grandes modelos de linguagem (LLMs) se autoverifiquem e se autorrefinem suas respostas iniciais sem feedback externo. No entanto, os LLMs frequentemente falham em se autoverificar de forma eficaz e gerar feedback correto, o que pode levar a um refinamento enganoso e resultar na falha da auto-correção, especialmente em tarefas de raciocínio complexas. Neste artigo, propomos a Auto-Correção Orientada por Programa (ProgCo). Primeiramente, a verificação orientada por programa (ProgVe) alcança lógica de verificação complexa e validação extensiva por meio de pseudo-programas de verificação auto-gerados e auto-executáveis. Em seguida, o refinamento orientado por programa (ProgRe) recebe feedback do ProgVe, realiza uma reflexão e refinamento duplo tanto nas respostas quanto nos programas de verificação para mitigar feedback incorreto em tarefas de raciocínio complexas. Experimentos em três conjuntos de dados de seguir instruções e matemáticos indicam que o ProgCo alcança uma auto-correção eficaz e pode ter seu desempenho aprimorado quando combinado com ferramentas de programa reais.
Agentes de IA tornaram-se cada vez mais prevalentes nos últimos anos, impulsionados por avanços significativos no campo dos grandes modelos de linguagem (LLMs). Agentes de GUI móvel, um subconjunto de agentes de IA, são projetados para realizar tarefas autonomamente em dispositivos móveis. Embora inúmeros estudos tenham introduzido agentes, conjuntos de dados e benchmarks para avançar na pesquisa de agentes de GUI móvel, muitos conjuntos de dados existentes focam em avaliações de quadros estáticos e falham em fornecer uma plataforma abrangente para avaliar o desempenho em tarefas do mundo real e em ambientes não controlados. Para abordar essa lacuna, apresentamos o Android Agent Arena (A3), uma plataforma de avaliação inovadora. Ao contrário dos sistemas em ambientes não controlados existentes, o A3 oferece: (1) tarefas significativas e práticas, como recuperação de informações online em tempo real e instruções operacionais; (2) um espaço de ação maior e mais flexível, possibilitando a compatibilidade com agentes treinados em qualquer conjunto de dados; e (3) um processo de avaliação automatizado baseado em LLM em nível empresarial. O A3 inclui 21 aplicativos de terceiros gerais amplamente utilizados e 201 tarefas representativas de cenários de usuário comuns, fornecendo uma base robusta para avaliar agentes de GUI móvel em situações do mundo real e um novo processo de avaliação autônoma para menos trabalho humano e expertise em codificação. O projeto está disponível em https://yuxiangchai.github.io/Android-Agent-Arena/.
Os avanços recentes em modelos fundamentais aprimoraram as capacidades dos sistemas de IA no uso autônomo de ferramentas e raciocínio. No entanto, sua capacidade em raciocínio baseado em localização ou mapas - que melhora a vida diária otimizando a navegação, facilitando a descoberta de recursos e simplificando a logística - não foi estudada de forma sistemática. Para preencher essa lacuna, apresentamos o MapEval, um benchmark projetado para avaliar consultas de usuários diversificadas e complexas baseadas em mapas com raciocínio geoespacial. O MapEval apresenta três tipos de tarefas (textual, baseado em API e visual) que exigem coletar informações mundiais por meio de ferramentas de mapas, processar contextos geoespaciais heterogêneos (por exemplo, entidades nomeadas, distâncias de viagem, avaliações ou classificações de usuários, imagens) e raciocínio composicional, que todos os modelos fundamentais de ponta consideram desafiadores. Composto por 700 perguntas de múltipla escolha únicas sobre locais em 180 cidades e 54 países, o MapEval avalia a capacidade dos modelos fundamentais de lidar com relacionamentos espaciais, infográficos de mapas, planejamento de viagens e desafios de navegação. Usando o MapEval, realizamos uma avaliação abrangente de 28 modelos fundamentais proeminentes. Embora nenhum modelo único tenha se destacado em todas as tarefas, Claude-3.5-Sonnet, GPT-4o e Gemini-1.5-Pro alcançaram um desempenho competitivo global. No entanto, lacunas significativas de desempenho surgiram, especialmente no MapEval, onde os agentes com Claude-3.5-Sonnet superaram GPT-4o e Gemini-1.5-Pro em 16% e 21%, respectivamente, e as lacunas se tornaram ainda mais ampliadas quando comparadas aos LLMs de código aberto. Nossas análises detalhadas fornecem insights sobre os pontos fortes e fracos dos modelos atuais, embora todos os modelos ainda fiquem aquém do desempenho humano em mais de 20% em média, enfrentando dificuldades com imagens de mapas complexos e raciocínio geoespacial rigoroso. Essa lacuna destaca o papel crítico do MapEval no avanço de modelos fundamentais de propósito geral com um entendimento geoespacial mais sólido.
O recente surgimento dos Modelos de Linguagem Grandes (LLMs) trouxe capacidades sofisticadas de raciocínio para o domínio de vídeos por meio dos Modelos de Linguagem Grandes de Vídeo (VideoLLMs). No entanto, os VideoLLMs atualmente dependem de um único codificador de visão para todo o processamento visual, o que limita a quantidade e o tipo de informação visual que pode ser transmitida ao LLM. Nosso método, MERV, Representação Multi-Codificador de Vídeos, em vez disso, aproveita vários codificadores visuais congelados para criar uma representação unificada de um vídeo, fornecendo ao VideoLLM um conjunto abrangente de conhecimento visual especializado. Alinhar espacial e temporalmente as características de cada codificador nos permite lidar com uma ampla gama de perguntas de compreensão de vídeo de escolha múltipla e abertas e superar trabalhos anteriores de ponta. MERV é até 3,7% melhor em precisão do que o Video-LLaVA em toda a suíte padrão de benchmarks de compreensão de vídeo, além de ter uma pontuação melhor no Video-ChatGPT. Também melhoramos o SeViLA, o melhor anterior em precisão de Teste de Percepção de zero-shot, em 2,2%. MERV introduz um número mínimo de parâmetros extras e treina mais rápido do que métodos equivalentes de um único codificador, enquanto paraleliza o processamento visual. Por fim, fornecemos evidências qualitativas de que o MERV captura com sucesso o conhecimento de domínio de cada um de seus codificadores. Nossos resultados oferecem direções promissoras na utilização de múltiplos codificadores de visão para uma compreensão abrangente de vídeos.
Os atuais modelos de linguagem grandes (LLMs) frequentemente têm dificuldade em produzir respostas precisas na primeira tentativa para tarefas de raciocínio complexas, como geração de código. Pesquisas anteriores lidam com esse desafio gerando múltiplas soluções candidatas e validando-as com testes unitários gerados pelo LLM. Os resultados da execução dos testes unitários servem como sinais de recompensa para identificar as soluções corretas. Como os LLMs sempre cometem erros com confiança, esses testes unitários não são confiáveis, diminuindo assim a qualidade dos sinais de recompensa. Motivados pela observação de que aumentar o número de soluções melhora o desempenho do LLM, exploramos o impacto de escalar os testes unitários para aprimorar a qualidade do sinal de recompensa. Nosso experimento pioneiro revela uma correlação positiva entre o número de testes unitários e a qualidade do sinal de recompensa, com maiores benefícios observados em problemas mais desafiadores. Com base nessas percepções, propomos o CodeRM-8B, um gerador de testes unitários leve, porém eficaz, que possibilita a escalabilidade eficiente e de alta qualidade dos testes unitários. Além disso, implementamos um mecanismo de escalonamento dinâmico que adapta o número de testes unitários com base na dificuldade do problema, melhorando ainda mais a eficiência. Resultados experimentais mostram que nossa abordagem melhora significativamente o desempenho em vários modelos em três benchmarks (por exemplo, com ganhos de 18,43% para Llama3-8B e 3,42% para GPT-4o-mini no HumanEval Plus).
Personalizar modelos de texto para imagem para gerar imagens de assuntos específicos em cenas e estilos diversos é um campo em rápido avanço. Abordagens atuais frequentemente enfrentam desafios em manter um equilíbrio entre a preservação da identidade e o alinhamento com o texto de entrada. Alguns métodos dependem de um único token textual para representar um assunto, o que limita a expressividade, enquanto outros utilizam representações mais ricas, porém prejudicam o alinhamento com o texto de entrada. Neste trabalho, introduzimos a Atenção Aninhada, um mecanismo inovador que injeta uma representação de imagem rica e expressiva nas camadas de atenção cruzada existentes do modelo. Nossa ideia principal é gerar valores de assunto dependentes da consulta, derivados de camadas de atenção aninhadas que aprendem a selecionar características relevantes do assunto para cada região na imagem gerada. Integramos essas camadas aninhadas em um método de personalização baseado em codificador e demonstramos que elas possibilitam uma alta preservação da identidade ao mesmo tempo que seguem os textos de entrada. Nossa abordagem é geral e pode ser treinada em diversos domínios. Além disso, sua preservação prévia nos permite combinar múltiplos assuntos personalizados de diferentes domínios em uma única imagem.
A restauração de vídeo apresenta desafios não triviais na manutenção da fidelidade ao mesmo tempo que recupera detalhes temporalmente consistentes de degradações desconhecidas na natureza. Apesar dos avanços recentes na restauração baseada em difusão, esses métodos frequentemente enfrentam limitações na capacidade de geração e eficiência de amostragem. Neste trabalho, apresentamos o SeedVR, um transformador de difusão projetado para lidar com a restauração de vídeo do mundo real com comprimentos e resoluções arbitrárias. O design central do SeedVR reside na atenção da janela deslocada que facilita a restauração eficaz em sequências de vídeo longas. O SeedVR ainda suporta janelas de tamanhos variáveis próximas à fronteira das dimensões espaciais e temporais, superando as restrições de resolução da atenção da janela tradicional. Equipado com práticas contemporâneas, incluindo autoencoder de vídeo causal, treinamento misto de imagem e vídeo e treinamento progressivo, o SeedVR alcança um desempenho altamente competitivo em benchmarks sintéticos e do mundo real, bem como em vídeos gerados por IA. Experimentos extensivos demonstram a superioridade do SeedVR sobre os métodos existentes para a restauração genérica de vídeo.
Serviços de mapeamento e navegação como Google Maps, Apple Maps, OpenStreet Maps, são essenciais para acessar vários dados baseados em localização, no entanto, frequentemente enfrentam dificuldades ao lidar com consultas geoespaciais em linguagem natural. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) mostram promessa em perguntas e respostas (QA), mas a criação de conjuntos de dados confiáveis de QA geoespacial a partir de serviços de mapas ainda é desafiadora. Apresentamos o MapQaTor, uma aplicação web que simplifica a criação de conjuntos de dados de QA baseados em mapas, reproduzíveis e rastreáveis. Com sua arquitetura plug-and-play, o MapQaTor permite integração perfeita com qualquer API de mapas, permitindo aos usuários coletar e visualizar dados de diversas fontes com configuração mínima. Ao armazenar em cache as respostas da API, a plataforma garante uma verdade confiável, aprimorando a confiabilidade dos dados mesmo à medida que as informações do mundo real evoluem. O MapQaTor centraliza a recuperação, anotação e visualização de dados dentro de uma única plataforma, oferecendo uma oportunidade única para avaliar o estado atual do raciocínio geoespacial baseado em LLM, enquanto avança suas capacidades para melhorar a compreensão geoespacial. Métricas de avaliação mostram que o MapQaTor acelera o processo de anotação em pelo menos 30 vezes em comparação com métodos manuais, destacando seu potencial para desenvolver recursos geoespaciais, como conjuntos de dados de raciocínio de mapas complexos. O site está disponível em: https://mapqator.github.io/ e um vídeo de demonstração está disponível em: https://youtu.be/7_aV9Wmhs6Q.
Os Modelos Estruturados de Espaço de Estados (SSMs) surgiram como alternativas aos transformadores. Embora os SSMs sejam frequentemente considerados eficazes na captura de dependências de sequências longas, demonstramos rigorosamente que eles são inerentemente limitados por um forte viés de recenticidade. Nossos estudos empíricos também revelam que esse viés prejudica a capacidade dos modelos de lembrar informações distantes e introduz problemas de robustez. Nossos experimentos de escalonamento descobriram que estruturas mais profundas nos SSMs podem facilitar a aprendizagem de contextos longos. No entanto, análises teóricas subsequentes revelam que, à medida que os SSMs aumentam em profundidade, eles apresentam outra tendência inevitável em direção ao excesso de suavização, por exemplo, as representações de tokens se tornando cada vez mais indistinguíveis. Esse dilema fundamental entre recenticidade e excesso de suavização dificulta a escalabilidade dos SSMs existentes. Inspirados em nossas descobertas teóricas, propomos polarizar dois canais das matrizes de transição de estados nos SSMs, definindo-os como zero e um, respectivamente, abordando simultaneamente o viés de recenticidade e o excesso de suavização. Experimentos demonstram que nossa técnica de polarização consistentemente melhora a precisão de recordação associativa de tokens de longo alcance e permite que os SSMs se beneficiem ainda mais de arquiteturas mais profundas. Todos os códigos-fonte estão disponíveis em https://github.com/VITA-Group/SSM-Bottleneck.
Os modelos de difusão têm demonstrado uma capacidade promissora na geração de dados de séries temporais (TS) de alta qualidade. Apesar do sucesso inicial, os trabalhos existentes geralmente se concentram na autenticidade dos dados ao nível individual, mas prestam menos atenção à preservação das propriedades em nível populacional em todo o conjunto de dados. Essas propriedades em nível populacional incluem distribuições de valores para cada dimensão e distribuições de certas dependências funcionais (por exemplo, correlação cruzada, CC) entre diferentes dimensões. Por exemplo, ao gerar dados de TS de consumo de energia doméstica, as distribuições de valores da temperatura externa e da temperatura da cozinha devem ser preservadas, assim como a distribuição de CC entre elas. Preservar tais propriedades em nível populacional de TS é crucial para manter as percepções estatísticas dos conjuntos de dados, mitigar o viés do modelo e aprimorar tarefas subsequentes como a previsão de TS. No entanto, muitas vezes é negligenciado pelos modelos existentes. Portanto, os dados gerados pelos modelos existentes frequentemente apresentam desvios de distribuição em relação aos dados originais. Propomos a Difusão Consciente da População para Séries Temporais (PaD-TS), um novo modelo de geração de TS que preserva melhor as propriedades em nível populacional. As principais inovações do PaD-TS incluem 1) um novo método de treinamento que incorpora explicitamente a preservação das propriedades em nível populacional de TS e 2) uma nova arquitetura de modelo de codificador de canal duplo que captura melhor a estrutura dos dados de TS. Resultados empíricos em grandes conjuntos de dados de referência mostram que o PaD-TS pode melhorar o escore de desvio de distribuição média de CC entre dados reais e sintéticos em 5,9 vezes, mantendo um desempenho comparável aos modelos de ponta na autenticidade ao nível individual.
Os Transformers dependem tanto de mecanismos de endereçamento baseados em conteúdo quanto em posição para fazer previsões, mas as técnicas de codificação posicional existentes frequentemente diminuem a eficácia do endereçamento baseado em posição. Muitos métodos atuais impõem padrões rígidos nos mapas de atenção, limitando a capacidade de modelar dependências de longo alcance e adaptar-se a tarefas diversas. Além disso, a maioria das codificações posicionais são aprendidas como vieses gerais, carecendo da especialização necessária para diferentes instâncias dentro de um conjunto de dados. Para lidar com isso, propomos a Codificação Posicional Equivariante Contextualizada (TAPE), um novo framework que aprimora as incorporações posicionais ao incorporar conteúdo de sequência em todas as camadas. O TAPE introduz codificações posicionais dinâmicas e sensíveis ao contexto, superando as limitações dos padrões fixos tradicionais. Ao impor a equivariância de permutação e ortogonal, o TAPE garante a estabilidade das codificações posicionais durante as atualizações, melhorando a robustez e adaptabilidade. Nosso método pode ser facilmente integrado aos transformers pré-treinados, oferecendo ajuste fino eficiente de parâmetros com sobrecarga mínima. Experimentos extensos mostram que o TAPE alcança desempenho superior em modelagem de linguagem, raciocínio aritmético e tarefas de recuperação de contexto longo em comparação com as técnicas de incorporação posicional existentes.
A compreensão da ação humana é crucial para o avanço de sistemas multimodais. Enquanto os desenvolvimentos recentes, impulsionados por poderosos modelos de linguagem de grande escala (LLMs), visam ser suficientemente gerais para abranger uma ampla gama de categorias, muitas vezes negligenciam a necessidade de capacidades mais específicas. Neste trabalho, abordamos a tarefa mais desafiadora de Reconhecimento de Ação Detalhado (FAR), que se concentra em rótulos semânticos detalhados dentro de uma duração temporal mais curta (por exemplo, "salto para trás com 1 volta"). Dados os altos custos de anotação de rótulos detalhados e a quantidade substancial de dados necessária para ajustar finamente os LLMs, propomos adotar a aprendizagem semi-supervisionada (SSL). Nosso framework, SeFAR, incorpora vários designs inovadores para lidar com esses desafios. Especificamente, para capturar detalhes visuais suficientes, construímos Elementos temporais em dois níveis como representações mais eficazes, com base nos quais projetamos uma nova estratégia de aumento forte para o paradigma de aprendizagem Professor-Aluno envolvendo perturbação temporal moderada. Além disso, para lidar com a alta incerteza nas previsões do modelo professor para FAR, propomos a Regulação Adaptativa para estabilizar o processo de aprendizagem. Experimentos mostram que o SeFAR alcança desempenho de ponta em dois conjuntos de dados FAR, FineGym e FineDiving, em várias escalas de dados. Ele também supera outros métodos semi-supervisionados em dois conjuntos de dados clássicos de granulação grosseira, UCF101 e HMDB51. Análises adicionais e estudos de ablação validam a eficácia de nossos designs. Além disso, demonstramos que as características extraídas pelo nosso SeFAR podem promover significativamente a capacidade dos modelos de fundação multimodais de entender semânticas detalhadas e específicas de domínio.