Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos o SlowFast-LLaVA (ou SF-LLaVA, para abreviar), um modelo de linguagem grande para vídeos (LLM) sem treinamento que pode capturar conjuntamente a semântica espacial detalhada e o contexto temporal de longo alcance sem exceder o orçamento de tokens dos LLMs comumente utilizados. Isso é realizado usando um design SlowFast de dois fluxos de entrada para LLMs de Vídeo para agregar recursos de quadros de vídeo amostrados de forma eficaz. Especificamente, o caminho Lento extrai recursos a uma baixa taxa de quadros mantendo o máximo de detalhes espaciais possível (por exemplo, com 24x24 tokens), e o caminho Rápido opera a uma alta taxa de quadros, mas utiliza um maior passo de pooling espacial (por exemplo, subamostragem 6x) para focar nas pistas de movimento. Como resultado, esse design nos permite capturar adequadamente recursos espaciais e temporais benéficos para entender detalhes ao longo do vídeo. Resultados experimentais mostram que o SF-LLaVA supera os métodos existentes sem treinamento em uma ampla gama de tarefas de vídeo. Em alguns benchmarks, ele alcança desempenho comparável ou até melhor em comparação com LLMs de Vídeo de última geração que são ajustados em conjuntos de dados de vídeo.
Modelos de linguagem grandes (LLMs) direcionados a diferentes escalas e tamanhos de implantação são atualmente produzidos treinando cada variante do zero; isso é extremamente intensivo em termos de computação. Neste artigo, investigamos se a poda de um LLM existente e, em seguida, o seu retratamento com uma fração (<3%) dos dados de treinamento originais pode ser uma alternativa adequada ao treinamento completo repetido. Para isso, desenvolvemos um conjunto de práticas de compressão práticas e eficazes para LLMs que combinam poda de profundidade, largura, atenção e MLP com retratamento baseado em destilação de conhecimento; chegamos a essas melhores práticas por meio de uma exploração empírica detalhada de estratégias de poda para cada eixo, métodos para combinar eixos, estratégias de destilação e técnicas de busca para chegar a arquiteturas comprimidas ótimas. Utilizamos este guia para comprimir a família de LLMs Nemotron-4 por um fator de 2-4x, e comparamos seu desempenho com modelos de tamanho semelhante em uma variedade de tarefas de modelagem de linguagem. Derivar modelos de 8B e 4B a partir de um modelo pré-treinado de 15B usando nossa abordagem requer até 40x menos tokens de treinamento por modelo em comparação com o treinamento do zero; isso resulta em economia de custos computacionais de 1,8x para treinar a família completa de modelos (15B, 8B e 4B). Os modelos Minitron apresentam até 16% de melhoria nos escores de MMLU em comparação com o treinamento do zero, têm desempenho comparável a outros modelos comunitários como Mistral 7B, Gemma 7B e Llama-3 8B, e superam técnicas de compressão de ponta da literatura. Disponibilizamos os pesos do modelo Minitron no Huggingface, com material suplementar correspondente, incluindo código de exemplo disponível no GitHub.
A enorme escala dos modelos de base de última geração tem limitado sua acessibilidade aos cientistas, pois experimentos personalizados em tamanhos de modelo grandes requerem hardware custoso e engenharia complexa que é impraticável para a maioria dos pesquisadores. Para aliviar esses problemas, apresentamos o NNsight, um pacote Python de código aberto com uma API simples e flexível que pode expressar intervenções em qualquer modelo PyTorch construindo grafos de computação. Também introduzimos o NDIF, uma plataforma de pesquisa colaborativa que fornece aos pesquisadores acesso a LLMs em escala de base por meio da API do NNsight. Código, documentação e tutoriais estão disponíveis em https://www.nnsight.net.
Compreender os mecanismos de conhecimento em Modelos de Linguagem de Grande Escala (LLMs) é crucial para avançar em direção a uma AGI confiável. Este artigo revisa a análise dos mecanismos de conhecimento a partir de uma nova taxonomia que inclui a utilização e evolução do conhecimento. A utilização do conhecimento investiga o mecanismo de memorização, compreensão e aplicação, e criação. A evolução do conhecimento foca na progressão dinâmica do conhecimento dentro de LLMs individuais e em grupo. Além disso, discutimos o que os LLMs aprenderam, as razões para a fragilidade do conhecimento paramétrico e o potencial conhecimento obscuro (hipótese) que será desafiador de abordar. Esperamos que este trabalho possa ajudar a compreender o conhecimento em LLMs e fornecer insights para pesquisas futuras.
Grandes modelos multimodais (LMMs) possuem um grande potencial em diversos domínios, desde assistência pessoal em tarefas diárias até aplicações sofisticadas como diagnósticos médicos. No entanto, suas capacidades têm limitações no domínio de jogos de vídeo, como desafios com compreensão de cena, alucinações e descrições imprecisas de conteúdo de jogos de vídeo, especialmente em modelos de código aberto. Este artigo descreve o desenvolvimento do VideoGameBunny, um modelo do estilo LLaVA baseado em Bunny, especificamente adaptado para compreender imagens de jogos de vídeo. Disponibilizamos checkpoints intermediários, registros de treinamento e um extenso conjunto de dados composto por 185.259 imagens de jogos de vídeo de 413 títulos, juntamente com 389.565 pares de imagem-instrução que incluem legendas de imagem, pares de pergunta-resposta e uma representação JSON de 16 elementos de 136.974 imagens. Nossos experimentos mostram que nossos dados de alta qualidade relacionados a jogos têm o potencial de fazer um modelo relativamente pequeno superar o modelo de última geração muito maior LLaVa-1.6-34b (que possui mais de 4 vezes o número de parâmetros). Nosso estudo abre caminho para pesquisas futuras na compreensão de jogos de vídeo em tarefas como jogar, comentar e depurar. O código e os dados estão disponíveis em https://videogamebunny.github.io/
A aprendizagem por reforço multi-agente (MARL) tem se destacado recentemente na resolução de desafiantes problemas cooperativos e competitivos com múltiplos agentes em diversos ambientes, na maioria das vezes com poucos agentes e observabilidade total. Além disso, uma variedade de tarefas cruciais relacionadas à robótica, como navegação e desvio de obstáculos com múltiplos robôs, que tradicionalmente eram abordadas com métodos clássicos não-aprendíveis (por exemplo, busca heurística), atualmente são sugeridas para serem resolvidas por métodos baseados em aprendizado ou híbridos. Ainda assim, neste domínio, é difícil, para não dizer impossível, realizar uma comparação justa entre abordagens clássicas, baseadas em aprendizado e híbridas devido à falta de um framework unificado que suporte tanto o aprendizado quanto a avaliação. Para isso, apresentamos o POGEMA, um conjunto abrangente de ferramentas que inclui um ambiente rápido para aprendizado, um gerador de instâncias de problemas, uma coleção de instâncias pré-definidas, um conjunto de ferramentas de visualização e uma ferramenta de benchmarking que permite avaliação automatizada. Introduzimos e especificamos um protocolo de avaliação definindo uma variedade de métricas relacionadas ao domínio, calculadas com base nos indicadores de avaliação primários (como taxa de sucesso e comprimento do caminho), permitindo uma comparação justa e abrangente. Os resultados de tal comparação, que envolve uma variedade de métodos MARL, baseados em busca e híbridos de ponta, são apresentados.
Grandes modelos multimodais (LMMs) estão processando entradas cada vez mais longas e ricas. Apesar do progresso, poucos benchmarks públicos estão disponíveis para medir tal desenvolvimento. Para mitigar essa lacuna, apresentamos o LongVideoBench, um benchmark de question-answering que apresenta entradas entrelaçadas de vídeo-linguagem de até uma hora de duração. Nosso benchmark inclui 3.763 vídeos coletados na web de comprimentos variados com legendas em diversos temas, projetados para avaliar abrangente e detalhadamente LMMs em compreensão multimodal de longo prazo. Para alcançar isso, interpretamos o desafio principal como recuperar e raciocinar com precisão sobre informações multimodais detalhadas de entradas longas. Dessa forma, formulamos uma nova tarefa de question-answering de vídeo denominada raciocínio de referência. Especificamente, como parte da pergunta, ela contém uma consulta de referência que faz referência a contextos de vídeo relacionados, chamados de contexto referenciado. O modelo então precisa raciocinar sobre detalhes relevantes do vídeo a partir do contexto referenciado. Seguindo o paradigma do raciocínio de referência, curamos 6.678 perguntas de múltipla escolha anotadas por humanos em 17 categorias refinadas, estabelecendo um dos benchmarks mais abrangentes para compreensão de vídeo de longa duração. Avaliações sugerem que o LongVideoBench apresenta desafios significativos mesmo para os modelos proprietários mais avançados (por exemplo, GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), enquanto seus equivalentes de código aberto mostram uma lacuna de desempenho ainda maior. Além disso, nossos resultados indicam que o desempenho do modelo no benchmark melhora apenas quando são capazes de processar mais frames, posicionando o LongVideoBench como um benchmark valioso para avaliar LMMs de longo contexto de próxima geração.
A aprendizagem por reforço a partir do feedback humano (RLHF) é um fator-chave de qualidade e segurança em modelos de linguagem grandes de última geração. No entanto, uma estratégia surpreendentemente simples e forte durante a inferência é a seleção do Melhor-de-N amostragem que escolhe a melhor geração entre N candidatos. Neste artigo, propomos a Destilação Melhor-de-N (BOND), um novo algoritmo RLHF que busca emular o Melhor-de-N, mas sem o significativo custo computacional durante a inferência. Especificamente, BOND é um algoritmo de correspondência de distribuição que força a distribuição das gerações da política a se aproximar da distribuição Melhor-de-N. Utilizamos a divergência de Jeffreys (uma combinação linear de KL direta e reversa) para equilibrar entre cobertura de modo e comportamento de busca de modo, e derivamos uma formulação iterativa que utiliza uma âncora móvel para eficiência. Demonstramos a eficácia de nossa abordagem e várias escolhas de projeto por meio de experimentos em sumarização abstrativa e modelos Gemma. Alinhar as políticas Gemma com BOND supera outros algoritmos RLHF ao melhorar os resultados em vários benchmarks.
Embora os Campos de Radiância Neural (NeRFs) tenham demonstrado uma qualidade excepcional, a duração prolongada do treinamento ainda é uma limitação. NeRFs generalizáveis e baseados em MVS, embora capazes de reduzir o tempo de treinamento, frequentemente acarretam compensações na qualidade. Este artigo apresenta uma abordagem inovadora chamada BoostMVSNeRFs para aprimorar a qualidade de renderização de NeRFs baseados em MVS em cenas em grande escala. Identificamos inicialmente as limitações nos métodos de NeRF baseados em MVS, como cobertura de viewport restrita e artefatos devido a visualizações de entrada limitadas. Em seguida, abordamos essas limitações propondo um novo método que seleciona e combina múltiplos volumes de custo durante a renderização de volume. Nosso método não requer treinamento e pode se adaptar a quaisquer métodos de NeRF baseados em MVS de forma direta para melhorar a qualidade de renderização. Além disso, nossa abordagem também é treinável de ponta a ponta, permitindo o ajuste fino em cenas específicas. Demonstramos a eficácia de nosso método por meio de experimentos em conjuntos de dados em grande escala, mostrando melhorias significativas na qualidade de renderização em cenas em grande escala e cenários externos ilimitados. Disponibilizamos o código-fonte do BoostMVSNeRFs em https://su-terry.github.io/BoostMVSNeRFs/.
Os modelos de difusão entrelaçam a geração de conteúdo e estilo durante o processo de remoção de ruído, o que pode resultar em modificações indesejadas no conteúdo quando aplicados diretamente a tarefas de estilização. Métodos existentes têm dificuldade em controlar efetivamente o modelo de difusão para atender aos requisitos estéticos de estilização. Neste artigo, apresentamos o Artist, uma abordagem sem treinamento que controla esteticamente a geração de conteúdo e estilo de um modelo de difusão pré-treinado para estilização orientada por texto. Nosso insight chave é desvincular a remoção de ruído de conteúdo e estilo em processos de difusão separados, compartilhando informações entre eles. Propomos métodos simples, porém eficazes, de controle de conteúdo e estilo que suprimem a geração de conteúdo irrelevante para o estilo, resultando em resultados de estilização harmoniosos. Experimentos extensivos demonstram que nosso método se destaca ao atender aos requisitos estéticos de estilização, preservando detalhes intricados na imagem de conteúdo e alinhando-se bem com a sugestão de estilo. Além disso, demonstramos a alta capacidade de controle da intensidade de estilização sob diversas perspectivas. O código será disponibilizado, página inicial do projeto: https://DiffusionArtist.github.io
Apesar de os modelos de Correspondência de Fluxo e de difusão terem surgido como paradigmas gerativos poderosos para variáveis contínuas, como imagens e vídeos, sua aplicação a dados discretos de alta dimensão, como linguagem, ainda é limitada. Neste trabalho, apresentamos a Correspondência de Fluxo Discreto, um novo paradigma de fluxo discreto projetado especificamente para gerar dados discretos. A Correspondência de Fluxo Discreto oferece várias contribuições-chave: (i) trabalha com uma família geral de caminhos de probabilidade interpolando entre distribuições de origem e destino; (ii) permite uma fórmula genérica para amostragem desses caminhos de probabilidade usando posteriores aprendidos, como o denoiser de probabilidade (predição-x) e a predição de ruído (predição-épsilon); (iii) na prática, focar em caminhos de probabilidade específicos definidos com diferentes programadores melhora consideravelmente a perplexidade generativa em comparação com modelos de difusão e fluxo discretos anteriores; e (iv) escalando modelos de Correspondência de Fluxo Discreto para até 1,7 bilhão de parâmetros, alcançamos 6,7% Pass@1 e 13,4% Pass@10 no HumanEval e 6,7% Pass@1 e 20,6% Pass@10 nos benchmarks de codificação MBPP de 1 disparo. Nossa abordagem é capaz de gerar dados discretos de alta qualidade de forma não autoregressiva, fechando significativamente a lacuna entre modelos autoregressivos e modelos de fluxo discreto.
A geração de cenas 3D está em alta demanda em vários domínios, incluindo realidade virtual, jogos e a indústria cinematográfica. Devido às poderosas capacidades generativas dos modelos de difusão texto-imagem que fornecem prioridades confiáveis, a criação de cenas 3D usando apenas prompts de texto se tornou viável, avançando significativamente as pesquisas em geração de cenas 3D orientadas por texto. Para obter supervisão de múltiplas visualizações a partir de modelos de difusão 2D, os métodos predominantes geralmente empregam o modelo de difusão para gerar uma imagem local inicial, seguida pela saída iterativa da imagem local usando modelos de difusão para gerar gradualmente cenas. No entanto, essas abordagens baseadas em saída tendem a produzir resultados globais de geração de cenas inconsistentes sem alto grau de completude, restringindo suas aplicações mais amplas. Para lidar com esses problemas, apresentamos o HoloDreamer, um framework que primeiro gera uma panorâmica de alta definição como uma inicialização holística da cena 3D completa, e em seguida utiliza o Splatting Gaussiano 3D (3D-GS) para reconstruir rapidamente a cena 3D, facilitando assim a criação de cenas 3D consistentes visualmente e totalmente fechadas. Especificamente, propomos a Geração Estilizada de Panorama Equiretangular, um pipeline que combina vários modelos de difusão para permitir a geração estilizada e detalhada de panoramas equiretangulares a partir de prompts de texto complexos. Posteriormente, é introduzida a Reconstrução de Panorama em Dois Estágios Aprimorada, realizando uma otimização em dois estágios do 3D-GS para preencher a região faltante e aprimorar a integridade da cena. Experimentos abrangentes demonstraram que nosso método supera trabalhos anteriores em termos de consistência visual geral e harmonia, bem como qualidade de reconstrução e robustez de renderização ao gerar cenas totalmente fechadas.
Sistemas de inteligência artificial (IA) de propósito geral são construídos com vastas quantidades de dados públicos da web, reunidos em corpora como C4, RefinedWeb e Dolma. Até onde sabemos, realizamos a primeira auditoria em larga escala e longitudinal dos protocolos de consentimento para os domínios web subjacentes aos corpora de treinamento de IA. Nossa auditoria de 14.000 domínios web fornece uma visão abrangente dos dados web rastreáveis e de como as preferências de consentimento para seu uso estão mudando ao longo do tempo. Observamos uma proliferação de cláusulas específicas de IA para limitar o uso, diferenças agudas nas restrições aos desenvolvedores de IA, bem como inconsistências gerais entre as intenções expressas nos Termos de Serviço dos sites e seus robots.txt. Diagnosticamos esses sintomas como resultado de protocolos web ineficazes, não projetados para lidar com o amplo reaproveitamento da internet para IA. Nossas análises longitudinais mostram que em um único ano (2023-2024) houve um rápido aumento nas restrições de dados de fontes web, tornando ~5%+ de todos os tokens em C4, ou 28%+ das fontes críticas mais ativamente mantidas em C4, totalmente restritas para uso. Para as restrições de rastreamento dos Termos de Serviço, agora 45% de C4 está restrito. Se respeitadas ou aplicadas, essas restrições estão rapidamente enviesando a diversidade, a atualidade e as leis de escalonamento para sistemas de IA de propósito geral. Esperamos ilustrar a crise emergente no consentimento de dados, fechando grande parte da web aberta, não apenas para IA comercial, mas também para IA não comercial e fins acadêmicos.
Os modelos de difusão têm alcançado grande progresso na animação de imagens devido às poderosas capacidades generativas. No entanto, manter consistência espaço-temporal com informações detalhadas da imagem estática de entrada ao longo do tempo (por exemplo, estilo, fundo e objeto da imagem estática de entrada) e garantir suavidade em narrativas de vídeo animado guiadas por prompts textuais ainda é desafiador. Neste artigo, apresentamos o Cinemo, uma abordagem inovadora de animação de imagens para alcançar uma melhor controlabilidade de movimento, bem como uma maior consistência temporal e suavidade. Em geral, propomos três estratégias eficazes nas etapas de treinamento e inferência do Cinemo para alcançar nosso objetivo. Na etapa de treinamento, o Cinemo foca em aprender a distribuição de resíduos de movimento, em vez de prever diretamente o subsequente via um modelo de difusão de movimento. Adicionalmente, uma estratégia baseada no índice de similaridade estrutural é proposta para permitir que o Cinemo tenha uma melhor controlabilidade da intensidade do movimento. Na etapa de inferência, uma técnica de refinamento de ruído baseada na transformação discreta de cosseno é introduzida para mitigar mudanças bruscas de movimento. Essas três estratégias permitem que o Cinemo produza resultados altamente consistentes, suaves e controláveis em termos de movimento. Em comparação com métodos anteriores, o Cinemo oferece uma controlabilidade do usuário mais simples e precisa. Experimentos extensivos contra vários métodos de ponta, incluindo ferramentas comerciais e abordagens de pesquisa, em várias métricas, demonstram a eficácia e superioridade de nossa abordagem proposta.
A finetuning baseado em recompensas é crucial para alinhar as políticas de linguagem com os comportamentos pretendidos (por exemplo, criatividade e segurança). Um desafio chave aqui é desenvolver modelos de linguagem direcionáveis que equilibrem múltiplos objetivos (conflitantes) de maneira flexível e eficiente. Este artigo apresenta a Política de Linguagem Condicionada (PLC), um framework geral para o finetuning de modelos de linguagem em múltiplos objetivos. Baseando-se em técnicas de treinamento multitarefa e finetuning eficiente de parâmetros, a PLC pode aprender modelos direcionáveis que efetivamente equilibram objetivos conflitantes no momento da inferência. Notavelmente, isso não requer treinar ou manter múltiplos modelos para alcançar diferentes equilíbrios entre os objetivos. Através de um extenso conjunto de experimentos e ablações, mostramos que o framework PLC aprende modelos direcionáveis que superam e dominam o estado da arte atual para o finetuning multiobjetivo.
Construídos com base no poder dos LLMs, numerosos modelos de linguagem multimodais de grande porte (MLLMs) alcançaram recentemente desempenhos notáveis em várias tarefas de visão e linguagem em diversos benchmarks. No entanto, a maioria dos MLLMs e benchmarks existentes focam principalmente em cenários de entrada de imagens únicas, deixando o desempenho dos MLLMs ao lidar com múltiplas imagens realistas ainda pouco explorado. Embora alguns benchmarks considerem múltiplas imagens, suas dimensões de avaliação e amostras são muito limitadas. Portanto, neste artigo, propomos um novo benchmark, o MIBench, para avaliar de forma abrangente as habilidades detalhadas dos MLLMs em cenários de múltiplas imagens. Especificamente, o MIBench categoriza as habilidades de múltiplas imagens em três cenários: instrução de múltiplas imagens (MII), busca de conhecimento multimodal (MKS) e aprendizado multimodal em contexto (MIC), e constrói 13 tarefas com um total de 13 mil amostras anotadas. Durante a construção dos dados, para MII e MKS, extraímos opções corretas de anotações manuais e criamos distratores desafiadores para obter questões de múltipla escolha. Para o MIC, a fim de possibilitar uma avaliação aprofundada, estabelecemos quatro subtarefas e transformamos os conjuntos de dados originais em formatos de aprendizado em contexto. Avaliamos diversos MLLMs de código aberto e de código fechado no MIBench proposto. Os resultados revelam que, embora os modelos atuais se destaquem em tarefas de imagem única, apresentam deficiências significativas quando confrontados com entradas de múltiplas imagens, como percepção detalhada confusa, raciocínio limitado de múltiplas imagens e aprendizado instável em contexto. Os dados anotados no MIBench estão disponíveis em https://huggingface.co/datasets/StarBottle/MIBench.
Agentes de linguagem, construídos com base em modelos de linguagem (LMs), são sistemas que podem interagir com ambientes complexos, como a web aberta. Neste trabalho, examinamos se tais agentes podem realizar tarefas realistas e demoradas na web, como monitorar mercados imobiliários ou localizar empresas relevantes próximas. Apresentamos o AssistantBench, um novo benchmark desafiador composto por 214 tarefas realistas que podem ser avaliadas automaticamente, abrangendo diferentes cenários e domínios. Constatamos que o AssistantBench expõe as limitações dos sistemas atuais, incluindo modelos de linguagem e modelos de linguagem com recuperação aprimorada, uma vez que nenhum modelo atinge uma precisão de mais de 25 pontos. Embora os LMs de livro fechado tenham um bom desempenho, eles apresentam baixa precisão, pois tendem a alucinar fatos. Agentes web de ponta alcançam uma pontuação próxima de zero. Além disso, apresentamos o SeePlanAct (SPA), um novo agente web que supera significativamente agentes anteriores, e um conjunto de SPA e modelos de livro fechado alcança o melhor desempenho geral. Além disso, analisamos as falhas dos sistemas atuais e destacamos que a navegação na web continua sendo um grande desafio.
Os modelos existentes de texto para música podem produzir áudio de alta qualidade com grande diversidade. No entanto, apenas prompts textuais não conseguem controlar precisamente características musicais temporais, como acordes e ritmo da música gerada. Para enfrentar esse desafio, apresentamos o MusiConGen, um modelo de texto para música baseado em Transformer condicionado temporalmente que se baseia no framework pré-treinado MusicGen. Nossa inovação reside em um mecanismo eficiente de ajuste fino, adaptado para GPUs de consumo, que integra ritmo e acordes extraídos automaticamente como sinal de condição. Durante a inferência, a condição pode ser características musicais extraídas de um sinal de áudio de referência, ou uma sequência de acordes simbólicos definida pelo usuário, BPM e prompts textuais. Nossa avaliação de desempenho em dois conjuntos de dados -- um derivado de características extraídas e outro de entradas criadas pelo usuário -- demonstra que o MusiConGen pode gerar músicas de acompanhamento realistas que se alinham bem com as condições especificadas. Disponibilizamos o código e os pontos de verificação do modelo em código aberto, e fornecemos exemplos de áudio online em https://musicongen.github.io/musicongen_demo/.
Apresentamos o LocoTrack, um modelo altamente preciso e eficiente projetado para a tarefa de rastreamento de qualquer ponto (TAP) em sequências de vídeo. Abordagens anteriores nessa tarefa frequentemente dependem de mapas de correlação 2D locais para estabelecer correspondências de um ponto na imagem de consulta a uma região local na imagem-alvo, o que frequentemente enfrenta dificuldades com regiões homogêneas ou características repetitivas, levando a ambiguidades de correspondência. O LocoTrack supera esse desafio com uma abordagem inovadora que utiliza correspondências de todos os pares entre regiões, ou seja, correlação 4D local, para estabelecer correspondências precisas, com correspondência bidirecional e suavidade de correspondência aumentando significativamente a robustez contra ambiguidades. Também incorporamos um codificador de correlação leve para aumentar a eficiência computacional, e uma arquitetura compacta de Transformer para integrar informações temporais de longo prazo. O LocoTrack alcança uma precisão incomparável em todos os benchmarks TAP-Vid e opera a uma velocidade quase 6 vezes mais rápida do que o estado-da-arte atual.
A geração de layout é a tarefa fundamental do design inteligente, que requer a integração de estética visual e expressão harmoniosa na entrega de conteúdo. No entanto, os métodos existentes ainda enfrentam desafios na geração de layouts precisos e visualmente atraentes, incluindo bloqueios, sobreposições ou desalinhamentos espaciais entre layouts, que estão intimamente relacionados com a estrutura espacial dos layouts gráficos. Observamos que esses métodos focam excessivamente nas informações de conteúdo e carecem de restrições na estrutura espacial do layout, resultando em um desequilíbrio na aprendizagem de recursos conscientes de conteúdo e gráficos. Para lidar com esse problema, propomos a Geração de Layout com Equilíbrio de Conteúdo e Gráfico usando Modelo de Difusão baseado em Transformer (CGB-DM). Especificamente, primeiro projetamos um regulador que equilibra o peso previsto de conteúdo e gráfico, superando a tendência de prestar mais atenção ao conteúdo na tela. Em segundo lugar, introduzimos uma restrição gráfica de caixa delimitadora de saliência para aprimorar ainda mais o alinhamento de características geométricas entre representações de layout e imagens. Além disso, adaptamos um modelo de difusão baseado em transformer como espinha dorsal, cuja poderosa capacidade de geração garante a qualidade na geração de layout. Resultados experimentais extensivos indicam que nosso método alcançou desempenho de ponta em avaliações quantitativas e qualitativas. Nosso modelo de estrutura também pode ser expandido para outros campos de design gráfico.
A termografia tem uma variedade de aplicações, desde monitoramento agrícola até inspeção de edifícios e imagens em condições de visibilidade reduzida, como em baixa luminosidade, neblina e chuva. No entanto, reconstruir cenas térmicas em 3D apresenta vários desafios devido à resolução relativamente baixa e aos recursos limitados presentes em imagens de infravermelho de onda longa (LWIR). Para superar esses desafios, propomos um framework unificado para reconstrução de cena a partir de um conjunto de imagens LWIR e RGB, utilizando um campo de radiação multiespectral para representar uma cena vista por câmeras visíveis e infravermelhas, aproveitando assim informações em ambos os espectros. Calibramos as câmeras RGB e infravermelha uma em relação à outra, como etapa de pré-processamento, usando um alvo de calibração simples. Demonstramos nosso método em conjuntos de fotografias RGB e LWIR do mundo real capturadas de uma câmera térmica portátil, mostrando a eficácia do nosso método na representação de cena nos espectros visível e infravermelho. Mostramos que nosso método é capaz de super-resolução térmica, bem como remover visualmente obstáculos para revelar objetos ocultos nos canais RGB ou térmico. Consulte https://yvette256.github.io/thermalnerf para ver os resultados em vídeo, bem como nosso código e conjunto de dados.
Apresentamos os Jacobianos Residuais Temporais como uma representação inovadora para permitir a transferência de movimento baseada em dados. Nossa abordagem não pressupõe acesso a rigging ou keyframes de forma intermediária, produz movimentos geometricamente e temporalmente consistentes, e pode ser usada para transferir sequências de movimento longas. Central à nossa abordagem estão duas redes neurais acopladas que preveem individualmente mudanças geométricas e temporais locais que são posteriormente integradas, espacial e temporalmente, para produzir as malhas animadas finais. As duas redes são treinadas em conjunto, se complementam na produção de sinais espaciais e temporais, e são supervisionadas diretamente com informações de posição 3D. Durante a inferência, na ausência de keyframes, nosso método essencialmente resolve um problema de extrapolação de movimento. Testamos nossa configuração em malhas diversas (formas sintéticas e digitalizadas) para demonstrar sua superioridade na geração de animações realistas e naturais em formas corporais não vistas em comparação com alternativas de estado da arte. Vídeo complementar e código estão disponíveis em https://temporaljacobians.github.io/.
Este artigo apresenta o GET-Zero, uma arquitetura de modelo e procedimento de treinamento para aprender uma política de controle consciente da incorporação que pode se adaptar imediatamente a novas mudanças de hardware sem a necessidade de novo treinamento. Para isso, apresentamos o Transformador de Incorporação de Grafos (GET), um modelo transformer que alavanca a conectividade do grafo de incorporação como um viés estrutural aprendido no mecanismo de atenção. Utilizamos clonagem de comportamento para destilar dados de demonstração de políticas especializadas em incorporação em um modelo GET consciente da incorporação que se condiciona à configuração de hardware do robô para tomar decisões de controle. Realizamos um estudo de caso em uma tarefa de rotação de objetos em mãos habilidosas usando diferentes configurações de uma mão de robô de quatro dedos com articulações removidas e com extensões de comprimento de elo. Utilizando o modelo GET juntamente com uma perda de auto-modelagem, o GET-Zero generaliza para variações não vistas na estrutura do grafo e no comprimento do elo, resultando em uma melhoria de 20% em relação aos métodos de referência. Todo o código e resultados qualitativos em vídeo estão disponíveis em https://get-zero-paper.github.io
Avanços recentes em Modelos Multimodais de Grande Escala (LMMs) têm feito progressos significativos no campo de responder a perguntas visuais de imagem única. No entanto, esses modelos enfrentam desafios substanciais ao lidar com consultas que abrangem extensas coleções de imagens, semelhantes a cenários do mundo real, como procurar em grandes álbuns de fotos, encontrar informações específicas na internet ou monitorar mudanças ambientais por meio de imagens de satélite. Este artigo explora a tarefa de Resposta a Perguntas Visuais de Multi-Imagens (MIQA): dado um grande conjunto de imagens e uma consulta em linguagem natural, a tarefa é gerar uma resposta relevante e fundamentada. Propomos um novo benchmark público, denominado "Visual Haystacks (VHs)", especificamente projetado para avaliar as capacidades dos LMMs em recuperação visual e raciocínio sobre conjuntos de imagens não relacionadas, onde realizamos avaliações abrangentes demonstrando que até mesmo modelos robustos de código fechado enfrentam desafios significativos. Para lidar com essas deficiências, apresentamos o MIRAGE (Geração Aumentada de Recuperação de Multi-Imagens), um novo framework de recuperação/QA adaptado para LMMs que enfrenta os desafios do MIQA com melhorias marcantes em eficiência e precisão em relação aos métodos de linha de base. Nossa avaliação mostra que o MIRAGE supera os modelos GPT-4o de código fechado em até 11% no benchmark VHs e oferece melhorias de até 3,4 vezes em eficiência em relação a abordagens multiestágio focadas em texto.