Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em modelos de difusão de vídeo têm demonstrado habilidades excepcionais em simular dinâmicas do mundo real e manter consistência tridimensional. Este progresso nos inspira a investigar o potencial desses modelos para garantir consistência dinâmica em várias perspectivas, uma característica altamente desejável para aplicações como filmagem virtual. Ao contrário de métodos existentes focados na geração de múltiplas visualizações de objetos individuais para reconstrução 4D, nosso interesse reside em gerar vídeos de mundo aberto a partir de perspectivas arbitrárias, incorporando poses de câmera de 6 graus de liberdade. Para alcançar isso, propomos um módulo plug-and-play que aprimora um modelo pré-treinado de texto-para-vídeo para geração de vídeo multi-câmera, garantindo conteúdo consistente em diferentes perspectivas. Especificamente, introduzimos um módulo de sincronização multi-visualização para manter a consistência de aparência e geometria nessas perspectivas. Dada a escassez de dados de treinamento de alta qualidade, projetamos um esquema de treinamento híbrido que aproveita imagens de múltiplas câmeras e vídeos monoculares para complementar vídeos de múltiplas câmeras renderizados no Unreal Engine. Além disso, nosso método possibilita extensões intrigantes, como re-renderizar um vídeo a partir de novas perspectivas. Também disponibilizamos um conjunto de dados de vídeo sincronizado de várias visualizações, denominado SynCamVideo-Dataset. Página do projeto: https://jianhongbai.github.io/SynCamMaster/.
Os avanços recentes na geração de texto para imagem (T2I) têm demonstrado sucesso notável na produção de imagens de alta qualidade a partir de texto. No entanto, os modelos T2I existentes apresentam desempenho decaído na geração de imagem com composição envolvendo múltiplos objetos e relações intrincadas. Atribuímos esse problema às limitações nos conjuntos de dados existentes de pares imagem-texto, que carecem de anotações precisas de relações entre objetos com apenas sugestões. Para resolver esse problema, construímos LAION-SG, um conjunto de dados em grande escala com anotações estruturais de grafo de cena (SG), que descrevem precisamente atributos e relações de múltiplos objetos, representando efetivamente a estrutura semântica em cenas complexas. Com base em LAION-SG, treinamos um novo modelo fundamental SDXL-SG para incorporar informações de anotação estrutural no processo de geração. Experimentos extensivos mostram que modelos avançados treinados em nosso LAION-SG apresentam melhorias significativas de desempenho na geração de cenas complexas em comparação com modelos em conjuntos de dados existentes. Também introduzimos o CompSG-Bench, um benchmark que avalia modelos na geração de imagem com composição, estabelecendo um novo padrão para este domínio.
Os modelos de visão e linguagem deram passos significativos recentemente, demonstrando um desempenho superior em uma variedade de tarefas, como reconhecimento ótico de caracteres e análise de diagramas complexos. Seguindo essa tendência, apresentamos um novo modelo de visão e linguagem, POINTS1.5, projetado para se destacar em várias aplicações do mundo real. O POINTS1.5 é uma melhoria do POINTS1.0 e incorpora diversas inovações-chave: i) Substituímos o codificador de visão CLIP original, que tinha uma resolução de imagem fixa, por um codificador de visão no estilo NaViT que suporta alta resolução dinâmica nativa. Isso permite que o POINTS1.5 processe imagens de qualquer resolução sem a necessidade de dividi-las em blocos. ii) Adicionamos suporte bilíngue ao POINTS1.5, aprimorando significativamente sua capacidade em chinês. Devido à escassez de conjuntos de dados chineses de código aberto para modelos de visão e linguagem, coletamos inúmeras imagens da Internet e as anotamos usando uma combinação de métodos manuais e automáticos. iii) Propomos um conjunto de métodos rigorosos de filtragem para conjuntos de ajuste de instruções visuais. Avaliamos abrangentemente todos esses métodos de filtragem e escolhemos os mais eficazes para obter o conjunto final de ajuste de instruções visuais. Graças a essas inovações, o POINTS1.5 supera significativamente o POINTS1.0 e demonstra um forte desempenho em uma variedade de aplicações do mundo real. Notavelmente, o POINTS1.5-7B é treinado com menos de 4 bilhões de tokens e ocupa o primeiro lugar no quadro de líderes do OpenCompass entre os modelos com menos de 10 bilhões de parâmetros.
A geração de imagem de pessoa controlável tem como objetivo gerar uma imagem de pessoa condicionada a imagens de referência, permitindo controle preciso sobre a aparência ou pose da pessoa. No entanto, métodos anteriores frequentemente distorcem detalhes texturais refinados da imagem de referência, apesar de alcançarem alta qualidade geral de imagem. Atribuímos essas distorções à atenção inadequada às regiões correspondentes na imagem de referência. Para abordar isso, propomos, portanto, aprender campos de fluxo na atenção (Leffa), que guiam explicitamente a consulta alvo para atentar à chave de referência correta na camada de atenção durante o treinamento. Especificamente, isso é realizado por meio de uma perda de regularização sobre o mapa de atenção dentro de uma linha de base baseada em difusão. Nossos experimentos extensivos mostram que Leffa alcança desempenho de ponta no controle de aparência (prova virtual de roupas) e pose (transferência de pose), reduzindo significativamente a distorção de detalhes refinados, mantendo alta qualidade de imagem. Além disso, demonstramos que nossa perda é independente do modelo e pode ser usada para melhorar o desempenho de outros modelos de difusão.
O ecossistema BrowserGym aborda a crescente necessidade de avaliação eficiente e benchmarking de agentes web, especialmente aqueles que utilizam automação e Modelos de Linguagem Grandes (LLMs) para tarefas de interação web. Muitos benchmarks existentes sofrem de fragmentação e metodologias de avaliação inconsistentes, tornando desafiador obter comparações confiáveis e resultados reproduzíveis. O BrowserGym visa resolver isso fornecendo um ambiente unificado, semelhante a um ginásio, com espaços de observação e ação bem definidos, facilitando a avaliação padronizada em diversos benchmarks. Combinado com o AgentLab, um framework complementar que auxilia na criação, teste e análise de agentes, o BrowserGym oferece flexibilidade para integrar novos benchmarks enquanto garante avaliação consistente e gerenciamento abrangente de experimentos. Essa abordagem padronizada busca reduzir o tempo e a complexidade no desenvolvimento de agentes web, apoiando comparações mais confiáveis e facilitando análises aprofundadas dos comportamentos dos agentes, o que poderia resultar em agentes mais adaptáveis e capazes, acelerando, em última instância, a inovação na automação impulsionada por LLMs. Como evidência de apoio, realizamos o primeiro experimento em larga escala com múltiplos benchmarks de agentes web e comparamos o desempenho de 6 LLMs de ponta em todos os benchmarks atualmente disponíveis no BrowserGym. Entre outras descobertas, nossos resultados destacam uma grande discrepância entre os modelos mais recentes da OpenAI e da Anthropic, com o Claude-3.5-Sonnet liderando em quase todos os benchmarks, exceto em tarefas relacionadas à visão, onde o GPT-4o é superior. Apesar desses avanços, nossos resultados enfatizam que construir agentes web robustos e eficientes ainda é um desafio significativo, devido à complexidade inerente dos ambientes web do mundo real e às limitações dos modelos atuais.
O controle de estilo tem sido popular em modelos de geração de vídeos. Métodos existentes frequentemente geram vídeos longe do estilo fornecido, causam vazamento de conteúdo e têm dificuldade em transferir um vídeo para o estilo desejado. Nossa primeira observação é que a etapa de extração de estilo é importante, enquanto os métodos existentes enfatizam o estilo global, mas ignoram texturas locais. Para trazer características de textura e evitar vazamento de conteúdo, filtramos patches relacionados ao conteúdo enquanto mantemos os de estilo com base na similaridade de patches de referência; para extração de estilo global, geramos um conjunto de dados de estilo em pares por meio de ilusão de modelo para facilitar a aprendizagem constrastiva, o que melhora significativamente a consistência absoluta do estilo. Além disso, para preencher a lacuna entre imagem e vídeo, treinamos um adaptador de movimento leve em vídeos estáticos, que aprimora implicitamente a extensão da estilização e permite que nosso modelo treinado em imagens seja aplicado perfeitamente a vídeos. Beneficiando-se desses esforços, nossa abordagem, StyleMaster, não apenas alcança melhorias significativas tanto na semelhança de estilo quanto na coerência temporal, mas também pode ser facilmente generalizada para a transferência de estilo de vídeo com um ControlNet em tons de cinza. Experimentos extensivos e visualizações demonstram que o StyleMaster supera significativamente os concorrentes, gerando efetivamente vídeos estilizados de alta qualidade que se alinham com o conteúdo textual e se assemelham de perto ao estilo das imagens de referência. Nossa página do projeto está em https://zixuan-ye.github.io/stylemaster.
Embora os geradores de vídeo fundamentais recentes produzam saídas visualmente ricas, ainda enfrentam dificuldades com o desvio de aparência, onde objetos degradam gradualmente ou mudam de forma inconsistente entre os quadros, quebrando a coerência visual. Nossa hipótese é que isso ocorre porque não há supervisão explícita em termos de rastreamento espacial no nível de características. Propomos o Track4Gen, um gerador de vídeo espacialmente consciente que combina a perda de difusão de vídeo com o rastreamento de pontos entre os quadros, fornecendo uma supervisão espacial aprimorada nas características de difusão. O Track4Gen funde as tarefas de geração de vídeo e rastreamento de pontos em uma única rede, fazendo alterações mínimas nas arquiteturas de geração de vídeo existentes. Usando a Difusão de Vídeo Estável como base, o Track4Gen demonstra que é possível unificar a geração de vídeo e o rastreamento de pontos, que geralmente são tratados como tarefas separadas. Nossas extensas avaliações mostram que o Track4Gen reduz efetivamente o desvio de aparência, resultando em uma geração de vídeo temporalmente estável e visualmente coerente. Página do projeto: hyeonho99.github.io/track4gen
Os modelos Gaussianos avançados de alimentação direta generalizados têm alcançado progressos significativos na reconstrução 3D de visão esparsa ao aproveitar o conhecimento prévio de grandes conjuntos de dados multi-visão. No entanto, esses modelos frequentemente enfrentam dificuldades em representar detalhes de alta frequência devido ao número limitado de Gaussianas. Enquanto a estratégia de densificação usada na otimização de espalhamento Gaussiano 3D por cena (3D-GS) pode ser adaptada aos modelos de alimentação direta, ela pode não ser idealmente adequada para cenários generalizados. Neste artigo, propomos a Densificação Generativa, um método eficiente e generalizável para densificar Gaussianas geradas por modelos de alimentação direta. Ao contrário da estratégia de densificação 3D-GS, que divide e clona iterativamente parâmetros Gaussianos brutos, nosso método aumenta a resolução das representações de características dos modelos de alimentação direta e gera suas respectivas Gaussianas detalhadas em uma única passagem direta, aproveitando o conhecimento prévio incorporado para uma generalização aprimorada. Resultados experimentais em tarefas de reconstrução em nível de objeto e cena demonstram que nosso método supera abordagens de ponta com tamanhos de modelo comparáveis ou menores, alcançando melhorias notáveis na representação de detalhes finos.
Este artigo apresenta o StreamChat, uma abordagem inovadora que aprimora as capacidades de interação de Modelos Multimodais Grandes (LMMs) com conteúdo de vídeo em streaming. Em cenários de interação em tempo real, os métodos existentes dependem exclusivamente das informações visuais disponíveis no momento em que uma pergunta é feita, resultando em atrasos significativos, uma vez que o modelo permanece inconsciente de mudanças subsequentes no vídeo em streaming. O StreamChat aborda essa limitação atualizando de forma inovadora o contexto visual a cada passo de decodificação, garantindo que o modelo utilize conteúdo de vídeo atualizado ao longo do processo de decodificação. Além disso, introduzimos uma arquitetura flexível e eficiente baseada em crossattention para processar entradas de streaming dinâmicas, mantendo a eficiência de inferência para interações em tempo real. Além disso, construímos um novo conjunto de dados de instruções densas para facilitar o treinamento de modelos de interação em tempo real, complementado por um mecanismo paralelo 3D-RoPE que codifica as informações temporais relativas de tokens visuais e de texto. Resultados experimentais demonstram que o StreamChat alcança desempenho competitivo em benchmarks estabelecidos de imagem e vídeo, exibindo capacidades superiores em cenários de interação em tempo real em comparação com o LMM de vídeo de última geração.
A edição de imagens reais usando um modelo de difusão/fluido pré-treinado texto-para-imagem (T2I) frequentemente envolve a inversão da imagem em seu respectivo mapa de ruído. No entanto, a inversão por si só geralmente é insuficiente para obter resultados satisfatórios, e, portanto, muitos métodos intervêm adicionalmente no processo de amostragem. Tais métodos alcançam resultados aprimorados, mas não são facilmente transferíveis entre arquiteturas de modelos. Aqui, apresentamos o FlowEdit, um método de edição baseado em texto para modelos de fluxo T2I pré-treinados, que é livre de inversão, livre de otimização e independente de modelo. Nosso método constrói uma EDO que mapeia diretamente entre as distribuições de origem e alvo (correspondentes às sugestões de texto de origem e alvo) e alcança um custo de transporte mais baixo do que a abordagem de inversão. Isso resulta em resultados de ponta, como ilustramos com Stable Diffusion 3 e FLUX. O código e exemplos estão disponíveis na página do projeto.
O raciocínio espacial 3D é a capacidade de analisar e interpretar as posições, orientações e relações espaciais dos objetos dentro do espaço 3D. Isso permite que os modelos desenvolvam uma compreensão abrangente da cena 3D, possibilitando sua aplicabilidade a uma gama mais ampla de áreas, como navegação autônoma, robótica e RA/RV. Embora os grandes modelos multimodais (LMMs) tenham alcançado progressos notáveis em uma ampla gama de tarefas de compreensão de imagens e vídeos, suas capacidades de realizar raciocínio espacial 3D em imagens naturais diversas são menos estudadas. Neste trabalho, apresentamos o primeiro benchmark abrangente de raciocínio espacial 3D, 3DSRBench, com 2.772 pares de perguntas e respostas visuais anotadas manualmente em 12 tipos de perguntas. Realizamos uma avaliação robusta e minuciosa das capacidades de raciocínio espacial 3D equilibrando a distribuição dos dados e adotando uma estratégia FlipEval inovadora. Para estudar ainda mais a robustez do raciocínio espacial 3D em relação aos pontos de vista 3D da câmera, nosso 3DSRBench inclui dois subconjuntos com perguntas de raciocínio espacial 3D em imagens emparelhadas com pontos de vista comuns e incomuns. Avaliamos uma ampla gama de LMMs de código aberto e proprietários, revelando suas limitações em vários aspectos da consciência 3D, como altura, orientação, localização e raciocínio multiobjeto, bem como seu desempenho degradado em imagens com pontos de vista de câmera incomuns. Nosso 3DSRBench fornece descobertas e insights valiosos sobre o futuro desenvolvimento de LMMs com fortes capacidades de raciocínio 3D. Nossa página do projeto e conjunto de dados estão disponíveis em https://3dsrbench.github.io.
No campo da geração de texto para movimento, os Modelos Mascaramentos do tipo Bert (MoMask, MMM) atualmente produzem saídas de maior qualidade em comparação com os modelos autorregressivos do tipo GPT (T2M-GPT). No entanto, esses modelos do tipo Bert frequentemente carecem da capacidade de saída contínua necessária para aplicações em ambientes de videogame e multimídia, uma característica inerente aos modelos do tipo GPT. Além disso, eles demonstram um desempenho mais fraco na geração fora da distribuição. Para superar a qualidade dos modelos do tipo BERT enquanto aproveita uma estrutura do tipo GPT, sem adicionar modelos de refinamento extras que complicam a escalabilidade dos dados, propomos uma arquitetura inovadora, Mogo (Motion Only Generate Once), que gera movimentos humanos 3D realistas de alta qualidade treinando um único modelo transformer. Mogo consiste apenas em dois componentes principais: 1) RVQ-VAE, um autoencoder variacional de quantização vetorial residual hierárquico, que discretiza sequências de movimento contínuas com alta precisão; 2) Transformer Causal Hierárquico, responsável por gerar as sequências de movimento base de maneira autorregressiva enquanto infere simultaneamente resíduos em diferentes camadas. Resultados experimentais demonstram que Mogo pode gerar sequências de movimento contínuas e cíclicas de até 260 quadros (13 segundos), ultrapassando a limitação de comprimento de 196 quadros (10 segundos) de conjuntos de dados existentes como o HumanML3D. No conjunto de testes do HumanML3D, Mogo alcança um escore FID de 0,079, superando tanto o modelo do tipo GPT T2M-GPT (FID = 0,116), AttT2M (FID = 0,112) quanto o modelo do tipo BERT MMM (FID = 0,080). Além disso, nosso modelo alcança o melhor desempenho quantitativo na geração fora da distribuição.
Exploramos uma experiência de criação de vídeo inovadora, denominada Criação de Vídeo por Demonstração. Dado um vídeo de demonstração e uma imagem de contexto de uma cena diferente, geramos um vídeo fisicamente plausível que continua naturalmente a partir da imagem de contexto e executa os conceitos de ação da demonstração. Para habilitar essa capacidade, apresentamos o delta-Diffusion, uma abordagem de treinamento auto-supervisionada que aprende a partir de vídeos não rotulados por meio de previsão condicional de quadros futuros. Ao contrário da maioria dos controles de geração de vídeo existentes que são baseados em sinais explícitos, adotamos a forma de controle latente implícito para máxima flexibilidade e expressividade requerida por vídeos em geral. Ao alavancar um modelo de fundação de vídeo com um design de gargalo de aparência no topo, extraímos latentes de ação dos vídeos de demonstração para condicionar o processo de geração com vazamento mínimo de aparência. Empiricamente, o delta-Diffusion supera baselines relacionadas em termos de preferência humana e avaliações em larga escala de máquinas, e demonstra potenciais em direção à simulação interativa do mundo. Resultados de geração de vídeo amostrados estão disponíveis em https://delta-diffusion.github.io/.
Os Grandes Modelos de Linguagem são conhecidos por capturar conhecimento do mundo real, permitindo que se destaquem em muitas tarefas subsequentes. Apesar dos avanços recentes, esses modelos ainda são propensos ao que são comumente conhecidos como alucinações, levando-os a emitir texto indesejado e factualmente incorreto. Neste trabalho, propomos um novo método de calibração que pode ser usado para combater as alucinações. Adicionamos um token especial [IDK] ("Eu não sei") ao vocabulário do modelo e introduzimos uma função objetivo que desloca a massa de probabilidade para o token [IDK] em previsões incorretas. Essa abordagem permite que o modelo expresse explicitamente a incerteza em sua saída. Avaliamos nosso método proposto em várias arquiteturas de modelo e tarefas subsequentes factuais. Descobrimos que os modelos treinados com nosso método são capazes de expressar incerteza em lugares onde anteriormente cometeriam erros, sofrendo apenas uma pequena perda de conhecimento codificado. Além disso, realizamos extensivos estudos de ablação de múltiplas variações de nossa abordagem e fornecemos uma análise detalhada da compensação precisão-recuperação de nosso método.
O aumento do tamanho dos grandes modelos de linguagem (LLMs) resulta em sobrecarga computacional significativa e uso de memória ao adaptar esses modelos a tarefas ou domínios específicos. Vários métodos de ajuste fino eficientes em parâmetros (PEFT) foram desenvolvidos para mitigar esses desafios, treinando um pequeno conjunto de parâmetros para as atualizações específicas da tarefa dos pesos do modelo. Entre os métodos PEFT, o LoRA se destaca por sua simplicidade e eficiência, inspirando o desenvolvimento de uma série de variantes. No entanto, o LoRA e seus sucessores desconsideram o conhecimento que é ruidoso ou irrelevante para a tarefa alvo, impactando negativamente o desempenho do modelo e levando à suboptimalidade. Para lidar com essa limitação, apresentamos o Método de Adaptação de Valor Singular Consciente do Conhecimento (KaSA), um método PEFT que aproveita a decomposição em valores singulares (SVD) com valores singulares conscientes do conhecimento para ativar dinamicamente o conhecimento com base em sua relevância para a tarefa em questão. Realizamos experimentos extensivos em uma variedade de LLMs em tarefas abrangendo compreensão de linguagem natural (NLU), geração (NLG), seguimento de instruções e raciocínio do senso comum. Os resultados experimentais demonstram que o KaSA supera consistentemente o FFT e 14 baselines populares de PEFT em 16 benchmarks e 4 conjuntos de dados sintéticos, destacando a eficácia e adaptabilidade de nosso método. O código-fonte de nosso método está disponível em https://github.com/juyongjiang/KaSA.
A transferência de estilo orientada por texto tem como objetivo mesclar o estilo de uma imagem de referência com o conteúdo descrito por uma instrução de texto. Avanços recentes em modelos de texto para imagem têm aprimorado a sutileza das transformações de estilo, no entanto, desafios significativos permanecem, especialmente com o ajuste excessivo aos estilos de referência, limitando o controle estilístico e desalinhando-se com o conteúdo textual. Neste artigo, propomos três estratégias complementares para lidar com essas questões. Primeiramente, introduzimos um mecanismo de Normalização de Instância Adaptativa (AdaIN) cruzada-modal para uma melhor integração de características de estilo e texto, aprimorando o alinhamento. Em segundo lugar, desenvolvemos uma abordagem de Orientação Livre de Classificador Baseado em Estilo (SCFG) que permite controle seletivo sobre elementos estilísticos, reduzindo influências irrelevantes. Por fim, incorporamos um modelo professor durante as fases iniciais de geração para estabilizar layouts espaciais e mitigar artefatos. Nossas extensas avaliações demonstram melhorias significativas na qualidade da transferência de estilo e alinhamento com instruções textuais. Além disso, nossa abordagem pode ser integrada em estruturas de transferência de estilo existentes sem ajustes finos.
A criação de dados de alta qualidade para treinar agentes de linguagem robustos em IA incorporada é um desafio de longa data. Neste artigo, apresentamos um Ciclo de Autoaperfeiçoamento de Dados (CAD) que gera pares de instrução de navegação em larga escala e de alta qualidade, refinando iterativamente o conjunto de dados por meio da colaboração entre dois modelos, o gerador de instruções e o navegador, sem nenhuma anotação humana no processo. Especificamente, o CAD começa usando um gerador base para criar um conjunto de dados inicial para treinar um navegador base, seguido pela aplicação do navegador treinado para filtrar o conjunto de dados. Isso resulta em dados de maior fidelidade para treinar um gerador melhor, que por sua vez pode produzir dados de alta qualidade para treinar o navegador da próxima rodada. Esse ciclo estabelece um processo de autoaperfeiçoamento de dados, resultando em um conjunto de dados continuamente aprimorado e altamente eficaz para aprendizado de navegação guiado por linguagem em larga escala. Nossos experimentos demonstram que após várias rodadas do ciclo, o navegador eleva o limite de desempenho de 70% para 78% SPL no conjunto de testes R2R clássico, superando o desempenho humano (76%) pela primeira vez. Enquanto isso, esse processo resulta em um gerador superior, evidenciado por um aumento de SPICE de 23,5 para 26,2, melhor do que todos os métodos anteriores de geração de instruções VLN. Por fim, demonstramos a escalabilidade de nosso método por meio do aumento da diversidade de ambientes e instruções, e a capacidade de generalização de nosso navegador pré-treinado em várias tarefas de navegação subsequentes, superando os métodos de ponta em todos os casos.
A Tradução de Imagens (TI) possui um enorme potencial em diversos domínios, permitindo a tradução de conteúdo textual dentro de imagens para várias línguas. No entanto, os conjuntos de dados existentes frequentemente sofrem com limitações em escala, diversidade e qualidade, o que dificulta o desenvolvimento e a avaliação de modelos de TI. Para abordar essa questão, apresentamos o MIT-10M, um corpus paralelo em larga escala de tradução de imagens multilíngue com mais de 10 milhões de pares de imagens-texto derivados de dados do mundo real, que passaram por extensa limpeza de dados e validação de tradução multilíngue. Ele contém 840 mil imagens em três tamanhos, 28 categorias, tarefas com três níveis de dificuldade e 14 pares de idiomas de imagens-texto, o que representa uma melhoria considerável em relação aos conjuntos de dados existentes. Realizamos experimentos extensivos para avaliar e treinar modelos no MIT-10M. Os resultados experimentais indicam claramente que nosso conjunto de dados possui maior adaptabilidade quando se trata de avaliar o desempenho dos modelos ao lidar com tarefas desafiadoras e complexas de tradução de imagens no mundo real. Além disso, o desempenho do modelo ajustado com o MIT-10M triplicou em comparação com o modelo de referência, confirmando ainda mais sua superioridade.