Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, apresentamos o SaulLM-54B e o SaulLM-141B, dois grandes modelos de linguagem (LLMs) desenvolvidos para o setor jurídico. Esses modelos, com arquiteturas de 54 bilhões e 141 bilhões de parâmetros, respectivamente, são baseados na arquitetura Mixtral. O desenvolvimento do SaulLM-54B e do SaulLM-141B é orientado pela adaptação de domínio em larga escala, dividida em três estratégias: (1) a exploração de pré-treinamento contínuo envolvendo um corpus base que inclui mais de 540 bilhões de tokens legais, (2) a implementação de um protocolo especializado de seguimento de instruções legais e (3) o alinhamento das saídas do modelo com as preferências humanas em interpretações legais. A integração de dados gerados sinteticamente nos segundo e terceiro passos aprimora as capacidades dos modelos em interpretar e processar textos legais, alcançando efetivamente um desempenho de ponta e superando modelos de código aberto anteriores no LegalBench-Instruct. Este trabalho explora os compromissos envolvidos na adaptação específica de domínio nessa escala, oferecendo insights que podem informar estudos futuros sobre adaptação de domínio usando modelos decodificadores robustos. Construindo sobre o SaulLM-7B, este estudo aprimora a abordagem para produzir um LLM mais bem equipado para tarefas jurídicas. Estamos disponibilizando versões base, de instrução e alinhadas sobre o SaulLM-54B e o SaulLM-141B sob a Licença MIT para facilitar a reutilização e a pesquisa colaborativa.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado habilidades notáveis em várias tarefas, no entanto, seu desenvolvimento tem se concentrado predominantemente em idiomas de alto recurso como inglês e chinês, deixando idiomas de baixo recurso desatendidos. Para abordar essa disparidade, apresentamos o SeaLLMs 3, a última iteração da família de modelos SeaLLMs, adaptada para idiomas do Sudeste Asiático. Essa região, caracterizada por sua rica diversidade linguística, tem carecido de suporte tecnológico adequado para idiomas. O SeaLLMs 3 tem como objetivo preencher essa lacuna abrangendo uma ampla gama de idiomas falados na região, incluindo inglês, chinês, indonésio, vietnamita, tailandês, tagalo, malaio, birmanês, khmer, laosiano, tâmil e javanês. Aproveitando técnicas eficientes de aprimoramento de idiomas e um conjunto de dados de ajuste de instruções especialmente construído, o SeaLLMs 3 reduz significativamente os custos de treinamento, mantendo alto desempenho e versatilidade. Nosso modelo se destaca em tarefas como conhecimento mundial, raciocínio matemático, tradução e seguimento de instruções, alcançando desempenho de ponta entre modelos de tamanho semelhante. Além disso, priorizamos a segurança e confiabilidade ao abordar considerações gerais e específicas da cultura e incorporamos mecanismos para reduzir alucinações. Este trabalho destaca a importância de uma IA inclusiva, mostrando que as capacidades avançadas dos LLMs podem beneficiar comunidades linguísticas e culturais desatendidas.
O Transtorno Depressivo Maior (TDM) é uma condição de saúde mental pervasiva que afeta 300 milhões de pessoas em todo o mundo. Este trabalho apresenta uma arquitetura de fusão de nível de modelo tri-modal baseada em BiLSTM para a classificação binária da depressão a partir de gravações de entrevistas clínicas. A arquitetura proposta incorpora Coeficientes Cepstrais de Frequência Mel, Unidades de Ação Facial e utiliza um modelo GPT-4 baseado em aprendizado de duas etapas para processar dados de texto. Este é o primeiro trabalho a incorporar grandes modelos de linguagem em uma arquitetura multimodal para esta tarefa. Ele alcança resultados impressionantes na divisão de validação cruzada do Desafio DAIC-WOZ AVEC 2016 e na divisão de validação cruzada Leave-One-Subject-Out, superando todos os modelos de referência e vários modelos de ponta. No teste Leave-One-Subject-Out, ele alcança uma precisão de 91,01%, um F1-Score de 85,95%, uma precisão de 80% e uma revocação de 92,86%.
Os modelos de difusão de vídeo têm feito progressos substanciais em várias aplicações de geração de vídeo. No entanto, treinar modelos para tarefas de geração de vídeo longo requer recursos computacionais e de dados significativos, representando um desafio para o desenvolvimento de modelos de difusão de vídeo longo. Este artigo investiga uma abordagem direta e sem treinamento para estender um modelo de difusão de vídeo curto existente (por exemplo, pré-treinado em vídeos de 16 quadros) para uma geração consistente de vídeo longo (por exemplo, 128 quadros). Nossa observação preliminar descobriu que aplicar diretamente o modelo de difusão de vídeo curto para gerar vídeos longos pode resultar em degradação severa na qualidade do vídeo. Uma investigação adicional revela que essa degradação é principalmente devido à distorção dos componentes de alta frequência em vídeos longos, caracterizada por uma diminuição nos componentes de alta frequência espaciais e um aumento nos componentes de alta frequência temporais. Motivados por isso, propomos uma solução inovadora chamada FreeLong para equilibrar a distribuição de frequência das características de vídeo longo durante o processo de remoção de ruído. O FreeLong combina os componentes de baixa frequência das características globais de vídeo, que encapsulam toda a sequência de vídeo, com os componentes de alta frequência das características de vídeo locais que se concentram em sub-sequências mais curtas de quadros. Esta abordagem mantém a consistência global ao incorporar detalhes espaciotemporais diversos e de alta qualidade dos vídeos locais, aprimorando tanto a consistência quanto a fidelidade da geração de vídeo longo. Avaliamos o FreeLong em vários modelos de difusão de vídeo base e observamos melhorias significativas. Além disso, nosso método suporta a geração coerente de múltiplas entradas, garantindo tanto a coerência visual quanto transições suaves entre cenas.
A aprendizagem de políticas de robô baseadas em visão, que mapeia entradas visuais para ações, exige uma compreensão holística de diversas tarefas visuais além das necessidades de tarefas únicas como classificação ou segmentação. Inspirados por isso, apresentamos o Theia, um modelo de base visual para aprendizagem de robôs que destila múltiplos modelos de base visual prontos para uso treinados em tarefas visuais variadas. As representações visuais ricas do Theia codificam conhecimento visual diversificado, aprimorando a aprendizagem de robôs subsequentes. Experimentos extensivos demonstram que o Theia supera seus modelos professores e modelos anteriores de aprendizagem de robôs usando menos dados de treinamento e tamanhos de modelo menores. Além disso, quantificamos a qualidade das representações visuais pré-treinadas e hipotetizamos que uma maior entropia nas distribuições de norma de características leva a um desempenho aprimorado na aprendizagem de robôs. O código e os modelos estão disponíveis em https://github.com/bdaiinstitute/theia.
A busca e integração de informações é uma tarefa cognitiva complexa que consome um tempo e esforço enormes. Inspirados pelo notável progresso dos Modelos de Linguagem de Grande Escala, trabalhos recentes tentam resolver essa tarefa combinando LLMs e motores de busca. No entanto, esses métodos ainda obtêm desempenho insatisfatório devido a três desafios: (1) solicitações complexas frequentemente não podem ser recuperadas com precisão e completude pelo motor de busca de uma vez; (2) as informações correspondentes a serem integradas estão espalhadas por várias páginas da web juntamente com um ruído massivo; e (3) um grande número de páginas da web com conteúdos extensos pode rapidamente exceder o comprimento máximo de contexto dos LLMs. Inspirados no processo cognitivo quando os humanos resolvem esses problemas, introduzimos o MindSearch para imitar as mentes humanas na busca e integração de informações da web, que pode ser instanciado por um framework multiagente simples, porém eficaz, baseado em LLM. O WebPlanner modela a mente humana de busca de informações em vários passos como um processo de construção dinâmica de gráfico: ele decompõe a consulta do usuário em subperguntas atômicas como nós no gráfico e estende progressivamente o gráfico com base no resultado da busca do WebSearcher. Encarregado de cada subpergunta, o WebSearcher realiza recuperação hierárquica de informações com motores de busca e coleta informações valiosas para o WebPlanner. O design multiagente do MindSearch permite que todo o framework busque e integre informações em paralelo em uma escala maior (por exemplo, mais de 300) páginas da web em 3 minutos, o que equivale a 3 horas de esforço humano. O MindSearch demonstra uma melhoria significativa na qualidade da resposta em termos de profundidade e amplitude, tanto em problemas de perguntas e respostas de conjunto fechado quanto aberto. Além disso, as respostas do MindSearch baseadas no InternLM2.5-7B são preferíveis pelos humanos em relação às aplicações ChatGPT-Web e Perplexity.ai, o que implica que o MindSearch já pode fornecer uma solução competitiva para o mecanismo de busca de IA proprietário.
Os avanços recentes em grandes modelos de linguagem (LLMs) aumentaram a demanda por benchmarks abrangentes para avaliar suas capacidades como agentes semelhantes a humanos. Os benchmarks existentes, embora úteis, frequentemente se concentram em cenários de aplicação específicos, enfatizando a conclusão de tarefas, mas falhando em dissecar as habilidades subjacentes que impulsionam esses resultados. Essa falta de granularidade torna difícil discernir profundamente de onde vêm as falhas. Além disso, a configuração desses ambientes requer um esforço considerável, e questões de confiabilidade e reprodutibilidade às vezes surgem, especialmente em tarefas interativas. Para lidar com essas limitações, apresentamos o benchmark Massive Multitask Agent Understanding (MMAU), apresentando tarefas offline abrangentes que eliminam a necessidade de configurações de ambiente complexas. Ele avalia modelos em cinco domínios, incluindo Uso de Ferramentas, Perguntas e Respostas em Grafo Acíclico Direcionado (DAG), codificação em Ciência de Dados e Aprendizado de Máquina, programação de nível de competição e Matemática, e abrange cinco capacidades essenciais: Compreensão, Raciocínio, Planejamento, Resolução de Problemas e Autocorreção. Com um total de 20 tarefas meticulosamente projetadas abrangendo mais de 3 mil prompts distintos, o MMAU fornece um framework abrangente para avaliar os pontos fortes e limitações dos agentes LLM. Testando 18 modelos representativos no MMAU, fornecemos análises profundas e esclarecedoras. Em última análise, o MMAU não apenas lança luz sobre as capacidades e limitações dos agentes LLM, mas também aprimora a interpretabilidade de seu desempenho. Os conjuntos de dados e scripts de avaliação do MMAU estão disponíveis em https://github.com/apple/axlearn/docs/research/mmau.
O Preparo Prévio de Linguagem-Imagem Contrastiva (CLIP), que se destaca na abstração de representações de mundo aberto entre domínios e modalidades, tornou-se uma base para uma variedade de tarefas de visão e multimodais. No entanto, estudos recentes revelam que o CLIP possui graves deficiências visuais, como dificuldade em distinguir orientação, quantidade, cor, estrutura, etc. Essas deficiências visuais também limitam as capacidades de percepção de grandes modelos de linguagem multimodais (MLLMs) construídos com base no CLIP. A principal razão pode ser que os pares de imagem-texto usados para treinar o CLIP são inherentemente tendenciosos, devido à falta de distinção do texto e à diversidade de imagens. Neste trabalho, apresentamos uma abordagem simples de pós-treinamento para modelos CLIP, que supera em grande parte suas deficiências visuais por meio de um processo de difusão auto-supervisionado. Introduzimos o DIVA, que utiliza o modelo de DIfusão como Assistente Visual para o CLIP. Especificamente, o DIVA aproveita o feedback generativo de modelos de difusão de texto para imagem para otimizar as representações do CLIP, apenas com imagens (sem texto correspondente). Demonstramos que o DIVA melhora o desempenho do CLIP no desafiador benchmark MMVP-VLM, que avalia as habilidades visuais detalhadas em grande medida (por exemplo, 3-7%), e aprimora o desempenho de MLLMs e modelos de visão em tarefas de compreensão e segmentação multimodais. Uma avaliação extensiva em 29 benchmarks de classificação e recuperação de imagens confirma que nosso framework preserva as fortes capacidades de zero-shot do CLIP. O código estará disponível em https://github.com/baaivision/DIVA.
O meio visual (imagens e vídeos) naturalmente contém uma grande quantidade de redundância de informação, proporcionando assim uma ótima oportunidade para aumentar a eficiência no processamento. Enquanto os modelos baseados em Transformadores de Visão (ViT) se adaptam eficazmente a regimes de grandes volumes de dados, eles não conseguem aproveitar essa redundância inerente, resultando em custos computacionais mais elevados. As redes Mixture of Experts (MoE) demonstram escalabilidade mantendo os mesmos custos de inferência, porém possuem uma pegada de parâmetros maior. Apresentamos a Mixture of Nested Experts (MoNE), que utiliza uma estrutura aninhada para especialistas, onde especialistas individuais se encaixam em uma curva crescente de computação-precisão. Dado um orçamento computacional, o MoNE aprende a escolher dinamicamente tokens em uma ordem de prioridade, processando assim tokens redundantes por meio de especialistas aninhados mais baratos. Utilizando esse framework, alcançamos um desempenho equivalente aos modelos de referência, reduzindo o tempo de computação de inferência em mais de duas vezes. Validamos nossa abordagem em conjuntos de dados padrão de imagens e vídeos - ImageNet-21K, Kinetics400 e Something-Something-v2. Destacamos ainda a adaptabilidade do MoNE ao demonstrar sua capacidade de manter um forte desempenho em diferentes orçamentos de computação de inferência em vídeos, usando apenas um modelo treinado.
A eficaz formação de modelos de linguagem (LMs) para tarefas de raciocínio matemático exige dados de ajuste fino supervisionado de alta qualidade. Além de obter anotações de especialistas humanos, uma alternativa comum é a amostragem de LMs maiores e mais poderosos. No entanto, essa abordagem de destilação de conhecimento pode ser cara e instável, especialmente ao depender de LMs proprietários e de código fechado, como o GPT-4, cujos comportamentos frequentemente são imprevisíveis. Neste trabalho, demonstramos que as habilidades de raciocínio de LMs em pequena escala podem ser aprimoradas por meio do autoaprendizado, um processo no qual os modelos aprendem a partir de suas próprias saídas. Também mostramos que o autoaprendizado convencional pode ser ainda mais aprimorado por um algoritmo de aprendizado de preferência chamado Otimização Direta de Preferência (DPO). Ao integrar o DPO ao autoaprendizado, utilizamos dados de preferência para orientar os LMs em direção a um raciocínio mais preciso e diversificado. Avaliamos nosso método em diversas tarefas de raciocínio matemático usando diferentes modelos base. Nossos experimentos mostram que essa abordagem não apenas melhora o desempenho de raciocínio dos LMs, mas também oferece uma solução mais econômica e escalável em comparação com a dependência de LMs proprietários em grande escala.
Os modelos recentes de reconstrução 3D em larga escala geralmente empregam um processo de dois estágios, incluindo primeiro a geração de imagens de várias vistas por meio de um modelo de difusão de várias vistas e, em seguida, utilizam um modelo feed-forward para reconstruir imagens em conteúdo 3D. No entanto, os modelos de difusão de várias vistas frequentemente produzem imagens de baixa qualidade e inconsistentes, afetando adversamente a qualidade da reconstrução 3D final. Para lidar com esse problema, propomos um framework unificado de geração 3D chamado Cycle3D, que utiliza ciclicamente um módulo de geração baseado em difusão 2D e um módulo de reconstrução 3D feed-forward durante o processo de difusão de vários passos. Concretamente, o modelo de difusão 2D é aplicado para gerar texturas de alta qualidade, e o modelo de reconstrução garante consistência de várias vistas. Além disso, o modelo de difusão 2D pode controlar ainda mais o conteúdo gerado e injetar informações de vista de referência para vistas não vistas, melhorando assim a diversidade e a consistência de textura da geração 3D durante o processo de remoção de ruído. Experimentos extensos demonstram a capacidade superior de nosso método de criar conteúdo 3D com alta qualidade e consistência em comparação com as bases de referência de ponta.
Imagine observar alguém coçando o braço; para entender o motivo, seria necessária uma contexto adicional. No entanto, ao avistar um mosquito nas proximidades, isso imediatamente ofereceria uma explicação provável para o desconforto da pessoa, aliviando assim a necessidade de mais informações. Este exemplo ilustra como pistas visuais sutis podem desafiar nossas habilidades cognitivas e demonstra a complexidade de interpretar cenários visuais. Para estudar essas habilidades, apresentamos Enigmas Visuais, um benchmark destinado a testar modelos de visão e linguagem em enigmas visuais que exigem senso comum e conhecimento do mundo. O benchmark é composto por 400 enigmas visuais, cada um apresentando uma imagem única criada por uma variedade de modelos texto-imagem, pergunta, resposta correta, dica textual e atribuição. A avaliação humana revela que os modelos existentes ficam significativamente aquém do desempenho humano, que é de 82% de precisão, com o Gemini-Pro-1.5 liderando com 40% de precisão. Nosso benchmark vem com tarefas de avaliação automática para tornar a avaliação escalável. Essas descobertas destacam o potencial dos Enigmas Visuais como um recurso valioso para aprimorar as capacidades dos modelos de visão e linguagem na interpretação de cenários visuais complexos.
A resposta a perguntas multimodais em 3D (MQA) desempenha um papel crucial na compreensão de cenas ao permitir que agentes inteligentes compreendam seu entorno em ambientes 3D. Enquanto as pesquisas existentes se concentraram principalmente em tarefas domésticas internas e tarefas de direção autônoma em estradas ao ar livre, houve uma exploração limitada de tarefas de compreensão de cenas em nível de cidade. Além disso, as pesquisas existentes enfrentam desafios na compreensão de cenas urbanas, devido à ausência de informações semânticas espaciais e informações de interação humano-ambiente em nível de cidade. Para enfrentar esses desafios, investigamos o MQA em 3D tanto do ponto de vista do conjunto de dados quanto do método. Do ponto de vista do conjunto de dados, introduzimos um novo conjunto de dados 3D MQA chamado City-3DQA para compreensão de cenas em nível de cidade, sendo o primeiro conjunto de dados a incorporar tarefas semânticas de cena e interativas humano-ambiente dentro da cidade. Do ponto de vista do método, propomos um método aprimorado de Compreensão em Nível de Cidade aprimorado por grafo de cena (Sg-CityU), que utiliza o grafo de cena para introduzir a semântica espacial. Um novo benchmark é relatado e nosso Sg-CityU proposto alcança uma precisão de 63,94% e 63,76% em diferentes configurações do City-3DQA. Comparado aos métodos de MQA em 3D internos e ao uso de modelos de linguagem avançados de grande escala (LLMs) de zero-shot, o Sg-CityU demonstra um desempenho de estado da arte (SOTA) em robustez e generalização.
O Árabe Clássico representa uma era significativa, abrangendo a era dourada da cultura árabe, filosofia e literatura científica. Com um amplo consenso sobre a importância de traduzir essas literaturas para enriquecer a disseminação do conhecimento entre as comunidades, o surgimento de grandes modelos de linguagem (LLMs) e sistemas de tradução oferece ferramentas promissoras para facilitar esse objetivo. No entanto, identificamos uma escassez de conjuntos de dados de tradução em Árabe Clássico, que frequentemente são limitados em escopo e tópicos, dificultando o desenvolvimento de sistemas de tradução de alta qualidade. Em resposta, apresentamos o conjunto de dados ATHAR, composto por 66.000 amostras de tradução de Árabe Clássico para Inglês de alta qualidade que abrangem uma ampla variedade de assuntos, incluindo ciência, cultura e filosofia. Além disso, avaliamos o desempenho dos atuais LLMs de ponta em várias configurações, concluindo que há uma necessidade de tais conjuntos de dados nos sistemas atuais. Nossas descobertas destacam como os modelos podem se beneficiar do ajuste fino ou da incorporação deste conjunto de dados em seus pipelines de pré-treinamento. O conjunto de dados está disponível publicamente no HuggingFace Data Hub em https://huggingface.co/datasets/mohamed-khalil/ATHAR.
Os Modelos de Linguagem de Grande Escala (LLMs) estão rapidamente ultrapassando o conhecimento humano em muitos domínios. Enquanto a melhoria desses modelos tradicionalmente depende de dados humanos custosos, mecanismos recentes de auto-recompensa (Yuan et al., 2024) demonstraram que os LLMs podem melhorar ao avaliar suas próprias respostas em vez de depender de rotuladores humanos. No entanto, os métodos existentes têm se concentrado principalmente na melhoria das respostas do modelo em vez das capacidades de julgamento, resultando em rápida saturação durante o treinamento iterativo. Para abordar esse problema, introduzimos uma etapa de Meta-Recompensa no processo de autoaperfeiçoamento, onde o modelo avalia seus próprios julgamentos e utiliza esse feedback para aprimorar suas habilidades de julgamento. Surpreendentemente, essa abordagem não supervisionada melhora a capacidade do modelo de julgar e seguir instruções, conforme demonstrado por uma melhoria na taxa de vitória do Llama-3-8B-Instruct de 22,9% para 39,4% no AlpacaEval 2, e de 20,6% para 29,1% no Arena-Hard. Esses resultados sugerem fortemente o potencial de modelos autoaperfeiçoantes sem supervisão humana.
Modelos generativos, como modelos de difusão (DMs), autoencoders variacionais (VAEs) e redes generativas adversariais (GANs), produzem imagens com um nível de autenticidade que as torna quase indistinguíveis de fotos e obras de arte reais. Embora essa capacidade seja benéfica para muitas indústrias, a dificuldade de identificar imagens sintéticas deixa as plataformas de mídia online vulneráveis a tentativas de impersonação e desinformação. Para apoiar o desenvolvimento de métodos defensivos, apresentamos o ImagiNet, um conjunto de dados de alta resolução e equilibrado para detecção de imagens sintéticas, projetado para mitigar possíveis viés em recursos existentes. Ele contém 200 mil exemplos, abrangendo quatro categorias de conteúdo: fotos, pinturas, rostos e não categorizados. As imagens sintéticas são produzidas com geradores de código aberto e proprietários, enquanto os contrapartes reais do mesmo tipo de conteúdo são coletados de conjuntos de dados públicos. A estrutura do ImagiNet permite um sistema de avaliação de duas vias: i) classificação como real ou sintético e ii) identificação do modelo generativo. Para estabelecer uma linha de base, treinamos um modelo ResNet-50 usando um objetivo contrastivo auto-supervisionado (SelfCon) para cada via. O modelo demonstra desempenho de ponta e alta velocidade de inferência em benchmarks estabelecidos, alcançando uma AUC de até 0,99 e uma precisão equilibrada variando de 86% a 95%, mesmo sob condições de redes sociais que envolvem compressão e redimensionamento. Nossos dados e código estão disponíveis em https://github.com/delyan-boychev/imaginet.
A análise de sentimento é uma área amplamente pesquisada dentro do Processamento de Linguagem Natural (PLN), atraindo interesse significativo devido ao surgimento de soluções automatizadas. Apesar disso, a tarefa continua desafiadora devido à complexidade inerente das línguas e à natureza subjetiva dos sentimentos. É ainda mais desafiador para línguas menos estudadas e com menos recursos, como o lituano. Nossa revisão da pesquisa existente em PLN lituano revela que os métodos tradicionais de aprendizado de máquina e algoritmos de classificação têm eficácia limitada para a tarefa. Neste trabalho, abordamos a análise de sentimento de avaliações online lituanas baseadas em cinco estrelas de múltiplos domínios que coletamos e limpamos. Aplicamos modelos transformer a esta tarefa pela primeira vez, explorando as capacidades de Modelos de Linguagem Grandes (LLMs) multilíngues pré-treinados, focando especificamente no ajuste fino dos modelos BERT e T5. Dada a dificuldade inerente da tarefa, os modelos ajustados finamente têm um desempenho bastante bom, especialmente quando os sentimentos em si são menos ambíguos: 80,74% e 89,61% de precisão de reconhecimento nos testes das avaliações mais populares de uma e cinco estrelas, respectivamente. Eles superam significativamente o estado da arte comercial atual do LLM de propósito geral GPT-4. Compartilhamos abertamente nossos LLMs ajustados finamente online.
A criação de avatares fotorrealistas para indivíduos tradicionalmente envolve extensas sessões de captura com dispositivos de estúdio complexos e caros, como o sistema LightStage. Embora avanços recentes em representações neurais tenham possibilitado a geração de avatares 3D fotorrealistas e animáveis a partir de escaneamentos rápidos de telefone, eles têm a iluminação de captura embutida, carecem de detalhes faciais e apresentam regiões ausentes em áreas como a parte de trás das orelhas. Assim, eles ficam aquém em qualidade em comparação com avatares capturados em estúdio. Neste artigo, propomos um método que preenche essa lacuna ao gerar mapas de textura iluminados semelhantes aos de estúdio a partir de capturas curtas e monoculares de telefone. Fazemos isso ao parametrizar os mapas de textura do telefone usando o espaço W^+ de um StyleGAN2, possibilitando uma reconstrução quase perfeita. Em seguida, refinamos um StyleGAN2 amostrando no espaço parametrizado W^+ usando um conjunto muito pequeno de texturas capturadas em estúdio como sinal de treinamento adversarial. Para aprimorar ainda mais o realismo e a precisão dos detalhes faciais, super-resolvemos a saída do StyleGAN2 usando um modelo de difusão cuidadosamente projetado que é guiado pelos gradientes de imagem do mapa de textura capturado pelo telefone. Uma vez treinado, nosso método se destaca na produção de mapas de textura facial semelhantes aos de estúdio a partir de vídeos casuais monoculares de smartphone. Demonstrando suas capacidades, mostramos a geração de avatares fotorrealistas, uniformemente iluminados e completos a partir de capturas monoculares de telefone. http://shahrukhathar.github.io/2024/07/22/Bridging.html{A página do projeto pode ser encontrada aqui.}
Apresentamos uma nova abordagem para compreender a estrutura de periodicidade e semântica de conjuntos de dados de movimento, independentemente da morfologia e estrutura esquelética dos personagens. Ao contrário dos métodos existentes que utilizam um espaço latente excessivamente esparsa de alta dimensão, propomos um espaço de fases composto por múltiplas curvas fechadas, cada uma correspondendo a uma amplitude latente. Com nosso autoencoder periódico vetor quantizado proposto, aprendemos um espaço de fases compartilhado para vários personagens, como um humano e um cachorro, sem supervisão. Isso é alcançado explorando a estrutura discreta e uma rede rasa como gargalos, de modo que movimentos semanticamente semelhantes sejam agrupados na mesma curva do espaço, e os movimentos dentro do mesmo componente sejam alinhados temporalmente pela variável de fase. Em combinação com um framework de correspondência de movimento aprimorado, demonstramos a capacidade do espaço de fases de alinhamento temporal e semântico em várias aplicações, incluindo recuperação, transferência e estilização de movimento. O código e os modelos pré-treinados para este artigo estão disponíveis em https://peizhuoli.github.io/walkthedog.
A generalizabilidade de domínio é um aspecto crucial de um modelo de aprendizado profundo, pois determina a capacidade do modelo de se sair bem em dados de domínios não vistos. No entanto, a pesquisa sobre a generalizabilidade de domínio de modelos de aprendizado profundo para tarefas de visão e linguagem ainda é limitada, principalmente devido à falta de conjuntos de dados necessários. Para enfrentar esses desafios, propomos VolDoGer: Conjunto de Dados Visão-Linguagem para Generalização de Domínio, um conjunto de dados dedicado projetado para generalização de domínio que aborda três tarefas de visão e linguagem: descrição de imagem, resposta a perguntas visuais e inferência visual. Construímos o VolDoGer estendendo técnicas de anotação de dados baseadas em LLM para tarefas de visão e linguagem, aliviando assim o ônus de recrutar anotadores humanos. Avaliamos a generalizabilidade de domínio de vários modelos, desde modelos ajustados até um modelo de linguagem grande multimodal recente, por meio do VolDoGer.
Neste artigo, apresentamos o TAPTRv2, uma abordagem baseada em Transformer construída sobre o TAPTR para resolver a tarefa de Rastreamento de Qualquer Ponto (TAP). O TAPTR incorpora projetos do DETection TRansformer (DETR) e formula cada ponto de rastreamento como uma consulta de ponto, tornando possível aproveitar operações bem estudadas em algoritmos semelhantes ao DETR. O TAPTRv2 melhora o TAPTR ao abordar um problema crítico relacionado à sua dependência do volume de custo, que contamina a característica de conteúdo da consulta de ponto e impacta negativamente tanto a previsão de visibilidade quanto a computação do volume de custo. No TAPTRv2, propomos uma operação de atualização de posição baseada em atenção (APU) e utilizamos atenção deformável sensível à chave para realizá-la. Para cada consulta, essa operação utiliza pesos de atenção sensíveis à chave para combinar suas posições de amostragem deformáveis correspondentes e prever uma nova posição de consulta. Este projeto é baseado na observação de que a atenção local é essencialmente a mesma que o volume de custo, ambos calculados por produto ponto entre uma consulta e suas características circundantes. Ao introduzir essa nova operação, o TAPTRv2 não apenas elimina o fardo adicional da computação do volume de custo, mas também resulta em uma melhoria substancial de desempenho. O TAPTRv2 supera o TAPTR e alcança um desempenho de ponta em muitos conjuntos de dados desafiadores, demonstrando a superioridade.