Artigos de pesquisa em IA selecionados diariamente com traduções
Codificadores de visão normalmente geram um grande número de tokens visuais, fornecendo representações ricas em informações, mas aumentando significativamente as demandas computacionais. Isso levanta a questão de se todos os tokens gerados são igualmente valiosos ou se alguns deles podem ser descartados para reduzir os custos computacionais sem comprometer a qualidade. Neste artigo, introduzimos um novo método para determinar a utilidade das características com base na ideia de que características menos valiosas podem ser reconstruídas a partir de outras mais valiosas. Implementamos esse conceito integrando um autoencoder com um mecanismo de seleção Gumbel-Softmax, que permite identificar e reter apenas os tokens visuais mais informativos. Para validar nossa abordagem, comparamos o desempenho do modelo LLaVA-NeXT, utilizando características selecionadas por nosso método com características selecionadas aleatoriamente. Descobrimos que, em tarefas baseadas em OCR, mais de 50% do contexto visual pode ser removido com perda mínima de desempenho, enquanto descartar aleatoriamente a mesma proporção de características afeta significativamente as capacidades do modelo. Além disso, em tarefas de domínio geral, mesmo retendo aleatoriamente apenas 30% dos tokens, o desempenho é comparável ao uso do conjunto completo de tokens visuais. Nossos resultados destacam uma direção promissora para a poda multimodal adaptativa e eficiente, que facilita inferência escalável e de baixo custo sem comprometer o desempenho.
Problemas científicos multimodais (MSPs) envolvem questões complexas que exigem a integração de múltiplas modalidades, como texto e diagramas, representando um desafio significativo na inteligência artificial. Embora progressos tenham sido feitos na abordagem de problemas científicos tradicionais, os MSPs ainda enfrentam duas questões principais: o desafio do raciocínio abrangente multimodal na resolução de problemas científicos e a falta de capacidades reflexivas e de repensar. Para abordar essas questões, introduzimos um framework Multi-Agente baseado na Personalidade Big Seven e na orientação socrática (MAPS). Esse framework emprega sete agentes distintos que utilizam mecanismos de feedback e o método socrático para guiar a resolução de MSPs. Para lidar com a primeira questão, propomos uma estratégia de resolução progressiva com quatro agentes, onde cada agente se concentra em uma etapa específica do processo de resolução de problemas. Para a segunda questão, introduzimos um agente Crítico, inspirado no questionamento socrático, que promove o pensamento crítico e estimula a aprendizagem autônoma. Realizamos extensos experimentos nos conjuntos de dados EMMA, Olimpíada e MathVista, alcançando resultados promissores que superam o modelo SOTA atual em 15,84% em todas as tarefas. Enquanto isso, os experimentos analíticos adicionais também verificam o progresso do modelo, bem como sua capacidade de generalização.
O processamento eficiente de contextos longos tem sido uma busca constante no campo de Processamento de Linguagem Natural. Com o crescente número de documentos extensos, diálogos e outros dados textuais, é importante desenvolver Modelos de Linguagem de Contexto Longo (LCLMs, na sigla em inglês) que possam processar e analisar entradas extensas de forma eficaz e eficiente. Neste artigo, apresentamos uma revisão abrangente sobre os avanços recentes na modelagem de contexto longo para grandes modelos de linguagem. Nossa revisão é estruturada em torno de três aspectos principais: como obter LCLMs eficazes e eficientes, como treinar e implantar LCLMs de forma eficiente, e como avaliar e analisar LCLMs de maneira abrangente. Para o primeiro aspecto, discutimos estratégias de dados, projetos arquitetônicos e abordagens de fluxo de trabalho voltadas para o processamento de contexto longo. Para o segundo aspecto, fornecemos um exame detalhado da infraestrutura necessária para o treinamento e inferência de LCLMs. Para o terceiro aspecto, apresentamos paradigmas de avaliação para compreensão de contexto longo e geração de textos longos, bem como análise comportamental e interpretabilidade de mecanismos dos LCLMs. Além desses três aspectos principais, exploramos minuciosamente os diversos cenários de aplicação onde os LCLMs existentes foram implantados e delineamos direções promissoras para o desenvolvimento futuro. Esta revisão oferece uma atualização da literatura sobre LLMs de contexto longo, que esperamos servir como um recurso valioso tanto para pesquisadores quanto para engenheiros. Um repositório GitHub associado, que coleta os artigos e repositórios mais recentes, está disponível em: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
O formato básico de perguntas e respostas dos grandes modelos de linguagem envolve a inserção de um prompt e a recepção de uma resposta, sendo que a qualidade do prompt impacta diretamente a eficácia da resposta. A Otimização Automática de Prompts (APO, na sigla em inglês) visa libertar-se dos vieses cognitivos dos prompts projetados manualmente e explorar um espaço de design mais amplo para os prompts. No entanto, os métodos existentes de APO sofrem com a flexibilidade limitada de modelos fixos e com a busca ineficiente nos espaços de prompts como questões-chave. Para isso, propomos um framework Multi-Agente Incorporando Orientação Socrática (MARS, na sigla em inglês), que utiliza tecnologia de fusão multi-agente para planejamento automático, com otimização e avaliação contínuas e graduais. Especificamente, o MARS compreende sete agentes, cada um com funcionalidades distintas, que utilizam autonomamente o Planejador para elaborar um caminho de otimização que garante flexibilidade. Além disso, ele emprega um padrão de diálogo Socrático Professor-Crítico-Aluno para otimizar iterativamente os prompts enquanto realiza uma busca eficaz. Realizamos extensos experimentos em diversos conjuntos de dados para validar a eficácia do nosso método, além de realizar experimentos analíticos adicionais para avaliar o avanço do modelo, bem como sua interpretabilidade.
Projetar sistemas eficazes de multiagentes corporificados é crucial para resolver tarefas complexas do mundo real em diversos domínios. Devido à complexidade dos sistemas de multiagentes corporificados, os métodos existentes falham em gerar automaticamente dados de treinamento seguros e eficientes para tais sistemas. Para isso, propomos o conceito de restrições composicionais para sistemas de multiagentes corporificados, abordando os desafios decorrentes da colaboração entre agentes corporificados. Projetamos várias interfaces adaptadas a diferentes tipos de restrições, permitindo uma interação perfeita com o mundo físico. Aproveitando as restrições composicionais e interfaces especificamente projetadas, desenvolvemos uma estrutura automatizada de coleta de dados para sistemas de multiagentes corporificados e introduzimos o primeiro benchmark para manipulação de multiagentes corporificados, o RoboFactory. Com base no benchmark RoboFactory, adaptamos e avaliamos o método de aprendizado por imitação e analisamos seu desempenho em tarefas de agentes com diferentes níveis de dificuldade. Além disso, exploramos as arquiteturas e estratégias de treinamento para o aprendizado por imitação de multiagentes, visando construir sistemas de multiagentes corporificados seguros e eficientes.
Como tarefas de escrita criativa não possuem respostas corretas únicas, modelos de linguagem de grande escala (LLMs) treinados para realizar essas tarefas devem ser capazes de gerar saídas válidas e diversas. No entanto, o pós-treinamento de LLMs frequentemente se concentra em melhorar a qualidade da geração, mas negligencia a facilitação da diversidade das saídas. Portanto, na geração de escrita criativa, investigamos abordagens de pós-treinamento para promover tanto a diversidade quanto a qualidade das saídas. Nossa ideia central é incluir o desvio -- o grau de diferença entre uma amostra de treinamento e todas as outras amostras com o mesmo prompt -- no objetivo de treinamento para facilitar o aprendizado a partir de instâncias raras e de alta qualidade. Ao adotar nossa abordagem para otimização de preferência direta (DPO) e otimização de preferência por razão de chances (ORPO), demonstramos que podemos promover a diversidade das saídas dos modelos treinados enquanto minimizamos a redução da qualidade. Nosso melhor modelo com 8 bilhões de parâmetros conseguiu alcançar uma diversidade comparável a um conjunto de dados criado por humanos, mantendo uma qualidade de saída semelhante aos melhores modelos ajustados por instrução que examinamos, GPT-4o e DeepSeek-R1. Validamos ainda nossas abordagens com uma avaliação humana, uma análise de ablação e uma comparação com uma abordagem existente de diversificação, DivPO.
Modelos de geração visual autoregressivos normalmente dependem de tokenizadores para comprimir imagens em tokens que podem ser previstos sequencialmente. Um dilema fundamental existe na representação de tokens: tokens discretos permitem modelagem direta com perda de entropia cruzada padrão, mas sofrem com perda de informação e instabilidade no treinamento do tokenizador; tokens contínuos preservam melhor os detalhes visuais, mas exigem modelagem complexa de distribuição, complicando o pipeline de geração. Neste artigo, propomos o TokenBridge, que preenche essa lacuna mantendo a forte capacidade de representação dos tokens contínuos enquanto preserva a simplicidade de modelagem dos tokens discretos. Para alcançar isso, desacoplamos a discretização do processo de treinamento do tokenizador por meio de quantização pós-treinamento que obtém diretamente tokens discretos a partir de representações contínuas. Especificamente, introduzimos uma estratégia de quantização por dimensão que discretiza independentemente cada dimensão de característica, emparelhada com um mecanismo de previsão autoregressivo leve que modela eficientemente o grande espaço de tokens resultante. Experimentos extensivos mostram que nossa abordagem alcança qualidade de reconstrução e geração comparável a métodos contínuos enquanto utiliza previsão categórica padrão. Este trabalho demonstra que unir paradigmas discretos e contínuos pode efetivamente aproveitar os pontos fortes de ambas as abordagens, fornecendo uma direção promissora para geração visual de alta qualidade com modelagem autoregressiva simples. Página do projeto: https://yuqingwang1029.github.io/TokenBridge.
Avatares 3D realistas de corpo inteiro com capacidade de fala possuem grande potencial em RA, com aplicações que variam de transmissões ao vivo de e-commerce a comunicação holográfica. Apesar dos avanços no uso de 3D Gaussian Splatting (3DGS) para a criação de avatares realistas, os métodos existentes enfrentam dificuldades no controle refinado de expressões faciais e movimentos corporais em tarefas de fala de corpo inteiro. Além disso, eles frequentemente carecem de detalhes suficientes e não conseguem operar em tempo real em dispositivos móveis. Apresentamos o TaoAvatar, um avatar de corpo inteiro baseado em 3DGS, de alta fidelidade e leve, impulsionado por diversos sinais. Nossa abordagem começa com a criação de um modelo paramétrico personalizado de humano vestido que vincula Gaussianas para representar aparências. Em seguida, pré-treinamos uma rede baseada em StyleUnet para lidar com deformações não rígidas complexas dependentes de pose, que pode capturar detalhes de aparência de alta frequência, mas é muito intensiva em recursos para dispositivos móveis. Para superar isso, "assamos" as deformações não rígidas em uma rede leve baseada em MLP usando uma técnica de destilação e desenvolvemos blend shapes para compensar os detalhes. Experimentos extensivos mostram que o TaoAvatar alcança qualidade de renderização de ponta enquanto opera em tempo real em diversos dispositivos, mantendo 90 FPS em dispositivos estereoscópicos de alta definição, como o Apple Vision Pro.
Avanços recentes demonstrados pelo DeepSeek-R1 mostraram que habilidades de raciocínio complexo em modelos de linguagem de grande escala (LLMs), incluindo comportamentos sofisticados como auto-verificação e auto-correção, podem ser alcançados por meio de Aprendizado por Reforço (RL) com recompensas verificáveis, melhorando significativamente o desempenho do modelo em tarefas desafiadoras, como o AIME. Motivados por essas descobertas, nosso estudo investiga se capacidades de raciocínio semelhantes podem ser integradas com sucesso em modelos de visão e linguagem de grande escala (LVLMs) e avalia seu impacto em tarefas desafiadoras de raciocínio multimodal. Consideramos uma abordagem que utiliza iterativamente ajuste fino supervisionado (SFT) em dados de treinamento leves e Aprendizado por Reforço (RL) para melhorar ainda mais a generalização do modelo. Inicialmente, as capacidades de raciocínio foram destiladas de modelos R1 de texto puro, gerando etapas de raciocínio usando legendas de alta qualidade de imagens obtidas de diversos conjuntos de dados visuais. Posteriormente, o treinamento iterativo de RL aprimorou ainda mais as habilidades de raciocínio, com o modelo melhorado por RL em cada iteração gerando conjuntos de dados SFT refinados para a próxima rodada. Esse processo iterativo resultou no OpenVLThinker, um LVLM que exibe consistentemente um desempenho de raciocínio aprimorado em benchmarks desafiadores como MathVista, MathVerse e MathVision, demonstrando o potencial de nossa estratégia para um raciocínio robusto em visão e linguagem. O código, modelo e dados estão disponíveis em https://github.com/yihedeng9/OpenVLThinker.
Apesar dos avanços significativos na geração de texto para vídeo, alcançar controle preciso e flexível sobre atributos espaço-temporais de granularidade fina continua sendo um desafio importante e não resolvido na pesquisa de geração de vídeo. Para abordar essas limitações, introduzimos o VCtrl (também denominado PP-VCtrl), uma nova estrutura projetada para permitir o controle de granularidade fina sobre modelos de difusão de vídeo pré-treinados de maneira unificada. O VCtrl integra diversos sinais de controle especificados pelo usuário—como bordas Canny, máscaras de segmentação e pontos-chave humanos—em modelos de difusão de vídeo pré-treinados por meio de um módulo condicional generalizável capaz de codificar uniformemente múltiplos tipos de sinais auxiliares sem modificar o gerador subjacente. Além disso, projetamos um pipeline unificado de codificação de sinais de controle e um mecanismo de conexão residual esparsa para incorporar eficientemente as representações de controle. Experimentos abrangentes e avaliações humanas demonstram que o VCtrl melhora efetivamente a controlabilidade e a qualidade da geração. O código-fonte e os modelos pré-treinados estão publicamente disponíveis e implementados usando a estrutura PaddlePaddle em http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
Apesar do desempenho impressionante em diversas tarefas, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ainda não demonstraram plenamente seu potencial na resolução de problemas matemáticos visuais, particularmente na percepção e interpretação precisa de diagramas. Inspirados pelos processos típicos dos seres humanos, levantamos a hipótese de que as capacidades de percepção para extrair informações significativas de diagramas são cruciais, pois impactam diretamente os processos subsequentes de inferência. Para validar essa hipótese, desenvolvemos o FlowVerse, um benchmark abrangente que categoriza todas as informações utilizadas durante a resolução de problemas em quatro componentes, que são então combinados em seis versões de problemas para avaliação. Nossos resultados preliminares no FlowVerse revelam que os MLLMs existentes apresentam limitações significativas ao extrair informações essenciais e propriedades raciocinadas de diagramas e ao realizar raciocínios complexos com base nessas entradas visuais. Em resposta, introduzimos o MathFlow, um pipeline modular de resolução de problemas que desacopla a percepção e a inferência em estágios distintos, otimizando cada um de forma independente. Dadas as limitações perceptivas observadas nos MLLMs atuais, treinamos o MathFlow-P-7B como um modelo de percepção dedicado. Os resultados experimentais indicam que o MathFlow-P-7B proporciona ganhos substanciais de desempenho quando integrado a diversos modelos de inferência, tanto de código fechado quanto de código aberto. Isso demonstra a eficácia do pipeline MathFlow e sua compatibilidade com diversos frameworks de inferência. O benchmark FlowVerse e o código estão disponíveis em https://github.com/MathFlow-zju/MathFlow.
A personalização da geração e edição de imagens é particularmente desafiadora quando temos apenas algumas imagens do sujeito, ou mesmo uma única imagem. Uma abordagem comum para personalização é o aprendizado de conceitos, que pode integrar o sujeito em modelos existentes de forma relativamente rápida, mas produz imagens cuja qualidade tende a se deteriorar rapidamente quando o número de imagens do sujeito é pequeno. A qualidade pode ser melhorada pré-treinando um codificador, mas o treinamento restringe a geração à distribuição de treinamento e é demorado. Ainda é um desafio difícil e em aberto personalizar a geração e edição de imagens a partir de uma única imagem sem treinamento. Aqui, apresentamos o SISO, uma nova abordagem sem treinamento baseada na otimização de uma pontuação de similaridade com uma imagem de sujeito de entrada. Mais especificamente, o SISO gera imagens iterativamente e otimiza o modelo com base na perda de similaridade com a imagem do sujeito dada até que um nível satisfatório de similaridade seja alcançado, permitindo a otimização plug-and-play em qualquer gerador de imagens. Avaliamos o SISO em duas tarefas, edição de imagens e geração de imagens, utilizando um conjunto de dados diversificado de sujeitos pessoais, e demonstramos melhorias significativas em relação aos métodos existentes em qualidade de imagem, fidelidade ao sujeito e preservação do fundo.
Neste artigo, propomos o \textsc{FastCuRL}, uma abordagem simples, porém eficiente, de Aprendizado por Reforço com Currículo, utilizando uma estratégia de extensão da janela de contexto para acelerar a eficiência do treinamento de aprendizado por reforço em modelos de raciocínio semelhantes ao R1, ao mesmo tempo em que melhora seu desempenho na resolução de tarefas complexas de raciocínio com longas cadeias de pensamento, especialmente em um modelo de linguagem com 1,5 bilhão de parâmetros. O \textsc{FastCuRL} consiste em dois procedimentos principais: segmentação de dados de treinamento com consciência de comprimento e treinamento com extensão da janela de contexto. Especificamente, o primeiro divide os dados de treinamento originais em três níveis diferentes com base no comprimento do prompt de entrada, enquanto o segundo utiliza conjuntos de dados segmentados com um comprimento progressivamente maior da janela de contexto para treinar o modelo de raciocínio. Os resultados experimentais demonstram que o \textsc{FastCuRL}-1.5B-Preview supera o DeepScaleR-1.5B-Preview em todos os cinco conjuntos de dados (incluindo MATH 500, AIME 2024, AMC 2023, Minerva Math e OlympiadBench) utilizando apenas 50\% das etapas de treinamento. Além disso, todas as etapas de treinamento para o FastCuRL-1.5B-Preview são concluídas utilizando apenas um único nó com 8 GPUs.
A avaliação precisa do alinhamento semântico entre prompts de texto e vídeos gerados continua sendo um desafio na Geração de Texto para Vídeo (T2V). Métricas existentes de alinhamento texto-vídeo, como o CLIPScore, geram apenas pontuações de granularidade grossa, sem detalhes de alinhamento refinado, falhando em se alinhar com a preferência humana. Para superar essa limitação, propomos o ETVA, um novo Método de Avaliação de Alinhamento Texto-Vídeo por meio da geração e resposta de perguntas refinadas. Primeiro, um sistema multiagente analisa os prompts em grafos de cena semânticos para gerar perguntas atômicas. Em seguida, projetamos uma estrutura de raciocínio multiestágio aumentada por conhecimento para responder às perguntas, onde um LLM auxiliar primeiro recupera conhecimentos de senso comum relevantes (por exemplo, leis físicas), e então o LLM de vídeo responde às perguntas geradas por meio de um mecanismo de raciocínio multiestágio. Experimentos extensivos demonstram que o ETVA alcança um coeficiente de correlação de Spearman de 58,47, mostrando uma correlação muito maior com o julgamento humano do que as métricas existentes, que atingem apenas 31,0. Também construímos um benchmark abrangente especificamente projetado para avaliação de alinhamento texto-vídeo, contendo 2 mil prompts diversos e 12 mil perguntas atômicas abrangendo 10 categorias. Por meio de uma avaliação sistemática de 15 modelos existentes de texto para vídeo, identificamos suas principais capacidades e limitações, pavimentando o caminho para a próxima geração de geração T2V.
Neste artigo, apresentamos o MapBench - o primeiro conjunto de dados especificamente projetado para navegação externa baseada em mapas pixelizados e legíveis por humanos, criado a partir de cenários complexos de busca de caminhos. O MapBench compreende mais de 1600 problemas de busca de caminhos em mapas de espaço pixelizado, derivados de 100 mapas diversos. No MapBench, os LVLMs (Large Vision-Language Models) geram instruções de navegação baseadas em linguagem, dadas uma imagem de mapa e uma consulta com pontos de referência inicial e final. Para cada mapa, o MapBench fornece um Map Space Scene Graph (MSSG) como uma estrutura de dados de indexação para converter entre linguagem natural e avaliar os resultados gerados pelos LVLMs. Demonstramos que o MapBench desafia significativamente os LVLMs state-of-the-art, tanto em cenários de prompting zero-shot quanto em um framework de raciocínio aumentado por Chain-of-Thought (CoT), que decompõe a navegação em mapas em processos cognitivos sequenciais. Nossa avaliação de LVLMs tanto de código aberto quanto fechado destaca a dificuldade substancial imposta pelo MapBench, revelando limitações críticas em suas capacidades de raciocínio espacial e tomada de decisão estruturada. Disponibilizamos todo o código e o conjunto de dados em https://github.com/taco-group/MapBench.
Os Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) alcançaram progressos significativos na combinação de compreensão visual com geração de linguagem. Apesar desse sucesso, os dados de treinamento dos LVLMs ainda sofrem com problemas de Cauda Longa (LT, na sigla em inglês), onde a distribuição dos dados é altamente desbalanceada. Trabalhos anteriores focaram principalmente em arquiteturas tradicionais de VLMs, como CLIP ou ViT, e em tarefas específicas, como reconhecimento e classificação. No entanto, a exploração de LVLMs (por exemplo, LLaVA) e tarefas mais gerais (como Resposta a Perguntas Visuais e Raciocínio Visual) permanece pouco explorada. Neste artigo, primeiro realizamos uma análise aprofundada dos problemas de LT em LVLMs e identificamos duas causas principais: a super-representação de conceitos da "cabeça" e a sub-representação de conceitos da "cauda". Com base nessa observação, propomos um Framework de Refinamento de Dados Adaptativo (ADR, na sigla em inglês), que consiste em duas etapas: Rebalanceamento de Dados (DR, na sigla em inglês) e Síntese de Dados (DS, na sigla em inglês). Na etapa de DR, rebalanceamos adaptativamente os dados redundantes com base nas distribuições de entidades, enquanto na etapa de DS, utilizamos Modelos de Difusão Probabilística de Remoção de Ruído (DDPMs, na sigla em inglês) e imagens escassas para complementar as porções sub-representadas. Por meio de avaliações abrangentes em onze benchmarks, nosso ADR proposto mitiga efetivamente o problema de cauda longa nos dados de treinamento, melhorando o desempenho médio do LLaVA 1.5 relativamente em 4,36%, sem aumentar o volume de dados de treinamento.
O viés implícito refere-se a processos mentais automáticos ou espontâneos que moldam percepções, julgamentos e comportamentos. Pesquisas anteriores que examinaram o "viés implícito" em modelos de linguagem de grande escala (LLMs) frequentemente abordaram o fenômeno de maneira diferente de como ele é estudado em humanos, concentrando-se principalmente nas saídas dos modelos em vez de no processamento interno. Para examinar o processamento dos modelos, apresentamos um método chamado Teste de Associação Implícita do Modelo de Raciocínio (RM-IAT, na sigla em inglês) para estudar padrões semelhantes ao viés implícito em modelos de raciocínio: LLMs que empregam raciocínio passo a passo para resolver tarefas complexas. Usando esse método, descobrimos que os modelos de raciocínio exigem mais tokens ao processar informações incompatíveis com associações em comparação com informações compatíveis com associações. Esses achados sugerem que sistemas de IA abrigam padrões no processamento de informações que são análogos ao viés implícito humano. Consideramos as implicações desses padrões semelhantes ao viés implícito para sua implantação em aplicações do mundo real.
Os modelos de linguagem de grande escala para vídeo (ViLLMs) se destacam na compreensão geral de vídeos, por exemplo, reconhecendo atividades como falar e comer, mas têm dificuldades com a compreensão baseada em identidade, como "Wilson está recebendo quimioterapia" ou "Tom está discutindo com Sarah", limitando sua aplicabilidade em ambientes de saúde inteligente e casa inteligente. Para abordar essa limitação, propomos um framework de aprendizado one-shot chamado PVChat, o primeiro ViLLM personalizado que permite questionamento e resposta (QA) baseado em sujeito a partir de um único vídeo para cada indivíduo. Nossa abordagem otimiza um ViLLM aprimorado com Mixture-of-Heads (MoH) em um conjunto de dados de QA de vídeo sinteticamente aumentado, utilizando uma estratégia de aprendizado progressivo de imagem para vídeo. Especificamente, introduzimos um pipeline de aumento automatizado que sintetiza amostras positivas que preservam a identidade e recupera negativos difíceis de corpora de vídeo existentes, gerando um conjunto de dados de treinamento diversificado com quatro tipos de QA: existência, aparência, ação e localização. Para aprimorar o aprendizado específico do sujeito, propomos um mecanismo de atenção MoH com Roteamento ReLU, juntamente com dois novos objetivos: (1) Regularização de Proximidade Suave para aprendizado progressivo por meio de escalonamento exponencial de distância e (2) Aprimoramento de Ativação de Cabeça para roteamento de atenção equilibrado. Por fim, adotamos uma estratégia de treinamento em duas etapas, transitando do pré-treinamento de imagem para o ajuste fino de vídeo, permitindo um processo de aprendizado gradual de atributos estáticos para representações dinâmicas. Avaliamos o PVChat em diversos conjuntos de dados que abrangem cenários médicos, séries de TV, anime e gravações do mundo real, demonstrando sua superioridade na compreensão de características personalizadas após o aprendizado a partir de um único vídeo, em comparação com os ViLLMs state-of-the-art.
Nos últimos anos, o campo de geração de imagens testemunhou avanços significativos, particularmente em métodos de ajuste fino que alinham modelos com preferências humanas universais. Este artigo explora o papel crucial dos dados de preferência no processo de treinamento de modelos de difusão, especialmente no contexto do Diffusion-DPO e suas adaptações subsequentes. Investigamos as complexidades relacionadas às preferências humanas universais na geração de imagens, destacando a natureza subjetiva dessas preferências e os desafios impostos por amostras minoritárias em conjuntos de dados de preferência. Por meio de experimentos piloto, demonstramos a existência de amostras minoritárias e seus efeitos prejudiciais no desempenho do modelo. Propomos o Adaptive-DPO — uma abordagem inovadora que incorpora uma métrica consciente de instâncias minoritárias no objetivo do DPO. Essa métrica, que inclui confiança intra-anotador e estabilidade inter-anotador, distingue entre amostras majoritárias e minoritárias. Introduzimos uma função de perda do Adaptive-DPO que melhora a perda do DPO de duas maneiras: aprimorando o aprendizado do modelo em relação aos rótulos majoritários, ao mesmo tempo que mitiga o impacto negativo das amostras minoritárias. Nossos experimentos demonstram que esse método lida efetivamente tanto com dados sintéticos minoritários quanto com dados de preferência do mundo real, abrindo caminho para metodologias de treinamento mais eficazes em tarefas de geração de imagens.
A geolocalização de imagens, na qual, tradicionalmente, um modelo de IA prevê as coordenadas GPS precisas de uma imagem, é uma tarefa desafiadora com muitas aplicações subsequentes. No entanto, o usuário não pode utilizar o modelo para ampliar seu conhecimento além da coordenada GPS; o modelo carece de compreensão do local e da capacidade conversacional para se comunicar com o usuário. Recentemente, com o enorme progresso dos modelos multimodais de grande escala (LMMs), tanto proprietários quanto de código aberto, pesquisadores têm tentado geolocalizar imagens por meio de LMMs. No entanto, os problemas permanecem sem solução; além de tarefas gerais, para tarefas subsequentes mais especializadas, uma das quais é a geolocalização, os LMMs enfrentam dificuldades. Neste trabalho, propomos resolver esse problema introduzindo um modelo conversacional, GAEA, que pode fornecer informações sobre a localização de uma imagem, conforme solicitado pelo usuário. Não existe um conjunto de dados em grande escala que permita o treinamento de tal modelo. Assim, propomos um conjunto de dados abrangente, GAEA, com 800 mil imagens e cerca de 1,6 milhão de pares de perguntas e respostas, construído aproveitando atributos do OpenStreetMap (OSM) e pistas contextuais geográficas. Para avaliação quantitativa, propomos um benchmark diversificado composto por 4 mil pares de imagem-texto para avaliar capacidades conversacionais equipadas com diversos tipos de perguntas. Consideramos 11 LMMs de ponta, tanto de código aberto quanto proprietários, e demonstramos que o GAEA supera significativamente o melhor modelo de código aberto, LLaVA-OneVision, em 25,69%, e o melhor modelo proprietário, GPT-4o, em 8,28%. Nosso conjunto de dados, modelo e códigos estão disponíveis.
Métodos recentes de edição facial 3D utilizando máscaras têm produzido imagens editadas de alta qualidade ao aproveitar os Campos de Radiação Neural (NeRF). Apesar de seu desempenho impressionante, os métodos existentes frequentemente oferecem controle limitado ao usuário devido ao uso de máscaras de segmentação pré-treinadas. Para utilizar máscaras com um layout desejado, é necessário um extenso conjunto de dados de treinamento, o que é desafiador de reunir. Apresentamos o FFaceNeRF, uma técnica de edição facial baseada em NeRF que supera o desafio do controle limitado do usuário devido ao uso de layouts de máscaras fixos. Nosso método emprega um adaptador de geometria com injeção de características, permitindo a manipulação eficaz de atributos geométricos. Além disso, adotamos a mistura latente para a ampliação de tri-planos, o que possibilita o treinamento com poucas amostras. Isso facilita a rápida adaptação do modelo a layouts de máscaras desejados, crucial para aplicações em áreas como imagens médicas personalizadas ou edição facial criativa. Nossas avaliações comparativas demonstram que o FFaceNeRF supera os métodos existentes de edição facial baseados em máscaras em termos de flexibilidade, controle e qualidade da imagem gerada, abrindo caminho para avanços futuros em edição facial 3D personalizada e de alta fidelidade. O código está disponível na {https://kwanyun.github.io/FFaceNeRF_page/{página-do-projeto}}.
A segmentação generalizada de nuvens de pontos 3D com poucos exemplos (GFS-PCS) adapta modelos a novas classes com poucas amostras de suporte, mantendo a segmentação das classes base. Os métodos existentes de GFS-PCS aprimoram protótipos por meio da interação com características de suporte ou consulta, mas ainda são limitados pelo conhecimento esparso proveniente de amostras com poucos exemplos. Enquanto isso, modelos de visão e linguagem 3D (3D VLMs), que generalizam em classes novas do mundo aberto, contêm conhecimento rico, porém ruidoso, sobre classes novas. Neste trabalho, introduzimos um framework de GFS-PCS que sinergiza pseudo-labels densos, mas ruidosos, de 3D VLMs com amostras de poucos exemplos precisas, porém esparsas, para maximizar os pontos fortes de ambos, denominado GFS-VL. Especificamente, apresentamos uma seleção de pseudo-labels guiada por protótipos para filtrar regiões de baixa qualidade, seguida por uma estratégia de preenchimento adaptativo que combina conhecimento de contextos de pseudo-labels e amostras de poucos exemplos para rotular de forma adaptativa as áreas filtradas e não rotuladas. Além disso, projetamos uma estratégia de mistura de classes novas e base para incorporar amostras de poucos exemplos em cenas de treinamento, preservando o contexto essencial para melhorar o aprendizado de classes novas. Adicionalmente, reconhecendo a diversidade limitada nos benchmarks atuais de GFS-PCS, introduzimos dois benchmarks desafiadores com diversas classes novas para avaliação abrangente de generalização. Experimentos validam a eficácia do nosso framework em diferentes modelos e conjuntos de dados. Nossa abordagem e benchmarks fornecem uma base sólida para o avanço do GFS-PCS no mundo real. O código está disponível em https://github.com/ZhaochongAn/GFS-VL.