Artigos de pesquisa em IA selecionados diariamente com traduções
A geração de movimento humano desempenha um papel vital em aplicações como humanos digitais e controle de robôs humanoides. No entanto, a maioria das abordagens existentes desconsidera as restrições físicas, resultando frequentemente na produção de movimentos fisicamente implausíveis com artefatos pronunciados, como flutuação e deslizamento dos pés. Neste artigo, propomos o Morph, um framework de otimização de física livre de movimento, composto por um Gerador de Movimento e um módulo de Refinamento de Física de Movimento, para aprimorar a plausibilidade física sem depender de dados de movimento do mundo real custosos. Especificamente, o Gerador de Movimento é responsável por fornecer dados de movimento sintéticos em larga escala, enquanto o Módulo de Refinamento de Física de Movimento utiliza esses dados sintéticos para treinar um imitador de movimento dentro de um simulador de física, impondo restrições físicas para projetar os movimentos ruidosos em um espaço fisicamente plausível. Esses movimentos fisicamente refinados, por sua vez, são usados para ajustar finamente o Gerador de Movimento, aprimorando ainda mais sua capacidade. Experimentos em tarefas de geração de texto-para-movimento e música-para-dança demonstram que nosso framework alcança qualidade de geração de movimento de ponta, ao mesmo tempo em que melhora drasticamente a plausibilidade física.
Os modelos de visão-linguagem (VLMs) têm demonstrado avanços notáveis em tarefas de raciocínio multimodal. No entanto, ainda costumam gerar respostas imprecisas ou irrelevantes devido a problemas como compreensões de imagem alucinadas ou caminhos de raciocínio não refinados. Para enfrentar esses desafios, apresentamos o Critic-V, um novo framework inspirado no paradigma Ator-Crítico para impulsionar a capacidade de raciocínio dos VLMs. Esse framework desvincula o processo de raciocínio e o processo crítico ao integrar dois componentes independentes: o Raciocinador, que gera caminhos de raciocínio com base em entradas visuais e textuais, e o Crítico, que fornece críticas construtivas para refinar esses caminhos. Neste enfoque, o Raciocinador gera respostas de raciocínio de acordo com prompts de texto, que podem evoluir iterativamente como uma política com base no feedback do Crítico. Esse processo de interação foi teoricamente impulsionado por um framework de aprendizado por reforço, no qual o Crítico oferece críticas em linguagem natural em vez de recompensas escalares, possibilitando um feedback mais refinado para impulsionar a capacidade do Raciocinador em tarefas de raciocínio complexas. O modelo Crítico é treinado usando a Otimização de Preferência Direta (OPD), aproveitando um conjunto de dados de preferências de críticas classificadas por Recompensa Baseada em Regras (RBR) para aprimorar suas capacidades críticas. Resultados de avaliação mostram que o framework Critic-V supera significativamente os métodos existentes, incluindo o GPT-4V, em 5 de 8 benchmarks, especialmente em relação à precisão e eficiência de raciocínio. Combinar uma política dinâmica baseada em texto para o Raciocinador e feedback construtivo do Crítico otimizado por preferência possibilita um processo de raciocínio multimodal mais confiável e sensível ao contexto. Nossa abordagem oferece uma solução promissora para aprimorar a confiabilidade dos VLMs, melhorando seu desempenho em aplicações multimodais do mundo real com carga de raciocínio pesada, como direção autônoma e inteligência corporificada.
Este artigo apresenta o Virtual Try-Off (VTOFF), uma tarefa inovadora focada na geração de imagens padronizadas de vestuário a partir de fotos únicas de indivíduos vestidos. Ao contrário do tradicional Virtual Try-On (VTON), que veste digitalmente modelos, o VTOFF tem como objetivo extrair uma imagem canônica do vestuário, apresentando desafios únicos na captura da forma, textura e padrões intricados do vestuário. Esse alvo bem definido torna o VTOFF particularmente eficaz para avaliar a fidelidade de reconstrução em modelos generativos. Apresentamos o TryOffDiff, um modelo que adapta a Difusão Estável com condicionamento visual baseado em SigLIP para garantir alta fidelidade e retenção de detalhes. Experimentos em um conjunto de dados modificado VITON-HD mostram que nossa abordagem supera métodos de referência baseados em transferência de pose e prova de roupas virtuais com menos etapas de pré e pós-processamento. Nossa análise revela que métricas tradicionais de geração de imagens avaliam inadequadamente a qualidade da reconstrução, o que nos leva a confiar no DISTS para uma avaliação mais precisa. Nossos resultados destacam o potencial do VTOFF para aprimorar imagens de produtos em aplicações de e-commerce, avançar na avaliação de modelos generativos e inspirar trabalhos futuros em reconstrução de alta fidelidade. Demonstração, código e modelos estão disponíveis em: https://rizavelioglu.github.io/tryoffdiff/
Apesar dos avanços significativos em modelos generativos de texto para imagem (T2I), os usuários frequentemente enfrentam um desafio de tentativa e erro em cenários práticos. Esse desafio surge da complexidade e incerteza de etapas tediosas como elaborar prompts adequados, selecionar modelos apropriados e configurar argumentos específicos, levando os usuários a recorrer a tentativas trabalhosas para obter imagens desejadas. Este artigo propõe a geração automática de T2I, que visa automatizar essas etapas tediosas, permitindo que os usuários descrevam simplesmente suas necessidades de forma livre em uma conversa. Para estudar sistematicamente esse problema, introduzimos primeiro o ChatGenBench, um novo benchmark projetado para o T2I automático. Ele apresenta dados em pares de alta qualidade com entradas de conversa livre diversas, possibilitando uma avaliação abrangente de modelos automáticos de T2I em todas as etapas. Além disso, reconhecendo o T2I automático como uma tarefa complexa de raciocínio multiestágio, propomos o ChatGen-Evo, uma estratégia de evolução em múltiplos estágios que equipa progressivamente os modelos com habilidades de automação essenciais. Através de uma extensa avaliação de precisão por etapa e qualidade de imagem, o ChatGen-Evo melhora significativamente o desempenho em relação a várias bases de comparação. Nossa avaliação também revela insights valiosos para avançar no T2I automático. Todos os nossos dados, código e modelos estarão disponíveis em https://chengyou-jia.github.io/ChatGen-Home
Propomos o SelfSplat, um novo modelo de Splatting Gaussiano 3D projetado para realizar reconstruções 3D generalizáveis livres de pose e prévias 3D a partir de imagens multivisão não posadas. Essas configurações são inerentemente mal-postas devido à falta de dados de verdade terrestre, informações geométricas aprendidas e à necessidade de obter uma reconstrução 3D precisa sem ajustes finos, tornando difícil para métodos convencionais alcançar resultados de alta qualidade. Nosso modelo aborda esses desafios integrando efetivamente representações 3D explícitas com técnicas de estimativa de profundidade e pose auto-supervisionadas, resultando em melhorias recíprocas tanto na precisão da pose quanto na qualidade da reconstrução 3D. Além disso, incorporamos uma rede de estimativa de pose consciente de correspondência e um módulo de refinamento de profundidade para aprimorar a consistência geométrica entre as visualizações, garantindo reconstruções 3D mais precisas e estáveis. Para apresentar o desempenho de nosso método, avaliamos em conjuntos de dados do mundo real em larga escala, incluindo RealEstate10K, ACID e DL3DV. O SelfSplat alcança resultados superiores em relação aos métodos anteriores de ponta, tanto em termos de qualidade de aparência quanto de geometria, além de demonstrar fortes capacidades de generalização entre conjuntos de dados. Estudos de ablação extensivos e análises também validam a eficácia de nossos métodos propostos. O código e os modelos pré-treinados estão disponíveis em https://gynjn.github.io/selfsplat/
Os modelos de difusão têm alcançado resultados impressionantes em tarefas generativas como síntese de texto para imagem (T2I) e texto para vídeo (T2V). No entanto, alcançar um alinhamento preciso de texto na geração T2V continua sendo desafiador devido à complexa dependência temporal entre frames. Abordagens existentes baseadas em aprendizado por reforço (RL) para aprimorar o alinhamento de texto frequentemente exigem funções de recompensa diferenciáveis ou são limitadas a prompts específicos, dificultando sua escalabilidade e aplicabilidade. Neste artigo, propomos o Free^2Guide, um novo framework livre de gradientes para alinhar vídeos gerados com prompts de texto sem a necessidade de treinamento adicional do modelo. Aproveitando princípios do controle de integral de caminho, o Free^2Guide aproxima orientações para modelos de difusão usando funções de recompensa não diferenciáveis, permitindo assim a integração de poderosos Modelos de Grande Visão-Linguagem (LVLMs) caixa-preta como modelo de recompensa. Além disso, nosso framework suporta o ensemblamento flexível de múltiplos modelos de recompensa, incluindo modelos baseados em imagem em grande escala, para aprimorar sinergicamente o alinhamento sem acarretar sobrecarga computacional substancial. Demonstramos que o Free^2Guide melhora significativamente o alinhamento de texto em várias dimensões e aprimora a qualidade geral dos vídeos gerados.
Numa era de sobrecarga de informações, anotar manualmente o vasto e crescente corpus de documentos e artigos acadêmicos está se tornando cada vez mais impraticável. A extração automatizada de termos-chave aborda esse desafio ao identificar termos representativos dentro de textos. No entanto, a maioria dos métodos existentes se concentra em documentos curtos (até 512 tokens), deixando uma lacuna no processamento de documentos com contexto extenso. Neste artigo, apresentamos o LongKey, um novo framework para extrair termos-chave de documentos extensos, que utiliza um modelo de linguagem baseado em codificador para capturar as complexidades do texto estendido. O LongKey utiliza um incorporador de max-pooling para aprimorar a representação dos candidatos a termos-chave. Validado nos abrangentes conjuntos de dados LDKP e em seis conjuntos de dados diversos e não vistos, o LongKey supera consistentemente os métodos existentes de extração de termos-chave não supervisionados e baseados em modelo de linguagem. Nossas descobertas demonstram a versatilidade e o desempenho superior do LongKey, representando um avanço na extração de termos-chave para diferentes comprimentos de texto e domínios.
Os avanços recentes no desempenho de grandes modelos de linguagem (LLM) em questões médicas de múltipla escolha (MCQ) têm estimulado o interesse de prestadores de cuidados de saúde e pacientes globalmente. Especialmente em países de baixa e média renda (LMICs) que enfrentam escassez aguda de médicos e falta de especialistas, os LLMs oferecem um caminho potencialmente escalável para melhorar o acesso à saúde e reduzir custos. No entanto, sua eficácia no Sul Global, especialmente em todo o continente africano, ainda precisa ser estabelecida. Neste trabalho, apresentamos o AfriMed-QA, o primeiro conjunto de dados de Perguntas e Respostas (QA) médicas em inglês de grande escala pan-africano multi-especialidade, com 15.000 perguntas (abertas e fechadas) provenientes de mais de 60 escolas de medicina em 16 países, abrangendo 32 especialidades médicas. Avaliamos ainda 30 LLMs em vários eixos, incluindo correção e viés demográfico. Nossas descobertas mostram uma variação significativa no desempenho entre especialidades e geografias, sendo que o desempenho em MCQ claramente fica aquém do USMLE (MedQA). Constatamos que os LLMs biomédicos têm um desempenho inferior aos modelos gerais e os LLMs menores e mais amigáveis à borda têm dificuldade em atingir uma pontuação mínima. Curiosamente, as avaliações humanas mostram uma preferência do consumidor consistente pelas respostas e explicações dos LLMs quando comparadas com as respostas dos clínicos.