Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de difusão têm demonstrado uma eficácia notável em várias tarefas de imagem para imagem. Nesta pesquisa, apresentamos Imagine yourself, um modelo de ponta projetado para geração de imagens personalizadas. Ao contrário das técnicas convencionais de personalização baseadas em ajustes, o Imagine yourself opera como um modelo livre de ajustes, permitindo que todos os usuários aproveitem um framework compartilhado sem ajustes individualizados. Além disso, trabalhos anteriores enfrentaram desafios ao equilibrar a preservação de identidade, seguir instruções complexas e preservar boa qualidade visual, resultando em modelos com forte efeito de copiar e colar das imagens de referência. Assim, eles dificilmente conseguem gerar imagens seguindo instruções que exigem mudanças significativas na imagem de referência, como mudar a expressão facial, poses de cabeça e corpo, e a diversidade das imagens geradas é baixa. Para lidar com essas limitações, nosso método proposto introduz 1) um novo mecanismo de geração de dados sintéticos em pares para incentivar a diversidade de imagens, 2) uma arquitetura de atenção totalmente paralela com três codificadores de texto e um codificador de visão totalmente treinável para melhorar a fidelidade ao texto, e 3) uma metodologia inovadora de ajuste fino em múltiplos estágios de grosso a fino que gradualmente eleva o limite da qualidade visual. Nosso estudo demonstra que o Imagine yourself supera o modelo de personalização de ponta, exibindo capacidades superiores em preservação de identidade, qualidade visual e alinhamento de texto. Este modelo estabelece uma base robusta para várias aplicações de personalização. Resultados de avaliação humana validam a superioridade do modelo em relação a todos os aspectos (preservação de identidade, fidelidade ao texto e apelo visual) em comparação com os modelos de personalização anteriores.
Compreender sátira e humor é uma tarefa desafiadora até mesmo para os modelos atuais de Visão e Linguagem. Neste artigo, propomos as tarefas desafiadoras de Detecção de Imagens Satíricas (detectar se uma imagem é satírica), Compreensão (gerar a razão por trás da imagem ser satírica) e Completude (dada metade da imagem, selecionar a outra metade entre 2 opções fornecidas, de modo que a imagem completa seja satírica) e lançamos um conjunto de dados de alta qualidade YesBut, composto por 2547 imagens, 1084 satíricas e 1463 não satíricas, contendo diferentes estilos artísticos, para avaliar essas tarefas. Cada imagem satírica no conjunto de dados retrata um cenário normal, juntamente com um cenário conflitante que é engraçado ou irônico. Apesar do sucesso dos atuais Modelos de Visão e Linguagem em tarefas multimodais como QA Visual e Legendagem de Imagens, nossos experimentos de referência mostram que tais modelos têm baixo desempenho nas tarefas propostas no Conjunto de Dados YesBut em Configurações de Zero-Shot, tanto em avaliações automatizadas quanto humanas. Adicionalmente, lançamos um conjunto de dados com 119 fotografias reais e satíricas para pesquisas futuras. O conjunto de dados e o código estão disponíveis em https://github.com/abhi1nandy2/yesbut_dataset.
Impulsionado pela percepção de que os emuladores de IA podem rivalizar com o desempenho dos modelos tradicionais de previsão numérica do tempo em execução em sistemas de HPC, há agora um número crescente de grandes modelos de IA que abordam casos de uso como previsão, redução de escala ou previsão imediata. Enquanto os desenvolvimentos paralelos na literatura de IA se concentram em modelos fundamentais - modelos que podem ser efetivamente ajustados para lidar com múltiplos casos de uso diferentes - os desenvolvimentos no lado do clima e do tempo se concentram principalmente em casos de uso únicos com ênfase particular em previsões de médio prazo. Fechamos essa lacuna ao introduzir o Prithvi WxC, um modelo fundamental com 2,3 bilhões de parâmetros desenvolvido usando 160 variáveis da Análise Retrospectiva da Era Moderna para Pesquisa e Aplicações, Versão 2 (MERRA-2). O Prithvi WxC emprega uma arquitetura baseada em codificador-decodificador, incorporando conceitos de vários modelos de transformadores recentes para capturar efetivamente dependências regionais e globais nos dados de entrada. O modelo foi projetado para acomodar grandes contagens de tokens para modelar fenômenos climáticos em diferentes topologias em resoluções finas. Além disso, ele é treinado com um objetivo misto que combina os paradigmas de reconstrução mascarada com previsão. Testamos o modelo em um conjunto de tarefas desafiadoras subsequentes, a saber: previsão de rolagem autoregressiva, redução de escala, parametrização de fluxo de ondas gravitacionais e estimativa de eventos extremos. O modelo pré-treinado com 2,3 bilhões de parâmetros, juntamente com os fluxos de trabalho de ajuste fino associados, foi publicamente lançado como uma contribuição de código aberto via Hugging Face.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado melhorias significativas de desempenho em várias tarefas cognitivas. Uma aplicação emergente é o uso de LLMs para aprimorar as capacidades de geração com recuperação aumentada (RAG). Esses sistemas requerem que os LLMs compreendam as consultas dos usuários, recuperem informações relevantes e sintetizem respostas coerentes e precisas. Dada a crescente implementação desses sistemas no mundo real, a avaliação abrangente torna-se crucial. Nesse sentido, propomos o FRAMES (Conjunto de Medição de Factualidade, Recuperação e Raciocínio), um conjunto de dados de avaliação de alta qualidade projetado para testar a capacidade dos LLMs de fornecer respostas factuais, avaliar as capacidades de recuperação e avaliar o raciocínio necessário para gerar respostas finais. Enquanto trabalhos anteriores forneceram conjuntos de dados e benchmarks para avaliar essas habilidades de forma isolada, o FRAMES oferece um framework unificado que fornece uma imagem mais clara do desempenho dos LLMs em cenários de RAG de ponta a ponta. Nosso conjunto de dados é composto por perguntas desafiadoras de múltiplos saltos que exigem a integração de informações de várias fontes. Apresentamos resultados basais demonstrando que mesmo os LLMs de última geração enfrentam dificuldades nessa tarefa, alcançando uma precisão de 0,40 sem recuperação. A precisão é significativamente melhorada com nosso pipeline de recuperação em vários passos proposto, alcançando uma precisão de 0,66 (>50% de melhoria). Esperamos que nosso trabalho ajude a preencher lacunas de avaliação e auxilie no desenvolvimento de sistemas RAG mais robustos e capazes.
Os codecs musicais são um aspecto vital da pesquisa de codecs de áudio, e a compressão de ultra baixa taxa de bits tem uma importância significativa para a transmissão e geração de música. Devido à complexidade dos contextos musicais e à riqueza dos vocais, depender exclusivamente da modelagem de informações semânticas ou acústicas não consegue reconstruir efetivamente música com vocais e contextos. Para lidar com esse problema, propomos o MuCodec, direcionado especificamente para compressão e reconstrução de música em taxas de bits ultra baixas. O MuCodec utiliza o MuEncoder para extrair características acústicas e semânticas, discretiza-as com o RVQ e obtém características Mel-VAE por meio de correspondência de fluxo. A música é então reconstruída usando um decodificador MEL-VAE pré-treinado e o HiFi-GAN. O MuCodec pode reconstruir música de alta fidelidade em taxas de bits ultra baixas (0,35kbps) ou altas (1,35kbps), alcançando os melhores resultados até o momento em métricas subjetivas e objetivas. Código e Demonstração: https://xuyaoxun.github.io/MuCodec_demo/.
Apresentamos o PortraitGen, um poderoso método de edição de vídeo de retratos que alcança uma estilização consistente e expressiva com prompts multimodais. Métodos tradicionais de edição de vídeo de retratos frequentemente enfrentam dificuldades com a consistência 3D e temporal, e geralmente carecem de qualidade e eficiência de renderização. Para lidar com esses problemas, elevamos os quadros de vídeo de retratos para um campo gaussiano 3D dinâmico unificado, que garante coerência estrutural e temporal entre os quadros. Além disso, projetamos um mecanismo de Textura Gaussiana Neural inovador que não apenas permite edição de estilo sofisticada, mas também alcança uma velocidade de renderização acima de 100FPS. Nossa abordagem incorpora entradas multimodais por meio de conhecimento destilado de modelos generativos 2D em larga escala. Nosso sistema também incorpora orientação de similaridade de expressão e um módulo de edição de retratos consciente do rosto, mitigando efetivamente problemas de degradação associados a atualizações iterativas de conjuntos de dados. Experimentos extensos demonstram a consistência temporal, eficiência de edição e qualidade de renderização superior de nosso método. A ampla aplicabilidade da abordagem proposta é demonstrada por meio de várias aplicações, incluindo edição orientada por texto, edição orientada por imagem e relighting, destacando seu grande potencial para avançar no campo da edição de vídeo. Vídeos de demonstração e código disponibilizados em nossa página do projeto: https://ustc3dv.github.io/PortraitGen/
A decomposição de imagem intrínseca tem como objetivo separar a reflectância da superfície e os efeitos da iluminação em uma única fotografia. Devido à complexidade do problema, a maioria dos trabalhos anteriores assume uma iluminação de cor única e um mundo lambertiano, o que limita sua utilização em aplicações de edição de imagem sensíveis à iluminação. Neste trabalho, separamos uma imagem de entrada em seu albedo difuso, sombreamento difuso colorido e componentes residuais especulares. Chegamos ao nosso resultado removendo gradualmente primeiro a iluminação de cor única e depois as suposições do mundo lambertiano. Mostramos que, dividindo o problema em subproblemas mais simples, a estimativa de sombreamento difuso colorido em ambientes naturais pode ser alcançada, apesar dos conjuntos de dados limitados de verdade terrestre. Nosso modelo intrínseco estendido permite a análise sensível à iluminação de fotografias e pode ser usado para aplicações de edição de imagem, como remoção de especularidade e balanceamento de branco por pixel.
Experimentar vídeos volumétricos de alta fidelidade tão facilmente quanto vídeos 2D é um sonho antigo. No entanto, os métodos atuais de gráficos 3D dinâmicos, apesar de sua alta qualidade de renderização, enfrentam desafios no streaming em dispositivos móveis devido a restrições computacionais e de largura de banda. Neste artigo, apresentamos V3 (Visualização de Vídeos Volumétricos), uma abordagem inovadora que possibilita renderização móvel de alta qualidade por meio do streaming de Gaussianas dinâmicas. Nossa principal inovação é visualizar gráficos 3D dinâmicos como vídeos 2D, facilitando o uso de codecs de vídeo de hardware. Além disso, propomos uma estratégia de treinamento em duas etapas para reduzir os requisitos de armazenamento com velocidade de treinamento rápida. A primeira etapa utiliza codificação de hash e MLP superficial para aprender movimento, reduzindo então o número de Gaussianas por meio de poda para atender aos requisitos de streaming, enquanto a segunda etapa ajusta outros atributos de Gaussianas usando perda de entropia residual e perda temporal para melhorar a continuidade temporal. Essa estratégia, que separa movimento e aparência, mantém alta qualidade de renderização com requisitos de armazenamento compactos. Além disso, projetamos um reprodutor multiplataforma para decodificar e renderizar vídeos Gaussianos 2D. Experimentos extensivos demonstram a eficácia do V3, superando outros métodos ao possibilitar renderização e streaming de alta qualidade em dispositivos comuns, algo nunca visto antes. Como os primeiros a transmitir Gaussianas dinâmicas em dispositivos móveis, nosso reprodutor companheiro oferece aos usuários uma experiência de vídeo volumétrico sem precedentes, incluindo rolagem suave e compartilhamento instantâneo. Nossa página do projeto com código-fonte está disponível em https://authoritywang.github.io/v3/.
LLMs têm demonstrado um desempenho louvável em diversos domínios. No entanto, formular prompts de alta qualidade para auxiliá-los em seu trabalho representa um desafio para não especialistas em IA. A pesquisa existente em engenharia de prompts sugere princípios de otimização um tanto dispersos e projetos de otimizadores de prompts empiricamente dependentes. Infelizmente, esses esforços carecem de um design estrutural, acarretando altos custos de aprendizado e não sendo propícios para a atualização iterativa de prompts, especialmente para não especialistas em IA. Inspirados em linguagens de programação estruturadas e reutilizáveis, propomos o LangGPT, um framework de design estrutural de prompts. Além disso, introduzimos o Minstrel, um sistema de agentes multi-gerativos com reflexão para automatizar a geração de prompts estruturais. Experimentos e o estudo de caso ilustram que prompts estruturais gerados pelo Minstrel ou escritos manualmente melhoram significativamente o desempenho de LLMs. Além disso, analisamos a facilidade de uso de prompts estruturais por meio de uma pesquisa com usuários em nossa comunidade online.
Os Modelos de Linguagem de Grande Escala (LLMs) têm mostrado um potencial notável em vários domínios, incluindo cibersegurança. O uso de LLMs comerciais baseados em nuvem pode ser indesejável devido a preocupações com privacidade, custos e restrições de conectividade de rede. Neste artigo, apresentamos o Hackphyr, um LLM localmente ajustado fino para ser usado como um agente de equipe vermelha em ambientes de segurança de rede. Nosso modelo de 7 bilhões de parâmetros ajustado fino pode ser executado em um único cartão GPU e alcança desempenho comparável a modelos comerciais muito maiores e mais poderosos, como o GPT-4. O Hackphyr supera claramente outros modelos, incluindo o GPT-3.5-turbo, e baselines, como agentes Q-learning em cenários complexos e previamente não vistos. Para alcançar esse desempenho, geramos um novo conjunto de dados de cibersegurança específico da tarefa para aprimorar as capacidades do modelo base. Por fim, realizamos uma análise abrangente dos comportamentos dos agentes que fornece insights sobre as habilidades de planejamento e possíveis deficiências desses agentes, contribuindo para uma compreensão mais ampla de agentes baseados em LLM em contextos de cibersegurança.
Apresentamos o V-AURA, o primeiro modelo autoregressivo a alcançar alta sincronização temporal e relevância na geração de vídeo para áudio. O V-AURA utiliza um extrator de características visuais de alta taxa de quadros e uma estratégia de fusão de características áudio-visuais cruzadas para capturar eventos de movimento visual detalhados e garantir uma sincronização temporal precisa. Além disso, propomos o VisualSound, um conjunto de dados de referência com alta relevância áudio-visual. O VisualSound é baseado no VGGSound, um conjunto de dados de vídeo composto por amostras do mundo real extraídas do YouTube. Durante a curadoria, removemos amostras onde os eventos auditivos não estão alinhados com os visuais. O V-AURA supera os modelos atuais de ponta em sincronização temporal e relevância semântica, mantendo uma qualidade de áudio comparável. Código, amostras, VisualSound e modelos estão disponíveis em https://v-aura.notion.site
A integração de ferramentas em agentes baseados em LLM superou as dificuldades dos LLMs autônomos e das capacidades limitadas de agentes tradicionais. No entanto, a combinação dessas tecnologias e as melhorias propostas em diversos trabalhos de ponta seguiram uma arquitetura de software não unificada resultando em uma falta de modularidade. De fato, eles se concentraram principalmente em funcionalidades e negligenciaram a definição dos limites dos componentes dentro do agente. Isso causou ambiguidades terminológicas e arquiteturais entre os pesquisadores, as quais abordamos neste artigo propondo um framework unificado que estabelece uma base clara para o desenvolvimento de agentes baseados em LLM, tanto do ponto de vista funcional quanto arquitetônico de software. Nosso framework, LLM-Agent-UMF (LLM-based Agent Unified Modeling Framework), distingue claramente entre os diferentes componentes de um agente, separando LLMs e ferramentas de um elemento recém-introduzido: o núcleo do agente, desempenhando o papel de coordenador central do agente que compreende cinco módulos: planejamento, memória, perfil, ação e segurança, este último frequentemente negligenciado em trabalhos anteriores. Diferenças na estrutura interna dos núcleos dos agentes nos levaram a classificá-los em uma taxonomia de tipos passivos e ativos. Com base nisso, propusemos diferentes arquiteturas de agentes multi-núcleo combinando características únicas de vários agentes individuais. Para fins de avaliação, aplicamos este framework a uma seleção de agentes de ponta, demonstrando assim sua alinhamento com suas funcionalidades e esclarecendo os aspectos arquiteturais negligenciados. Além disso, avaliamos minuciosamente quatro de nossas arquiteturas propostas integrando agentes distintos em sistemas híbridos de núcleos de agentes ativos/passivos. Essa análise forneceu insights claros sobre melhorias potenciais e destacou os desafios envolvidos na combinação de agentes específicos.