Artigos de pesquisa em IA selecionados diariamente com traduções
O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) é amplamente utilizado para treinar modelos a alinhar imagens e textos em um espaço de incorporação comum, mapeando-os para vetores de tamanho fixo. Esses modelos são fundamentais para a recuperação de informações multimodais e tarefas relacionadas. No entanto, os modelos CLIP geralmente têm desempenho inferior em tarefas exclusivamente textuais em comparação com modelos especializados em texto. Isso cria ineficiências para sistemas de recuperação de informações que mantêm incorporações e modelos separados para tarefas exclusivamente textuais e multimodais. Propomos um novo método de treinamento contrastivo multitarefa para abordar essa questão, que utilizamos para treinar o modelo jina-clip-v1, alcançando desempenho de ponta tanto em tarefas de recuperação de texto-imagem quanto de texto-texto.
Nos últimos anos, os grandes modelos de linguagem (LLMs, na sigla em inglês) alcançaram conquistas notáveis em diversos domínios. No entanto, a falta de atualização oportuna e o custo associado à atualização de conhecimento, somados aos problemas de alucinação dos LLMs, limitaram suas aplicações em tarefas que demandam conhecimento intensivo, onde a geração aumentada por recuperação (RAG, na sigla em inglês) pode ser útil. No entanto, os modelos existentes que utilizam recuperação aumentada geralmente empregam a similaridade como uma ponte entre consultas e documentos, seguindo um procedimento de "recuperar e depois ler". Neste trabalho, argumentamos que a similaridade nem sempre é a solução definitiva e que depender exclusivamente dela pode, em alguns casos, prejudicar o desempenho da geração aumentada por recuperação. Para tanto, propomos o MetRag, um framework de Geração Aumentada por Recuperação com Pensamentos MultiCamadas. Para começar, além do pensamento orientado por similaridade já existente, incorporamos um modelo de utilidade em pequena escala que obtém supervisão de um LLM para um pensamento orientado por utilidade e, em seguida, desenvolvemos um modelo mais inteligente ao combinar de forma abrangente os pensamentos orientados por similaridade e utilidade. Além disso, considerando que o conjunto de documentos recuperados tende a ser extenso e que utilizá-los isoladamente dificulta a captura de suas características e pontos em comum, propomos utilizar um LLM como um sumarizador adaptativo à tarefa, dotando a geração aumentada por recuperação de um pensamento orientado por compactação. Por fim, com os pensamentos multicamadas das etapas anteriores, um LLM é chamado para realizar a geração aumentada por conhecimento. Experimentos extensivos em tarefas que demandam conhecimento intensivo demonstraram a superioridade do MetRag.
Este estudo adentra o domínio da compreensão multimodal (ou seja, vídeo e movimento) do comportamento humano, aproveitando as poderosas capacidades dos Modelos de Linguagem de Grande Escala (LLMs). Diferentemente dos LLMs recentes projetados para compreensão apenas de vídeo ou apenas de movimento, argumentamos que a compreensão do comportamento humano exige a modelagem conjunta de vídeos e sequências de movimento (por exemplo, sequências SMPL) para capturar efetivamente a dinâmica e a semântica detalhada das partes do corpo. Diante disso, apresentamos o MotionLLM, uma estrutura simples, porém eficaz, para compreensão, legendagem e raciocínio sobre movimentos humanos. Especificamente, o MotionLLM adota uma estratégia unificada de treinamento vídeo-movimento que aproveita as vantagens complementares dos dados existentes de texto-vídeo grosseiros e dos dados de texto-movimento refinados para obter insights espaço-temporais ricos. Além disso, coletamos um conjunto de dados substancial, o MoVid, composto por diversos vídeos, movimentos, legendas e instruções. Adicionalmente, propomos o MoVid-Bench, com anotações manuais cuidadosas, para uma melhor avaliação da compreensão do comportamento humano em vídeo e movimento. Experimentos extensivos mostram a superioridade do MotionLLM em legendagem, compreensão espaço-temporal e capacidade de raciocínio.
Neste trabalho, apresentamos o Xwin-LM, um conjunto abrangente de metodologias de alinhamento para modelos de linguagem de grande escala (LLMs). Este conjunto engloba várias técnicas-chave, incluindo ajuste fino supervisionado (SFT), modelagem de recompensa (RM), ajuste fino por amostragem de rejeição (RS) e otimização direta de preferências (DPO). Os principais componentes são os seguintes: (1) Xwin-LM-SFT, modelos inicialmente ajustados com dados de instrução de alta qualidade; (2) Xwin-Pair, um conjunto de dados de preferência em grande escala e multi-turno, meticulosamente anotado usando GPT-4; (3) Xwin-RM, modelos de recompensa treinados no Xwin-Pair, desenvolvidos em escalas de 7B, 13B e 70B parâmetros; (4) Xwin-Set, um conjunto de dados de preferência multiwise no qual cada prompt está vinculado a 64 respostas únicas geradas pelo Xwin-LM-SFT e pontuadas pelo Xwin-RM; (5) Xwin-LM-RS, modelos ajustados com as respostas de maior pontuação do Xwin-Set; (6) Xwin-LM-DPO, modelos otimizados no Xwin-Set usando o algoritmo DPO. Nossas avaliações no AlpacaEval e MT-bench demonstram melhorias consistentes e significativas ao longo do pipeline, evidenciando a força e escalabilidade do Xwin-LM. O repositório https://github.com/Xwin-LM/Xwin-LM será continuamente atualizado para fomentar a pesquisa comunitária.
A geração 3D tem apresentado progressos notáveis nos últimos anos. Técnicas existentes, como métodos de destilação de pontuação, produzem resultados impressionantes, mas exigem uma extensa otimização por cena, impactando a eficiência temporal. Alternativamente, abordagens baseadas em reconstrução priorizam a eficiência, mas comprometem a qualidade devido ao seu tratamento limitado da incerteza. Apresentamos o GECO, um método inovador para modelagem generativa 3D de alta qualidade que opera em questão de segundos. Nossa abordagem aborda os problemas prevalentes de incerteza e ineficiência nos métodos atuais por meio de um processo em duas etapas. Na etapa inicial, treinamos um modelo generativo de múltiplas visões em um único passo com destilação de pontuação. Em seguida, uma segunda etapa de destilação é aplicada para resolver o desafio da inconsistência de visão na predição de múltiplas visões. Esse processo em duas etapas garante uma abordagem equilibrada para a geração 3D, otimizando tanto a qualidade quanto a eficiência. Nossos experimentos abrangentes demonstram que o GECO alcança uma geração de imagem para 3D de alta qualidade com um nível de eficiência sem precedentes.
Métodos de geração de música controlável são essenciais para a criação de música baseada em IA centrada no ser humano, mas atualmente são limitados por compromissos entre velocidade, qualidade e design de controle. A Otimização de T em Tempo de Inferência por Difusão (DITTO), em particular, oferece resultados de ponta, mas é mais de 10 vezes mais lenta que o tempo real, limitando seu uso prático. Propomos a Otimização de T em Tempo de Inferência por Difusão Destilada (ou DITTO-2), um novo método para acelerar o controle baseado em otimização em tempo de inferência e permitir geração mais rápida que o tempo real para uma ampla variedade de aplicações, como preenchimento de música, extensão, intensidade, melodia e controle de estrutura musical. Nosso método funciona (1) destilando um modelo de difusão pré-treinado para amostragem rápida por meio de um processo eficiente e modificado de destilação de consistência ou trajetória de consistência, (2) realizando otimização em tempo de inferência usando nosso modelo destilado com amostragem em uma etapa como uma tarefa de otimização substituta eficiente e (3) executando uma geração final de amostragem multi-etapa (decodificação) usando nossos latentes de ruído estimados para geração controlável de alta qualidade e rápida. Por meio de uma avaliação detalhada, descobrimos que nosso método não apenas acelera a geração em mais de 10-20 vezes, mas também melhora simultaneamente a aderência ao controle e a qualidade da geração. Além disso, aplicamos nossa abordagem a uma nova aplicação de maximização de aderência a texto (pontuação CLAP) e mostramos que podemos converter um modelo de difusão incondicional sem entradas de texto em um modelo que oferece controle de texto de ponta. Exemplos de áudio podem ser encontrados em https://ditto-music.github.io/ditto2/.
Apresentamos o MOFA-Video, um método avançado de animação de imagens controlável que gera vídeos a partir de uma imagem fornecida utilizando diversos sinais de controle adicionais (como referências de marcos humanos, trajetórias manuais e até mesmo outro vídeo fornecido) ou suas combinações. Isso difere de métodos anteriores que só conseguiam atuar em um domínio de movimento específico ou apresentavam capacidades de controle limitadas com o uso de difusão prévia. Para alcançar nosso objetivo, projetamos vários adaptadores de campo de movimento conscientes do domínio (\ie, MOFA-Adapters) para controlar os movimentos gerados no pipeline de geração de vídeos. Para os MOFA-Adapters, consideramos a consistência temporal do movimento do vídeo e geramos o fluxo de movimento denso a partir das condições de controle esparsas fornecidas inicialmente; em seguida, as características em múltiplas escalas da imagem fornecida são encapsuladas como uma característica guia para a geração estável de vídeos por difusão. Treinamos de forma simples dois adaptadores de movimento para as trajetórias manuais e os marcos humanos individualmente, já que ambos contêm informações esparsas sobre o controle. Após o treinamento, os MOFA-Adapters em diferentes domínios também podem trabalhar em conjunto para uma geração de vídeos mais controlável.
À medida que os modelos de difusão condicionados por texto (DMs) alcançam avanços na geração de imagens, vídeos e objetos 3D, o foco da comunidade de pesquisa tem se voltado para a tarefa mais desafiadora de síntese de texto para 4D, que introduz uma dimensão temporal para gerar objetos 3D dinâmicos. Nesse contexto, identificamos a Amostragem por Destilação de Pontuação (SDS), uma técnica amplamente utilizada para síntese de texto para 3D, como um obstáculo significativo para o desempenho em texto para 4D, devido aos seus problemas de faces múltiplas (Janus-faced) e texturas irreais, aliados a altos custos computacionais. Neste artigo, propomos Alinhamentos em Nível de Pixel para Texto para 4D com Splatting Gaussiano (PLA4D), um método novo que utiliza quadros de vídeo gerados a partir de texto como alvos explícitos de alinhamento de pixel para gerar objetos 3D estáticos e injetar movimento neles. Especificamente, introduzimos o Alinhamento Focal para calibrar as poses da câmera para renderização e a Aprendizagem Contrastiva GS-Mesh para destilar prioridades geométricas a partir de contrastes de imagens renderizadas em nível de pixel. Além disso, desenvolvemos o Alinhamento de Movimento usando uma rede de deformação para impulsionar mudanças nos Gaussianos e implementamos o Refinamento de Referência para superfícies suaves de objetos 4D. Essas técnicas permitem que o Splatting Gaussiano 4D alinhe geometria, textura e movimento com vídeos gerados em nível de pixel. Em comparação com métodos anteriores, o PLA4D produz saídas sintetizadas com melhores detalhes de textura em menos tempo e mitiga efetivamente o problema de faces múltiplas. O PLA4D é totalmente implementado usando modelos de código aberto, oferecendo uma direção acessível, amigável e promissora para a criação de conteúdo digital 4D. Nossa página do projeto: https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.
Como avaliar as habilidades de codificação de Modelos de Linguagem de Grande Escala (LLMs) continua sendo uma questão em aberto. Descobrimos que os benchmarks existentes estão mal alinhados com repositórios de código do mundo real e são insuficientes para avaliar as habilidades de codificação dos LLMs. Para abordar essa lacuna de conhecimento, propomos um novo benchmark chamado DevEval, que apresenta três avanços. (1) O DevEval está alinhado com repositórios do mundo real em múltiplas dimensões, como distribuições de código e distribuições de dependências. (2) O DevEval é anotado por 13 desenvolvedores e contém anotações abrangentes (por exemplo, requisitos, repositórios originais, código de referência e dependências de referência). (3) O DevEval compreende 1.874 amostras de teste de 117 repositórios, cobrindo 10 domínios populares (por exemplo, Internet, Banco de Dados). Com base no DevEval, propomos a geração de código em nível de repositório e avaliamos 8 LLMs populares no DevEval (por exemplo, gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Nossos experimentos revelam as habilidades de codificação desses LLMs em repositórios de código do mundo real. Por exemplo, em nossos experimentos, o maior Pass@1 do gpt-4-turbo foi de apenas 53,04%. Também analisamos os casos de falha dos LLMs e resumimos suas deficiências. Esperamos que o DevEval possa facilitar o desenvolvimento de LLMs em repositórios de código reais. O DevEval, os prompts e as previsões dos LLMs foram disponibilizados publicamente.
Recentemente, as técnicas de geração de vídeo avançaram rapidamente. Dada a popularidade de conteúdo em vídeo nas plataformas de mídia social, esses modelos intensificam as preocupações sobre a disseminação de informações falsas. Portanto, há uma demanda crescente por detectores capazes de distinguir entre vídeos falsos gerados por IA e mitigar os danos potenciais causados por informações falsas. No entanto, a falta de conjuntos de dados em grande escala provenientes dos geradores de vídeo mais avançados representa uma barreira para o desenvolvimento de tais detectores. Para preencher essa lacuna, introduzimos o primeiro conjunto de dados de detecção de vídeos gerados por IA, o GenVideo. Ele apresenta as seguintes características: (1) um grande volume de vídeos, incluindo mais de um milhão de vídeos gerados por IA e vídeos reais coletados; (2) uma rica diversidade de conteúdo gerado e metodologias, abrangendo um amplo espectro de categorias de vídeo e técnicas de geração. Realizamos estudos extensivos do conjunto de dados e propusemos dois métodos de avaliação adaptados para cenários semelhantes ao mundo real para avaliar o desempenho dos detectores: a tarefa de classificação de vídeos entre geradores avalia a generalização dos detectores treinados em diferentes geradores; a tarefa de classificação de vídeos degradados avalia a robustez dos detectores para lidar com vídeos que sofreram degradação de qualidade durante a disseminação. Além disso, introduzimos um módulo plug-and-play, denominado Detail Mamba (DeMamba), projetado para aprimorar os detectores ao identificar vídeos gerados por IA por meio da análise de inconsistências nas dimensões temporais e espaciais. Nossos experimentos extensivos demonstram a superior generalização e robustez do DeMamba no GenVideo em comparação com detectores existentes. Acreditamos que o conjunto de dados GenVideo e o módulo DeMamba avançarão significativamente o campo de detecção de vídeos gerados por IA. Nosso código e conjunto de dados estarão disponíveis em https://github.com/chenhaoxing/DeMamba.
O surgimento de grandes modelos de linguagem (LLMs) possibilitou o desenvolvimento de aplicações baseadas em LLMs (também conhecidas como agentes de IA ou co-pilotos), um novo paradigma de software que combina a força dos LLMs com o software convencional. Diferentes aplicações de LLMs de diversos usuários podem projetar fluxos de trabalho complexos utilizando múltiplas requisições de LLMs para realizar uma única tarefa. No entanto, elas precisam usar a API simplificada no nível de requisição fornecida pelos serviços públicos de LLMs atuais, perdendo informações essenciais no nível da aplicação. Os serviços públicos de LLMs são obrigados a otimizar cegamente requisições individuais de LLMs, resultando em um desempenho subótimo de ponta a ponta para as aplicações baseadas em LLMs. Este artigo apresenta o Parrot, um sistema de serviço de LLMs que foca na experiência de ponta a ponta das aplicações baseadas em LLMs. O Parrot propõe a Variável Semântica, uma abstração unificada para expor o conhecimento no nível da aplicação aos serviços públicos de LLMs. Uma Variável Semântica anota uma variável de entrada/saída no prompt de uma requisição e cria o pipeline de dados ao conectar múltiplas requisições de LLMs, fornecendo uma maneira natural de programar aplicações de LLMs. Expor Variáveis Semânticas ao serviço público de LLMs permite que ele realize análises convencionais de fluxo de dados para descobrir a correlação entre múltiplas requisições de LLMs. Essa correlação abre um espaço de otimização completamente novo para o desempenho de ponta a ponta das aplicações baseadas em LLMs. Avaliações extensivas demonstram que o Parrot pode alcançar uma melhoria de até uma ordem de magnitude para casos de uso populares e práticos de aplicações de LLMs.