HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

11 papers found

Jina CLIP: Seu Modelo CLIP Também é um Recuperador de Texto
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

May 30

ByAndreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao

O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) é amplamente utilizado para treinar modelos a alinhar imagens e textos em um espaço de incorporação comum, mapeando-os para vetores de tamanho fixo. Esses modelos são fundamentais para a recuperação de informações multimodais e tarefas relacionadas. No entanto, os modelos CLIP geralmente têm desempenho inferior em tarefas exclusivamente textuais em comparação com modelos especializados em texto. Isso cria ineficiências para sistemas de recuperação de informações que mantêm incorporações e modelos separados para tarefas exclusivamente textuais e multimodais. Propomos um novo método de treinamento contrastivo multitarefa para abordar essa questão, que utilizamos para treinar o modelo jina-clip-v1, alcançando desempenho de ponta tanto em tarefas de recuperação de texto-imagem quanto de texto-texto.

Similaridade Não É Tudo o que Você Precisa: Dotando a Geração Aumentada por Recuperação com Pensamentos Multicamadas
Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts

May 30

ByChunjing Gan, Dan Yang, Binbin Hu, Hanxiao Zhang, Siyuan Li, Ziqi Liu, Yue Shen, Lin Ju, Zhiqiang Zhang, Jinjie Gu, Lei Liang, Jun Zhou

Nos últimos anos, os grandes modelos de linguagem (LLMs, na sigla em inglês) alcançaram conquistas notáveis em diversos domínios. No entanto, a falta de atualização oportuna e o custo associado à atualização de conhecimento, somados aos problemas de alucinação dos LLMs, limitaram suas aplicações em tarefas que demandam conhecimento intensivo, onde a geração aumentada por recuperação (RAG, na sigla em inglês) pode ser útil. No entanto, os modelos existentes que utilizam recuperação aumentada geralmente empregam a similaridade como uma ponte entre consultas e documentos, seguindo um procedimento de "recuperar e depois ler". Neste trabalho, argumentamos que a similaridade nem sempre é a solução definitiva e que depender exclusivamente dela pode, em alguns casos, prejudicar o desempenho da geração aumentada por recuperação. Para tanto, propomos o MetRag, um framework de Geração Aumentada por Recuperação com Pensamentos MultiCamadas. Para começar, além do pensamento orientado por similaridade já existente, incorporamos um modelo de utilidade em pequena escala que obtém supervisão de um LLM para um pensamento orientado por utilidade e, em seguida, desenvolvemos um modelo mais inteligente ao combinar de forma abrangente os pensamentos orientados por similaridade e utilidade. Além disso, considerando que o conjunto de documentos recuperados tende a ser extenso e que utilizá-los isoladamente dificulta a captura de suas características e pontos em comum, propomos utilizar um LLM como um sumarizador adaptativo à tarefa, dotando a geração aumentada por recuperação de um pensamento orientado por compactação. Por fim, com os pensamentos multicamadas das etapas anteriores, um LLM é chamado para realizar a geração aumentada por conhecimento. Experimentos extensivos em tarefas que demandam conhecimento intensivo demonstraram a superioridade do MetRag.

MotionLLM: Compreendendo Comportamentos Humanos a partir de Movimentos e Vídeos Humanos
MotionLLM: Understanding Human Behaviors from Human Motions and Videos

May 30

ByLing-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang

Este estudo adentra o domínio da compreensão multimodal (ou seja, vídeo e movimento) do comportamento humano, aproveitando as poderosas capacidades dos Modelos de Linguagem de Grande Escala (LLMs). Diferentemente dos LLMs recentes projetados para compreensão apenas de vídeo ou apenas de movimento, argumentamos que a compreensão do comportamento humano exige a modelagem conjunta de vídeos e sequências de movimento (por exemplo, sequências SMPL) para capturar efetivamente a dinâmica e a semântica detalhada das partes do corpo. Diante disso, apresentamos o MotionLLM, uma estrutura simples, porém eficaz, para compreensão, legendagem e raciocínio sobre movimentos humanos. Especificamente, o MotionLLM adota uma estratégia unificada de treinamento vídeo-movimento que aproveita as vantagens complementares dos dados existentes de texto-vídeo grosseiros e dos dados de texto-movimento refinados para obter insights espaço-temporais ricos. Além disso, coletamos um conjunto de dados substancial, o MoVid, composto por diversos vídeos, movimentos, legendas e instruções. Adicionalmente, propomos o MoVid-Bench, com anotações manuais cuidadosas, para uma melhor avaliação da compreensão do comportamento humano em vídeo e movimento. Experimentos extensivos mostram a superioridade do MotionLLM em legendagem, compreensão espaço-temporal e capacidade de raciocínio.

Xwin-LM: Práticas Robustas e Escaláveis de Alinhamento para Modelos de Linguagem de Grande Porte
Xwin-LM: Strong and Scalable Alignment Practice for LLMs

May 30

ByBolin Ni, JingCheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang, Gaofeng Meng, Han Hu

Neste trabalho, apresentamos o Xwin-LM, um conjunto abrangente de metodologias de alinhamento para modelos de linguagem de grande escala (LLMs). Este conjunto engloba várias técnicas-chave, incluindo ajuste fino supervisionado (SFT), modelagem de recompensa (RM), ajuste fino por amostragem de rejeição (RS) e otimização direta de preferências (DPO). Os principais componentes são os seguintes: (1) Xwin-LM-SFT, modelos inicialmente ajustados com dados de instrução de alta qualidade; (2) Xwin-Pair, um conjunto de dados de preferência em grande escala e multi-turno, meticulosamente anotado usando GPT-4; (3) Xwin-RM, modelos de recompensa treinados no Xwin-Pair, desenvolvidos em escalas de 7B, 13B e 70B parâmetros; (4) Xwin-Set, um conjunto de dados de preferência multiwise no qual cada prompt está vinculado a 64 respostas únicas geradas pelo Xwin-LM-SFT e pontuadas pelo Xwin-RM; (5) Xwin-LM-RS, modelos ajustados com as respostas de maior pontuação do Xwin-Set; (6) Xwin-LM-DPO, modelos otimizados no Xwin-Set usando o algoritmo DPO. Nossas avaliações no AlpacaEval e MT-bench demonstram melhorias consistentes e significativas ao longo do pipeline, evidenciando a força e escalabilidade do Xwin-LM. O repositório https://github.com/Xwin-LM/Xwin-LM será continuamente atualizado para fomentar a pesquisa comunitária.

GECO: Geração de Imagem para 3D em um SEGUndo
GECO: Generative Image-to-3D within a SECOnd

May 30

ByChen Wang, Jiatao Gu, Xiaoxiao Long, Yuan Liu, Lingjie Liu

A geração 3D tem apresentado progressos notáveis nos últimos anos. Técnicas existentes, como métodos de destilação de pontuação, produzem resultados impressionantes, mas exigem uma extensa otimização por cena, impactando a eficiência temporal. Alternativamente, abordagens baseadas em reconstrução priorizam a eficiência, mas comprometem a qualidade devido ao seu tratamento limitado da incerteza. Apresentamos o GECO, um método inovador para modelagem generativa 3D de alta qualidade que opera em questão de segundos. Nossa abordagem aborda os problemas prevalentes de incerteza e ineficiência nos métodos atuais por meio de um processo em duas etapas. Na etapa inicial, treinamos um modelo generativo de múltiplas visões em um único passo com destilação de pontuação. Em seguida, uma segunda etapa de destilação é aplicada para resolver o desafio da inconsistência de visão na predição de múltiplas visões. Esse processo em duas etapas garante uma abordagem equilibrada para a geração 3D, otimizando tanto a qualidade quanto a eficiência. Nossos experimentos abrangentes demonstram que o GECO alcança uma geração de imagem para 3D de alta qualidade com um nível de eficiência sem precedentes.

DITTO-2: Otimização de Inferência por Difusão Destilada em Tempo-T para Geração de Música
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

May 30

ByZachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan

Métodos de geração de música controlável são essenciais para a criação de música baseada em IA centrada no ser humano, mas atualmente são limitados por compromissos entre velocidade, qualidade e design de controle. A Otimização de T em Tempo de Inferência por Difusão (DITTO), em particular, oferece resultados de ponta, mas é mais de 10 vezes mais lenta que o tempo real, limitando seu uso prático. Propomos a Otimização de T em Tempo de Inferência por Difusão Destilada (ou DITTO-2), um novo método para acelerar o controle baseado em otimização em tempo de inferência e permitir geração mais rápida que o tempo real para uma ampla variedade de aplicações, como preenchimento de música, extensão, intensidade, melodia e controle de estrutura musical. Nosso método funciona (1) destilando um modelo de difusão pré-treinado para amostragem rápida por meio de um processo eficiente e modificado de destilação de consistência ou trajetória de consistência, (2) realizando otimização em tempo de inferência usando nosso modelo destilado com amostragem em uma etapa como uma tarefa de otimização substituta eficiente e (3) executando uma geração final de amostragem multi-etapa (decodificação) usando nossos latentes de ruído estimados para geração controlável de alta qualidade e rápida. Por meio de uma avaliação detalhada, descobrimos que nosso método não apenas acelera a geração em mais de 10-20 vezes, mas também melhora simultaneamente a aderência ao controle e a qualidade da geração. Além disso, aplicamos nossa abordagem a uma nova aplicação de maximização de aderência a texto (pontuação CLAP) e mostramos que podemos converter um modelo de difusão incondicional sem entradas de texto em um modelo que oferece controle de texto de ponta. Exemplos de áudio podem ser encontrados em https://ditto-music.github.io/ditto2/.

MOFA-Vídeo: Animação de Imagem Controlável via Adaptações de Campo de Movimento Generativo em Modelo de Difusão de Imagem para Vídeo Congelado
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

May 30

ByMuyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng

Apresentamos o MOFA-Video, um método avançado de animação de imagens controlável que gera vídeos a partir de uma imagem fornecida utilizando diversos sinais de controle adicionais (como referências de marcos humanos, trajetórias manuais e até mesmo outro vídeo fornecido) ou suas combinações. Isso difere de métodos anteriores que só conseguiam atuar em um domínio de movimento específico ou apresentavam capacidades de controle limitadas com o uso de difusão prévia. Para alcançar nosso objetivo, projetamos vários adaptadores de campo de movimento conscientes do domínio (\ie, MOFA-Adapters) para controlar os movimentos gerados no pipeline de geração de vídeos. Para os MOFA-Adapters, consideramos a consistência temporal do movimento do vídeo e geramos o fluxo de movimento denso a partir das condições de controle esparsas fornecidas inicialmente; em seguida, as características em múltiplas escalas da imagem fornecida são encapsuladas como uma característica guia para a geração estável de vídeos por difusão. Treinamos de forma simples dois adaptadores de movimento para as trajetórias manuais e os marcos humanos individualmente, já que ambos contêm informações esparsas sobre o controle. Após o treinamento, os MOFA-Adapters em diferentes domínios também podem trabalhar em conjunto para uma geração de vídeos mais controlável.

PLA4D: Alinhamentos em Nível de Pixel para Texto para Splatting Gaussiano 4D
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting

May 30

ByQiaowei Miao, Yawei Luo, Yi Yang

À medida que os modelos de difusão condicionados por texto (DMs) alcançam avanços na geração de imagens, vídeos e objetos 3D, o foco da comunidade de pesquisa tem se voltado para a tarefa mais desafiadora de síntese de texto para 4D, que introduz uma dimensão temporal para gerar objetos 3D dinâmicos. Nesse contexto, identificamos a Amostragem por Destilação de Pontuação (SDS), uma técnica amplamente utilizada para síntese de texto para 3D, como um obstáculo significativo para o desempenho em texto para 4D, devido aos seus problemas de faces múltiplas (Janus-faced) e texturas irreais, aliados a altos custos computacionais. Neste artigo, propomos Alinhamentos em Nível de Pixel para Texto para 4D com Splatting Gaussiano (PLA4D), um método novo que utiliza quadros de vídeo gerados a partir de texto como alvos explícitos de alinhamento de pixel para gerar objetos 3D estáticos e injetar movimento neles. Especificamente, introduzimos o Alinhamento Focal para calibrar as poses da câmera para renderização e a Aprendizagem Contrastiva GS-Mesh para destilar prioridades geométricas a partir de contrastes de imagens renderizadas em nível de pixel. Além disso, desenvolvemos o Alinhamento de Movimento usando uma rede de deformação para impulsionar mudanças nos Gaussianos e implementamos o Refinamento de Referência para superfícies suaves de objetos 4D. Essas técnicas permitem que o Splatting Gaussiano 4D alinhe geometria, textura e movimento com vídeos gerados em nível de pixel. Em comparação com métodos anteriores, o PLA4D produz saídas sintetizadas com melhores detalhes de textura em menos tempo e mitiga efetivamente o problema de faces múltiplas. O PLA4D é totalmente implementado usando modelos de código aberto, oferecendo uma direção acessível, amigável e promissora para a criação de conteúdo digital 4D. Nossa página do projeto: https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.

DevEval: Um Benchmark de Geração de Código Anotado Manualmente Alinhado com Repositórios de Código do Mundo Real
DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories

May 30

ByJia Li, Ge Li, Yunfei Zhao, Yongmin Li, Huanyu Liu, Hao Zhu, Lecheng Wang, Kaibo Liu, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yuqi Zhu, Yihong Dong, Zhi Jin, Binhua Li, Fei Huang, Yongbin Li

Como avaliar as habilidades de codificação de Modelos de Linguagem de Grande Escala (LLMs) continua sendo uma questão em aberto. Descobrimos que os benchmarks existentes estão mal alinhados com repositórios de código do mundo real e são insuficientes para avaliar as habilidades de codificação dos LLMs. Para abordar essa lacuna de conhecimento, propomos um novo benchmark chamado DevEval, que apresenta três avanços. (1) O DevEval está alinhado com repositórios do mundo real em múltiplas dimensões, como distribuições de código e distribuições de dependências. (2) O DevEval é anotado por 13 desenvolvedores e contém anotações abrangentes (por exemplo, requisitos, repositórios originais, código de referência e dependências de referência). (3) O DevEval compreende 1.874 amostras de teste de 117 repositórios, cobrindo 10 domínios populares (por exemplo, Internet, Banco de Dados). Com base no DevEval, propomos a geração de código em nível de repositório e avaliamos 8 LLMs populares no DevEval (por exemplo, gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Nossos experimentos revelam as habilidades de codificação desses LLMs em repositórios de código do mundo real. Por exemplo, em nossos experimentos, o maior Pass@1 do gpt-4-turbo foi de apenas 53,04%. Também analisamos os casos de falha dos LLMs e resumimos suas deficiências. Esperamos que o DevEval possa facilitar o desenvolvimento de LLMs em repositórios de código reais. O DevEval, os prompts e as previsões dos LLMs foram disponibilizados publicamente.

DeMamba: Detecção de Vídeos Gerados por IA no Benchmark GenVideo em Escala de Milhões
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

May 30

ByHaoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li

Recentemente, as técnicas de geração de vídeo avançaram rapidamente. Dada a popularidade de conteúdo em vídeo nas plataformas de mídia social, esses modelos intensificam as preocupações sobre a disseminação de informações falsas. Portanto, há uma demanda crescente por detectores capazes de distinguir entre vídeos falsos gerados por IA e mitigar os danos potenciais causados por informações falsas. No entanto, a falta de conjuntos de dados em grande escala provenientes dos geradores de vídeo mais avançados representa uma barreira para o desenvolvimento de tais detectores. Para preencher essa lacuna, introduzimos o primeiro conjunto de dados de detecção de vídeos gerados por IA, o GenVideo. Ele apresenta as seguintes características: (1) um grande volume de vídeos, incluindo mais de um milhão de vídeos gerados por IA e vídeos reais coletados; (2) uma rica diversidade de conteúdo gerado e metodologias, abrangendo um amplo espectro de categorias de vídeo e técnicas de geração. Realizamos estudos extensivos do conjunto de dados e propusemos dois métodos de avaliação adaptados para cenários semelhantes ao mundo real para avaliar o desempenho dos detectores: a tarefa de classificação de vídeos entre geradores avalia a generalização dos detectores treinados em diferentes geradores; a tarefa de classificação de vídeos degradados avalia a robustez dos detectores para lidar com vídeos que sofreram degradação de qualidade durante a disseminação. Além disso, introduzimos um módulo plug-and-play, denominado Detail Mamba (DeMamba), projetado para aprimorar os detectores ao identificar vídeos gerados por IA por meio da análise de inconsistências nas dimensões temporais e espaciais. Nossos experimentos extensivos demonstram a superior generalização e robustez do DeMamba no GenVideo em comparação com detectores existentes. Acreditamos que o conjunto de dados GenVideo e o módulo DeMamba avançarão significativamente o campo de detecção de vídeos gerados por IA. Nosso código e conjunto de dados estarão disponíveis em https://github.com/chenhaoxing/DeMamba.

Parrot: Serviço Eficiente de Aplicações Baseadas em LLM com Variável Semântica
Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

May 30

ByChaofan Lin, Zhenhua Han, Chengruidong Zhang, Yuqing Yang, Fan Yang, Chen Chen, Lili Qiu

O surgimento de grandes modelos de linguagem (LLMs) possibilitou o desenvolvimento de aplicações baseadas em LLMs (também conhecidas como agentes de IA ou co-pilotos), um novo paradigma de software que combina a força dos LLMs com o software convencional. Diferentes aplicações de LLMs de diversos usuários podem projetar fluxos de trabalho complexos utilizando múltiplas requisições de LLMs para realizar uma única tarefa. No entanto, elas precisam usar a API simplificada no nível de requisição fornecida pelos serviços públicos de LLMs atuais, perdendo informações essenciais no nível da aplicação. Os serviços públicos de LLMs são obrigados a otimizar cegamente requisições individuais de LLMs, resultando em um desempenho subótimo de ponta a ponta para as aplicações baseadas em LLMs. Este artigo apresenta o Parrot, um sistema de serviço de LLMs que foca na experiência de ponta a ponta das aplicações baseadas em LLMs. O Parrot propõe a Variável Semântica, uma abstração unificada para expor o conhecimento no nível da aplicação aos serviços públicos de LLMs. Uma Variável Semântica anota uma variável de entrada/saída no prompt de uma requisição e cria o pipeline de dados ao conectar múltiplas requisições de LLMs, fornecendo uma maneira natural de programar aplicações de LLMs. Expor Variáveis Semânticas ao serviço público de LLMs permite que ele realize análises convencionais de fluxo de dados para descobrir a correlação entre múltiplas requisições de LLMs. Essa correlação abre um espaço de otimização completamente novo para o desempenho de ponta a ponta das aplicações baseadas em LLMs. Avaliações extensivas demonstram que o Parrot pode alcançar uma melhoria de até uma ordem de magnitude para casos de uso populares e práticos de aplicações de LLMs.

DeMamba: Detecção de Vídeos Gerados por IA no Benchmark GenVideo em Escala de Milhões
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

May 30

ByHaoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li