HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

26 papers found

LongRAG: Melhorando a Geração Aumentada por Recuperação com LLMs de Contexto Longo
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

Jun 21

ByZiyan Jiang, Xueguang Ma, Wenhu Chen

No tradicional framework RAG, as unidades básicas de recuperação são normalmente curtas. Os recuperadores comuns, como DPR, normalmente trabalham com parágrafos de 100 palavras da Wikipedia. Tal design obriga o recuperador a buscar em um grande corpus para encontrar a unidade "agulha". Em contraste, os leitores só precisam extrair respostas das curtas unidades recuperadas. Tal design desequilibrado com um recuperador "pesado" e um leitor "leve" pode levar a um desempenho subótimo. Para aliviar o desequilíbrio, propomos um novo framework, LongRAG, composto por um "recuperador longo" e um "leitor longo". O LongRAG processa toda a Wikipedia em unidades de 4 mil tokens, o que é 30 vezes mais longo do que antes. Ao aumentar o tamanho da unidade, reduzimos significativamente o total de unidades de 22 milhões para 700 mil. Isso reduz consideravelmente o fardo do recuperador, o que resulta em uma pontuação de recuperação notável: recall de resposta@1=71% no NQ (anteriormente 52%) e recall de resposta@2=72% (anteriormente 47%) no HotpotQA (full-wiki). Em seguida, alimentamos as unidades recuperadas do top-k (aproximadamente 30 mil tokens) em um LLM de contexto longo existente para realizar extração de respostas sem treinamento. Sem exigir nenhum treinamento, o LongRAG alcança um EM de 62,7% no NQ, que é o melhor resultado conhecido. O LongRAG também alcança 64,3% no HotpotQA (full-wiki), o que está em pé de igualdade com o modelo SoTA. Nosso estudo oferece insights sobre o roadmap futuro para combinar RAG com LLMs de contexto longo.

Julgando os Juízes: Avaliando a Coerência e Vulnerabilidades em LLMs-como-Juízes
Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

Jun 18

ByAman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes

Oferecendo uma solução promissora para os desafios de escalabilidade associados à avaliação humana, o paradigma LLM-como-juiz está ganhando rapidamente destaque como uma abordagem para avaliar grandes modelos de linguagem (LLMs). No entanto, ainda existem muitas questões em aberto sobre as forças e fraquezas desse paradigma, e quais possíveis viéses ele pode conter. Neste artigo, apresentamos um estudo abrangente do desempenho de vários LLMs atuando como juízes. Utilizamos o TriviaQA como referência para avaliar o raciocínio de conhecimento objetivo dos LLMs e os avaliamos junto com anotações humanas que identificamos ter uma alta concordância entre anotadores. Nosso estudo inclui 9 modelos de juízes e 9 modelos de examinadores - ambos base e ajustados por instruções. Avaliamos a concordância do modelo juiz em diferentes tamanhos de modelo, famílias e estímulos de juiz. Entre outros resultados, nossa pesquisa redescobre a importância de usar o kappa de Cohen como métrica de concordância em oposição ao simples acordo percentual, mostrando que juízes com alto acordo percentual ainda podem atribuir pontuações muito diferentes. Descobrimos que tanto o Llama-3 70B quanto o GPT-4 Turbo têm uma excelente concordância com os humanos, mas em termos de classificação dos modelos de examinadores, são superados tanto pelo JudgeLM-7B quanto pelo juiz lexical Contains, que têm até 34 pontos a menos de concordância humana. Através da análise de erros e vários outros estudos, incluindo os efeitos do comprimento da instrução e do viés de leniência, esperamos fornecer lições valiosas para o uso de LLMs como juízes no futuro.

Rumo à Geração Aprimorada por Recuperação em Grandes Bibliotecas de Vídeo
Towards Retrieval Augmented Generation over Large Video Libraries

Jun 21

ByYannis Tevissen, Khalil Guetari, Frédéric Petitpont

Os criadores de conteúdo de vídeo precisam de ferramentas eficientes para reutilizar conteúdo, uma tarefa que frequentemente requer buscas manuais ou automatizadas complexas. Criar um novo vídeo a partir de extensas bibliotecas de vídeos ainda é um desafio. Neste artigo, apresentamos a tarefa de Resposta a Perguntas de Biblioteca de Vídeo (VLQA) por meio de uma arquitetura interoperável que aplica Geração Aprimorada por Recuperação (RAG) a bibliotecas de vídeo. Propomos um sistema que utiliza grandes modelos de linguagem (LLMs) para gerar consultas de pesquisa, recuperando momentos de vídeo relevantes indexados por metadados de fala e visual. Um módulo de geração de respostas então integra as consultas do usuário com esses metadados para produzir respostas com timestamps de vídeo específicos. Esta abordagem mostra promessa na recuperação de conteúdo multimídia e na criação de conteúdo de vídeo assistida por IA.

Complexidade da Representação Simbólica na Memória de Trabalho do Transformer Correlaciona-se com a Complexidade de uma Tarefa
Complexity of Symbolic Representation in Working Memory of Transformer Correlates with the Complexity of a Task

Jun 20

ByAlsu Sagirova, Mikhail Burtsev

Embora os Transformers sejam amplamente utilizados para tarefas de Processamento de Linguagem Natural, especialmente para tradução automática, eles carecem de uma memória explícita para armazenar conceitos-chave dos textos processados. Este artigo explora as propriedades do conteúdo da memória de trabalho simbólica adicionada ao decodificador do modelo Transformer. Essa memória de trabalho aprimora a qualidade das previsões do modelo na tarefa de tradução automática e funciona como uma representação neural-simbólica das informações importantes para o modelo realizar traduções corretas. O estudo do conteúdo da memória revelou que palavras-chave do texto traduzido são armazenadas na memória de trabalho, indicando a relevância do conteúdo da memória para o texto processado. Além disso, a diversidade de tokens e partes do discurso armazenadas na memória correlaciona-se com a complexidade dos corpora para a tarefa de tradução automática.

MantisScore: Construção de Métricas Automáticas para Simular Feedback Humano Detalhado na Geração de Vídeos
MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

Jun 21

ByXuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen

Os últimos anos testemunharam grandes avanços na geração de vídeos. No entanto, o desenvolvimento de métricas automáticas de vídeo está significativamente atrasado. Nenhuma das métricas existentes é capaz de fornecer pontuações confiáveis para vídeos gerados. A principal barreira é a falta de um conjunto de dados grande e anotado por humanos em larga escala. Neste artigo, lançamos o VideoFeedback, o primeiro conjunto de dados em larga escala contendo pontuações multi-aspecto fornecidas por humanos sobre 37,6 mil vídeos sintetizados a partir de 11 modelos geradores de vídeo existentes. Treinamos o MantisScore (inicializado a partir do Mantis) com base no VideoFeedback para possibilitar a avaliação automática da qualidade do vídeo. Experimentos mostram que a correlação de Spearman entre o MantisScore e os humanos pode atingir 77,1 no VideoFeedback-test, superando as métricas anteriores em cerca de 50 pontos. Resultados adicionais em outros conjuntos de dados de avaliação, como EvalCrafter, GenAI-Bench e VBench, mostram que o MantisScore tem consistentemente uma correlação muito maior com os juízes humanos do que outras métricas. Devido a esses resultados, acreditamos que o MantisScore pode servir como um ótimo proxy para avaliadores humanos (1) classificarem diferentes modelos de vídeo para acompanhar o progresso e (2) simularem feedback humano detalhado no Aprendizado por Reforço com Feedback Humano (RLHF) para melhorar os modelos atuais de geração de vídeo.

Avaliando RAG-Fusion com RAGElo: um Framework Automatizado baseado em Elo
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

Jun 20

ByZackary Rackauckas, Arthur Câmara, Jakub Zavrel

Os desafios na avaliação automatizada de sistemas de Perguntas e Respostas (QA) de Geração com Recuperação (RAG) incluem problemas de alucinação no conhecimento específico do domínio e a falta de benchmarks padrão para tarefas internas da empresa. Isso resulta em dificuldades na avaliação de variações do RAG, como RAG-Fusão (RAGF), no contexto de uma tarefa de QA de produto na Infineon Technologies. Para resolver esses problemas, propomos um framework abrangente de avaliação, que aproveita Modelos de Linguagem Grandes (LLMs) para gerar grandes conjuntos de dados de consultas sintéticas com base em consultas reais de usuários e documentos no domínio, utiliza LLM como juiz para classificar documentos e respostas recuperadas, avalia a qualidade das respostas e classifica diferentes variantes de agentes de Geração com Recuperação (RAG) com a competição automatizada baseada em Elo de RAGElo. A classificação do LLM como juiz de uma amostra aleatória de consultas sintéticas mostra uma correlação moderada e positiva com a pontuação de especialistas do domínio em relevância, precisão, completude e precisão. Enquanto o RAGF superou o RAG na pontuação Elo, uma análise de significância em relação às anotações de especialistas também mostra que o RAGF supera significativamente o RAG em completude, mas tem desempenho inferior em precisão. Além disso, o assistente RAGF da Infineon demonstrou um desempenho ligeiramente superior em relevância de documentos com base nas pontuações MRR@5. Constatamos que o RAGElo se alinha positivamente com as preferências dos anotadores humanos, embora seja necessária cautela. Por fim, a abordagem do RAGF resulta em respostas mais completas com base em anotações de especialistas e em respostas melhores no geral com base nos critérios de avaliação do RAGElo.

Stylebreeder: Explorando e Democratizando Estilos Artísticos através de Modelos de Texto-para-Imagem
Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models

Jun 20

ByMatthew Zheng, Enis Simsar, Hidir Yesiltepe, Federico Tombari, Joel Simon, Pinar Yanardag

Os modelos de texto para imagem estão se tornando cada vez mais populares, revolucionando o cenário da criação de arte digital ao possibilitar a geração de conteúdo visual altamente detalhado e criativo. Esses modelos têm sido amplamente empregados em diversos domínios, especialmente na geração de arte, onde facilitam um amplo espectro de expressão criativa e democratizam o acesso à criação artística. Neste artigo, apresentamos o STYLEBREEDER, um conjunto de dados abrangente com 6,8 milhões de imagens e 1,8 milhão de sugestões geradas por 95 mil usuários no Artbreeder, uma plataforma que se destacou como um importante centro de exploração criativa com mais de 13 milhões de usuários. Introduzimos uma série de tarefas com este conjunto de dados com o objetivo de identificar estilos artísticos diversos, gerar conteúdo personalizado e recomendar estilos com base nos interesses do usuário. Ao documentar estilos únicos gerados pelos usuários que transcendem categorias convencionais como 'cyberpunk' ou 'Picasso', exploramos o potencial de estilos únicos, colaborativos, que poderiam fornecer insights profundos na psique criativa coletiva dos usuários em todo o mundo. Também avaliamos diferentes métodos de personalização para aprimorar a expressão artística e introduzimos um atlas de estilos, disponibilizando esses modelos no formato LoRA para uso público. Nossa pesquisa demonstra o potencial dos modelos de difusão de texto para imagem para descobrir e promover expressões artísticas únicas, democratizando ainda mais a IA na arte e fomentando uma comunidade artística mais diversificada e inclusiva. O conjunto de dados, código e modelos estão disponíveis em https://stylebreeder.github.io sob uma licença de Domínio Público (CC0).

EvTexture: Aprimoramento de Textura Orientado por Eventos para Super-Resolução de Vídeo
EvTexture: Event-driven Texture Enhancement for Video Super-Resolution

Jun 19

ByDachun Kai, Jiayao Lu, Yueyi Zhang, Xiaoyan Sun

A visão baseada em eventos tem atraído cada vez mais atenção devido às suas características únicas, como alta resolução temporal e ampla faixa dinâmica. Recentemente, ela tem sido utilizada na super-resolução de vídeo (VSR) para aprimorar a estimativa de fluxo e o alinhamento temporal. Em vez de ser usada para aprendizado de movimento, propomos neste artigo o primeiro método de VSR que utiliza sinais de eventos para o aprimoramento de textura. Nosso método, chamado EvTexture, aproveita os detalhes de alta frequência dos eventos para melhorar a recuperação de regiões de textura no VSR. Em nosso EvTexture, é apresentado um novo ramo de aprimoramento de textura. Introduzimos ainda um módulo iterativo de aprimoramento de textura para explorar progressivamente as informações de eventos de alta resolução temporal para restauração de textura. Isso permite o refinamento gradual das regiões de textura ao longo de múltiplas iterações, resultando em detalhes de alta resolução mais precisos e ricos. Os resultados experimentais mostram que nosso EvTexture alcança desempenho de ponta em quatro conjuntos de dados. Para o conjunto de dados Vid4 com texturas ricas, nosso método pode obter até 4,67dB a mais em comparação com métodos baseados em eventos recentes. Código: https://github.com/DachunKai/EvTexture.

Direcionamento de Recompensa com Heurísticas Evolutivas para Alinhamento em Tempo de Decodificação
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

Jun 21

ByChia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

A ampla aplicabilidade e crescente onipresença dos Modelos de Linguagem com Grandes Dimensões (LLMs) têm instigado a necessidade de alinhar as respostas dos LLMs às preferências dos usuários e partes interessadas. Muitas abordagens de otimização de preferências foram propostas para ajustar os parâmetros dos LLMs a fim de alcançar um bom alinhamento. No entanto, sabe-se que a afinação desses parâmetros pode interferir no desempenho do modelo em muitas tarefas. Além disso, acompanhar as mudanças nas preferências dos usuários é complicado em tal situação. O alinhamento no momento da decodificação com orientação do modelo de recompensa resolve essas questões, embora aumente o tempo de inferência. No entanto, a maioria desses métodos falha em encontrar o equilíbrio adequado entre exploração e exploração da recompensa - frequentemente devido à formulação confusa desses dois aspectos - para fornecer respostas bem alinhadas. Para remediar isso, separamos esses dois aspectos e os implementamos de forma evolutiva: a exploração é promovida decodificando instruções mutadas e a exploração é representada pela substituição periódica de gerações mal recompensadas por aquelas bem recompensadas. Evidências empíricas indicam que essa estratégia supera muitas abordagens de otimização de preferências e alinhamento no momento da decodificação em dois benchmarks amplamente aceitos de alinhamento, AlpacaEval 2 e MT-Bench. Nossa implementação estará disponível em: https://darwin-alignment.github.io.

Desbloqueio como um Problema de Especificação Incorreta de Recompensa
Jailbreaking as a Reward Misspecification Problem

Jun 20

ByZhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong

A ampla adoção de grandes modelos de linguagem (LLMs) tem levantado preocupações sobre sua segurança e confiabilidade, especialmente em relação à sua vulnerabilidade a ataques adversariais. Neste artigo, propomos uma nova perspectiva que atribui essa vulnerabilidade à especificação incorreta de recompensa durante o processo de alinhamento. Introduzimos uma métrica ReGap para quantificar a extensão da especificação incorreta de recompensa e demonstramos sua eficácia e robustez na detecção de prompts maliciosos. Com base nessas percepções, apresentamos o ReMiss, um sistema para simulação automatizada de equipe vermelha que gera prompts adversariais contra vários LLMs alinhados alvo. O ReMiss alcança taxas de sucesso de ataque de ponta no benchmark AdvBench, preservando a legibilidade humana dos prompts gerados. Uma análise detalhada destaca as vantagens únicas trazidas pelo objetivo de especificação incorreta de recompensa proposto em comparação com métodos anteriores.

Duas Girafas em um Campo de Terra: Utilizando o Jogo para Investigar a Modelagem de Situações em Modelos Multimodais Grandes
Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

Jun 20

BySherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen

Embora a situação tenha melhorado para modelos apenas de texto, parece novamente ser o caso atual que os modelos multimodais (texto e imagem) se desenvolvem mais rapidamente do que as formas de avaliá-los. Neste artigo, trazemos um paradigma de avaliação recentemente desenvolvido para modelos textuais para modelos multimodais, nomeadamente a avaliação através do jogo orientado para objetivos (auto) jogado, complementando a avaliação baseada em referência e preferência. Especificamente, definimos jogos que desafiam a capacidade de um modelo de representar uma situação a partir de informações visuais e alinhar tais representações por meio de diálogo. Descobrimos que os maiores modelos fechados se saem bastante bem nos jogos que definimos, enquanto até mesmo os melhores modelos de peso aberto têm dificuldades com eles. Em uma análise mais aprofundada, descobrimos que as capacidades excepcionais de legendagem profunda dos maiores modelos impulsionam parte do desempenho. Ainda há espaço para crescimento para ambos os tipos de modelos, garantindo a contínua relevância do benchmark.

Mapa Cognitivo para Modelos de Linguagem: Planejamento Ótimo por meio da Representação Verbal do Modelo do Mundo
Cognitive Map for Language Models: Optimal Planning via Verbally Representing the World Model

Jun 21

ByDoyoung Kim, Jongwon Lee, Jinho Park, Minjoon Seo

Os modelos de linguagem têm demonstrado impressionantes capacidades em várias tarefas de processamento de linguagem natural, no entanto, enfrentam dificuldades com tarefas de planejamento que exigem simulações de vários passos. Inspirado nos processos cognitivos humanos, este artigo investiga o poder de planejamento ótimo de modelos de linguagem que podem construir um mapa cognitivo de um ambiente dado. Nossos experimentos demonstram que o mapa cognitivo melhora significativamente o desempenho da capacidade de geração de planejamento ótimo e alcançável na tarefa de planejamento de caminho do Gridworld. Observamos que nosso método apresenta duas características-chave semelhantes à cognição humana: generalização de sua capacidade de planejamento para ambientes extrapolados e adaptação rápida com dados de treinamento limitados. Esperamos que nossas descobertas na tarefa do Gridworld forneçam insights sobre a modelagem dos processos cognitivos humanos em modelos de linguagem, potencialmente levando ao desenvolvimento de sistemas mais avançados e robustos que se assemelhem melhor à cognição humana.

4K4DGen: Geração Panorâmica 4D em Resolução 4K
4K4DGen: Panoramic 4D Generation at 4K Resolution

Jun 19

ByRenjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou, Xuanyang Zhang, Zeming Li, Achuta Kadambi, Zhangyang Wang, Zhiwen Fan

O florescimento das tecnologias de realidade virtual e realidade aumentada (RV/RA) tem impulsionado uma demanda crescente pela criação de ambientes imersivos, dinâmicos e de alta qualidade. No entanto, as técnicas generativas existentes geralmente se concentram apenas em objetos dinâmicos ou realizam a saída a partir de uma única imagem de perspectiva, não atendendo às necessidades das aplicações de RV/RA. Neste trabalho, abordamos a desafiadora tarefa de elevar um único panorama para uma experiência imersiva 4D. Demonstramos, pela primeira vez, a capacidade de gerar cenas dinâmicas omnidirecionais com visualização de 360 graus em resolução 4K, proporcionando assim uma experiência imersiva ao usuário. Nosso método introduz um pipeline que facilita animações naturais de cenas e otimiza um conjunto de Gaussianas 4D utilizando técnicas eficientes de splatting para exploração em tempo real. Para superar a falta de dados e modelos 4D anotados em escala de cena, especialmente em formatos panorâmicos, propomos um novo Desnecessador Panorâmico que adapta priores de difusão 2D genéricos para animar de forma consistente em imagens de 360 graus, transformando-as em vídeos panorâmicos com cenas dinâmicas em regiões específicas. Posteriormente, elevamos o vídeo panorâmico para um ambiente imersivo 4D, preservando a consistência espacial e temporal. Ao transferir conhecimento prévio de modelos 2D do domínio de perspectiva para o domínio panorâmico e a elevação 4D com regularização de aparência espacial e geometria, alcançamos a geração de Panorama-para-4D de alta qualidade pela primeira vez, com uma resolução de (4096 vezes 2048). Consulte o site do projeto em https://4k4dgen.github.io.

A Contaminação de Dados Pode Ultrapassar Barreiras Linguísticas
Data Contamination Can Cross Language Barriers

Jun 19

ByFeng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang

A opacidade no desenvolvimento de grandes modelos de linguagem (LLMs) está levantando crescentes preocupações sobre a contaminação potencial de benchmarks públicos nos dados de pré-treinamento. Os métodos existentes de detecção de contaminação geralmente se baseiam na sobreposição de texto entre os dados de treinamento e avaliação, o que pode ser muito superficial para refletir formas mais profundas de contaminação. Neste artigo, primeiro apresentamos uma forma de contaminação cruzada que infla o desempenho dos LLMs enquanto evita os métodos de detecção atuais, deliberadamente injetada pelo overfitting dos LLMs nas versões traduzidas dos conjuntos de testes de referência. Em seguida, propomos abordagens baseadas em generalização para desmascarar essa contaminação profundamente oculta. Especificamente, examinamos a mudança de desempenho do LLM após modificar o benchmark original substituindo as opções de resposta falsas por corretas de outras perguntas. Modelos contaminados dificilmente conseguem generalizar para tais situações mais fáceis, onde as escolhas falsas podem nem mesmo estar erradas, já que todas as escolhas estão corretas em sua memorização. Resultados experimentais demonstram que a contaminação cruzada pode facilmente enganar os métodos de detecção existentes, mas não os nossos. Além disso, discutimos a potencial utilização da contaminação cruzada na interpretação dos mecanismos de funcionamento dos LLMs e no pós-treinamento dos LLMs para capacidades multilíngues aprimoradas. O código e o conjunto de dados que utilizamos podem ser obtidos em https://github.com/ShangDataLab/Deep-Contam.

DELLA-Merging: Reduzindo Interferências na Fusão de Modelos por Meio de Amostragem Baseada em Magnitude
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

Jun 17

ByPala Tej Deep, Rishabh Bhardwaj, Soujanya Poria

Com a proliferação de modelos específicos de domínio, a fusão de modelos surgiu como um conjunto de técnicas que combinam as capacidades de vários modelos em um que pode executar várias tarefas sem o custo de treinamento adicional. Neste artigo, propomos uma nova técnica de fusão de modelos, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), que emprega uma técnica de poda inovadora, MAGPRUNE, que demonstra vantagens significativas sobre DARE e TIES. O MAGPRUNE classifica inicialmente os parâmetros de acordo com sua magnitude e atribui probabilidades de desistência (p) mais altas aos parâmetros com classificações mais baixas correspondentes a magnitudes menores. Para aproximar os embeddings originais, o MAGPRUNE emprega uma operação de redimensionamento nos parâmetros que sobrevivem à exclusão aleatória por 1/(1 - p). Em três modelos especializados diferentes considerados para fusão (LM, Matemática, Código) e conjuntos de dados de referência correspondentes (AlpacaEval, GSM8K, MBPP), o DELLA mostra uma melhoria média de 2,4 pontos em relação aos métodos de referência que empregam poda de parâmetros delta (uma melhoria de 3,6 pontos em relação a TIES, 1,2 pontos em relação a DARE) e 11,1 pontos em relação à linha de base sem poda (TA). Disponibilizamos o código-fonte em: https://github.com/declare-lab/della.

Uma História de Confiança e Precisão: LLMs Base vs. Instruct em Sistemas RAG
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems

Jun 21

ByFlorin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri

A Geração com Recuperação Aprimorada (RAG) representa um avanço significativo em inteligência artificial, combinando uma fase de recuperação com uma fase generativa, sendo esta última normalmente impulsionada por grandes modelos de linguagem (LLMs). As práticas comuns atuais em RAG envolvem o uso de LLMs "instruídos", que são ajustados com treinamento supervisionado para aprimorar sua capacidade de seguir instruções e são alinhados com preferências humanas usando técnicas de ponta. Contrariando a crença popular, nosso estudo demonstra que os modelos base superam seus equivalentes instruídos em tarefas de RAG em média em 20% sob nossas configurações experimentais. Esse achado desafia as suposições predominantes sobre a superioridade dos LLMs instruídos em aplicações de RAG. Investigações adicionais revelam uma situação mais matizada, questionando aspectos fundamentais de RAG e sugerindo a necessidade de discussões mais amplas sobre o tema; ou, como Fromm diria, "Raramente um olhar para as estatísticas é suficiente para entender o significado dos números".

Aprendizado de Representação Molecular em uma Célula
Learning Molecular Representation in a Cell

Jun 17

ByGang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh

Prever a eficácia e segurança de medicamentos in vivo requer informações sobre respostas biológicas (por exemplo, morfologia celular e expressão gênica) a perturbações de pequenas moléculas. No entanto, os métodos atuais de aprendizado de representação molecular não fornecem uma visão abrangente dos estados celulares sob essas perturbações e têm dificuldade em remover ruídos, dificultando a generalização do modelo. Introduzimos a abordagem de Alinhamento de Informações (InfoAlign) para aprender representações moleculares por meio do método do gargalo de informação em células. Integramos moléculas e dados de resposta celular como nós em um grafo de contexto, conectando-os com arestas ponderadas com base em critérios químicos, biológicos e computacionais. Para cada molécula em um lote de treinamento, o InfoAlign otimiza a representação latente do codificador com um objetivo de minimalidade para descartar informações estruturais redundantes. Um objetivo de suficiência decodifica a representação para se alinhar com diferentes espaços de características do ambiente da molécula no grafo de contexto. Demonstramos que o objetivo de suficiência proposto para o alinhamento é mais rigoroso do que os métodos contrastivos baseados em codificadores existentes. Empiricamente, validamos as representações do InfoAlign em duas tarefas subsequentes: previsão de propriedades moleculares em comparação com até 19 métodos de referência em quatro conjuntos de dados, além de correspondência de molécula-morfologia sem treinamento prévio.

Ruby Teaming: Melhorando a Pesquisa de Diversidade de Qualidade com Memória para Testes de Invasão Automatizados
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming

Jun 17

ByVernon Toh Yan Han, Rishabh Bhardwaj, Soujanya Poria

Propomos o Ruby Teaming, um método que melhora o Rainbow Teaming ao incluir um cache de memória como sua terceira dimensão. A dimensão de memória fornece pistas ao mutador para gerar prompts de melhor qualidade, tanto em termos de taxa de sucesso do ataque (ASR) quanto de diversidade de qualidade. O arquivo de prompts gerado pelo Ruby Teaming tem uma ASR de 74%, o que é 20% maior do que a linha de base. Em termos de diversidade de qualidade, o Ruby Teaming supera o Rainbow Teaming em 6% e 3% no Índice de Uniformidade de Shannon (SEI) e no Índice de Diversidade de Simpson (SDI), respectivamente.

NAVSIM: Simulação e Avaliação de Veículos Autônomos Não-Reativos Baseada em Dados
NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking

Jun 21

ByDaniel Dauner, Marcel Hallgarten, Tianyu Li, Xinshuo Weng, Zhiyu Huang, Zetong Yang, Hongyang Li, Igor Gilitschenski, Boris Ivanovic, Marco Pavone, Andreas Geiger, Kashyap Chitta

A avaliação de políticas de direção baseadas em visão é desafiadora. Por um lado, a avaliação em malha aberta com dados reais é fácil, mas esses resultados não refletem o desempenho em malha fechada. Por outro lado, a avaliação em malha fechada é possível em simulação, mas é difícil de escalar devido às suas significativas demandas computacionais. Além disso, os simuladores disponíveis hoje apresentam uma grande diferença de domínio em relação aos dados reais. Isso resultou na incapacidade de tirar conclusões claras do crescente corpo de pesquisas sobre direção autônoma de ponta a ponta. Neste artigo, apresentamos NAVSIM, um meio-termo entre esses paradigmas de avaliação, onde utilizamos grandes conjuntos de dados em combinação com um simulador não reativo para possibilitar benchmarking em larga escala do mundo real. Especificamente, coletamos métricas baseadas em simulação, como progresso e tempo até a colisão, desenrolando abstrações de visão aérea das cenas de teste por um curto horizonte de simulação. Nossa simulação é não reativa, ou seja, a política avaliada e o ambiente não se influenciam mutuamente. Como demonstramos empiricamente, esse desacoplamento permite a computação de métricas em malha aberta, ao mesmo tempo em que está mais alinhado com avaliações em malha fechada do que os tradicionais erros de deslocamento. NAVSIM possibilitou uma nova competição realizada na CVPR 2024, onde 143 equipes enviaram 463 inscrições, resultando em várias novas percepções. Em um amplo conjunto de cenários desafiadores, observamos que métodos simples com requisitos computacionais moderados, como TransFuser, podem se equiparar a arquiteturas recentes de direção de ponta a ponta em larga escala, como UniAD. Nosso framework modular pode ser potencialmente expandido com novos conjuntos de dados, estratégias de curadoria de dados e métricas, e será continuamente mantido para sediar desafios futuros. Nosso código está disponível em https://github.com/autonomousvision/navsim.

ICAL: Aprendizado Contínuo de Agentes Multimodais por Meio da Transformação de Trajetórias em Percepções Acionáveis
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights

Jun 20

ByGabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki

Modelos de linguagem generativos em larga escala e modelos de visão-linguagem (LLMs e VLMs) destacam-se no aprendizado em contexto com poucas amostras para tomada de decisão e instrução subsequente. No entanto, eles necessitam de demonstrações exemplares de alta qualidade para serem incluídas em sua janela de contexto. Neste trabalho, questionamos: Será que os LLMs e VLMs podem gerar seus próprios exemplos de prompt a partir de demonstrações genéricas e subótimas? Propomos o Aprendizado de Abstração em Contexto (ICAL), um método que constrói uma memória de insights de experiência multimodal a partir de demonstrações subótimas e feedback humano. Dada uma demonstração ruidosa em um novo domínio, os VLMs abstraem a trajetória em um programa geral corrigindo ações ineficientes e anotando abstrações cognitivas: relações de tarefas, mudanças de estado de objetos, submetas temporais e interpretações de tarefas. Essas abstrações são refinadas e adaptadas de forma interativa por meio do feedback humano enquanto o agente tenta executar a trajetória em um ambiente semelhante. As abstrações resultantes, quando usadas como exemplares no prompt, melhoram significativamente a tomada de decisão em agentes LLM e VLM com recuperação aprimorada. Nosso agente ICAL supera o estado da arte no seguimento de instruções baseado em diálogo no TEACh, em agentes web multimodais no VisualWebArena e na antecipação de ações no Ego4D. No TEACh, alcançamos uma melhoria de 12,6% na taxa de sucesso condicionada ao objetivo. No VisualWebArena, nossa taxa de sucesso na tarefa melhora de 14,3% para 22,7% em relação ao estado da arte. Na previsão de ações do Ego4D, superamos o GPT-4V de poucas amostras e permanecemos competitivos com modelos supervisionados. Mostramos que o ajuste fino de nosso agente em contexto com recuperação aprimorada gera melhorias adicionais. Nossa abordagem reduz significativamente a dependência de exemplos criados por especialistas e supera consistentemente o aprendizado em contexto a partir de planos de ação que carecem desses insights.

Estilo-NeRF2NeRF: Transferência de Estilo 3D a partir de Imagens Multivisão Alinhadas por Estilo
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

Jun 19

ByHaruo Fujiwara, Yusuke Mukuta, Tatsuya Harada

Propomos um pipeline simples, porém eficaz, para estilizar uma cena 3D, aproveitando o poder dos modelos de difusão de imagem 2D. Dado um modelo NeRF reconstruído a partir de um conjunto de imagens de várias vistas, realizamos a transferência de estilo 3D refinando o modelo NeRF de origem usando imagens estilizadas geradas por um modelo de difusão de imagem para imagem alinhado ao estilo. Dado um prompt de estilo alvo, primeiro geramos imagens de várias vistas perceptualmente semelhantes aproveitando um modelo de difusão condicionado pela profundidade com um mecanismo de compartilhamento de atenção. Em seguida, com base nas imagens de várias vistas estilizadas, propomos guiar o processo de transferência de estilo com a perda de Wasserstein fatiada com base nos mapas de características extraídos de um modelo CNN pré-treinado. Nosso pipeline consiste em etapas desacopladas, permitindo aos usuários testar várias ideias de prompt e visualizar o resultado 3D estilizado antes de prosseguir para a etapa de ajuste fino do NeRF. Demonstramos que nosso método pode transferir diversos estilos artísticos para cenas 3D do mundo real com qualidade competitiva.

RE-AdaptIR: Melhorando a Recuperação de Informações por meio de Adaptação Engenharia Reversa
RE-AdaptIR: Improving Information Retrieval through Reverse Engineered Adaptation

Jun 20

ByWilliam Fleshman, Benjamin Van Durme

Grandes modelos de linguagem (LLMs) ajustados para recuperação de texto têm demonstrado resultados de ponta em vários benchmarks de recuperação de informação (IR). No entanto, o treinamento supervisionado para melhorar esses modelos requer inúmeros exemplos rotulados, que geralmente não estão disponíveis ou são caros de adquirir. Neste trabalho, exploramos a eficácia da extensão da adaptação engenharia reversa para o contexto de recuperação de informação (RE-AdaptIR). Utilizamos o RE-AdaptIR para melhorar modelos de IR baseados em LLM usando apenas dados não rotulados. Demonstramos um desempenho aprimorado tanto em domínios de treinamento quanto em domínios de zero-shot nos quais os modelos não viram consultas. Analisamos as mudanças de desempenho em vários cenários de ajuste fino e oferecemos descobertas de uso imediato para os profissionais.

Geração Estruturada Multimodal: Relatório Técnico do 2º Desafio MMFM da CVPR
Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report

Jun 17

ByFranz Louis Cesista

Os Modelos de Fundação Multimodais (MMFMs) têm demonstrado um desempenho notável em várias tarefas de visão computacional e processamento de linguagem natural. No entanto, seu desempenho em tarefas específicas, como compreensão de documentos, ainda é limitado. Eles também exigem mais recursos computacionais, tempo e engenharia para ajuste fino e implementação em comparação com modelos tradicionais unimodais. Neste relatório, apresentamos Geração Estruturada Multimodal, um framework geral que restringe os logitos de saída dos MMFMs congelados para forçá-los a raciocinar antes de responder com saídas estruturadas que APIs subsequentes podem analisar e utilizar. Fornecemos um relato detalhado de nossa abordagem, incluindo os detalhes técnicos, discussões teóricas e resultados finais de avaliação no 2º Desafio de Modelos de Fundação Multimodal hospedado pela conferência Computer Vision and Pattern Recognition (CVPR). Nossa abordagem alcançou a segunda maior pontuação no conjunto de testes oculto para a Fase 2 e a terceira maior pontuação geral. Isso demonstra a capacidade do método de generalizar para tarefas não vistas. E que uma engenharia simples pode superar etapas de modelagem caras e complicadas, como discutimos em nosso artigo, Geração Estruturada com Recuperação Aumentada: Extração de Informações de Documentos Empresariais como Uso de Ferramenta. Todos os nossos scripts, etapas de implementação e resultados de avaliação podem ser acessados em https://github.com/leloykun/MMFM-Challenge.

ToVo: Taxonomia de Toxicidade por Votação
ToVo: Toxicity Taxonomy via Voting

Jun 21

ByTinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen

Os modelos existentes de detecção de conteúdo tóxico enfrentam limitações significativas, como falta de transparência, personalização e reprodutibilidade. Esses desafios derivam da natureza de código fechado de seus dados de treinamento e da escassez de explicações para seu mecanismo de avaliação. Para lidar com essas questões, propomos um mecanismo de criação de conjunto de dados que integra votação e processos de encadeamento de pensamento, produzindo um conjunto de dados de código aberto de alta qualidade para detecção de conteúdo tóxico. Nossa metodologia garante métricas de classificação diversas para cada amostra e inclui tanto pontuações de classificação quanto raciocínio explicativo para as classificações. Utilizamos o conjunto de dados criado por meio de nosso mecanismo proposto para treinar nosso modelo, que é então comparado com detectores amplamente utilizados existentes. Nossa abordagem não apenas aprimora a transparência e a customização, mas também facilita um melhor ajuste fino para casos de uso específicos. Este trabalho contribui com um framework robusto para o desenvolvimento de modelos de detecção de conteúdo tóxico, enfatizando a abertura e adaptabilidade, abrindo caminho para soluções de moderação de conteúdo mais eficazes e específicas para o usuário.

Quão bem os LLMs representam valores entre culturas? Análise empírica das respostas de LLMs com base nas Dimensões Culturais de Hofstede.
How Well Do LLMs Represent Values Across Cultures? Empirical Analysis of LLM Responses Based on Hofstede Cultural Dimensions

Jun 21

ByJulia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah

Grandes Modelos de Linguagem (LLMs) tentam imitar o comportamento humano respondendo aos humanos de uma maneira que os agrade, inclusive aderindo aos seus valores. No entanto, os humanos vêm de culturas diversas com valores diferentes. É crucial entender se os LLMs demonstram valores diferentes ao usuário com base nos valores estereotípicos de um país conhecido pelo usuário. Nós provocamos diferentes LLMs com uma série de pedidos de conselhos com base nas 5 Dimensões Culturais de Hofstede - uma maneira quantificável de representar os valores de um país. Ao longo de cada provocação, incorporamos personas representando 36 países diferentes e, separadamente, idiomas predominantemente associados a cada país para analisar a consistência na compreensão cultural dos LLMs. Através da nossa análise das respostas, descobrimos que os LLMs conseguem diferenciar entre um lado de um valor e outro, bem como compreender que os países têm valores diferentes, mas nem sempre irão sustentar os valores ao dar conselhos, e falham em entender a necessidade de responder de forma diferente com base em valores culturais distintos. Fundamentados nesses achados, apresentamos recomendações para treinar LLMs alinhados com valores e culturalmente sensíveis. Mais importante ainda, a metodologia e o framework desenvolvidos aqui podem ajudar a compreender e mitigar questões de alinhamento cultural e linguístico com LLMs.

Tradução Automática de Baixo Recurso Através da Perspectiva da Aprendizagem Federada Personalizada
Low-Resource Machine Translation through the Lens of Personalized Federated Learning

Jun 18

ByViktor Moskvoretskii, Nazarii Tupitsa, Chris Biemann, Samuel Horváth, Eduard Gorbunov, Irina Nikishina

Apresentamos uma nova abordagem baseada no algoritmo de Aprendizado Federado Personalizado MeritFed que pode ser aplicado a Tarefas de Linguagem Natural com dados heterogêneos. Avaliamos isso na tarefa de Tradução de Máquina de Baixo Recurso, utilizando o conjunto de dados da Tarefa Compartilhada de Tradução de Máquina Multilíngue em Grande Escala (Pequena Trilha #2) e o subconjunto de idiomas Sami do benchmark multilíngue para idiomas fino-úgricos. Além de sua eficácia, o MeritFed também é altamente interpretável, pois pode ser aplicado para rastrear o impacto de cada idioma usado para treinamento. Nossa análise revela que o tamanho do conjunto de dados de destino afeta a distribuição de peso entre os idiomas auxiliares, que idiomas não relacionados não interferem no treinamento e que os parâmetros do otimizador auxiliar têm impacto mínimo. Nossa abordagem é fácil de aplicar com algumas linhas de código, e fornecemos scripts para reproduzir os experimentos em https://github.com/VityaVitalich/MeritFed