Artigos de pesquisa em IA selecionados diariamente com traduções
No tradicional framework RAG, as unidades básicas de recuperação são normalmente curtas. Os recuperadores comuns, como DPR, normalmente trabalham com parágrafos de 100 palavras da Wikipedia. Tal design obriga o recuperador a buscar em um grande corpus para encontrar a unidade "agulha". Em contraste, os leitores só precisam extrair respostas das curtas unidades recuperadas. Tal design desequilibrado com um recuperador "pesado" e um leitor "leve" pode levar a um desempenho subótimo. Para aliviar o desequilíbrio, propomos um novo framework, LongRAG, composto por um "recuperador longo" e um "leitor longo". O LongRAG processa toda a Wikipedia em unidades de 4 mil tokens, o que é 30 vezes mais longo do que antes. Ao aumentar o tamanho da unidade, reduzimos significativamente o total de unidades de 22 milhões para 700 mil. Isso reduz consideravelmente o fardo do recuperador, o que resulta em uma pontuação de recuperação notável: recall de resposta@1=71% no NQ (anteriormente 52%) e recall de resposta@2=72% (anteriormente 47%) no HotpotQA (full-wiki). Em seguida, alimentamos as unidades recuperadas do top-k (aproximadamente 30 mil tokens) em um LLM de contexto longo existente para realizar extração de respostas sem treinamento. Sem exigir nenhum treinamento, o LongRAG alcança um EM de 62,7% no NQ, que é o melhor resultado conhecido. O LongRAG também alcança 64,3% no HotpotQA (full-wiki), o que está em pé de igualdade com o modelo SoTA. Nosso estudo oferece insights sobre o roadmap futuro para combinar RAG com LLMs de contexto longo.
Oferecendo uma solução promissora para os desafios de escalabilidade associados à avaliação humana, o paradigma LLM-como-juiz está ganhando rapidamente destaque como uma abordagem para avaliar grandes modelos de linguagem (LLMs). No entanto, ainda existem muitas questões em aberto sobre as forças e fraquezas desse paradigma, e quais possíveis viéses ele pode conter. Neste artigo, apresentamos um estudo abrangente do desempenho de vários LLMs atuando como juízes. Utilizamos o TriviaQA como referência para avaliar o raciocínio de conhecimento objetivo dos LLMs e os avaliamos junto com anotações humanas que identificamos ter uma alta concordância entre anotadores. Nosso estudo inclui 9 modelos de juízes e 9 modelos de examinadores - ambos base e ajustados por instruções. Avaliamos a concordância do modelo juiz em diferentes tamanhos de modelo, famílias e estímulos de juiz. Entre outros resultados, nossa pesquisa redescobre a importância de usar o kappa de Cohen como métrica de concordância em oposição ao simples acordo percentual, mostrando que juízes com alto acordo percentual ainda podem atribuir pontuações muito diferentes. Descobrimos que tanto o Llama-3 70B quanto o GPT-4 Turbo têm uma excelente concordância com os humanos, mas em termos de classificação dos modelos de examinadores, são superados tanto pelo JudgeLM-7B quanto pelo juiz lexical Contains, que têm até 34 pontos a menos de concordância humana. Através da análise de erros e vários outros estudos, incluindo os efeitos do comprimento da instrução e do viés de leniência, esperamos fornecer lições valiosas para o uso de LLMs como juízes no futuro.
Os criadores de conteúdo de vídeo precisam de ferramentas eficientes para reutilizar conteúdo, uma tarefa que frequentemente requer buscas manuais ou automatizadas complexas. Criar um novo vídeo a partir de extensas bibliotecas de vídeos ainda é um desafio. Neste artigo, apresentamos a tarefa de Resposta a Perguntas de Biblioteca de Vídeo (VLQA) por meio de uma arquitetura interoperável que aplica Geração Aprimorada por Recuperação (RAG) a bibliotecas de vídeo. Propomos um sistema que utiliza grandes modelos de linguagem (LLMs) para gerar consultas de pesquisa, recuperando momentos de vídeo relevantes indexados por metadados de fala e visual. Um módulo de geração de respostas então integra as consultas do usuário com esses metadados para produzir respostas com timestamps de vídeo específicos. Esta abordagem mostra promessa na recuperação de conteúdo multimídia e na criação de conteúdo de vídeo assistida por IA.
Embora os Transformers sejam amplamente utilizados para tarefas de Processamento de Linguagem Natural, especialmente para tradução automática, eles carecem de uma memória explícita para armazenar conceitos-chave dos textos processados. Este artigo explora as propriedades do conteúdo da memória de trabalho simbólica adicionada ao decodificador do modelo Transformer. Essa memória de trabalho aprimora a qualidade das previsões do modelo na tarefa de tradução automática e funciona como uma representação neural-simbólica das informações importantes para o modelo realizar traduções corretas. O estudo do conteúdo da memória revelou que palavras-chave do texto traduzido são armazenadas na memória de trabalho, indicando a relevância do conteúdo da memória para o texto processado. Além disso, a diversidade de tokens e partes do discurso armazenadas na memória correlaciona-se com a complexidade dos corpora para a tarefa de tradução automática.
Os últimos anos testemunharam grandes avanços na geração de vídeos. No entanto, o desenvolvimento de métricas automáticas de vídeo está significativamente atrasado. Nenhuma das métricas existentes é capaz de fornecer pontuações confiáveis para vídeos gerados. A principal barreira é a falta de um conjunto de dados grande e anotado por humanos em larga escala. Neste artigo, lançamos o VideoFeedback, o primeiro conjunto de dados em larga escala contendo pontuações multi-aspecto fornecidas por humanos sobre 37,6 mil vídeos sintetizados a partir de 11 modelos geradores de vídeo existentes. Treinamos o MantisScore (inicializado a partir do Mantis) com base no VideoFeedback para possibilitar a avaliação automática da qualidade do vídeo. Experimentos mostram que a correlação de Spearman entre o MantisScore e os humanos pode atingir 77,1 no VideoFeedback-test, superando as métricas anteriores em cerca de 50 pontos. Resultados adicionais em outros conjuntos de dados de avaliação, como EvalCrafter, GenAI-Bench e VBench, mostram que o MantisScore tem consistentemente uma correlação muito maior com os juízes humanos do que outras métricas. Devido a esses resultados, acreditamos que o MantisScore pode servir como um ótimo proxy para avaliadores humanos (1) classificarem diferentes modelos de vídeo para acompanhar o progresso e (2) simularem feedback humano detalhado no Aprendizado por Reforço com Feedback Humano (RLHF) para melhorar os modelos atuais de geração de vídeo.
Os desafios na avaliação automatizada de sistemas de Perguntas e Respostas (QA) de Geração com Recuperação (RAG) incluem problemas de alucinação no conhecimento específico do domínio e a falta de benchmarks padrão para tarefas internas da empresa. Isso resulta em dificuldades na avaliação de variações do RAG, como RAG-Fusão (RAGF), no contexto de uma tarefa de QA de produto na Infineon Technologies. Para resolver esses problemas, propomos um framework abrangente de avaliação, que aproveita Modelos de Linguagem Grandes (LLMs) para gerar grandes conjuntos de dados de consultas sintéticas com base em consultas reais de usuários e documentos no domínio, utiliza LLM como juiz para classificar documentos e respostas recuperadas, avalia a qualidade das respostas e classifica diferentes variantes de agentes de Geração com Recuperação (RAG) com a competição automatizada baseada em Elo de RAGElo. A classificação do LLM como juiz de uma amostra aleatória de consultas sintéticas mostra uma correlação moderada e positiva com a pontuação de especialistas do domínio em relevância, precisão, completude e precisão. Enquanto o RAGF superou o RAG na pontuação Elo, uma análise de significância em relação às anotações de especialistas também mostra que o RAGF supera significativamente o RAG em completude, mas tem desempenho inferior em precisão. Além disso, o assistente RAGF da Infineon demonstrou um desempenho ligeiramente superior em relevância de documentos com base nas pontuações MRR@5. Constatamos que o RAGElo se alinha positivamente com as preferências dos anotadores humanos, embora seja necessária cautela. Por fim, a abordagem do RAGF resulta em respostas mais completas com base em anotações de especialistas e em respostas melhores no geral com base nos critérios de avaliação do RAGElo.
Os modelos de texto para imagem estão se tornando cada vez mais populares, revolucionando o cenário da criação de arte digital ao possibilitar a geração de conteúdo visual altamente detalhado e criativo. Esses modelos têm sido amplamente empregados em diversos domínios, especialmente na geração de arte, onde facilitam um amplo espectro de expressão criativa e democratizam o acesso à criação artística. Neste artigo, apresentamos o STYLEBREEDER, um conjunto de dados abrangente com 6,8 milhões de imagens e 1,8 milhão de sugestões geradas por 95 mil usuários no Artbreeder, uma plataforma que se destacou como um importante centro de exploração criativa com mais de 13 milhões de usuários. Introduzimos uma série de tarefas com este conjunto de dados com o objetivo de identificar estilos artísticos diversos, gerar conteúdo personalizado e recomendar estilos com base nos interesses do usuário. Ao documentar estilos únicos gerados pelos usuários que transcendem categorias convencionais como 'cyberpunk' ou 'Picasso', exploramos o potencial de estilos únicos, colaborativos, que poderiam fornecer insights profundos na psique criativa coletiva dos usuários em todo o mundo. Também avaliamos diferentes métodos de personalização para aprimorar a expressão artística e introduzimos um atlas de estilos, disponibilizando esses modelos no formato LoRA para uso público. Nossa pesquisa demonstra o potencial dos modelos de difusão de texto para imagem para descobrir e promover expressões artísticas únicas, democratizando ainda mais a IA na arte e fomentando uma comunidade artística mais diversificada e inclusiva. O conjunto de dados, código e modelos estão disponíveis em https://stylebreeder.github.io sob uma licença de Domínio Público (CC0).
A visão baseada em eventos tem atraído cada vez mais atenção devido às suas características únicas, como alta resolução temporal e ampla faixa dinâmica. Recentemente, ela tem sido utilizada na super-resolução de vídeo (VSR) para aprimorar a estimativa de fluxo e o alinhamento temporal. Em vez de ser usada para aprendizado de movimento, propomos neste artigo o primeiro método de VSR que utiliza sinais de eventos para o aprimoramento de textura. Nosso método, chamado EvTexture, aproveita os detalhes de alta frequência dos eventos para melhorar a recuperação de regiões de textura no VSR. Em nosso EvTexture, é apresentado um novo ramo de aprimoramento de textura. Introduzimos ainda um módulo iterativo de aprimoramento de textura para explorar progressivamente as informações de eventos de alta resolução temporal para restauração de textura. Isso permite o refinamento gradual das regiões de textura ao longo de múltiplas iterações, resultando em detalhes de alta resolução mais precisos e ricos. Os resultados experimentais mostram que nosso EvTexture alcança desempenho de ponta em quatro conjuntos de dados. Para o conjunto de dados Vid4 com texturas ricas, nosso método pode obter até 4,67dB a mais em comparação com métodos baseados em eventos recentes. Código: https://github.com/DachunKai/EvTexture.
A ampla aplicabilidade e crescente onipresença dos Modelos de Linguagem com Grandes Dimensões (LLMs) têm instigado a necessidade de alinhar as respostas dos LLMs às preferências dos usuários e partes interessadas. Muitas abordagens de otimização de preferências foram propostas para ajustar os parâmetros dos LLMs a fim de alcançar um bom alinhamento. No entanto, sabe-se que a afinação desses parâmetros pode interferir no desempenho do modelo em muitas tarefas. Além disso, acompanhar as mudanças nas preferências dos usuários é complicado em tal situação. O alinhamento no momento da decodificação com orientação do modelo de recompensa resolve essas questões, embora aumente o tempo de inferência. No entanto, a maioria desses métodos falha em encontrar o equilíbrio adequado entre exploração e exploração da recompensa - frequentemente devido à formulação confusa desses dois aspectos - para fornecer respostas bem alinhadas. Para remediar isso, separamos esses dois aspectos e os implementamos de forma evolutiva: a exploração é promovida decodificando instruções mutadas e a exploração é representada pela substituição periódica de gerações mal recompensadas por aquelas bem recompensadas. Evidências empíricas indicam que essa estratégia supera muitas abordagens de otimização de preferências e alinhamento no momento da decodificação em dois benchmarks amplamente aceitos de alinhamento, AlpacaEval 2 e MT-Bench. Nossa implementação estará disponível em: https://darwin-alignment.github.io.
A ampla adoção de grandes modelos de linguagem (LLMs) tem levantado preocupações sobre sua segurança e confiabilidade, especialmente em relação à sua vulnerabilidade a ataques adversariais. Neste artigo, propomos uma nova perspectiva que atribui essa vulnerabilidade à especificação incorreta de recompensa durante o processo de alinhamento. Introduzimos uma métrica ReGap para quantificar a extensão da especificação incorreta de recompensa e demonstramos sua eficácia e robustez na detecção de prompts maliciosos. Com base nessas percepções, apresentamos o ReMiss, um sistema para simulação automatizada de equipe vermelha que gera prompts adversariais contra vários LLMs alinhados alvo. O ReMiss alcança taxas de sucesso de ataque de ponta no benchmark AdvBench, preservando a legibilidade humana dos prompts gerados. Uma análise detalhada destaca as vantagens únicas trazidas pelo objetivo de especificação incorreta de recompensa proposto em comparação com métodos anteriores.
Embora a situação tenha melhorado para modelos apenas de texto, parece novamente ser o caso atual que os modelos multimodais (texto e imagem) se desenvolvem mais rapidamente do que as formas de avaliá-los. Neste artigo, trazemos um paradigma de avaliação recentemente desenvolvido para modelos textuais para modelos multimodais, nomeadamente a avaliação através do jogo orientado para objetivos (auto) jogado, complementando a avaliação baseada em referência e preferência. Especificamente, definimos jogos que desafiam a capacidade de um modelo de representar uma situação a partir de informações visuais e alinhar tais representações por meio de diálogo. Descobrimos que os maiores modelos fechados se saem bastante bem nos jogos que definimos, enquanto até mesmo os melhores modelos de peso aberto têm dificuldades com eles. Em uma análise mais aprofundada, descobrimos que as capacidades excepcionais de legendagem profunda dos maiores modelos impulsionam parte do desempenho. Ainda há espaço para crescimento para ambos os tipos de modelos, garantindo a contínua relevância do benchmark.
Os modelos de linguagem têm demonstrado impressionantes capacidades em várias tarefas de processamento de linguagem natural, no entanto, enfrentam dificuldades com tarefas de planejamento que exigem simulações de vários passos. Inspirado nos processos cognitivos humanos, este artigo investiga o poder de planejamento ótimo de modelos de linguagem que podem construir um mapa cognitivo de um ambiente dado. Nossos experimentos demonstram que o mapa cognitivo melhora significativamente o desempenho da capacidade de geração de planejamento ótimo e alcançável na tarefa de planejamento de caminho do Gridworld. Observamos que nosso método apresenta duas características-chave semelhantes à cognição humana: generalização de sua capacidade de planejamento para ambientes extrapolados e adaptação rápida com dados de treinamento limitados. Esperamos que nossas descobertas na tarefa do Gridworld forneçam insights sobre a modelagem dos processos cognitivos humanos em modelos de linguagem, potencialmente levando ao desenvolvimento de sistemas mais avançados e robustos que se assemelhem melhor à cognição humana.
O florescimento das tecnologias de realidade virtual e realidade aumentada (RV/RA) tem impulsionado uma demanda crescente pela criação de ambientes imersivos, dinâmicos e de alta qualidade. No entanto, as técnicas generativas existentes geralmente se concentram apenas em objetos dinâmicos ou realizam a saída a partir de uma única imagem de perspectiva, não atendendo às necessidades das aplicações de RV/RA. Neste trabalho, abordamos a desafiadora tarefa de elevar um único panorama para uma experiência imersiva 4D. Demonstramos, pela primeira vez, a capacidade de gerar cenas dinâmicas omnidirecionais com visualização de 360 graus em resolução 4K, proporcionando assim uma experiência imersiva ao usuário. Nosso método introduz um pipeline que facilita animações naturais de cenas e otimiza um conjunto de Gaussianas 4D utilizando técnicas eficientes de splatting para exploração em tempo real. Para superar a falta de dados e modelos 4D anotados em escala de cena, especialmente em formatos panorâmicos, propomos um novo Desnecessador Panorâmico que adapta priores de difusão 2D genéricos para animar de forma consistente em imagens de 360 graus, transformando-as em vídeos panorâmicos com cenas dinâmicas em regiões específicas. Posteriormente, elevamos o vídeo panorâmico para um ambiente imersivo 4D, preservando a consistência espacial e temporal. Ao transferir conhecimento prévio de modelos 2D do domínio de perspectiva para o domínio panorâmico e a elevação 4D com regularização de aparência espacial e geometria, alcançamos a geração de Panorama-para-4D de alta qualidade pela primeira vez, com uma resolução de (4096 vezes 2048). Consulte o site do projeto em https://4k4dgen.github.io.
A opacidade no desenvolvimento de grandes modelos de linguagem (LLMs) está levantando crescentes preocupações sobre a contaminação potencial de benchmarks públicos nos dados de pré-treinamento. Os métodos existentes de detecção de contaminação geralmente se baseiam na sobreposição de texto entre os dados de treinamento e avaliação, o que pode ser muito superficial para refletir formas mais profundas de contaminação. Neste artigo, primeiro apresentamos uma forma de contaminação cruzada que infla o desempenho dos LLMs enquanto evita os métodos de detecção atuais, deliberadamente injetada pelo overfitting dos LLMs nas versões traduzidas dos conjuntos de testes de referência. Em seguida, propomos abordagens baseadas em generalização para desmascarar essa contaminação profundamente oculta. Especificamente, examinamos a mudança de desempenho do LLM após modificar o benchmark original substituindo as opções de resposta falsas por corretas de outras perguntas. Modelos contaminados dificilmente conseguem generalizar para tais situações mais fáceis, onde as escolhas falsas podem nem mesmo estar erradas, já que todas as escolhas estão corretas em sua memorização. Resultados experimentais demonstram que a contaminação cruzada pode facilmente enganar os métodos de detecção existentes, mas não os nossos. Além disso, discutimos a potencial utilização da contaminação cruzada na interpretação dos mecanismos de funcionamento dos LLMs e no pós-treinamento dos LLMs para capacidades multilíngues aprimoradas. O código e o conjunto de dados que utilizamos podem ser obtidos em https://github.com/ShangDataLab/Deep-Contam.
Com a proliferação de modelos específicos de domínio, a fusão de modelos surgiu como um conjunto de técnicas que combinam as capacidades de vários modelos em um que pode executar várias tarefas sem o custo de treinamento adicional. Neste artigo, propomos uma nova técnica de fusão de modelos, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), que emprega uma técnica de poda inovadora, MAGPRUNE, que demonstra vantagens significativas sobre DARE e TIES. O MAGPRUNE classifica inicialmente os parâmetros de acordo com sua magnitude e atribui probabilidades de desistência (p) mais altas aos parâmetros com classificações mais baixas correspondentes a magnitudes menores. Para aproximar os embeddings originais, o MAGPRUNE emprega uma operação de redimensionamento nos parâmetros que sobrevivem à exclusão aleatória por 1/(1 - p). Em três modelos especializados diferentes considerados para fusão (LM, Matemática, Código) e conjuntos de dados de referência correspondentes (AlpacaEval, GSM8K, MBPP), o DELLA mostra uma melhoria média de 2,4 pontos em relação aos métodos de referência que empregam poda de parâmetros delta (uma melhoria de 3,6 pontos em relação a TIES, 1,2 pontos em relação a DARE) e 11,1 pontos em relação à linha de base sem poda (TA). Disponibilizamos o código-fonte em: https://github.com/declare-lab/della.
A Geração com Recuperação Aprimorada (RAG) representa um avanço significativo em inteligência artificial, combinando uma fase de recuperação com uma fase generativa, sendo esta última normalmente impulsionada por grandes modelos de linguagem (LLMs). As práticas comuns atuais em RAG envolvem o uso de LLMs "instruídos", que são ajustados com treinamento supervisionado para aprimorar sua capacidade de seguir instruções e são alinhados com preferências humanas usando técnicas de ponta. Contrariando a crença popular, nosso estudo demonstra que os modelos base superam seus equivalentes instruídos em tarefas de RAG em média em 20% sob nossas configurações experimentais. Esse achado desafia as suposições predominantes sobre a superioridade dos LLMs instruídos em aplicações de RAG. Investigações adicionais revelam uma situação mais matizada, questionando aspectos fundamentais de RAG e sugerindo a necessidade de discussões mais amplas sobre o tema; ou, como Fromm diria, "Raramente um olhar para as estatísticas é suficiente para entender o significado dos números".
Prever a eficácia e segurança de medicamentos in vivo requer informações sobre respostas biológicas (por exemplo, morfologia celular e expressão gênica) a perturbações de pequenas moléculas. No entanto, os métodos atuais de aprendizado de representação molecular não fornecem uma visão abrangente dos estados celulares sob essas perturbações e têm dificuldade em remover ruídos, dificultando a generalização do modelo. Introduzimos a abordagem de Alinhamento de Informações (InfoAlign) para aprender representações moleculares por meio do método do gargalo de informação em células. Integramos moléculas e dados de resposta celular como nós em um grafo de contexto, conectando-os com arestas ponderadas com base em critérios químicos, biológicos e computacionais. Para cada molécula em um lote de treinamento, o InfoAlign otimiza a representação latente do codificador com um objetivo de minimalidade para descartar informações estruturais redundantes. Um objetivo de suficiência decodifica a representação para se alinhar com diferentes espaços de características do ambiente da molécula no grafo de contexto. Demonstramos que o objetivo de suficiência proposto para o alinhamento é mais rigoroso do que os métodos contrastivos baseados em codificadores existentes. Empiricamente, validamos as representações do InfoAlign em duas tarefas subsequentes: previsão de propriedades moleculares em comparação com até 19 métodos de referência em quatro conjuntos de dados, além de correspondência de molécula-morfologia sem treinamento prévio.
Propomos o Ruby Teaming, um método que melhora o Rainbow Teaming ao incluir um cache de memória como sua terceira dimensão. A dimensão de memória fornece pistas ao mutador para gerar prompts de melhor qualidade, tanto em termos de taxa de sucesso do ataque (ASR) quanto de diversidade de qualidade. O arquivo de prompts gerado pelo Ruby Teaming tem uma ASR de 74%, o que é 20% maior do que a linha de base. Em termos de diversidade de qualidade, o Ruby Teaming supera o Rainbow Teaming em 6% e 3% no Índice de Uniformidade de Shannon (SEI) e no Índice de Diversidade de Simpson (SDI), respectivamente.
A avaliação de políticas de direção baseadas em visão é desafiadora. Por um lado, a avaliação em malha aberta com dados reais é fácil, mas esses resultados não refletem o desempenho em malha fechada. Por outro lado, a avaliação em malha fechada é possível em simulação, mas é difícil de escalar devido às suas significativas demandas computacionais. Além disso, os simuladores disponíveis hoje apresentam uma grande diferença de domínio em relação aos dados reais. Isso resultou na incapacidade de tirar conclusões claras do crescente corpo de pesquisas sobre direção autônoma de ponta a ponta. Neste artigo, apresentamos NAVSIM, um meio-termo entre esses paradigmas de avaliação, onde utilizamos grandes conjuntos de dados em combinação com um simulador não reativo para possibilitar benchmarking em larga escala do mundo real. Especificamente, coletamos métricas baseadas em simulação, como progresso e tempo até a colisão, desenrolando abstrações de visão aérea das cenas de teste por um curto horizonte de simulação. Nossa simulação é não reativa, ou seja, a política avaliada e o ambiente não se influenciam mutuamente. Como demonstramos empiricamente, esse desacoplamento permite a computação de métricas em malha aberta, ao mesmo tempo em que está mais alinhado com avaliações em malha fechada do que os tradicionais erros de deslocamento. NAVSIM possibilitou uma nova competição realizada na CVPR 2024, onde 143 equipes enviaram 463 inscrições, resultando em várias novas percepções. Em um amplo conjunto de cenários desafiadores, observamos que métodos simples com requisitos computacionais moderados, como TransFuser, podem se equiparar a arquiteturas recentes de direção de ponta a ponta em larga escala, como UniAD. Nosso framework modular pode ser potencialmente expandido com novos conjuntos de dados, estratégias de curadoria de dados e métricas, e será continuamente mantido para sediar desafios futuros. Nosso código está disponível em https://github.com/autonomousvision/navsim.
Modelos de linguagem generativos em larga escala e modelos de visão-linguagem (LLMs e VLMs) destacam-se no aprendizado em contexto com poucas amostras para tomada de decisão e instrução subsequente. No entanto, eles necessitam de demonstrações exemplares de alta qualidade para serem incluídas em sua janela de contexto. Neste trabalho, questionamos: Será que os LLMs e VLMs podem gerar seus próprios exemplos de prompt a partir de demonstrações genéricas e subótimas? Propomos o Aprendizado de Abstração em Contexto (ICAL), um método que constrói uma memória de insights de experiência multimodal a partir de demonstrações subótimas e feedback humano. Dada uma demonstração ruidosa em um novo domínio, os VLMs abstraem a trajetória em um programa geral corrigindo ações ineficientes e anotando abstrações cognitivas: relações de tarefas, mudanças de estado de objetos, submetas temporais e interpretações de tarefas. Essas abstrações são refinadas e adaptadas de forma interativa por meio do feedback humano enquanto o agente tenta executar a trajetória em um ambiente semelhante. As abstrações resultantes, quando usadas como exemplares no prompt, melhoram significativamente a tomada de decisão em agentes LLM e VLM com recuperação aprimorada. Nosso agente ICAL supera o estado da arte no seguimento de instruções baseado em diálogo no TEACh, em agentes web multimodais no VisualWebArena e na antecipação de ações no Ego4D. No TEACh, alcançamos uma melhoria de 12,6% na taxa de sucesso condicionada ao objetivo. No VisualWebArena, nossa taxa de sucesso na tarefa melhora de 14,3% para 22,7% em relação ao estado da arte. Na previsão de ações do Ego4D, superamos o GPT-4V de poucas amostras e permanecemos competitivos com modelos supervisionados. Mostramos que o ajuste fino de nosso agente em contexto com recuperação aprimorada gera melhorias adicionais. Nossa abordagem reduz significativamente a dependência de exemplos criados por especialistas e supera consistentemente o aprendizado em contexto a partir de planos de ação que carecem desses insights.
Propomos um pipeline simples, porém eficaz, para estilizar uma cena 3D, aproveitando o poder dos modelos de difusão de imagem 2D. Dado um modelo NeRF reconstruído a partir de um conjunto de imagens de várias vistas, realizamos a transferência de estilo 3D refinando o modelo NeRF de origem usando imagens estilizadas geradas por um modelo de difusão de imagem para imagem alinhado ao estilo. Dado um prompt de estilo alvo, primeiro geramos imagens de várias vistas perceptualmente semelhantes aproveitando um modelo de difusão condicionado pela profundidade com um mecanismo de compartilhamento de atenção. Em seguida, com base nas imagens de várias vistas estilizadas, propomos guiar o processo de transferência de estilo com a perda de Wasserstein fatiada com base nos mapas de características extraídos de um modelo CNN pré-treinado. Nosso pipeline consiste em etapas desacopladas, permitindo aos usuários testar várias ideias de prompt e visualizar o resultado 3D estilizado antes de prosseguir para a etapa de ajuste fino do NeRF. Demonstramos que nosso método pode transferir diversos estilos artísticos para cenas 3D do mundo real com qualidade competitiva.
Grandes modelos de linguagem (LLMs) ajustados para recuperação de texto têm demonstrado resultados de ponta em vários benchmarks de recuperação de informação (IR). No entanto, o treinamento supervisionado para melhorar esses modelos requer inúmeros exemplos rotulados, que geralmente não estão disponíveis ou são caros de adquirir. Neste trabalho, exploramos a eficácia da extensão da adaptação engenharia reversa para o contexto de recuperação de informação (RE-AdaptIR). Utilizamos o RE-AdaptIR para melhorar modelos de IR baseados em LLM usando apenas dados não rotulados. Demonstramos um desempenho aprimorado tanto em domínios de treinamento quanto em domínios de zero-shot nos quais os modelos não viram consultas. Analisamos as mudanças de desempenho em vários cenários de ajuste fino e oferecemos descobertas de uso imediato para os profissionais.
Os Modelos de Fundação Multimodais (MMFMs) têm demonstrado um desempenho notável em várias tarefas de visão computacional e processamento de linguagem natural. No entanto, seu desempenho em tarefas específicas, como compreensão de documentos, ainda é limitado. Eles também exigem mais recursos computacionais, tempo e engenharia para ajuste fino e implementação em comparação com modelos tradicionais unimodais. Neste relatório, apresentamos Geração Estruturada Multimodal, um framework geral que restringe os logitos de saída dos MMFMs congelados para forçá-los a raciocinar antes de responder com saídas estruturadas que APIs subsequentes podem analisar e utilizar. Fornecemos um relato detalhado de nossa abordagem, incluindo os detalhes técnicos, discussões teóricas e resultados finais de avaliação no 2º Desafio de Modelos de Fundação Multimodal hospedado pela conferência Computer Vision and Pattern Recognition (CVPR). Nossa abordagem alcançou a segunda maior pontuação no conjunto de testes oculto para a Fase 2 e a terceira maior pontuação geral. Isso demonstra a capacidade do método de generalizar para tarefas não vistas. E que uma engenharia simples pode superar etapas de modelagem caras e complicadas, como discutimos em nosso artigo, Geração Estruturada com Recuperação Aumentada: Extração de Informações de Documentos Empresariais como Uso de Ferramenta. Todos os nossos scripts, etapas de implementação e resultados de avaliação podem ser acessados em https://github.com/leloykun/MMFM-Challenge.
Os modelos existentes de detecção de conteúdo tóxico enfrentam limitações significativas, como falta de transparência, personalização e reprodutibilidade. Esses desafios derivam da natureza de código fechado de seus dados de treinamento e da escassez de explicações para seu mecanismo de avaliação. Para lidar com essas questões, propomos um mecanismo de criação de conjunto de dados que integra votação e processos de encadeamento de pensamento, produzindo um conjunto de dados de código aberto de alta qualidade para detecção de conteúdo tóxico. Nossa metodologia garante métricas de classificação diversas para cada amostra e inclui tanto pontuações de classificação quanto raciocínio explicativo para as classificações. Utilizamos o conjunto de dados criado por meio de nosso mecanismo proposto para treinar nosso modelo, que é então comparado com detectores amplamente utilizados existentes. Nossa abordagem não apenas aprimora a transparência e a customização, mas também facilita um melhor ajuste fino para casos de uso específicos. Este trabalho contribui com um framework robusto para o desenvolvimento de modelos de detecção de conteúdo tóxico, enfatizando a abertura e adaptabilidade, abrindo caminho para soluções de moderação de conteúdo mais eficazes e específicas para o usuário.
Grandes Modelos de Linguagem (LLMs) tentam imitar o comportamento humano respondendo aos humanos de uma maneira que os agrade, inclusive aderindo aos seus valores. No entanto, os humanos vêm de culturas diversas com valores diferentes. É crucial entender se os LLMs demonstram valores diferentes ao usuário com base nos valores estereotípicos de um país conhecido pelo usuário. Nós provocamos diferentes LLMs com uma série de pedidos de conselhos com base nas 5 Dimensões Culturais de Hofstede - uma maneira quantificável de representar os valores de um país. Ao longo de cada provocação, incorporamos personas representando 36 países diferentes e, separadamente, idiomas predominantemente associados a cada país para analisar a consistência na compreensão cultural dos LLMs. Através da nossa análise das respostas, descobrimos que os LLMs conseguem diferenciar entre um lado de um valor e outro, bem como compreender que os países têm valores diferentes, mas nem sempre irão sustentar os valores ao dar conselhos, e falham em entender a necessidade de responder de forma diferente com base em valores culturais distintos. Fundamentados nesses achados, apresentamos recomendações para treinar LLMs alinhados com valores e culturalmente sensíveis. Mais importante ainda, a metodologia e o framework desenvolvidos aqui podem ajudar a compreender e mitigar questões de alinhamento cultural e linguístico com LLMs.
Apresentamos uma nova abordagem baseada no algoritmo de Aprendizado Federado Personalizado MeritFed que pode ser aplicado a Tarefas de Linguagem Natural com dados heterogêneos. Avaliamos isso na tarefa de Tradução de Máquina de Baixo Recurso, utilizando o conjunto de dados da Tarefa Compartilhada de Tradução de Máquina Multilíngue em Grande Escala (Pequena Trilha #2) e o subconjunto de idiomas Sami do benchmark multilíngue para idiomas fino-úgricos. Além de sua eficácia, o MeritFed também é altamente interpretável, pois pode ser aplicado para rastrear o impacto de cada idioma usado para treinamento. Nossa análise revela que o tamanho do conjunto de dados de destino afeta a distribuição de peso entre os idiomas auxiliares, que idiomas não relacionados não interferem no treinamento e que os parâmetros do otimizador auxiliar têm impacto mínimo. Nossa abordagem é fácil de aplicar com algumas linhas de código, e fornecemos scripts para reproduzir os experimentos em https://github.com/VityaVitalich/MeritFed