Artigos de pesquisa em IA selecionados diariamente com traduções
O rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs) tem demonstrado um progresso notável em tarefas de raciocínio complexo. No entanto, uma discrepância significativa persiste entre o desempenho nos benchmarks e as aplicações do mundo real. Identificamos essa lacuna como decorrente principalmente dos protocolos e métricas de avaliação atuais, que capturam de forma inadequada todo o espectro de capacidades dos LLMs, especialmente em tarefas de raciocínio complexo onde tanto a precisão quanto a consistência são cruciais. Este trabalho apresenta duas contribuições-chave. Primeiramente, introduzimos o G-Pass@k, uma métrica de avaliação inovadora que fornece uma avaliação contínua do desempenho do modelo em várias tentativas de amostragem, quantificando tanto o potencial de desempenho máximo do modelo quanto sua estabilidade. Em segundo lugar, apresentamos o LiveMathBench, um benchmark dinâmico composto por problemas matemáticos desafiadores e contemporâneos, projetados para minimizar os riscos de vazamento de dados durante a avaliação. Através de experimentos extensivos utilizando o G-Pass@k em LLMs de ponta com o LiveMathBench, fornecemos insights abrangentes tanto sobre suas capacidades máximas quanto sobre sua consistência operacional. Nossas descobertas revelam um amplo espaço para melhorias nas capacidades de raciocínio "realistas" dos LLMs, destacando a necessidade de métodos de avaliação mais robustos. O benchmark e os resultados detalhados estão disponíveis em: https://github.com/open-compass/GPassK.
Como uma aplicação típica e prática de Modelos de Linguagem de Grande Escala (LLMs), as técnicas de Geração com Recuperação (Retrieval-Augmented Generation - RAG) têm recebido ampla atenção, especialmente em domínios verticais nos quais os LLMs podem carecer de conhecimento específico do domínio. Neste artigo, apresentamos um benchmark RAG omnidirecional e automático, chamado OmniEval, no domínio financeiro. Nosso benchmark é caracterizado por seu framework de avaliação multidimensional, incluindo (1) um sistema de avaliação de cenários RAG baseado em matrizes que categoriza consultas em cinco classes de tarefas e 16 tópicos financeiros, resultando em uma avaliação estruturada de diversos cenários de consulta; (2) uma abordagem de geração de dados de avaliação multidimensional, que combina geração automática baseada em GPT-4 e anotação humana, alcançando uma taxa de aceitação de 87,47% em avaliações humanas de instâncias geradas; (3) um sistema de avaliação em múltiplos estágios que avalia tanto o desempenho de recuperação quanto de geração, resultando em uma avaliação abrangente do pipeline RAG; e (4) métricas de avaliação robustas derivadas de métricas baseadas em regras e em LLMs, aumentando a confiabilidade das avaliações por meio de anotações manuais e ajuste supervisionado de um avaliador LLM. Nossos experimentos demonstram a abrangência do OmniEval, que inclui extensos conjuntos de dados de teste e destaca as variações de desempenho dos sistemas RAG em diversos tópicos e tarefas, revelando oportunidades significativas para os modelos RAG melhorarem suas capacidades em domínios verticais. Disponibilizamos o código-fonte de nosso benchmark em https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval}.
O campo em rápida evolução dos grandes modelos multimodais (LMMs) levou ao surgimento de diversos modelos com capacidades notáveis. No entanto, os benchmarks existentes falham em avaliar de forma abrangente, objetiva e precisa se os LMMs estão alinhados com as diversas necessidades dos humanos em cenários do mundo real. Para preencher essa lacuna, propomos o benchmark de Insights Multidimensionais (MDI), que inclui mais de 500 imagens abrangendo seis cenários comuns da vida humana. Notavelmente, o MDI-Benchmark oferece duas vantagens significativas em relação às avaliações existentes: (1) Cada imagem é acompanhada por dois tipos de perguntas: perguntas simples para avaliar a compreensão do modelo da imagem e perguntas complexas para avaliar a capacidade do modelo de analisar e raciocinar além do conteúdo básico. (2) Reconhecendo que pessoas de diferentes faixas etárias têm necessidades e perspectivas variadas ao enfrentar o mesmo cenário, nosso benchmark estratifica as perguntas em três categorias de idade: jovens, pessoas de meia-idade e idosos. Esse design permite uma avaliação detalhada das capacidades dos LMMs em atender às preferências e necessidades de diferentes grupos etários. Com o MDI-Benchmark, modelos robustos como o GPT-4 alcançam 79% de precisão em tarefas relacionadas à idade, indicando que os LMMs existentes ainda têm um espaço considerável para melhorias na abordagem de aplicações do mundo real. Olhando para o futuro, antecipamos que o MDI-Benchmark abrirá novos caminhos para alinhar a personalização do mundo real nos LMMs. Os dados e o código de avaliação do MDI-Benchmark estão disponíveis em https://mdi-benchmark.github.io/
A decodificação de cadeia de pensamento (CoT) permite que os modelos de linguagem melhorem o desempenho de raciocínio ao custo de uma alta latência de geração na decodificação. Propostas recentes têm explorado variantes de tokens de contemplação, um termo que introduzimos e que se refere a tokens especiais usados durante a inferência para permitir cálculos extras. Trabalhos anteriores consideraram sequências de comprimento fixo retiradas de um conjunto discreto de embeddings como tokens de contemplação. Aqui propomos Cadeia-de-Pensamento Comprimida (CCoT), um framework para gerar tokens de contemplação significativos e contínuos de comprimento de sequência variável. Os tokens de contemplação gerados são representações comprimidas de cadeias de raciocínio explícitas, e nosso método pode ser aplicado a modelos de linguagem decodificadores prontos para uso. Através de experimentos, ilustramos como o CCoT permite um raciocínio adicional sobre representações densas e significativas para alcançar melhorias correspondentes na precisão. Além disso, as melhorias de raciocínio podem ser modificadas de forma adaptativa sob demanda controlando o número de tokens de contemplação gerados.
Os humanos destilam experiências complexas em abstrações fundamentais que possibilitam a rápida aprendizagem e adaptação. Da mesma forma, os transformadores autoregressivos exibem aprendizado adaptativo por meio do aprendizado em contexto (ACL), o que levanta a questão de como. Neste artigo, propomos um mecanismo de codificação-decodificação de conceitos para explicar o ACL, estudando como os transformadores formam e utilizam abstrações internas em suas representações. Em tarefas sintéticas de ACL, analisamos a dinâmica de treinamento de um pequeno transformador e relatamos o surgimento acoplado da codificação e decodificação de conceitos. Conforme o modelo aprende a codificar diferentes conceitos latentes (por exemplo, "Encontrar o primeiro substantivo em uma frase.") em representações distintas e separáveis, ele simultaneamente constrói algoritmos de decodificação condicional e melhora seu desempenho em ACL. Validamos a existência desse mecanismo em modelos pré-treinados de escalas variadas (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Além disso, por meio de intervenções mecanísticas e ajustes finos controlados, demonstramos que a qualidade da codificação de conceitos está causalmente relacionada e é preditiva do desempenho em ACL. Nossas percepções empíricas lançam luz sobre uma melhor compreensão dos modos de sucesso e falha de grandes modelos de linguagem por meio de suas representações.
Compreender informações de uma coleção de múltiplos documentos, especialmente aqueles com elementos visualmente ricos, é importante para a resposta a perguntas fundamentadas em documentos. Este artigo apresenta o VisDoMBench, o primeiro benchmark abrangente projetado para avaliar sistemas de QA em ambientes de múltiplos documentos com conteúdo multimodal rico, incluindo tabelas, gráficos e slides de apresentação. Propomos o VisDoMRAG, uma abordagem inovadora de Geração Aumentada de Recuperação (RAG) multimodal que utiliza simultaneamente RAG visual e textual, combinando capacidades robustas de recuperação visual com raciocínio linguístico sofisticado. O VisDoMRAG emprega um processo de raciocínio em várias etapas que abrange a curadoria de evidências e o raciocínio encadeado para pipelines RAG textuais e visuais concorrentes. Uma novidade chave do VisDoMRAG é seu mecanismo de fusão de modalidade com restrição de consistência, que alinha os processos de raciocínio entre modalidades no momento da inferência para produzir uma resposta final coerente. Isso leva a uma precisão aprimorada em cenários nos quais informações críticas estão distribuídas entre modalidades e a uma melhor verificabilidade da resposta por meio da atribuição implícita de contexto. Através de experimentos extensivos envolvendo modelos de linguagem grandes de código aberto e proprietários, nós avaliamos métodos de QA de documentos de ponta no VisDoMBench. Resultados abrangentes mostram que o VisDoMRAG supera baselines LLM unimodais e de longo contexto para QA de documentos multimodais de ponta a ponta em 12-20%.
Trabalhos recentes sobre aceleração de Modelos de Visão e Linguagem mostram que um desempenho forte pode ser mantido em uma variedade de tarefas de visão e linguagem, apesar da compressão intensa da informação visual. Neste trabalho, examinamos a abordagem popular de aceleração de poda precoce de tokens visuais dentro do modelo de linguagem e descobrimos que seu forte desempenho em muitas tarefas não se deve a uma capacidade excepcional de compressão da informação visual, mas sim à capacidade limitada dos benchmarks de avaliar as capacidades visuais detalhadas. Demonstramos um problema central com a abordagem de aceleração, onde a maioria dos tokens no topo da imagem é podada. No entanto, esse problema é refletido apenas no desempenho de um pequeno subconjunto de tarefas, como a localização. Para as outras tarefas avaliadas, o forte desempenho é mantido com a estratégia de poda defeituosa. Observando as capacidades visuais limitadas da técnica de aceleração estudada, propomos FEATHER (Aceleração Rápida e Efetiva com Critérios de Conjunto), uma abordagem direta que (1) resolve o problema identificado com a poda precoce de camadas, (2) incorpora amostragem uniforme para garantir cobertura em todas as regiões da imagem e (3) aplica a poda em duas etapas para permitir que os critérios se tornem mais eficazes em uma camada posterior, mantendo ainda uma aceleração significativa por meio da poda precoce. Com economia computacional comparável, descobrimos que o FEATHER apresenta mais de 5 vezes de melhoria de desempenho nos benchmarks de localização centrados na visão em comparação com a abordagem de aceleração original.
A visão de um agente amplamente capaz e direcionado a objetivos, como um agente de navegação na Internet no mundo digital e um humanoide doméstico no mundo físico, avançou rapidamente, graças à capacidade de generalização dos modelos fundamentais. Um agente generalista desse tipo precisa ter um repertório de habilidades amplo e diversificado, como encontrar direções entre dois locais de viagem e comprar itens específicos na Internet. Se cada habilidade precisar ser especificada manualmente por meio de um conjunto fixo de instruções anotadas por humanos, o repertório de habilidades do agente será necessariamente limitado devido à quantidade e diversidade de instruções anotadas por humanos. Neste trabalho, abordamos esse desafio propondo o Proposer-Agent-Evaluator, um sistema de aprendizado eficaz que permite que agentes de modelos fundamentais descubram e pratiquem habilidades autonomamente na natureza. No cerne do PAE está um proponente de tarefas consciente do contexto que propõe autonomamente tarefas para o agente praticar com informações de contexto do ambiente, como demonstrações do usuário ou até mesmo apenas o nome do próprio site para agentes de navegação na Internet. Em seguida, a política do agente tenta essas tarefas com pensamentos e operações concretas no mundo real, com trajetórias resultantes avaliadas por um avaliador de sucesso baseado em VLM autônomo. A avaliação de sucesso serve como sinal de recompensa para o agente refinar suas políticas por meio de RL. Validamos o PAE na desafiadora navegação na web baseada em visão, utilizando sites do mundo real e auto-hospedados do WebVoyager e WebArena. Até onde sabemos, este trabalho representa o primeiro sistema de aprendizado eficaz a aplicar proposta autônoma de tarefas com RL para agentes que generalizam benchmarks anotados por humanos do mundo real com desempenhos de SOTA. Nossos checkpoints e código de código aberto podem ser encontrados em https://yanqval.github.io/PAE/
A conclusão de profundidade atualiza medições esparsas de profundidade em mapas de profundidade densos, guiados por uma imagem convencional. Métodos existentes para essa tarefa altamente malposta operam em configurações rigidamente restritas e tendem a ter dificuldades quando aplicados a imagens fora do domínio de treinamento ou quando as medições de profundidade disponíveis são esparsas, distribuídas irregularmente ou de densidade variável. Inspirados nos avanços recentes na estimativa de profundidade monocular, reformulamos a conclusão de profundidade como uma geração de mapa de profundidade condicionada à imagem, guiada por medições esparsas. Nosso método, Marigold-DC, baseia-se em um modelo de difusão latente pré-treinado para estimativa de profundidade monocular e injeta as observações de profundidade como orientação no tempo de teste por meio de um esquema de otimização que é executado em conjunto com a inferência iterativa da difusão de denoising. O método demonstra excelente generalização de zero-shot em uma ampla gama de ambientes e lida até mesmo com orientações extremamente esparsas de forma eficaz. Nossos resultados sugerem que as prioridades contemporâneas de profundidade monocular robustecem significativamente a conclusão de profundidade: pode ser melhor encarar a tarefa como recuperar profundidade densa a partir de pixels de imagem (densos), guiados por profundidade esparsa; em vez de como preenchimento de profundidade (esparsa), guiado por uma imagem. Site do projeto: https://MarigoldDepthCompletion.github.io/
No desenvolvimento de software do mundo real, o tratamento inadequado ou ausente de exceções pode impactar severamente a robustez e confiabilidade do código. Os mecanismos de tratamento de exceções requerem que os desenvolvedores detectem, capturem e gerenciem exceções de acordo com altos padrões, mas muitos desenvolvedores enfrentam dificuldades nessas tarefas, resultando em código frágil. Esse problema é particularmente evidente em projetos de código aberto e afeta a qualidade geral do ecossistema de software. Para enfrentar esse desafio, exploramos o uso de grandes modelos de linguagem (LLMs) para melhorar o tratamento de exceções no código. Através de uma análise extensiva, identificamos três questões-chave: Detecção Insensível de Código Frágil, Captura Inexata do Bloco de Exceção e Solução de Tratamento Distorcida. Esses problemas são generalizados em repositórios do mundo real, sugerindo que práticas robustas de tratamento de exceções frequentemente são negligenciadas ou mal gerenciadas. Em resposta, propomos o Seeker, um framework multiagente inspirado em estratégias de desenvolvedores especializados para tratamento de exceções. O Seeker utiliza os agentes: Scanner, Detector, Predator, Ranker e Handler para auxiliar os LLMs na detecção, captura e resolução de exceções de forma mais eficaz. Nosso trabalho é o primeiro estudo sistemático sobre a alavancagem de LLMs para aprimorar as práticas de tratamento de exceções em cenários reais de desenvolvimento, fornecendo insights valiosos para futuras melhorias na confiabilidade do código.
Apresentamos SUGAR, um método de zero-shot para personalização de vídeo orientada por assunto. Dada uma imagem de entrada, o SUGAR é capaz de gerar vídeos para o assunto contido na imagem e alinhar a geração com atributos visuais arbitrários, como estilo e movimento especificados por texto de entrada do usuário. Ao contrário de métodos anteriores, que exigem ajustes finos no momento do teste ou falham em gerar vídeos alinhados com texto, o SUGAR alcança resultados superiores sem a necessidade de custos extras no momento do teste. Para habilitar a capacidade de zero-shot, introduzimos um pipeline escalável para construir um conjunto de dados sintéticos especificamente projetado para personalização orientada por assunto, resultando em 2,5 milhões de triplas imagem-vídeo-texto. Além disso, propomos vários métodos para aprimorar nosso modelo, incluindo designs de atenção especial, estratégias de treinamento aprimoradas e um algoritmo de amostragem refinado. Extensos experimentos são realizados. Comparado a métodos anteriores, o SUGAR alcança resultados de ponta em preservação de identidade, dinâmica de vídeo e alinhamento vídeo-texto para personalização de vídeo orientada por assunto, demonstrando a eficácia de nosso método proposto.
Edição de vídeo baseada em IA recente tem permitido aos usuários editar vídeos através de simples instruções de texto, simplificando significativamente o processo de edição. No entanto, as técnicas recentes de edição de vídeo sem supervisão focam principalmente em edições globais ou de objetos únicos, o que pode resultar em mudanças não intencionais em outras partes do vídeo. Quando múltiplos objetos necessitam de edições localizadas, os métodos existentes enfrentam desafios, como edição não fiel, vazamento de edição e falta de conjuntos de dados e métricas de avaliação adequados. Para superar essas limitações, propomos um framework de Edição de Vídeo Multi-Instância sem supervisão, chamado MIVE. MIVE é um framework baseado em máscaras de propósito geral, não dedicado a objetos específicos (por exemplo, pessoas). MIVE introduz dois módulos-chave: (i) Amostragem Multi-instância Desentrelaçada (DMS) para prevenir vazamento de edição e (ii) Redistribuição de Probabilidade Centrada na Instância (IPR) para garantir localização precisa e edição fiel. Além disso, apresentamos nosso novo Conjunto de Dados MIVE com cenários de vídeo diversos e introduzimos o Índice de Precisão entre Instâncias (CIA) para avaliar vazamento de edição em tarefas de edição de vídeo multi-instância. Nossas extensas avaliações qualitativas, quantitativas e estudo de usuários demonstram que MIVE supera significativamente os métodos recentes de ponta em termos de fidelidade na edição, precisão e prevenção de vazamento, estabelecendo um novo referencial para edição de vídeo multi-instância. A página do projeto está disponível em https://kaist-viclab.github.io/mive-site/
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram um desempenho excepcional em diversas tarefas ao aproveitar tanto o conhecimento pré-treinado (ou seja, conhecimento paramétrico) quanto o conhecimento externo (ou seja, conhecimento contextual). Embora tenham sido feitos esforços substanciais para aproveitar ambas as formas de conhecimento, cenários nos quais o modelo carece de conhecimento relevante ainda são pouco explorados. Essas limitações podem resultar em problemas como alucinação, causando redução na confiabilidade e potenciais riscos em aplicações de alto risco. Para lidar com tais limitações, este artigo amplia o escopo da tarefa para abranger casos em que a solicitação do usuário não pode ser atendida devido à falta de conhecimento relevante. Para isso, introduzimos o Decodificação Constrastiva com Abstenção (CDA), um método de decodificação sem treinamento que capacita os LLMs a gerar respostas quando o conhecimento relevante está disponível e a abster-se caso contrário. O CDA avalia a relevância de cada conhecimento para uma determinada consulta, determinando de forma adaptativa qual conhecimento priorizar ou qual ignorar completamente. Experimentos extensivos com quatro LLMs em três conjuntos de dados de perguntas e respostas demonstram que o CDA pode realizar de forma eficaz a geração precisa e a abstenção simultaneamente. Essas descobertas destacam o potencial do CDA para ampliar a aplicabilidade dos LLMs, melhorando a confiabilidade e preservando a confiança do usuário.