Artigos de pesquisa em IA selecionados diariamente com traduções
Os métodos de química quântica computacional fornecem aproximações precisas de propriedades moleculares cruciais para a descoberta de fármacos assistida por computador e outras áreas da ciência química. No entanto, a alta complexidade computacional limita a escalabilidade de suas aplicações. Potenciais de rede neural (NNPs) são uma alternativa promissora aos métodos de química quântica, mas exigem grandes e diversos conjuntos de dados para treinamento. Este trabalho apresenta um novo conjunto de dados e benchmark chamado nabla^2DFT, baseado no nablaDFT. Ele contém o dobro de estruturas moleculares, três vezes mais conformações, novos tipos de dados e tarefas, além de modelos de última geração. O conjunto de dados inclui energias, forças, 17 propriedades moleculares, matrizes de Hamiltoniano e de sobreposição, e um objeto de função de onda. Todos os cálculos foram realizados no nível DFT (omegaB97X-D/def2-SVP) para cada conformação. Além disso, nabla^2DFT é o primeiro conjunto de dados que contém trajetórias de relaxamento para um número substancial de moléculas semelhantes a fármacos. Também introduzimos um novo benchmark para avaliar NNPs em tarefas de previsão de propriedades moleculares, previsão de Hamiltoniano e otimização conformacional. Por fim, propomos uma estrutura extensível para treinamento de NNPs e implementamos 10 modelos dentro dela.
O pré-treinamento multitarefa não supervisionado tem sido o método crucial por trás do recente sucesso dos modelos de linguagem (LMs). No entanto, o aprendizado multitarefa supervisionado ainda mantém uma promessa significativa, uma vez que sua escalonamento na fase de pós-treinamento tende a melhorar a generalização. Neste artigo, exploramos o pré-treinamento multitarefa supervisionado propondo o Pré-Treinamento por Instrução, um framework que aumenta de forma escalável grandes corpora brutos com pares de instrução-resposta para pré-treinar LMs. Os pares de instrução-resposta são gerados por um sintetizador de instruções eficiente construído sobre modelos de código aberto. Em nossos experimentos, sintetizamos 200 milhões de pares de instrução-resposta cobrindo mais de 40 categorias de tarefas para verificar a eficácia do Pré-Treinamento por Instrução. No pré-treinamento a partir do zero, o Pré-Treinamento por Instrução não apenas melhora consistentemente os modelos base pré-treinados, mas também se beneficia mais com o ajuste adicional por instrução. No pré-treinamento contínuo, o Pré-Treinamento por Instrução permite que o Llama3-8B seja comparável ou até supere o Llama3-70B. Nosso modelo, código e dados estão disponíveis em https://github.com/microsoft/LMOps.
A tarefa de manipular atributos de imagens reais por meio da inversão do StyleGAN tem sido amplamente pesquisada. Esse processo envolve a busca por variáveis latentes de um gerador StyleGAN bem treinado que possa sintetizar uma imagem real, a modificação dessas variáveis latentes e, em seguida, a síntese de uma imagem com as edições desejadas. É necessário encontrar um equilíbrio entre a qualidade da reconstrução e a capacidade de edição. Estudos anteriores utilizaram o espaço latente W de baixa dimensionalidade para a busca latente, o que facilitou a edição eficaz, mas enfrentou dificuldades na reconstrução de detalhes intrincados. Pesquisas mais recentes voltaram-se para o espaço de características F de alta dimensionalidade, que consegue inverter a imagem de entrada, mas perde muitos detalhes durante a edição. Neste artigo, apresentamos o StyleFeatureEditor — um método inovador que permite a edição tanto em latentes W quanto em latentes F. Essa técnica não apenas possibilita a reconstrução de detalhes mais refinados da imagem, mas também garante sua preservação durante a edição. Também apresentamos um novo pipeline de treinamento projetado especificamente para treinar nosso modelo a editar com precisão os latentes F. Nosso método é comparado com abordagens de codificação state-of-the-art, demonstrando que nosso modelo se destaca em termos de qualidade de reconstrução e é capaz de editar até mesmo exemplos desafiadores fora do domínio. O código está disponível em https://github.com/AIRI-Institute/StyleFeatureEditor.
Os conhecimentos prévios humanos desempenham um papel crucial na utilização eficiente de dados no aprendizado profundo. No entanto, com o desenvolvimento de modelos de linguagem de grande escala (LLMs), há uma ênfase crescente na escalabilidade tanto do tamanho do modelo quanto do volume de dados, o que frequentemente diminui a importância dos conhecimentos prévios humanos na construção de dados. Influenciados por essas tendências, os modelos de linguagem de pequena escala (SLMs) existentes dependem principalmente de grandes volumes de dados de treinamento obtidos da web, negligenciando a incorporação adequada dos conhecimentos prévios humanos. Essa omissão limita a eficiência do treinamento de modelos de linguagem em ambientes com recursos limitados. Neste artigo, propomos um princípio para aproveitar os conhecimentos prévios humanos na construção de dados. Esse princípio enfatiza a obtenção de SLMs de alto desempenho por meio do treinamento em um conjunto de dados conciso que acomoda tanto a diversidade semântica quanto a consistência na qualidade dos dados, evitando o vazamento de dados de benchmark. Seguindo esse princípio, treinamos um SLM chamado HARE-1.1B. Experimentos extensos em grandes conjuntos de dados de benchmark demonstram que o HARE-1.1B tem um desempenho favorável em comparação com os SLMs mais avançados, validando a eficácia do princípio proposto. Além disso, isso fornece novas perspectivas sobre o treinamento eficiente de modelos de linguagem em ambientes com recursos limitados, sob a ótica dos conhecimentos prévios humanos.
Os Modelos de Linguagem Visual (VLMs) demonstram uma proficiência notável ao lidar com uma ampla gama de questões visuais, o que exige fortes habilidades de percepção e raciocínio. Avaliar essas duas competências de forma independente é crucial para o refinamento do modelo, apesar da dificuldade inerente devido à natureza interligada de ver e raciocinar nos VLMs existentes. Para enfrentar esse desafio, apresentamos o Prism, uma estrutura inovadora projetada para desvincular os processos de percepção e raciocínio envolvidos na resolução de questões visuais. O Prism compreende dois estágios distintos: um estágio de percepção que utiliza um VLM para extrair e articular informações visuais em formato textual, e um estágio de raciocínio que formula respostas com base nas informações visuais extraídas, utilizando um Modelo de Linguagem de Grande Escala (LLM). Esse design modular permite a comparação e avaliação sistemática tanto de VLMs proprietários quanto de código aberto em relação às suas forças de percepção e raciocínio. Nossa estrutura analítica fornece várias percepções valiosas, destacando o potencial do Prism como uma solução econômica para tarefas de linguagem visual. Ao combinar um VLM simplificado focado em percepção com um LLM poderoso adaptado para raciocínio, o Prism alcança resultados superiores em tarefas gerais de linguagem visual, reduzindo substancialmente os custos de treinamento e operação. Avaliações quantitativas mostram que o Prism, quando configurado com um LLaVA 2B básico e o GPT-3.5 de acesso livre, oferece um desempenho comparável a VLMs 10 vezes maiores no rigoroso benchmark multimodal MMStar. O projeto está disponível em: https://github.com/SparksJoe/Prism.
O advento dos grandes modelos de visão e linguagem (LVLMs, na sigla em inglês) tem impulsionado pesquisas sobre suas aplicações em contextos multimodais, particularmente na compreensão de vídeos. Os benchmarks tradicionais de VideoQA, apesar de fornecerem métricas quantitativas, frequentemente falham em abranger todo o espectro do conteúdo de vídeo e avaliam de forma inadequada a compreensão temporal dos modelos. Para abordar essas limitações, introduzimos o MMBench-Video, um benchmark quantitativo projetado para avaliar rigorosamente a proficiência dos LVLMs na compreensão de vídeos. O MMBench-Video incorpora vídeos extensos do YouTube e emprega perguntas de formato livre, refletindo casos de uso práticos. O benchmark é meticulosamente elaborado para investigar as habilidades de raciocínio temporal dos modelos, com todas as perguntas anotadas manualmente de acordo com uma taxonomia de habilidades cuidadosamente construída. Utilizamos o GPT-4 para avaliação automatizada, demonstrando precisão e robustez superiores em comparação com avaliações anteriores baseadas em LLMs. Utilizando o MMBench-Video, conduzimos avaliações abrangentes que incluem tanto LVLMs proprietários quanto de código aberto para imagens e vídeos. O MMBench-Video se apresenta como um recurso valioso para a comunidade de pesquisa, facilitando uma avaliação aprimorada dos LVLMs e catalisando avanços no campo da compreensão de vídeos. O código de avaliação do MMBench-Video será integrado ao VLMEvalKit: https://github.com/open-compass/VLMEvalKit.
A fusão de Grandes Modelos de Linguagem (LLMs, na sigla em inglês) é uma técnica econômica para combinar múltiplos LLMs especializados em um único modelo versátil, mantendo a expertise dos originais. No entanto, as abordagens atuais frequentemente negligenciam a importância do alinhamento de segurança durante a fusão, resultando em modelos altamente desalinhados. Este trabalho investiga os efeitos da fusão de modelos no alinhamento. Avaliamos várias técnicas populares de fusão de modelos, demonstrando que os métodos existentes não apenas transferem expertise de domínio, mas também propagam desalinhamento. Propomos uma abordagem simples em duas etapas para resolver esse problema: (i) gerar dados sintéticos de segurança e específicos do domínio, e (ii) incorporar esses dados gerados no processo de otimização das técnicas existentes de fusão de modelos com consciência de dados. Isso nos permite tratar o alinhamento como uma habilidade que pode ser maximizada no LLM resultante da fusão. Nossos experimentos ilustram a eficácia da integração de dados relacionados ao alinhamento durante a fusão, resultando em modelos que se destacam tanto em expertise de domínio quanto em alinhamento.
Quando confrontadas com questões que envolvem pensamento visual, os humanos naturalmente alternam modalidades de raciocínio, frequentemente formando imagens mentais ou criando auxílios visuais. Modelos de linguagem de grande escala têm mostrado resultados promissores em raciocínio aritmético e simbólico ao expressar raciocínios intermediários em texto como uma cadeia de pensamento, mas ainda lutam para estender essa capacidade para responder a consultas de texto que são facilmente resolvidas por raciocínio visual, mesmo com extensivo pré-treinamento multimodal. Introduzimos um método simples, o prompting de "quadro branco de pensamento", para desbloquear as capacidades de raciocínio visual de modelos de linguagem de grande escala multimodais através de diferentes modalidades. O prompting de quadro branco de pensamento fornece aos modelos de linguagem de grande escala multimodais um "quadro branco" metafórico para desenhar etapas de raciocínio como imagens, e então retorna essas imagens ao modelo para processamento adicional. Descobrimos que isso pode ser realizado sem demonstrações ou módulos especializados, em vez disso, aproveitando a capacidade existente dos modelos de escrever código com bibliotecas como Matplotlib e Turtle. Essa abordagem simples mostra resultados de ponta em quatro tarefas difíceis de linguagem natural que envolvem raciocínio visual e espacial. Identificamos múltiplos cenários onde o GPT-4o usando cadeia de pensamento falha dramaticamente, incluindo mais de um onde ele alcança 0% de precisão, enquanto o quadro branco de pensamento permite até 92% de precisão nesses mesmos cenários. Apresentamos uma exploração detalhada de onde a técnica tem sucesso, bem como suas fontes de erro.
A destilação de difusão representa uma direção altamente promissora para alcançar geração fiel de texto para imagem em poucas etapas de amostragem. No entanto, apesar dos sucessos recentes, os modelos destilados existentes ainda não fornecem o espectro completo de habilidades de difusão, como a inversão de imagens reais, que possibilita muitos métodos precisos de manipulação de imagens. Este trabalho visa enriquecer modelos destilados de difusão de texto para imagem com a capacidade de codificar efetivamente imagens reais em seu espaço latente. Para isso, introduzimos a Destilação de Consistência Invertível (iCD), uma estrutura generalizada de destilação de consistência que facilita tanto a síntese de imagens de alta qualidade quanto a codificação precisa de imagens em apenas 3-4 etapas de inferência. Embora o problema de inversão para modelos de difusão de texto para imagem seja agravado por altas escalas de orientação sem classificador, observamos que a orientação dinâmica reduz significativamente os erros de reconstrução sem degradação perceptível no desempenho de geração. Como resultado, demonstramos que a iCD equipada com orientação dinâmica pode servir como uma ferramenta altamente eficaz para edição de imagens guiada por texto em zero-shot, competindo com alternativas mais caras e de última geração.
Tarefas de extração de informação exigem modelos precisos, eficientes e generalizáveis. Abordagens clássicas de aprendizado profundo supervisionado podem alcançar o desempenho necessário, mas requerem grandes conjuntos de dados e têm limitações na capacidade de se adaptar a diferentes tarefas. Por outro lado, modelos de linguagem de grande escala (LLMs) demonstram boa generalização, o que significa que podem se adaptar a diversas tarefas com base em solicitações do usuário. No entanto, LLMs são computacionalmente caros e tendem a falhar na geração de saídas estruturadas. Neste artigo, apresentaremos um novo tipo de modelo GLiNER que pode ser usado para várias tarefas de extração de informação, sendo um modelo codificador pequeno. Nosso modelo alcançou desempenho de estado da arte (SoTA) em benchmarks de reconhecimento de entidades nomeadas (NER) zero-shot e desempenho líder em tarefas de resposta a perguntas, sumarização e extração de relações. Além disso, neste artigo, abordaremos resultados experimentais sobre abordagens de autoaprendizagem para reconhecimento de entidades nomeadas usando modelos GLiNER.
Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) têm aproveitado extensos conjuntos de dados multimodais para aprimorar capacidades em tarefas complexas orientadas por conhecimento. No entanto, desafios persistentes em erros perceptivos e de raciocínio limitam sua eficácia, especialmente na interpretação de dados visuais intrincados e na dedução de relações multimodais. Para abordar essas questões, introduzimos um novo formato de conjunto de dados, PIN (Documentos Multimodais Pareados e Intercalados), projetado para melhorar significativamente a profundidade e a amplitude do treinamento multimodal. O formato PIN é construído sobre três princípios fundamentais: intensidade de conhecimento, escalabilidade e suporte para diversas modalidades de treinamento. Esse formato inovador combina arquivos markdown e imagens abrangentes para enriquecer os dados de treinamento com uma estrutura de conhecimento densa e estratégias de treinamento versáteis. Apresentamos o PIN-14M, um conjunto de dados de código aberto composto por 14 milhões de amostras derivadas de uma variedade de fontes chinesas e inglesas, projetado para incluir conteúdo complexo da web e científico. Esse conjunto de dados é construído meticulosamente para garantir qualidade dos dados e integridade ética, com o objetivo de facilitar estratégias avançadas de treinamento e melhorar a robustez do modelo contra armadilhas comuns no treinamento multimodal. Nossos resultados iniciais, que formam a base deste relatório técnico, sugerem um potencial significativo para o formato PIN no refinamento do desempenho dos LMMs, com planos para expansões futuras e avaliações detalhadas de seu impacto nas capacidades dos modelos.
Corpus de treinamento para modelos de linguagem visual (VLMs) geralmente carecem de quantidades suficientes de dados centrados em decisões. Isso torna os VLMs prontos para uso subótimos para tarefas de tomada de decisão, como o controle de dispositivos em ambientes reais por meio de interfaces gráficas de usuário (GUIs). Embora o treinamento com demonstrações estáticas tenha mostrado algum potencial, demonstramos que tais métodos são insuficientes para controlar GUIs reais devido à sua incapacidade de lidar com a estocasticidade e a não estacionariedade do mundo real, que não são capturadas em dados observacionais estáticos. Este artigo introduz uma nova abordagem de RL autônomo, chamada DigiRL, para treinar agentes de controle de dispositivos em ambientes reais por meio do ajuste fino de um VLM pré-treinado em duas etapas: RL offline para inicializar o modelo, seguido de RL offline-para-online. Para isso, construímos um ambiente de aprendizagem Android escalável e paralelizável, equipado com um avaliador baseado em VLM, e desenvolvemos uma abordagem de RL simples, porém eficaz, para aprendizagem nesse domínio. Nossa abordagem executa RL ponderado por vantagem, com estimadores de vantagem aprimorados para considerar a estocasticidade, juntamente com um currículo automático para derivar o sinal de aprendizagem máximo. Demonstramos a eficácia do DigiRL usando o conjunto de dados Android-in-the-Wild (AitW), onde nosso VLM de 1,3B treinado com RL alcança uma melhoria absoluta de 49,5% — de 17,7 para 67,2% de taxa de sucesso — em comparação com o ajuste fino supervisionado usando dados estáticos de demonstração humana. Esses resultados superam significativamente não apenas os melhores agentes anteriores, incluindo o AppAgent com GPT-4V (8,3% de taxa de sucesso) e o CogAgent de 17B treinado com dados do AitW (38,5%), mas também a melhor abordagem de RL autônomo anterior baseada em clonagem de comportamento filtrada (57,8%), estabelecendo assim um novo estado da arte para agentes digitais de controle de dispositivos em ambientes reais.
Uma capacidade central dos grandes modelos de linguagem (LLMs) é seguir instruções em linguagem natural. No entanto, o problema de construir automaticamente dados de treinamento de alta qualidade para aprimorar as habilidades complexas de seguir instruções dos LLMs, sem anotação manual, permanece sem solução. Neste artigo, apresentamos o AutoIF, o primeiro método escalável e confiável para gerar automaticamente dados de treinamento de seguimento de instruções. O AutoIF transforma a validação da qualidade dos dados de seguimento de instruções em verificação de código, exigindo que os LLMs gerem instruções, o código correspondente para verificar a correção das respostas às instruções e amostras de testes unitários para verificar a correção do código. Em seguida, a amostragem por rejeição baseada em feedback de execução pode gerar dados para Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço com Feedback Humano (RLHF). O AutoIF alcança melhorias significativas em três algoritmos de treinamento, SFT, DPO Offline e DPO Online, quando aplicado aos principais LLMs de código aberto, Qwen2 e LLaMA3, em configurações de autoalinhamento e destilação de forte para fraco. Nosso código está disponível publicamente em https://github.com/QwenLM/AutoIF.
Neste artigo, apresentamos uma nova estrutura de inferência de baixa latência para modelos de linguagem de grande escala (LLMs, na sigla em inglês), que permite que os LLMs realizem inferências com prompts incompletos. Ao realocar processos computacionais para a fase de entrada do prompt, alcançamos uma redução substancial na latência, melhorando significativamente a experiência interativa dos usuários de LLMs. A estrutura gerencia habilmente a visibilidade do prompt em fluxo para o modelo, permitindo que ele infira a partir de prompts incompletos ou aguarde prompts adicionais. Em comparação com métodos tradicionais de inferência que utilizam prompts completos, nossa abordagem demonstra uma redução média de 59% na latência de resposta no conjunto de dados MMLU-Pro, mantendo uma precisão comparável. Além disso, nossa estrutura facilita a inferência e a saída colaborativa entre diferentes modelos. Ao empregar um LLM para inferência e um modelo de linguagem pequeno (SLM, na sigla em inglês) para saída, alcançamos uma redução média de 68% na latência de resposta, juntamente com uma melhoria de 5,5% na precisão no conjunto de dados MMLU-Pro em comparação com a linha de base do SLM. Para prompts longos que excedem 20 frases, a latência de resposta pode ser reduzida em até 93%.
O raciocínio de senso comum é fundamentalmente baseado em conhecimento multimodal. No entanto, os grandes modelos de linguagem (LLMs) existentes são principalmente treinados usando apenas dados textuais, o que limita sua capacidade de incorporar informações visuais essenciais. Em contraste, os Modelos de Linguagem Visual, que se destacam em tarefas orientadas visualmente, muitas vezes falham em tarefas não visuais, como o raciocínio básico de senso comum. Essa divergência destaca um desafio crítico: a integração de uma compreensão visual robusta com o raciocínio linguístico baseado em texto. Para isso, introduzimos um método voltado a aprimorar o senso comum visual dos LLMs. Especificamente, nosso método gera múltiplas imagens com base no prompt de texto de entrada e as integra ao processo de tomada de decisão do modelo, misturando suas probabilidades de predição. Para facilitar a modelagem de linguagem multimodal fundamentada, empregamos uma camada de fusão tardia que combina as características visuais projetadas com a saída de um LLM pré-treinado condicionado apenas em texto. Essa camada de fusão tardia permite previsões baseadas em conhecimento abrangente de imagem-texto, bem como apenas em texto quando necessário. Avaliamos nossa abordagem usando várias tarefas de raciocínio de senso comum visual, juntamente com tarefas tradicionais de PLN, incluindo raciocínio de senso comum e compreensão de leitura. Nossos resultados experimentais demonstram uma superioridade significativa em relação às linhas de base existentes. Quando aplicado a LLMs recentes de última geração (por exemplo, Llama3), observamos melhorias não apenas no senso comum visual, mas também em benchmarks tradicionais de PLN. O código e os modelos estão disponíveis em https://github.com/guyyariv/vLMIG.
O Direct Preference Optimization (DPO), um método padrão para alinhar modelos de linguagem com preferências humanas, é tradicionalmente aplicado a preferências offline. Estudos recentes mostram que o DPO se beneficia de treinamento iterativo com preferências online rotuladas por um modelo de recompensa treinado. Neste trabalho, identificamos uma armadilha do DPO iterativo convencional - a melhoria na qualidade das respostas pode levar ao aumento da verbosidade. Para resolver isso, introduzimos o DPO iterativo com regularização de comprimento (iLR-DPO) para penalizar o comprimento das respostas. Nossos resultados empíricos mostram que o iLR-DPO pode aprimorar um modelo de 7B para desempenhar em paridade com o GPT-4 sem aumentar a verbosidade. Especificamente, nosso modelo de 7B alcança uma taxa de vitória controlada por comprimento de 50,5% contra o GPT-4 Preview no AlpacaEval 2.0 e se destaca em benchmarks padrão, incluindo MT-Bench, Arena-Hard e OpenLLM Leaderboard. Esses resultados demonstram a eficácia do DPO iterativo no alinhamento de modelos de linguagem com feedback humano.
A capacidade dos CodeLLMs de gerar código executável e funcionalmente correto em escala de nível de repositório permanece amplamente inexplorada. Apresentamos o RepoExec, um novo benchmark para avaliar a geração de código em escala de nível de repositório. O RepoExec foca em três aspectos principais: executabilidade, correção funcional por meio de geração automatizada de casos de teste com alta taxa de cobertura e contextos cuidadosamente elaborados entre arquivos para gerar código com precisão. Nosso trabalho explora um cenário controlado em que os desenvolvedores especificam as dependências de código necessárias, desafiando o modelo a integrá-las com precisão. Experimentos mostram que, embora LLMs pré-treinados superem modelos ajustados por instrução em termos de correção, estes últimos se destacam na utilização das dependências fornecidas e na demonstração de capacidades de depuração. Também introduzimos um novo conjunto de dados ajustado por instrução que foca em dependências de código e demonstramos que CodeLLMs ajustados em nosso conjunto de dados têm uma melhor capacidade de aproveitar essas dependências de forma eficaz. O RepoExec visa fornecer uma avaliação abrangente da funcionalidade do código e do alinhamento com a intenção do desenvolvedor, abrindo caminho para CodeLLMs mais confiáveis e aplicáveis em cenários do mundo real. O conjunto de dados e o código-fonte podem ser encontrados em~https://github.com/FSoft-AI4Code/RepoExec.
Recentemente, avanços na síntese de vídeo têm atraído atenção significativa. Modelos de síntese de vídeo, como AnimateDiff e Stable Video Diffusion, demonstraram a aplicabilidade prática dos modelos de difusão na criação de conteúdo visual dinâmico. O surgimento do SORA destacou ainda mais o potencial das tecnologias de geração de vídeo. No entanto, a extensão da duração dos vídeos tem sido limitada pelas restrições de recursos computacionais. A maioria dos modelos de síntese de vídeo existentes só consegue gerar clipes curtos. Neste artigo, propomos uma nova metodologia de pós-ajuste para modelos de síntese de vídeo, chamada ExVideo. Essa abordagem foi projetada para aprimorar a capacidade dos modelos atuais de síntese de vídeo, permitindo que eles produzam conteúdo por períodos temporais mais longos, ao mesmo tempo em que reduzem os custos de treinamento. Em particular, projetamos estratégias de extensão para arquiteturas de modelos temporais comuns, incluindo convolução 3D, atenção temporal e incorporação posicional. Para avaliar a eficácia da nossa abordagem de pós-ajuste, realizamos treinamento de extensão no modelo Stable Video Diffusion. Nossa abordagem aumenta a capacidade do modelo de gerar até 5 vezes o número original de quadros, exigindo apenas 1,5 mil horas de GPU em um conjunto de dados composto por 40 mil vídeos. Importante destacar que o aumento substancial na duração do vídeo não compromete as capacidades inatas de generalização do modelo, e o modelo demonstra suas vantagens na geração de vídeos de diversos estilos e resoluções. Disponibilizaremos publicamente o código-fonte e o modelo aprimorado.
Os benchmarks existentes não testam os agentes de linguagem em sua interação com usuários humanos ou em sua capacidade de seguir regras específicas de domínio, ambos aspectos cruciais para sua implantação em aplicações do mundo real. Propomos o tau-bench, um benchmark que simula conversas dinâmicas entre um usuário (simulado por modelos de linguagem) e um agente de linguagem equipado com ferramentas de API específicas do domínio e diretrizes de política. Empregamos um processo de avaliação eficiente e fiel que compara o estado do banco de dados ao final de uma conversa com o estado objetivo anotado. Também propomos uma nova métrica (pass^k) para avaliar a confiabilidade do comportamento do agente em múltiplas tentativas. Nossos experimentos mostram que até mesmo agentes de chamada de função de última geração (como o gpt-4o) têm sucesso em menos de 50% das tarefas e são bastante inconsistentes (pass^8 <25% no varejo). Nossas descobertas apontam para a necessidade de métodos que possam melhorar a capacidade dos agentes de agir de forma consistente e seguir regras de maneira confiável.
Garantir a verificabilidade das respostas dos modelos é um desafio fundamental para a geração aumentada por recuperação (RAG) no domínio de questionamento e resposta (QA). Recentemente, foi proposta a técnica de autociitação para fazer com que grandes modelos de linguagem (LLMs) gerem citações de documentos de suporte juntamente com suas respostas. No entanto, LLMs que realizam autociitação frequentemente têm dificuldade em seguir o formato exigido, referenciam fontes inexistentes e falham em refletir fielmente o uso do contexto pelos LLMs durante a geração. Neste trabalho, apresentamos o MIRAGE -- Explicações de RAG Baseadas em Internos do Modelo -- uma abordagem plug-and-play que utiliza os internos do modelo para atribuição fiel de respostas em aplicações de RAG. O MIRAGE detecta tokens de resposta sensíveis ao contexto e os associa a documentos recuperados que contribuem para sua predição por meio de métodos de saliência. Avaliamos nossa abordagem proposta em um conjunto de dados multilingue de QA extrativo, encontrando alta concordância com a atribuição de respostas feita por humanos. Em QA de resposta aberta, o MIRAGE alcança qualidade e eficiência de citação comparáveis à autociitação, além de permitir um controle mais refinado dos parâmetros de atribuição. Nossa avaliação qualitativa destaca a fidelidade das atribuições do MIRAGE e ressalta a aplicação promissora dos internos do modelo para a atribuição de respostas em RAG.
Compreender a semântica de cenas visuais é um desafio fundamental na Visão Computacional. Um aspecto crucial desse desafio é que objetos que compartilham significados ou funções semânticas semelhantes podem exibir diferenças visuais marcantes, tornando difícil a identificação e categorização precisas. Avanços recentes em frameworks de texto para imagem levaram ao desenvolvimento de modelos que capturam implicitamente as estatísticas naturais de cenas. Esses frameworks levam em consideração a variabilidade visual dos objetos, bem como as complexas co-ocorrências de objetos e fontes de ruído, como condições de iluminação diversas. Ao aproveitar conjuntos de dados em larga escala e condicionamento de atenção cruzada, esses modelos geram representações de cenas detalhadas e contextualmente ricas. Essa capacidade abre novos caminhos para melhorar o reconhecimento de objetos e a compreensão de cenas em ambientes variados e desafiadores. Nosso trabalho apresenta o StableSemantics, um conjunto de dados que compreende 224 mil prompts curados por humanos, legendas de linguagem natural processadas, mais de 2 milhões de imagens sintéticas e 10 milhões de mapas de atenção correspondentes a trechos de substantivos individuais. Nós explicitamente aproveitamos prompts gerados por humanos que correspondem a gerações visualmente interessantes de difusão estável, fornecemos 10 gerações por frase e extraímos mapas de atenção cruzada para cada imagem. Exploramos a distribuição semântica das imagens geradas, examinamos a distribuição de objetos dentro das imagens e avaliamos métodos de legendagem e segmentação de vocabulário aberto em nossos dados. Até onde sabemos, somos os primeiros a lançar um conjunto de dados de difusão com atribuições semânticas. Esperamos que o conjunto de dados proposto catalise avanços na compreensão da semântica visual e forneça uma base para o desenvolvimento de modelos visuais mais sofisticados e eficazes. Website: https://stablesemantics.github.io/StableSemantics
A pesquisa em interpretabilidade e análise (IA) é um subcampo crescente dentro do PLN (Processamento de Linguagem Natural) com o objetivo de desenvolver um entendimento mais profundo do comportamento ou do funcionamento interno de sistemas e métodos de PLN. Apesar do crescente interesse no subcampo, uma crítica frequentemente mencionada é que ele carece de insights acionáveis e, portanto, tem pouco impacto no PLN. Neste artigo, buscamos quantificar o impacto da pesquisa em IA no campo mais amplo do PLN. Abordamos isso com uma análise de métodos mistos de: (1) um grafo de citações de mais de 185 mil artigos construído a partir de todos os trabalhos publicados nas conferências ACL e EMNLP entre 2018 e 2023, e (2) uma pesquisa com 138 membros da comunidade de PLN. Nossos resultados quantitativos mostram que o trabalho em IA é bem citado fora do campo de IA e é central no grafo de citações do PLN. Por meio de análise qualitativa das respostas da pesquisa e anotação manual de 556 artigos, descobrimos que os pesquisadores de PLN constroem sobre os achados do trabalho em IA e percebem que ele é importante para o progresso no PLN, em múltiplos subcampos, e dependem de seus achados e terminologia para seu próprio trabalho. Muitos métodos novos são propostos com base em descobertas de IA e altamente influenciados por elas, mas trabalhos altamente influentes fora do campo de IA citam descobertas de IA sem serem impulsionados por elas. Concluímos resumindo o que falta no trabalho em IA atualmente e fornecemos um chamado à ação, para pavimentar o caminho para um futuro mais impactante da pesquisa em IA.
A pesquisa em sumarização de texto passou por várias transformações significativas com o advento das redes neurais profundas, modelos de linguagem pré-treinados (PLMs) e os recentes modelos de linguagem de grande escala (LLMs). Esta revisão, portanto, oferece uma análise abrangente do progresso e da evolução da pesquisa em sumarização de texto através do prisma dessas mudanças de paradigma. Ela está organizada em duas partes principais: (1) uma visão detalhada dos conjuntos de dados, métricas de avaliação e métodos de sumarização antes da era dos LLMs, abrangendo métodos estatísticos tradicionais, abordagens de aprendizado profundo e técnicas de ajuste fino de PLMs, e (2) o primeiro exame detalhado dos avanços recentes em benchmarking, modelagem e avaliação de sumarização na era dos LLMs. Ao sintetizar a literatura existente e apresentar uma visão coesa, esta revisão também discute tendências de pesquisa, desafios em aberto e propõe direções promissoras de pesquisa em sumarização, com o objetivo de orientar os pesquisadores através do cenário em evolução da pesquisa em sumarização.
Apresentamos um modelo de difusão latente sobre cenas 3D, que pode ser treinado utilizando apenas dados de imagens 2D. Para alcançar isso, primeiro projetamos um autoencoder que mapeia imagens multivista para splats 3D gaussianos, e simultaneamente constrói uma representação latente comprimida desses splats. Em seguida, treinamos um modelo de difusão multivista sobre o espaço latente para aprender um modelo generativo eficiente. Esse pipeline não requer máscaras de objetos nem profundidades, e é adequado para cenas complexas com posições arbitrárias de câmera. Realizamos experimentos cuidadosos em dois conjuntos de dados em larga escala de cenas complexas do mundo real -- MVImgNet e RealEstate10K. Mostramos que nossa abordagem permite gerar cenas 3D em apenas 0,2 segundos, seja do zero, a partir de uma única vista de entrada, ou a partir de vistas esparsas de entrada. Ela produz resultados diversos e de alta qualidade enquanto opera uma ordem de magnitude mais rápido do que modelos de difusão não latentes e modelos generativos baseados em NeRF anteriores.