Artigos de pesquisa em IA selecionados diariamente com traduções
As avaliações atuais de benchmarks de longo contexto focam principalmente em testes baseados em recuperação, exigindo que Modelos de Linguagem de Grande Escala (LLMs) localizem informações específicas dentro de contextos extensos de entrada, como o benchmark agulha-no-palheiro (NIAH). A geração de longo contexto refere-se à capacidade de um modelo de linguagem gerar texto coerente e contextualmente preciso que abrange passagens ou documentos extensos. Embora estudos recentes demonstrem um desempenho forte no NIAH e em outros benchmarks de longo contexto baseados em recuperação, há uma falta significativa de benchmarks para avaliar as capacidades de geração de longo contexto. Para preencher essa lacuna e oferecer uma avaliação abrangente, introduzimos um benchmark sintético, LongGenBench, que permite configurações flexíveis de comprimentos de contexto de geração personalizados. O LongGenBench avança além dos benchmarks tradicionais ao redesenhar o formato das perguntas e exigir que os LLMs respondam com uma única resposta longa e coesa de contexto. Após uma extensa avaliação usando o LongGenBench, observamos que: (1) tanto os modelos acessados por API quanto os de código aberto exibem degradação de desempenho em cenários de geração de longo contexto, variando de 1,2% a 47,1%; (2) diferentes séries de LLMs exibem tendências variadas de degradação de desempenho, com o modelo Gemini-1.5-Flash mostrando a menor degradação entre os modelos acessados por API, e a série Qwen2 exibindo a menor degradação no LongGenBench entre os modelos de código aberto.
Compreender e seguir precisamente as instruções é fundamental para que os grandes modelos de linguagem (LLMs) sejam eficazes em diversas tarefas. Neste trabalho, examinamos rigorosamente os principais fatores que permitem aos modelos generalizar para instruções não vistas, fornecendo insights para orientar a coleta de dados para ajuste de instruções. Através de experimentos controlados, inspirados no algoritmo de Markov Turing-completo, demonstramos que tal generalização emerge apenas quando os dados de treinamento são suficientemente diversificados entre domínios semânticos. Nossas descobertas também revelam que simplesmente diversificar dentro de domínios limitados não garante uma generalização robusta. Em contraste, a diversificação de dados entre domínios, mesmo com orçamentos de dados restritos, melhora significativamente a adaptabilidade de um modelo. Estendemos nossa análise para cenários do mundo real, incluindo o ajuste fino de modelos especialistas e generalistas. Em ambos os casos, demonstramos que 1) um melhor desempenho pode ser alcançado aumentando a diversidade de um conjunto de dados estabelecido mantendo o tamanho dos dados constante, e 2) ao escalar os dados, diversificar as semânticas das instruções é mais eficaz do que simplesmente aumentar a quantidade de dados similares. Nossa pesquisa fornece insights importantes para a coleta de conjuntos de dados, especialmente ao otimizar o desempenho do modelo expandindo os dados de treinamento para cenários especialistas e generalistas. Mostramos que a consideração cuidadosa da diversificação de dados é fundamental: treinar modelos especialistas com dados que vão além de seu domínio principal resulta em melhorias significativas de desempenho, enquanto modelos generalistas se beneficiam de misturas de dados diversas que aprimoram suas capacidades gerais de seguir instruções em uma ampla gama de aplicações. Nossos resultados destacam o papel crítico da diversificação estratégica e oferecem diretrizes claras para melhorar a qualidade dos dados.
Este trabalho aborda o gargalo de perda de informação da geração de imagens autoregressiva por quantização vetorial (VQ) ao introduzir uma nova arquitetura de modelo chamada Transformador Autoregressivo 2-Dimensional (DnD). O DnD-Transformer prevê mais códigos para uma imagem ao introduzir uma nova direção de autoregressão, profundidade do modelo, juntamente com a direção do comprimento da sequência. Comparado à autoregressão 1D tradicional e trabalhos anteriores que utilizam uma decomposição de imagem 2D semelhante, como o RQ-Transformer, o DnD-Transformer é um modelo de ponta a ponta que pode gerar imagens de maior qualidade com o mesmo tamanho de modelo base e comprimento de sequência, abrindo uma nova perspectiva de otimização para a geração de imagens autoregressiva. Além disso, nossos experimentos revelam que o potencial do DnD-Transformer se estende além da geração de imagens naturais. Ele pode até gerar imagens com elementos de texto e gráficos em um modo auto-supervisionado, demonstrando uma compreensão dessas modalidades combinadas. Isso não foi demonstrado anteriormente para modelos generativos de visão populares, como modelos de difusão, mostrando um lampejo de inteligência visão-linguagem quando treinado exclusivamente em imagens. O código, conjuntos de dados e modelos estão disponíveis em https://github.com/chenllliang/DnD-Transformer.
Com esforços significativos em estudos recentes, LLM-como-Juiz tornou-se uma alternativa econômica à avaliação humana para avaliar a qualidade da geração de texto em uma ampla gama de tarefas. No entanto, ainda existe uma lacuna de confiabilidade entre LLM-como-Juiz e a avaliação humana. Uma razão importante é a falta de oráculos guiados no processo de avaliação. Motivados pelo papel da referência amplamente utilizada na avaliação clássica de texto, introduzimos RevisEval, um novo paradigma de avaliação de geração de texto via referências adaptadas à resposta. RevisEval é impulsionado pela observação-chave de que uma referência ideal deve manter a relevância necessária para a resposta a ser avaliada. Especificamente, RevisEval aproveita as capacidades de revisão de texto dos grandes modelos de linguagem (LLMs) para revisar adaptativamente a resposta e, em seguida, tratar o texto revisado como a referência (referência adaptada à resposta) para a avaliação subsequente. Experimentos extensivos demonstram que RevisEval supera paradigmas tradicionais de avaliação sem referência e com referência que usam LLM-como-Juiz em tarefas de GNL e tarefas de seguir instruções abertas. Mais importante ainda, nossas referências adaptadas à resposta podem impulsionar ainda mais as métricas de texto clássicas, como BLEU e BERTScore, em comparação com referências tradicionais e até rivalizar com LLM-como-Juiz. Uma análise detalhada também é realizada para confirmar a eficácia do RevisEval na redução de viés, no impacto do custo de inferência e na relevância da referência.
O aprimoramento da capacidade de modelos de linguagem grandes (LLMs) em raciocínio tem recebido atenção significativa nos últimos anos. Estudos anteriores demonstraram a eficácia de várias estratégias de estímulo para auxiliar LLMs no raciocínio (chamadas "ações de raciocínio"), como pensamento passo a passo, reflexão antes de responder, resolução com programas e suas combinações. No entanto, essas abordagens frequentemente aplicavam ações de raciocínio estáticas e predefinidas uniformemente a todas as perguntas, sem considerar as características específicas de cada pergunta ou a capacidade do LLM de resolver a tarefa. Neste artigo, propomos DOTS, uma abordagem que permite que os LLMs raciocinem de forma dinâmica por meio da busca da trajetória de raciocínio ótima, adaptada às características específicas de cada pergunta e à capacidade inerente do LLM de resolver a tarefa. Nossa abordagem envolve três etapas-chave: i) definição de módulos de ação de raciocínio atômico que podem ser compostos em várias trajetórias de ação de raciocínio; ii) busca da trajetória de ação ótima para cada pergunta de treinamento por meio de exploração iterativa e avaliação para o LLM de resolução de tarefas específico; e iii) uso das trajetórias ótimas coletadas para treinar um LLM a planejar as trajetórias de raciocínio de perguntas não vistas. Em particular, propomos dois paradigmas de aprendizado, ou seja, ajuste fino de um LLM externo como planejador para orientar o LLM de resolução de tarefas, ou ajuste fino direto do LLM de resolução de tarefas com uma capacidade internalizada para o planejamento de ações de raciocínio. Nossos experimentos em oito tarefas de raciocínio mostram que nosso método supera consistentemente técnicas de raciocínio estático e a abordagem de ajuste de instruções padrão. Análises adicionais revelam que nosso método permite que os LLMs ajustem sua computação com base na complexidade do problema, alocando um pensamento e raciocínio mais profundos para problemas mais difíceis.
Os modelos autorregressivos (AR) reformularam a geração de imagens como previsão do próximo token, demonstrando um potencial notável e emergindo como fortes concorrentes aos modelos de difusão. No entanto, a geração de imagem controlada, semelhante ao ControlNet, permanece amplamente inexplorada nos modelos AR. Embora uma abordagem natural, inspirada nos avanços em Grandes Modelos de Linguagem, seja tokenizar imagens de controle em tokens e pré-preenchê-los no modelo autorregressivo antes de decodificar os tokens de imagem, ainda fica aquém em qualidade de geração em comparação com o ControlNet e sofre de ineficiência. Para isso, apresentamos o ControlAR, um framework eficiente e eficaz para integrar controles espaciais em modelos de geração de imagens autorregressivos. Em primeiro lugar, exploramos a codificação de controle para modelos AR e propomos um codificador de controle leve para transformar entradas espaciais (por exemplo, bordas canny ou mapas de profundidade) em tokens de controle. Em seguida, o ControlAR explora o método de decodificação condicional para gerar o próximo token de imagem condicionado à fusão por token entre controles e tokens de imagem, semelhante às codificações posicionais. Em comparação com o pré-preenchimento de tokens, o uso da decodificação condicional fortalece significativamente a capacidade de controle dos modelos AR, mantendo a eficiência do modelo. Além disso, o ControlAR proposto capacita surpreendentemente os modelos AR com geração de imagens de resolução arbitrária via decodificação condicional e controles específicos. Experimentos extensos podem demonstrar a controlabilidade do ControlAR proposto para a geração autorregressiva de imagem controlada em diversos inputs, incluindo bordas, profundidades e máscaras de segmentação. Além disso, tanto os resultados quantitativos quanto qualitativos indicam que o ControlAR supera os modelos de difusão controláveis anteriores de última geração, como o ControlNet++. O código, os modelos e a demonstração em breve estarão disponíveis em https://github.com/hustvl/ControlAR.
A escalabilidade da computação de inferência desbloqueou o potencial de modelos de linguagem grandes de longo contexto (LLMs) em diversos cenários. Para tarefas intensivas em conhecimento, a computação aumentada é frequentemente alocada para incorporar mais conhecimento externo. No entanto, sem utilizar efetivamente esse conhecimento, simplesmente expandir o contexto nem sempre melhora o desempenho. Neste trabalho, investigamos a escalabilidade da inferência para geração aumentada por recuperação (RAG), explorando estratégias além de simplesmente aumentar a quantidade de conhecimento. Concentramo-nos em duas estratégias de escalabilidade da inferência: aprendizado em contexto e solicitações iterativas. Essas estratégias fornecem flexibilidade adicional para escalar a computação no momento do teste (por exemplo, aumentando os documentos recuperados ou os passos de geração), melhorando assim a capacidade dos LLMs de adquirir e utilizar efetivamente informações contextuais. Abordamos duas questões-chave: (1) Como o desempenho do RAG se beneficia da escalabilidade da computação de inferência quando configurado de forma otimizada? (2) Podemos prever a alocação ótima de computação no momento do teste para um determinado orçamento modelando a relação entre o desempenho do RAG e os parâmetros de inferência? Nossas observações revelam que aumentar a computação de inferência leva a ganhos quase lineares no desempenho do RAG quando alocados de forma otimizada, uma relação que descrevemos como as leis de escalabilidade da inferência para o RAG. Com base nisso, desenvolvemos ainda mais o modelo de alocação de computação para estimar o desempenho do RAG em diferentes configurações de inferência. O modelo prevê parâmetros de inferência ótimos sob várias restrições de computação, que estão alinhados de perto com os resultados experimentais. Ao aplicar essas configurações ótimas, demonstramos que a escalabilidade da computação de inferência em LLMs de longo contexto alcança ganhos de até 58,9% em conjuntos de dados de referência em comparação com o RAG padrão.
Os grandes modelos de linguagem (LLMs) impulsionaram avanços significativos em diversas tarefas de Processamento de Linguagem Natural (NLP), com modelos de contexto longo ganhando destaque para lidar com entradas extensas. No entanto, o aumento do tamanho do cache chave-valor (KV) exigido pelas arquiteturas Transformer intensifica as restrições de memória, especialmente durante a fase de decodificação, criando um gargalo significativo. Mecanismos de atenção esparsa existentes projetados para lidar com esse gargalo têm duas limitações: (1) frequentemente falham em identificar de forma confiável os tokens mais relevantes para a atenção e (2) ignoram a coerência espacial da seleção de tokens entre camadas consecutivas do Transformer, o que pode levar à degradação de desempenho e a um overhead substancial na seleção de tokens. Este artigo apresenta o TidalDecode, um algoritmo e sistema simples, porém eficaz, para decodificação rápida e precisa de LLMs por meio de atenção esparsa persistente à posição. O TidalDecode aproveita a coerência espacial dos tokens selecionados por métodos de atenção esparsa existentes e introduz algumas camadas de seleção de tokens que realizam atenção total para identificar os tokens com os maiores escores de atenção, enquanto todas as outras camadas realizam atenção esparsa com os tokens pré-selecionados. Esse projeto permite que o TidalDecode reduza substancialmente o overhead de seleção de tokens para atenção esparsa sem sacrificar a qualidade dos resultados gerados. A avaliação em um conjunto diversificado de LLMs e tarefas mostra que o TidalDecode se equipara de perto ao desempenho generativo de métodos de atenção total, reduzindo a latência de decodificação de LLMs em até 2,1 vezes.
A aprendizagem por reforço a partir do feedback humano (RLHF) demonstrou eficácia em alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. No entanto, o RLHF a nível de token sofre do problema de atribuição de crédito em sequências longas, onde recompensas atrasadas tornam desafiador para o modelo discernir quais ações contribuíram para resultados bem-sucedidos. Isso prejudica a eficiência de aprendizado e retarda a convergência. Neste artigo, propomos MA-RLHF, um framework RLHF simples mas eficaz que incorpora macro ações - sequências de tokens ou construções de linguagem em níveis mais altos - no processo de aprendizado. Ao operar nesse nível mais elevado de abstração, nossa abordagem reduz a distância temporal entre ações e recompensas, facilitando uma atribuição de crédito mais rápida e precisa. Isso resulta em estimativas mais estáveis do gradiente de política e aprimora a eficiência de aprendizado dentro de cada episódio, tudo isso sem aumentar a complexidade computacional durante o treinamento ou inferência. Validamos nossa abordagem por meio de experimentos extensivos em vários tamanhos de modelo e tarefas, incluindo sumarização de texto, geração de diálogo, resposta a perguntas e síntese de programas. Nosso método alcança melhorias de desempenho substanciais em relação ao RLHF padrão, com ganhos de desempenho de até 30% em sumarização de texto e geração de código, 18% em diálogo e 8% em tarefas de resposta a perguntas. Notavelmente, nossa abordagem atinge a paridade com o RLHF convencional 1,7x a 2x mais rapidamente em termos de tempo de treinamento e continua a superá-lo com mais treinamento. Disponibilizaremos nosso código e dados publicamente em https://github.com/ernie-research/MA-RLHF.
Modelos de linguagem de longo contexto (MLLC), caracterizados por sua extensa janela de contexto, estão se tornando cada vez mais populares. Enquanto isso, muitos benchmarks de longo contexto apresentam tarefas desafiadoras que até mesmo os MLLCs mais avançados têm dificuldade em completar. No entanto, as fontes subjacentes de várias tarefas desafiadoras de longo contexto raramente foram estudadas. Para preencher essa lacuna, realizamos experimentos para indicar que sua dificuldade decorre principalmente de dois problemas básicos: "recuperação de múltiplas correspondências", que requer a recuperação simultânea de vários itens, e "recuperação baseada em lógica", que exige julgamento lógico dentro dos critérios de recuperação. Esses dois problemas, embora pareçam simples, na verdade excedem as capacidades dos MLLCs porque são comprovadamente hiper-multietapas (exigindo numerosas etapas para resolver) por natureza. Essa descoberta poderia explicar por que os MLLCs têm dificuldade com tarefas de longo contexto mais avançadas, fornecendo uma perspectiva mais precisa para repensar soluções para elas.
Na modelagem generativa, a tokenização simplifica dados complexos em representações compactas e estruturadas, criando um espaço mais eficiente e passível de aprendizado. Para dados visuais de alta dimensionalidade, ela reduz a redundância e enfatiza características-chave para uma geração de alta qualidade. Os métodos atuais de tokenização visual dependem de um framework tradicional de autoencoder, no qual o codificador comprime os dados em representações latentes, e o decodificador reconstrói a entrada original. Neste trabalho, oferecemos uma nova perspectiva ao propor a remoção de ruído como decodificação, mudando da reconstrução em um único passo para um refinamento iterativo. Especificamente, substituímos o decodificador por um processo de difusão que refina iterativamente o ruído para recuperar a imagem original, guiado pelas latentes fornecidas pelo codificador. Avaliamos nossa abordagem ao analisar tanto a qualidade de reconstrução (rFID) quanto a qualidade de geração (FID), comparando-a com a abordagem de autoencoder de ponta. Esperamos que este trabalho ofereça novas perspectivas sobre a integração de geração iterativa e autoencoding para uma compressão e geração aprimoradas.
Sequências de eventos, caracterizadas por intervalos de amostragem irregulares e uma mistura de características categóricas e numéricas, são estruturas de dados comuns em vários domínios do mundo real, como saúde, finanças e registros de interação do usuário. Apesar dos avanços nas técnicas de modelagem de dados temporais, não existem benchmarks padronizados para avaliar seu desempenho em sequências de eventos. Isso complica a comparação de resultados entre diferentes artigos devido a protocolos de avaliação variados, potencialmente induzindo a erros no progresso deste campo. Apresentamos o EBES, uma ferramenta abrangente de benchmarking com cenários de avaliação e protocolos padronizados, focando em problemas de regressão e classificação com alvos no nível de sequência. Nossa biblioteca simplifica o benchmarking, a adição de conjuntos de dados e a integração de métodos por meio de uma interface unificada. Inclui um conjunto de dados sintéticos inovador e fornece conjuntos de dados do mundo real pré-processados, incluindo o maior conjunto de dados bancários publicamente disponível. Nossos resultados fornecem uma análise detalhada dos conjuntos de dados, identificando alguns como inadequados para comparação de modelos. Investigamos a importância da modelagem de componentes temporais e sequenciais, bem como as propriedades de robustez e escalabilidade dos modelos. Essas descobertas destacam direções potenciais para pesquisas futuras. Nosso objetivo com o benchmark é facilitar a pesquisa reproduzível, acelerar o progresso e aumentar os impactos no mundo real.
Os Modelos de Linguagem em Vídeo de Grande Escala (Video-LLMs) demonstraram capacidades notáveis em compreensão de vídeo em granularidade grosseira, no entanto, enfrentam dificuldades com a fundamentação temporal em granularidade fina. Neste artigo, apresentamos o Grounded-VideoLLM, um novo Video-LLM capaz de perceber e raciocinar sobre momentos específicos de vídeo de maneira detalhada. Identificamos que os atuais Video-LLMs têm limitações para compreensão de vídeo em granularidade fina, uma vez que carecem de modelagem temporal eficaz e representação de timestamp. Diante disso, aprimoramos nosso modelo incorporando (1) um fluxo temporal adicional para codificar as relações entre frames e (2) tokens temporais discretos enriquecidos com conhecimento temporal específico para representar timestamps. Para otimizar o treinamento do Grounded-VideoLLM, empregamos um esquema de treinamento em múltiplas etapas, começando com tarefas simples de legenda de vídeo e introduzindo progressivamente tarefas de fundamentação temporal de vídeo de complexidade crescente. Para aprimorar ainda mais a capacidade de raciocínio temporal do Grounded-VideoLLM, também criamos um conjunto de dados de VideoQA fundamentado por meio de um pipeline de anotação automática. Experimentos extensivos demonstram que o Grounded-VideoLLM não apenas se destaca em tarefas de fundamentação em granularidade fina, como fundamentação de sentenças temporais, legenda densa de vídeo e VideoQA fundamentado, mas também mostra grande potencial como um assistente de vídeo versátil para compreensão geral de vídeo.