Artigos de pesquisa em IA selecionados diariamente com traduções
Embora a previsão do próximo token seja considerada um caminho promissor em direção à inteligência artificial geral, tem lutado para se destacar em tarefas multimodais, que ainda são dominadas por modelos de difusão (por exemplo, Difusão Estável) e abordagens composicionais (por exemplo, CLIP combinado com LLMs). Neste artigo, apresentamos Emu3, um novo conjunto de modelos multimodais de ponta treinados exclusivamente com previsão do próximo token. Ao tokenizar imagens, texto e vídeos em um espaço discreto, treinamos um único transformer do zero em uma mistura de sequências multimodais. Emu3 supera vários modelos específicos de tarefas bem estabelecidos em tarefas de geração e percepção, ultrapassando modelos principais como SDXL e LLaVA-1.6, eliminando a necessidade de arquiteturas de difusão ou composicionais. Emu3 também é capaz de gerar vídeos de alta fidelidade prevendo o próximo token em uma sequência de vídeo. Simplificamos os projetos de modelos multimodais complexos ao convergir para um foco singular: tokens, desbloqueando um grande potencial para escalar tanto durante o treinamento quanto na inferência. Nossos resultados demonstram que a previsão do próximo token é um caminho promissor para construir inteligência multimodal geral além da linguagem. Disponibilizamos técnicas e modelos-chave de código aberto para apoiar pesquisas adicionais nessa direção.
Neste artigo, apresentamos MIO, um modelo de base inovador construído em tokens multimodais, capaz de compreender e gerar fala, texto, imagens e vídeos de forma autoregressiva e de ponta a ponta. Enquanto o surgimento de grandes modelos de linguagem (LLMs) e grandes modelos de linguagem multimodais (MM-LLMs) impulsiona avanços na inteligência artificial geral por meio de suas capacidades versáteis, eles ainda carecem de compreensão e geração verdadeiramente qualquer-para-qualquer. Recentemente, o lançamento do GPT-4o destacou o potencial notável de LLMs qualquer-para-qualquer para tarefas complexas do mundo real, possibilitando entrada e saída omnidirecionais em imagens, fala e texto. No entanto, ele é de código fechado e não suporta a geração de sequências multimodais entrelaçadas. Para abordar essa lacuna, apresentamos o MIO, que é treinado em uma mistura de tokens discretos em quatro modalidades usando modelagem multimodal causal. O MIO passa por um processo de treinamento em quatro etapas: (1) pré-treinamento de alinhamento, (2) pré-treinamento entrelaçado, (3) pré-treinamento aprimorado por fala e (4) ajuste fino supervisionado abrangente em tarefas textuais, visuais e de fala diversas. Nossos resultados experimentais indicam que o MIO apresenta desempenho competitivo e, em alguns casos, superior em comparação com baselines anteriores de modalidade dupla, baselines qualquer-para-qualquer e até mesmo baselines específicos de modalidade. Além disso, o MIO demonstra capacidades avançadas inerentes à sua característica qualquer-para-qualquer, como geração de vídeo-texto entrelaçado, raciocínio em cadeia de pensamento visual, geração de diretrizes visuais, edição de imagem instrucional, etc.
A honestidade é um princípio fundamental para alinhar os grandes modelos de linguagem (LLMs) com os valores humanos, exigindo que esses modelos reconheçam o que sabem e o que não sabem e sejam capazes de expressar fielmente seu conhecimento. Apesar de promissores, os LLMs atuais ainda apresentam comportamentos significativamente desonestos, como apresentar respostas erradas com confiança ou falhar em expressar o que sabem. Além disso, a pesquisa sobre a honestidade dos LLMs também enfrenta desafios, incluindo definições variadas de honestidade, dificuldades em distinguir entre conhecimento conhecido e desconhecido, e uma falta de compreensão abrangente da pesquisa relacionada. Para lidar com essas questões, fornecemos uma pesquisa sobre a honestidade dos LLMs, abrangendo sua clarificação, abordagens de avaliação e estratégias para melhoria. Além disso, oferecemos insights para pesquisas futuras, com o objetivo de inspirar uma exploração mais aprofundada nessa área importante.
A análise de conteúdo de documentos tem sido uma área de pesquisa crucial em visão computacional. Apesar dos avanços significativos em métodos como OCR, detecção de layout e reconhecimento de fórmulas, as soluções de código aberto existentes lutam para fornecer consistentemente extração de conteúdo de alta qualidade devido à diversidade em tipos e conteúdos de documentos. Para enfrentar esses desafios, apresentamos o MinerU, uma solução de código aberto para extração de conteúdo de documentos de alta precisão. O MinerU utiliza os modelos sofisticados do PDF-Extract-Kit para extrair conteúdo de documentos diversos de forma eficaz e emprega regras de pré-processamento e pós-processamento afinadas para garantir a precisão dos resultados finais. Resultados experimentais demonstram que o MinerU alcança consistentemente alto desempenho em vários tipos de documentos, melhorando significativamente a qualidade e consistência da extração de conteúdo. O projeto de código aberto MinerU está disponível em https://github.com/opendatalab/MinerU.
O dimensionamento do tamanho do modelo desafia significativamente a implantação e inferência de Modelos de Linguagem Grandes (LLMs). Devido à redundância nos pesos do LLM, pesquisas recentes têm se concentrado em empurrar a quantização baseada apenas em pesos para um número extremamente baixo de bits (mesmo chegando a 2 bits). Isso reduz os requisitos de memória, otimiza os custos de armazenamento e diminui as necessidades de largura de banda de memória durante a inferência. No entanto, devido às limitações de representação numérica, a quantização de pesos baseada em escalares tradicionais tem dificuldade em alcançar um número tão baixo de bits. Pesquisas recentes sobre Quantização de Vetores (VQ) para LLMs têm demonstrado o potencial de quantização de modelos com um número extremamente baixo de bits comprimindo vetores em índices usando tabelas de pesquisa. Neste artigo, introduzimos a Quantização de Vetores Pós-Treinamento (VPTQ) para quantização de LLMs com um número extremamente baixo de bits. Utilizamos Otimização de Segunda Ordem para formular o problema de VQ do LLM e guiar o design do nosso algoritmo de quantização resolvendo a otimização. Refinamos ainda mais os pesos usando Otimização de Segunda Ordem Independente de Canal para uma VQ granular. Além disso, ao decompor o problema de otimização, propomos um algoritmo de inicialização de livro de códigos breve e eficaz. Também estendemos o VPTQ para suportar quantização residual e de outliers, o que melhora a precisão do modelo e comprime ainda mais o modelo. Nossos resultados experimentais mostram que o VPTQ reduz a perplexidade de quantização do modelo em 0.01-0.34 no LLaMA-2, 0.38-0.68 no Mistral-7B, 4.41-7.34 no LLaMA-3 em relação ao SOTA com 2 bits, com uma melhoria média de precisão de 0.79-1.5% no LLaMA-2, 1% no Mistral-7B, 11-22% no LLaMA-3 em tarefas de QA em média. Utilizamos apenas 10.4-18.6% do tempo de execução do algoritmo de quantização, resultando em um aumento de 1.6-1.8 vezes no throughput de inferência em comparação com o SOTA.
Apresentamos o PhysGen, um novo método de geração de imagem para vídeo que converte uma única imagem e uma condição de entrada (por exemplo, força e torque aplicados a um objeto na imagem) para produzir um vídeo realista, fisicamente plausível e temporalmente consistente. Nosso insight chave é integrar simulação física baseada em modelo com um processo de geração de vídeo baseado em dados, permitindo dinâmicas plausíveis no espaço da imagem. No cerne do nosso sistema estão três componentes principais: (i) um módulo de compreensão de imagem que captura efetivamente a geometria, materiais e parâmetros físicos da imagem; (ii) um modelo de simulação de dinâmica no espaço da imagem que utiliza física de corpos rígidos e parâmetros inferidos para simular comportamentos realistas; e (iii) um módulo de renderização e refinamento baseado em imagem que aproveita a difusão de vídeo generativa para produzir filmagens realistas apresentando o movimento simulado. Os vídeos resultantes são realistas tanto em física quanto em aparência e são até mesmo precisamente controláveis, demonstrando resultados superiores em comparação quantitativa e estudo abrangente de usuários em relação a trabalhos existentes de geração de imagem para vídeo baseados em dados. Os vídeos resultantes do PhysGen podem ser usados para várias aplicações subsequentes, como transformar uma imagem em uma animação realista ou permitir que os usuários interajam com a imagem e criem várias dinâmicas. Página do projeto: https://stevenlsw.github.io/physgen/
Os métodos de otimização de preferências geralmente iniciam o treinamento com um modelo SFT bem treinado como modelo de referência. No RLHF e DPO, um termo de regularização é utilizado durante o processo de otimização de preferências para evitar que o modelo de política se desvie muito da distribuição do modelo de referência, evitando assim a geração de respostas anômalas. Quando o modelo de referência já está bem alinhado com os dados fornecidos ou requer apenas ajustes leves, essa abordagem pode produzir um modelo bem alinhado. No entanto, se o modelo de referência não estiver alinhado com os dados fornecidos e exigir desvios significativos de seu estado atual, um termo de regularização pode, na verdade, prejudicar o alinhamento do modelo. Neste estudo, propomos a Otimização de Preferência com Intervenção Modulada (MIPO) para lidar com esse problema. O MIPO modula o grau de intervenção a partir do modelo de referência com base em quão bem os dados fornecidos estão alinhados com ele. Se os dados estiverem bem alinhados, a intervenção é aumentada para evitar que o modelo de política se afaste significativamente do modelo de referência. Por outro lado, se o alinhamento for ruim, a interferência é reduzida para facilitar um treinamento mais extensivo. Comparamos o desempenho do MIPO e DPO usando Mistral-7B e Llama3-8B no Alpaca Eval 2.0 e MT-Bench. Os resultados experimentais demonstram que o MIPO consistentemente supera o DPO em vários cenários de avaliação.
Este artigo apresenta uma nova abordagem para utilizar Modelos de Linguagem de Grande Escala (LLMs) em tarefas de classificação, que são tipicamente tratadas usando Modelos de Aprendizado de Máquina (ML). Ao contrário dos modelos de ML que dependem fortemente da limpeza de dados e engenharia de características, este método simplifica o processo utilizando LLMs. Este artigo propõe um novo conceito chamado "Aprendizado de Modelo de Linguagem (LML)" impulsionado por um novo método chamado "Predição com Dados Ampliados (DAP)". A classificação é realizada pelos LLMs usando um método semelhante ao de humanos explorando manualmente e compreendendo os dados e decidindo classificações usando os dados como referência. Os dados de treinamento são resumidos e avaliados para determinar as características que mais levam à classificação de cada rótulo. No processo de DAP, o sistema utiliza o resumo dos dados para criar automaticamente uma consulta, que é usada para recuperar linhas relevantes do conjunto de dados. Uma classificação é gerada pelo LLM usando o resumo dos dados e as linhas relevantes, garantindo uma precisão satisfatória mesmo com dados complexos. O uso do resumo dos dados e dados semelhantes no DAP garante a tomada de decisões contextualmente consciente. O método proposto utiliza as palavras "Atuar como um Modelo de Aprendizado de Máquina Explicável" na solicitação para aprimorar a interpretabilidade das previsões, permitindo que os usuários revisem a lógica por trás de cada previsão. Em alguns casos de teste, o sistema obteve uma precisão acima de 90%, comprovando a eficácia do sistema e seu potencial para superar os modelos de ML convencionais em vários cenários. O código está disponível em https://github.com/Pro-GenAI/LML-DAP
A memória de longo prazo é significativa para agentes, nos quais insights desempenham um papel crucial. No entanto, o surgimento de insights irrelevantes e a falta de insight geral podem minar significativamente a eficácia do insight. Para resolver esse problema, neste artigo, apresentamos o Agente de Insight Multi-Escala (MSI-Agent), um agente incorporado projetado para melhorar a capacidade de planejamento e tomada de decisão de LLMs, resumindo e utilizando insight de forma eficaz em diferentes escalas. O MSI alcança isso por meio do seletor de experiência, gerador de insight e seletor de insight. Aproveitando um pipeline de três partes, o MSI pode gerar insight específico para tarefas e de alto nível, armazená-lo em um banco de dados e, em seguida, usar o insight relevante dele para auxiliar na tomada de decisões. Nossos experimentos mostram que o MSI supera outra estratégia de insight ao planejar com o GPT3.5. Além disso, exploramos as estratégias para selecionar experiência inicial e insight, com o objetivo de fornecer mais insight útil e relevante para LLM para uma melhor tomada de decisão. Nossas observações também indicam que o MSI demonstra uma melhor robustez ao enfrentar cenários de mudança de domínio.
Apesar dos avanços recentes em modelos de linguagem grandes (LLMs), seu desempenho em problemas de raciocínio complexo que exigem pensamento de vários passos e combinação de várias habilidades ainda é limitado. Para lidar com isso, propomos um novo framework HDFlow para raciocínio complexo com LLMs que combina modos de pensamento rápido e lento de maneira adaptativa. Nossa abordagem consiste em dois componentes principais: 1) uma nova abordagem para raciocínio lento e deliberado chamada Fluxo Dinâmico, que decomponha automaticamente problemas complexos em subtarefas mais gerenciáveis e projeta dinamicamente um fluxo de trabalho para montar LLMs especializados ou ferramentas de raciocínio simbólico para resolver subtarefas; 2) Pensamento Híbrido, um framework geral que combina dinamicamente pensamento rápido e lento com base na complexidade do problema. Finalmente, propomos um método fácil de escalar para sintetizar automaticamente um conjunto de dados em grande escala com 27 mil problemas desafiadores para raciocínio complexo e um método de ajuste de pensamento híbrido que treina LLMs menores neste conjunto de dados para internalizar as estratégias de raciocínio híbrido rápido/lento. Experimentos em quatro conjuntos de dados de referência de raciocínio demonstram que nosso pensamento lento com fluxos de trabalho dinâmicos supera significativamente a Cadeia de Pensamento, e o pensamento híbrido alcança a maior precisão, proporcionando um equilíbrio eficaz entre eficiência computacional e desempenho. O ajuste fino usando nossa abordagem de pensamento híbrido também impulsiona significativamente as capacidades de raciocínio complexo de modelos de linguagem de código aberto. Os resultados destacam a promessa do pensamento lento, fluxos de trabalho dinâmicos e pensamento híbrido na expansão da fronteira da resolução de problemas complexos com LLMs. O código e os dados serão disponibilizados em \url{https://github.com/wenlinyao/HDFlow.}.