Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o LayerSkip, uma solução de ponta a ponta para acelerar a inferência de modelos de linguagem de grande escala (LLMs). Primeiro, durante o treinamento, aplicamos o dropout de camadas, com taxas de dropout baixas para as camadas iniciais e taxas mais altas para as camadas posteriores, além de uma função de perda de saída antecipada onde todas as camadas do transformer compartilham a mesma saída. Segundo, durante a inferência, demonstramos que essa abordagem de treinamento aumenta a precisão da saída antecipada nas camadas iniciais, sem adicionar camadas ou módulos auxiliares ao modelo. Terceiro, apresentamos uma nova solução de decodificação auto-especulativa, onde saímos nas camadas iniciais e verificamos e corrigimos com as camadas restantes do modelo. Nossa abordagem proposta de decodificação auto-especulativa tem uma pegada de memória menor do que outras abordagens de decodificação especulativa e se beneficia do compartilhamento de computação e ativações entre as etapas de rascunho e verificação. Realizamos experimentos em diferentes tamanhos de modelos Llama em diferentes tipos de treinamento: pré-treinamento do zero, pré-treinamento contínuo, ajuste fino em domínios de dados específicos e ajuste fino em tarefas específicas. Implementamos nossa solução de inferência e mostramos acelerações de até 2,16x na sumarização de documentos CNN/DM, 1,82x em codificação e 2,0x na tarefa de análise semântica TOPv2. Disponibilizamos nosso código e checkpoints em https://github.com/facebookresearch/LayerSkip.
Neste relatório, apresentamos o InternVL 1.5, um modelo de linguagem multimodal de grande escala (MLLM) de código aberto, projetado para reduzir a lacuna de capacidade entre modelos de código aberto e modelos comerciais proprietários na compreensão multimodal. Introduzimos três melhorias simples: (1) Codificador Visual Forte: exploramos uma estratégia de aprendizado contínuo para o modelo de base visual em larga escala -- InternViT-6B, aumentando suas capacidades de compreensão visual e permitindo que ele seja transferido e reutilizado em diferentes LLMs. (2) Resolução Dinâmica de Alta Definição: dividimos as imagens em blocos que variam de 1 a 40 de 448x448 pixels, de acordo com a proporção e resolução das imagens de entrada, suportando entradas de até 4K de resolução. (3) Conjunto de Dados Bilíngue de Alta Qualidade: coletamos cuidadosamente um conjunto de dados bilíngue de alta qualidade que abrange cenas comuns, imagens de documentos, e as anotamos com pares de perguntas e respostas em inglês e chinês, melhorando significativamente o desempenho em tarefas relacionadas a OCR e ao idioma chinês. Avaliamos o InternVL 1.5 por meio de uma série de benchmarks e estudos comparativos. Em comparação com modelos de código aberto e proprietários, o InternVL 1.5 demonstra desempenho competitivo, alcançando resultados de ponta em 8 dos 18 benchmarks. O código foi disponibilizado em https://github.com/OpenGVLab/InternVL.
Embora muitos modelos de linguagem de grande escala (LLMs) contemporâneos possam processar entradas extensas, eles ainda enfrentam dificuldades para utilizar plenamente as informações dentro de contextos longos, um desafio conhecido como "lost-in-the-middle" (perdido-no-meio). Nossa hipótese é que isso decorre de supervisão explícita insuficiente durante o treinamento de contextos longos, que não enfatiza que qualquer posição em um contexto longo pode conter informações cruciais. Com base nessa intuição, nosso estudo apresenta o treinamento intensivo em informações (IN2), uma solução puramente orientada por dados para superar o problema do "lost-in-the-middle". Especificamente, o treinamento IN2 utiliza um conjunto de dados sintetizado de perguntas e respostas de contexto longo, onde a resposta requer (1) consciência de informações em nível granular em um segmento curto (~128 tokens) dentro de um contexto longo sintetizado (4K-32K tokens), e (2) a integração e raciocínio de informações de dois ou mais segmentos curtos. Ao aplicar esse treinamento intensivo em informações ao Mistral-7B, apresentamos o FILM-7B (FILl-in-the-Middle). Para avaliar minuciosamente a capacidade do FILM-7B de utilizar contextos longos, projetamos três tarefas de sondagem que abrangem diversos estilos de contexto (documento, código e contexto de dados estruturados) e padrões de recuperação de informações (recuperação direta, inversa e bidirecional). Os resultados das sondagens demonstram que o FILM-7B pode recuperar informações de forma robusta em diferentes posições em sua janela de contexto de 32K. Além dessas tarefas de sondagem, o FILM-7B melhora significativamente o desempenho em tarefas reais de contexto longo (por exemplo, pontuação F1 de 23,5->26,9 no NarrativeQA), enquanto mantém um desempenho comparável em tarefas de contexto curto (por exemplo, precisão de 59,3->59,2 no MMLU). Link do Github: https://github.com/microsoft/FILM.
A geração de objetos 3D passou por avanços significativos, produzindo resultados de alta qualidade. No entanto, ainda não alcança um controle preciso do usuário, frequentemente gerando resultados que não atendem às expectativas, limitando assim sua aplicabilidade. A geração de objetos 3D conforme a visão do usuário enfrenta desafios significativos para concretizar seus conceitos usando os modelos generativos atuais, devido às capacidades limitadas de interação. Os métodos existentes oferecem principalmente duas abordagens: (i) interpretação de instruções textuais com controlabilidade restrita, ou (ii) reconstrução de objetos 3D a partir de imagens 2D. Ambas limitam a personalização aos limites da referência 2D e podem introduzir artefatos indesejados durante o processo de elevação para 3D, restringindo a possibilidade de modificações 3D diretas e versáteis. Neste trabalho, apresentamos o Interactive3D, uma estrutura inovadora para geração interativa de 3D que concede aos usuários controle preciso sobre o processo generativo por meio de amplas capacidades de interação 3D. O Interactive3D é construído em dois estágios em cascata, utilizando representações 3D distintas. O primeiro estágio emprega o Gaussian Splatting para interação direta do usuário, permitindo modificações e orientação da direção generativa em qualquer etapa intermediária através de (i) Adição e Remoção de componentes, (ii) Arrasto Deformável e Rígido, (iii) Transformações Geométricas e (iv) Edição Semântica. Posteriormente, os splats gaussianos são transformados em InstantNGP. Introduzimos um novo módulo de (v) Refinamento de Hash Interativo para adicionar mais detalhes e extrair a geometria no segundo estágio. Nossos experimentos demonstram que o Interactive3D melhora significativamente a controlabilidade e a qualidade da geração 3D. A página do nosso projeto está disponível em https://interactive-3d.github.io/.
Tecnologias baseadas em difusão têm alcançado avanços significativos, especialmente na geração personalizada e customizada de rostos. No entanto, os métodos existentes enfrentam desafios para atingir alta fidelidade e consistência detalhada de identidade (ID), principalmente devido ao controle insuficiente em áreas específicas do rosto e à falta de uma estratégia abrangente para preservação de ID, que considere plenamente os detalhes faciais intrincados e o rosto como um todo. Para superar essas limitações, apresentamos o ConsistentID, um método inovador projetado para a geração diversificada de retratos com preservação de identidade sob prompts faciais multimodais de granularidade fina, utilizando apenas uma única imagem de referência. O ConsistentID consiste em dois componentes principais: um gerador de prompts faciais multimodais que combina características faciais, descrições faciais correspondentes e o contexto facial geral para aprimorar a precisão dos detalhes faciais, e uma rede de preservação de ID otimizada por meio de uma estratégia de localização de atenção facial, voltada para manter a consistência de ID nas regiões faciais. Juntos, esses componentes melhoram significativamente a precisão da preservação de ID ao introduzir informações multimodais de ID de granularidade fina provenientes das regiões faciais. Para facilitar o treinamento do ConsistentID, apresentamos um conjunto de dados de retratos de granularidade fina, o FGID, com mais de 500.000 imagens faciais, oferecendo maior diversidade e abrangência em comparação com conjuntos de dados faciais públicos existentes. % como LAION-Face, CelebA, FFHQ e SFHQ. Resultados experimentais comprovam que o ConsistentID alcança precisão e diversidade excepcionais na geração de rostos personalizados, superando métodos existentes no conjunto de dados MyStyle. Além disso, embora o ConsistentID introduza mais informações multimodais de ID, ele mantém uma velocidade de inferência rápida durante a geração.
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades profundas em compreensão e geração de linguagem, facilitando uma ampla gama de aplicações. No entanto, há uma notável escassez de metodologias detalhadas e de código aberto sobre como escalar eficientemente LLMs além de 50 bilhões de parâmetros com custo mínimo de tentativa e erro e recursos computacionais. Neste relatório, apresentamos o Tele-FLM (também conhecido como FLM-2), um modelo de linguagem de grande escala multilíngue de 52 bilhões de parâmetros de código aberto que apresenta um paradigma de pré-treinamento estável e eficiente, além de capacidades aprimoradas de julgamento factual. O Tele-FLM demonstra habilidades superiores de modelagem de linguagem multilíngue, medidas por BPB em corpus textuais. Além disso, tanto na avaliação de modelos base em inglês quanto em chinês, ele é comparável a modelos de código aberto robustos que envolvem maiores FLOPs de pré-treinamento, como o Llama2-70B e o DeepSeek-67B. Além dos pesos do modelo, compartilhamos os principais designs, práticas de engenharia e detalhes de treinamento, que esperamos beneficiar tanto a comunidade acadêmica quanto a industrial.
O Prompting Set-of-Mark (SoM) libera a capacidade de ancoragem visual do GPT-4V, permitindo que o modelo associe objetos visuais a tags inseridas na imagem. Essas tags, marcadas com alfanuméricos, podem ser indexadas por meio de tokens de texto para fácil referência. Apesar do desempenho extraordinário do GPT-4V, observamos que outros Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm dificuldade em compreender essas tags visuais. Para promover o aprendizado do prompting SoM em modelos de código aberto, propomos um novo paradigma de aprendizado: "listar itens um por um", que solicita ao modelo enumerar e descrever todas as tags visuais colocadas na imagem, seguindo a ordem alfanumérica das tags. Ao integrar nosso conjunto de dados curado com outros conjuntos de dados de ajuste fino de instruções visuais, conseguimos equipar MLLMs existentes com a capacidade de prompting SoM. Além disso, avaliamos nossos modelos SoM ajustados em cinco benchmarks de MLLM. Descobrimos que esse novo conjunto de dados, mesmo em um tamanho relativamente pequeno (10k-30k imagens com tags), melhora significativamente as capacidades de raciocínio visual e reduz alucinações em MLLMs. Talvez surpreendentemente, essas melhorias persistem mesmo quando as tags visuais são omitidas das imagens de entrada durante a inferência. Isso sugere o potencial de "listar itens um por um" como um novo paradigma para treinar MLLMs, que fortalece o alinhamento objeto-texto por meio do uso de tags visuais na etapa de treinamento. Por fim, realizamos análises ao investigar modelos treinados para entender o mecanismo de funcionamento do SoM. Nosso código e dados estão disponíveis em https://github.com/zzxslp/SoM-LLaVA.
Embora os modelos generativos de texto para imagem (T2I) tenham se tornado onipresentes, eles nem sempre geram imagens que se alinham com um prompt fornecido. Embora trabalhos anteriores tenham avaliado o alinhamento de T2I propondo métricas, benchmarks e templates para coletar julgamentos humanos, a qualidade desses componentes não é sistematicamente medida. Os conjuntos de prompts avaliados por humanos geralmente são pequenos, e a confiabilidade das avaliações — e, consequentemente, do conjunto de prompts usado para comparar modelos — não é avaliada. Nós abordamos essa lacuna realizando um estudo extensivo que avalia métricas de autoavaliação e templates humanos. Fornecemos três contribuições principais: (1) Introduzimos um benchmark abrangente baseado em habilidades que pode discriminar modelos em diferentes templates humanos. Esse benchmark baseado em habilidades categoriza os prompts em sub-habilidades, permitindo que um praticante identifique não apenas quais habilidades são desafiadoras, mas também em qual nível de complexidade uma habilidade se torna desafiadora. (2) Coletamos avaliações humanas em quatro templates e quatro modelos T2I, totalizando mais de 100 mil anotações. Isso nos permite entender onde as diferenças surgem devido à ambiguidade inerente no prompt e onde surgem devido a diferenças na qualidade da métrica e do modelo. (3) Por fim, introduzimos uma nova métrica de autoavaliação baseada em perguntas e respostas (QA) que apresenta uma correlação melhor com as avaliações humanas do que as métricas existentes, tanto para nosso novo conjunto de dados quanto em diferentes templates humanos e no TIFA160.
Apresentamos o NeRF-XL, um método fundamentado para distribuir Campos de Radiação Neural (NeRFs) em múltiplas GPUs, permitindo assim o treinamento e renderização de NeRFs com capacidade arbitrariamente grande. Começamos revisitando abordagens existentes de multi-GPU, que decompõem cenas grandes em múltiplos NeRFs treinados de forma independente, e identificamos vários problemas fundamentais nesses métodos que impedem melhorias na qualidade de reconstrução à medida que recursos computacionais adicionais (GPUs) são utilizados no treinamento. O NeRF-XL resolve esses problemas e permite o treinamento e renderização de NeRFs com um número arbitrário de parâmetros simplesmente utilizando mais hardware. No cerne do nosso método está uma nova formulação de treinamento e renderização distribuída, que é matematicamente equivalente ao caso clássico de GPU única e minimiza a comunicação entre as GPUs. Ao desbloquear NeRFs com contagens de parâmetros arbitrariamente grandes, nossa abordagem é a primeira a revelar leis de escalabilidade de multi-GPU para NeRFs, mostrando melhorias na qualidade de reconstrução com contagens maiores de parâmetros e ganhos de velocidade com mais GPUs. Demonstramos a eficácia do NeRF-XL em uma ampla variedade de conjuntos de dados, incluindo o maior conjunto de dados de código aberto até o momento, o MatrixCity, que contém 258 mil imagens cobrindo uma área de 25 km² de uma cidade.
Compreender conteúdo visual rico em texto é fundamental para a aplicação prática de Modelos de Linguagem Multimodais de Grande Escala (MLLMs), uma vez que cenários ricos em texto são ubíquos no mundo real, caracterizados pela presença de textos extensos embutidos em imagens. Recentemente, o advento de MLLMs com impressionante versatilidade elevou as expectativas em relação ao que podemos esperar desses modelos. No entanto, sua proficiência em cenários ricos em texto ainda não foi avaliada de forma abrangente e objetiva, já que os benchmarks atuais de MLLMs focam principalmente na avaliação da compreensão visual geral. Neste trabalho, apresentamos o SEED-Bench-2-Plus, um benchmark projetado especificamente para avaliar a compreensão visual rica em texto de MLLMs. Nosso benchmark consiste em 2,3 mil perguntas de múltipla escolha com anotações humanas precisas, abrangendo três categorias amplas: Gráficos, Mapas e Páginas da Web, cada uma das quais cobre um amplo espectro de cenários ricos em texto no mundo real. Essas categorias, devido à sua complexidade e diversidade inerentes, simulam efetivamente ambientes reais ricos em texto. Além disso, realizamos uma avaliação detalhada envolvendo 34 MLLMs proeminentes (incluindo GPT-4V, Gemini-Pro-Vision e Claude-3-Opus) e destacamos as limitações atuais dos MLLMs na compreensão visual rica em texto. Esperamos que nosso trabalho possa servir como uma adição valiosa aos benchmarks existentes de MLLMs, fornecendo observações perspicazes e inspirando pesquisas futuras na área de compreensão visual rica em texto com MLLMs. O conjunto de dados e o código de avaliação podem ser acessados em https://github.com/AILab-CVC/SEED-Bench.