Artigos de pesquisa em IA selecionados diariamente com traduções
Documentos empresariais, como formulários, faturas, recibos, relatórios, contratos e outros registros semelhantes, frequentemente carregam uma semântica rica na interseção das modalidades textual e espacial. Os indicadores visuais oferecidos por seus layouts complexos desempenham um papel crucial na compreensão eficaz desses documentos. Neste artigo, apresentamos o DocLLM, uma extensão leve dos modelos de linguagem grandes (LLMs) tradicionais para raciocínio sobre documentos visuais, levando em consideração tanto a semântica textual quanto o layout espacial. Nosso modelo difere dos LLMs multimodais existentes ao evitar codificadores de imagem dispendiosos e focar exclusivamente nas informações de caixas delimitadoras para incorporar a estrutura do layout espacial. Especificamente, o alinhamento cruzado entre as modalidades textual e espacial é capturado pela decomposição do mecanismo de atenção em transformadores clássicos em um conjunto de matrizes desacopladas. Além disso, elaboramos um objetivo de pré-treinamento que aprende a preencher segmentos de texto. Essa abordagem nos permite lidar com layouts irregulares e conteúdo heterogêneo frequentemente encontrados em documentos visuais. O modelo pré-treinado é ajustado usando um grande conjunto de dados de instruções, abrangendo quatro tarefas principais de inteligência documental. Demonstramos que nossa solução supera os LLMs de última geração (SotA) em 14 de 16 conjuntos de dados em todas as tarefas e generaliza bem para 4 de 5 conjuntos de dados previamente não vistos.
Neste artigo, apresentamos um método novo e simples para obter embeddings de texto de alta qualidade utilizando apenas dados sintéticos e menos de 1.000 etapas de treinamento. Diferente de métodos existentes que frequentemente dependem de pré-treinamento intermediário em múltiplas etapas com bilhões de pares de texto fracamente supervisionados, seguido de ajuste fino com alguns conjuntos de dados rotulados, nosso método não requer a construção de pipelines de treinamento complexos ou a dependência de conjuntos de dados coletados manualmente que muitas vezes são limitados pela diversidade de tarefas e cobertura linguística. Utilizamos LLMs proprietários para gerar dados sintéticos diversos para centenas de milhares de tarefas de embedding de texto em quase 100 idiomas. Em seguida, ajustamos LLMs decodificadores de código aberto nos dados sintéticos usando a função de perda contrastiva padrão. Experimentos demonstram que nosso método alcança um desempenho forte em benchmarks altamente competitivos de embedding de texto sem utilizar nenhum dado rotulado. Além disso, quando ajustado com uma mistura de dados sintéticos e rotulados, nosso modelo estabelece novos resultados state-of-the-art nos benchmarks BEIR e MTEB.
Aproveitar o poder dos dados anotados por humanos por meio de Ajuste Fino Supervisionado (SFT) é crucial para o avanço dos Modelos de Linguagem de Grande Escala (LLMs). Neste artigo, exploramos a perspectiva de desenvolver um LLM robusto a partir de um modelo fraco sem a necessidade de adquirir dados adicionais anotados por humanos. Propomos um novo método de ajuste fino chamado Self-Play fIne-tuNing (SPIN), que começa a partir de um modelo ajustado fino de forma supervisionada. No cerne do SPIN está um mecanismo de autojogo, onde o LLM aprimora sua capacidade ao competir contra instâncias de si mesmo. Mais especificamente, o LLM gera seus próprios dados de treinamento a partir de iterações anteriores, refinando sua política ao distinguir essas respostas autogeradas daquelas obtidas de dados anotados por humanos. Nosso método eleva progressivamente o LLM de um modelo inicial para um modelo formidável, desbloqueando todo o potencial dos dados de demonstração anotados por humanos para o SFT. Teoricamente, provamos que o ótimo global da função objetivo de treinamento do nosso método é alcançado apenas quando a política do LLM está alinhada com a distribuição de dados alvo. Empiricamente, avaliamos nosso método em vários conjuntos de dados de referência, incluindo o HuggingFace Open LLM Leaderboard, MT-Bench e conjuntos de dados do Big-Bench. Nossos resultados mostram que o SPIN pode melhorar significativamente o desempenho do LLM em uma variedade de benchmarks e até superar modelos treinados por meio de otimização de preferência direta (DPO) complementada com dados de preferência adicionais do GPT-4. Isso revela o potencial do autojogo, permitindo o alcance de desempenho em nível humano em LLMs sem a necessidade de oponentes especializados.
Recentemente, avanços significativos têm sido observados em modelos de linguagem de grande escala (LLMs), exemplificados pelo ChatGPT, que demonstram proficiência notável em uma variedade de tarefas complexas. No entanto, muitos LLMs mainstream (por exemplo, LLaMA) são pré-treinados em corpora predominantemente em inglês, o que limita seu desempenho em outros idiomas não ingleses. Neste artigo, focamos em como transferir efetivamente as capacidades de geração de linguagem e seguimento de instruções para um idioma não inglês. Para responder a essa questão, conduzimos uma extensa investigação empírica baseada no LLaMA, acumulando mais de 1440 horas de GPU. Analisamos o impacto de fatores-chave, como extensão de vocabulário, pré-treinamento adicional e ajuste de instruções na transferência. Para avaliar com precisão o nível de conhecimento do modelo, empregamos quatro benchmarks de teste padronizados amplamente utilizados: C-Eval, MMLU, AGI-Eval e GAOKAO-Bench. Além disso, uma avaliação abrangente da qualidade da resposta do modelo é realizada, considerando aspectos como precisão, fluência, informatividade, coerência lógica e inocuidade, com base no LLM-Eval, um benchmark composto por tarefas de instrução de 17 categorias diversas. Nossos resultados de avaliação demonstram que um desempenho comparável aos modelos de transferência state-of-the-art pode ser alcançado com menos de 1% dos dados de pré-treinamento, tanto em termos de alinhamento de conhecimento quanto de qualidade de resposta. Além disso, os resultados experimentais em treze idiomas de baixo recurso também exibem tendências semelhantes. Antecipamos que as conclusões reveladas pelos experimentos auxiliarão a comunidade no desenvolvimento de LLMs não ingleses.
As leis de escala de modelos de linguagem de grande porte (LLMs) são fórmulas empíricas que estimam mudanças na qualidade do modelo como resultado do aumento no número de parâmetros e dos dados de treinamento. No entanto, essas fórmulas, incluindo as populares leis de escala Chinchilla da DeepMind, deixam de considerar o custo de inferência. Nós modificamos as leis de escala Chinchilla para calcular o número ideal de parâmetros de um LLM e o tamanho dos dados de pré-treinamento necessários para treinar e implantar um modelo de uma determinada qualidade e demanda de inferência. Realizamos nossa análise tanto em termos de um orçamento de computação quanto de custos do mundo real e descobrimos que pesquisadores de LLMs que esperam uma demanda de inferência razoavelmente grande (~1 bilhão de solicitações) devem treinar modelos menores e por mais tempo do que o ótimo sugerido pela Chinchilla.
Este trabalho explora a capacidade inerente dos LLMs de lidar com contextos longos sem a necessidade de ajuste fino. O comprimento limitado da sequência de treinamento pode restringir a aplicação de Modelos de Linguagem de Grande Escala (LLMs) em sequências de entrada longas durante a inferência. Neste trabalho, argumentamos que os LLMs existentes já possuem capacidades inerentes para lidar com contextos longos. Com base nesse argumento, sugerimos estender a janela de contexto dos LLMs por eles mesmos para aproveitar plenamente essa capacidade inerente. Propomos o Self-Extend para estimular o potencial dos LLMs no tratamento de contextos longos. A ideia básica é construir informações de atenção em dois níveis: o nível do grupo e o nível do vizinho. Os dois níveis são calculados pela auto-atenção original do modelo, o que significa que o método proposto não requer nenhum treinamento adicional. Com apenas quatro linhas de código modificadas, o método proposto pode estender facilmente a janela de contexto dos LLMs existentes sem qualquer ajuste fino. Realizamos experimentos abrangentes e os resultados mostram que o método proposto pode efetivamente estender o comprimento da janela de contexto dos LLMs existentes.
O alto custo do ajuste fino de parâmetros completos (FFT) em Modelos de Linguagem de Grande Escala (LLMs) levou ao desenvolvimento de uma série de métodos de ajuste fino eficiente em parâmetros (PEFT). No entanto, ainda não está claro quais métodos oferecem a melhor relação custo-desempenho em diferentes escalas de modelos. Apresentamos o Astraios, um conjunto de 28 modelos OctoCoder ajustados por instrução, utilizando 7 métodos de ajuste e 4 tamanhos de modelo com até 16 bilhões de parâmetros. Por meio de investigações em 5 tarefas e 8 conjuntos de dados diferentes, abrangendo tanto tarefas de compreensão quanto de geração de código, descobrimos que o FFT geralmente leva ao melhor desempenho downstream em todas as escalas, e os métodos PEFT diferem significativamente em sua eficácia com base na escala do modelo. O LoRA geralmente oferece a relação mais favorável entre custo e desempenho. Uma investigação mais aprofundada sobre os efeitos desses métodos na robustez do modelo e na segurança do código revela que modelos maiores tendem a demonstrar menor robustez e menos segurança. Por fim, exploramos as relações entre parâmetros atualizados, perda de entropia cruzada e desempenho da tarefa. Descobrimos que a eficácia do ajuste observada em modelos menores generaliza bem para modelos maiores, e a perda de validação no ajuste por instrução pode ser um indicador confiável do desempenho geral downstream.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades extraordinárias na compreensão e geração de textos que espelham de perto a comunicação humana. No entanto, uma limitação primária reside nas demandas computacionais significativas durante o treinamento, decorrentes de sua extensa parametrização. Esse desafio é ainda mais intensificado pela natureza dinâmica do mundo, que exige atualizações frequentes dos LLMs para corrigir informações desatualizadas ou integrar novos conhecimentos, garantindo assim sua relevância contínua. Vale ressaltar que muitas aplicações exigem ajustes contínuos do modelo após o treinamento para abordar deficiências ou comportamentos indesejáveis. Há um interesse crescente em métodos eficientes e leves para modificações rápidas do modelo. Nesse sentido, os últimos anos testemunharam um crescimento nas técnicas de edição de conhecimento para LLMs, que visam modificar eficientemente os comportamentos dos LLMs em domínios específicos, preservando o desempenho geral em várias entradas. Neste artigo, primeiro definimos o problema de edição de conhecimento e, em seguida, fornecemos uma revisão abrangente das abordagens de ponta. Inspirados por teorias de pesquisa educacional e cognitiva, propomos um critério de categorização unificado que classifica os métodos de edição de conhecimento em três grupos: recorrer a conhecimento externo, integrar conhecimento ao modelo e editar conhecimento intrínseco. Além disso, introduzimos um novo benchmark, o KnowEdit, para uma avaliação empírica abrangente de abordagens representativas de edição de conhecimento. Adicionalmente, fornecemos uma análise aprofundada da localização do conhecimento, que pode proporcionar uma compreensão mais profunda das estruturas de conhecimento inerentes aos LLMs. Por fim, discutimos várias aplicações potenciais da edição de conhecimento, delineando suas amplas e impactantes implicações.
As recentes inovações e avanços nos modelos de difusão expandiram significativamente as possibilidades de geração de vídeos de alta qualidade para os prompts fornecidos. A maioria dos trabalhos existentes aborda o cenário de cena única, onde apenas um evento de vídeo ocorre em um único fundo. No entanto, estender a geração para vídeos de múltiplas cenas não é trivial e exige um gerenciamento eficiente da lógica entre as cenas, preservando a aparência visual consistente do conteúdo principal ao longo das cenas do vídeo. Neste artigo, propomos uma nova estrutura, denominada VideoDrafter, para a geração de vídeos de múltiplas cenas com consistência de conteúdo. Tecnicamente, o VideoDrafter aproveita os Modelos de Linguagem de Grande Escala (LLM) para converter o prompt de entrada em um roteiro abrangente de múltiplas cenas, beneficiando-se do conhecimento lógico aprendido pelo LLM. O roteiro para cada cena inclui um prompt que descreve o evento, as entidades em primeiro plano/fundo, bem como o movimento da câmera. O VideoDrafter identifica as entidades comuns ao longo do roteiro e solicita ao LLM que detalhe cada entidade. A descrição resultante da entidade é então alimentada em um modelo de texto para imagem para gerar uma imagem de referência para cada entidade. Por fim, o VideoDrafter produz um vídeo de múltiplas cenas gerando cada cena do vídeo por meio de um processo de difusão que leva em consideração as imagens de referência, o prompt descritivo do evento e o movimento da câmera. O modelo de difusão incorpora as imagens de referência como condição e alinhamento para fortalecer a consistência de conteúdo dos vídeos de múltiplas cenas. Experimentos extensivos demonstram que o VideoDrafter supera os modelos de geração de vídeo mais avançados (SOTA) em termos de qualidade visual, consistência de conteúdo e preferência do usuário.
Na evolução do Pré-treinamento Visão-Linguagem, a transição da compreensão de textos curtos para o abrangimento de contextos textuais extensos é crucial. Modelos autoregressivos recentes de visão-linguagem, como Flamingo e Palme, que aproveitam a capacidade de contexto longo dos Modelos de Linguagem de Grande Escala, têm se destacado em tarefas de geração de texto com poucos exemplos, mas enfrentam desafios em tarefas de alinhamento. Para abordar essa lacuna, introduzimos a função de perda contrastiva em modelos de geração de texto, apresentando a estrutura COntrastive-Streamlined MultimOdal (\ModelName), que particiona estrategicamente o modelo de linguagem em componentes dedicados ao processamento unimodal de texto e ao manuseio habilidoso de dados multimodais. \ModelName, nossa estrutura unificada, combina elementos unimodais e multimodais, aprimorando o desempenho do modelo em tarefas que envolvem dados textuais e visuais, enquanto reduz significativamente o número de parâmetros aprendíveis. No entanto, esses modelos exigem extensos conjuntos de dados de texto longo, e a disponibilidade de conjuntos de dados de vídeo-texto longo de alta qualidade ainda é limitada. Para preencher essa lacuna, este trabalho introduz \VideoDatasetName, um conjunto de dados inaugural de vídeo-texto intercalado com legendas abrangentes, representando um avanço significativo. Demonstrando seu impacto, ilustramos como \VideoDatasetName melhora o desempenho do modelo em tarefas de imagem-texto. Com 34% dos parâmetros aprendíveis e utilizando 72% dos dados disponíveis, nosso modelo demonstra uma superioridade significativa em relação ao OpenFlamingo~openflamingo. Por exemplo, na tarefa de legendagem de 4 exemplos do Flickr, o desempenho melhora notavelmente de 57,2% para 65%. As contribuições de \ModelName e \VideoDatasetName são destacadas por ganhos de desempenho notáveis em 14 conjuntos de dados diversos de tarefas subsequentes, abrangendo tanto tarefas de imagem-texto quanto de vídeo-texto.
Dentro das abordagens recentes para geração de texto para vídeo (T2V), alcançar controlabilidade no vídeo sintetizado é frequentemente um desafio. Normalmente, esse problema é abordado fornecendo orientações de baixo nível por quadro na forma de mapas de borda, mapas de profundidade ou um vídeo existente a ser alterado. No entanto, o processo de obtenção de tais orientações pode ser trabalhoso. Este artigo foca em aprimorar a controlabilidade na síntese de vídeo empregando caixas delimitadoras simples para guiar o sujeito de várias maneiras, tudo sem a necessidade de treinamento de redes neurais, ajuste fino, otimização no momento da inferência ou o uso de vídeos pré-existentes. Nosso algoritmo, TrailBlazer, é construído sobre um modelo T2V pré-treinado e é fácil de implementar. O sujeito é direcionado por uma caixa delimitadora através da edição proposta de mapas de atenção espacial e temporal. Além disso, introduzimos o conceito de keyframing, permitindo que a trajetória do sujeito e a aparência geral sejam guiadas tanto por uma caixa delimitadora móvel quanto por prompts correspondentes, sem a necessidade de fornecer uma máscara detalhada. O método é eficiente, com computação adicional insignificante em relação ao modelo pré-treinado subjacente. Apesar da simplicidade da orientação por caixa delimitadora, o movimento resultante é surpreendentemente natural, com efeitos emergentes incluindo perspectiva e movimento em direção à câmera virtual à medida que o tamanho da caixa aumenta.
Os grandes modelos de linguagem (LLMs, na sigla em inglês) têm alcançado avanços significativos no processamento de linguagem natural e estão, simultaneamente, estendendo a capacidade linguística para outras modalidades, como fala e visão. No entanto, a maior parte do trabalho anterior concentra-se em instruir LLMs com habilidades perceptivas, como compreensão auditiva, e a abordagem eficaz para aprimorar LLMs com capacidades de síntese de fala permanece ambígua. Neste artigo, realizamos uma exploração empírica abrangente de como impulsionar LLMs com a capacidade de gerar fala, combinando o LLM pré-treinado LLaMA/OPT e o modelo de síntese de texto para fala VALL-E. Comparamos três métodos de integração entre LLMs e modelos de síntese de fala, incluindo LLMs ajustados diretamente, camadas sobrepostas de LLMs e VALL-E, e LLMs e VALL-E acoplados, utilizando LLMs como um poderoso codificador de texto. Os resultados experimentais mostram que o uso do método LoRA para ajustar diretamente LLMs a fim de melhorar a capacidade de síntese de fala não funciona bem, e LLMs e VALL-E sobrepostos podem melhorar a qualidade da fala gerada tanto na similaridade do falante quanto na taxa de erro de palavras (WER, na sigla em inglês). Entre esses três métodos, os métodos acoplados que utilizam LLMs como codificador de texto podem alcançar o melhor desempenho, superando os modelos originais de síntese de fala com uma similaridade do falante consistentemente melhor e uma redução significativa (10,9%) na WER.
O treinamento de modelos de linguagem em grande escala é cada vez mais crítico em diversos domínios, mas é dificultado por falhas frequentes, resultando em custos significativos de tempo e recursos. Os métodos atuais de recuperação de falhas em ambientes baseados em nuvem não abordam adequadamente os cenários diversos e complexos que surgem, focando-se de forma restrita na eliminação de tempo de inatividade para tarefas individuais, sem considerar o impacto geral nos custos de um cluster. Apresentamos o Unicron, um gerenciador de carga de trabalho projetado para autorrecuperação eficiente no treinamento de modelos de linguagem em grande escala. O Unicron otimiza o processo de treinamento ao minimizar os custos relacionados a falhas em múltiplas tarefas simultâneas dentro de um cluster. Suas principais características incluem detecção de erros em banda para identificação de erros em tempo real sem sobrecarga adicional, um mecanismo dinâmico de geração de planos com consciência de custo para reconfiguração ideal e uma estratégia de transição eficiente para reduzir o tempo de inatividade durante mudanças de estado. Implantado em um cluster distribuído com 128 GPUs, o Unicron demonstra uma melhoria de até 1,9x na eficiência de treinamento em comparação com os métodos mais avançados, reduzindo significativamente os custos de recuperação de falhas e aumentando a confiabilidade do treinamento de modelos de linguagem em grande escala.
Modelos de linguagem de grande escala (LLMs) têm alcançado enorme sucesso devido ao seu conhecimento geral e capacidade de resolver uma ampla gama de tarefas em processamento de linguagem natural (NLP). Devido às suas impressionantes habilidades, os LLMs têm iluminado potenciais aplicações interdisciplinares para promover descobertas científicas em um domínio específico por meio do uso de inteligência artificial (IA para ciência, AI4S). Enquanto isso, a utilização de técnicas de NLP em pesquisas e práticas de geociências é ampla e complexa, contribuindo desde a extração de conhecimento e classificação de documentos até a resposta a perguntas e descoberta de conhecimento. Neste trabalho, damos o primeiro passo para aproveitar os LLMs para a ciência, por meio de uma abordagem bastante direta. Tentamos especializar um LLM em geociências, realizando um pré-treinamento adicional do modelo com uma grande quantidade de textos em geociências, bem como ajustando o modelo resultante com supervisão (SFT) usando nosso conjunto de dados de ajuste de instruções coletado de forma personalizada. Esses esforços resultam em um modelo chamado GeoGalactica, composto por 30 bilhões de parâmetros. Até onde sabemos, é o maior modelo de linguagem para o domínio das geociências. Mais especificamente, o GeoGalactica é derivado de um pré-treinamento adicional do Galactica. Treinamos o GeoGalactica em um corpus de textos relacionados a geociências contendo 65 bilhões de tokens, curados a partir de extensas fontes de dados no grande projeto científico Deep-time Digital Earth (DDE), preservando-se como o maior corpus de textos específicos para geociências. Em seguida, ajustamos o modelo com 1 milhão de pares de dados de ajuste de instruções, consistindo em perguntas que exigem conhecimento profissional em geociências para serem respondidas. Neste relatório técnico, ilustraremos em detalhes todos os aspectos do GeoGalactica, incluindo coleta de dados, limpeza de dados, seleção do modelo base, pré-treinamento, SFT e avaliação. Disponibilizamos publicamente nossas ferramentas de curadoria de dados e os checkpoints do GeoGalactica durante os primeiros 3/4 do pré-treinamento.
Com a rápida evolução dos modelos Text-to-Image (T2I) nos últimos anos, seus resultados de geração insatisfatórios tornaram-se um desafio. No entanto, refinar uniformemente Imagens Geradas por IA (AIGIs) de diferentes qualidades não apenas limitou as capacidades de otimização para AIGIs de baixa qualidade, mas também trouxe otimização negativa para AIGIs de alta qualidade. Para resolver esse problema, é proposto um refinador baseado em qualidade chamado Q-Refine. Com base na preferência do Sistema Visual Humano (HVS), o Q-Refine utiliza a métrica de Avaliação de Qualidade de Imagem (IQA) para guiar o processo de refinamento pela primeira vez, e modifica imagens de diferentes qualidades por meio de três pipelines adaptativos. Experimentos mostram que, para modelos T2I mainstream, o Q-Refine pode realizar otimizações eficazes em AIGIs de diferentes qualidades. Ele pode ser um refinador geral para otimizar AIGIs tanto em termos de fidelidade quanto de qualidade estética, expandindo assim a aplicação dos modelos de geração T2I.
A destilação de escores emergiu como uma das abordagens mais prevalentes para a síntese de ativos 3D a partir de texto. Essencialmente, a destilação de escores atualiza parâmetros 3D ao elevar e retropropagar escores médios calculados sobre diferentes vistas. Neste artigo, revelamos que a estimativa de gradiente na destilação de escores é inerentemente de alta variância. Através da lente da redução de variância, a eficácia de SDS e VSD pode ser interpretada como aplicações de vários variáveis de controle ao estimador de Monte Carlo do escore destilado. Motivados por essa reinterpretação e com base na identidade de Stein, propomos uma solução mais geral para reduzir a variância na destilação de escores, denominada Destilação de Escore de Stein (SSD). A SSD incorpora variáveis de controle construídas pela identidade de Stein, permitindo funções de base arbitrárias. Isso nos possibilita incluir priores de orientação flexíveis e arquiteturas de rede para otimizar explicitamente a redução de variância. Em nossos experimentos, o pipeline geral, chamado SteinDreamer, é implementado ao instanciar a variável de controle com um estimador de profundidade monocular. Os resultados sugerem que a SSD pode efetivamente reduzir a variância da destilação e consistentemente melhorar a qualidade visual tanto para geração em nível de objeto quanto de cena. Além disso, demonstramos que o SteinDreamer alcança convergência mais rápida do que os métodos existentes devido a atualizações de gradiente mais estáveis.