Artigos de pesquisa em IA selecionados diariamente com traduções
Métodos anteriores de pré-treinamento de modelos de linguagem aplicaram uniformemente uma perda de previsão do próximo token a todos os tokens de treinamento. Desafiando essa norma, propomos que "Nem todos os tokens em um corpus são igualmente importantes para o treinamento de modelos de linguagem". Nossa análise inicial explora a dinâmica de treinamento em nível de token de modelos de linguagem, revelando padrões distintos de perda para diferentes tokens. Aproveitando esses insights, introduzimos um novo modelo de linguagem chamado Rho-1. Diferente dos modelos de linguagem tradicionais que aprendem a prever cada próximo token em um corpus, o Rho-1 emprega a Modelagem de Linguagem Seletiva (SLM), que treina seletivamente em tokens úteis alinhados com a distribuição desejada. Essa abordagem envolve a pontuação de tokens de pré-treinamento usando um modelo de referência e, em seguida, o treinamento do modelo de linguagem com uma perda focada em tokens com maior perda excessiva. Quando pré-treinado continuamente no corpus OpenWebMath de 15 bilhões de tokens, o Rho-1 proporciona uma melhoria absoluta na precisão de poucos exemplos de até 30% em 9 tarefas matemáticas. Após o ajuste fino, o Rho-1-1B e o 7B alcançaram resultados de ponta de 40,6% e 51,8% no conjunto de dados MATH, respectivamente - igualando o desempenho do DeepSeekMath com apenas 3% dos tokens de pré-treinamento. Além disso, quando pré-treinado em 80 bilhões de tokens gerais, o Rho-1 alcança um aprimoramento médio de 6,8% em 15 tarefas diversas, aumentando tanto a eficiência quanto o desempenho do pré-treinamento de modelos de linguagem.
Agentes autônomos que realizam tarefas complexas em computadores com intervenção humana mínima têm o potencial de transformar a interação humano-computador, aumentando significativamente a acessibilidade e a produtividade. No entanto, os benchmarks existentes ou carecem de um ambiente interativo ou estão limitados a ambientes específicos para determinadas aplicações ou domínios, falhando em refletir a natureza diversa e complexa do uso real de computadores, limitando assim o escopo de tarefas e a escalabilidade dos agentes. Para resolver essa questão, introduzimos o OSWorld, o primeiro ambiente de computador real escalável para agentes multimodais, que suporta a configuração de tarefas, avaliação baseada em execução e aprendizado interativo em diversos sistemas operacionais, como Ubuntu, Windows e macOS. O OSWorld pode servir como um ambiente de computador unificado e integrado para avaliar tarefas de computador abertas que envolvem aplicações arbitrárias. Com base no OSWorld, criamos um benchmark de 369 tarefas de computador envolvendo aplicativos reais da web e desktop em domínios abertos, operações de I/O de arquivos do sistema operacional e fluxos de trabalho que abrangem múltiplas aplicações. Cada exemplo de tarefa é derivado de casos de uso real de computadores e inclui uma configuração detalhada do estado inicial e um script de avaliação baseado em execução personalizado para avaliação confiável e reproduzível. Uma avaliação extensiva de agentes baseados em LLM/VLM de última geração no OSWorld revela deficiências significativas em sua capacidade de atuar como assistentes de computador. Enquanto os humanos conseguem realizar mais de 72,36% das tarefas, o melhor modelo alcança apenas 12,24% de sucesso, principalmente lutando com a fundamentação de GUI e o conhecimento operacional. A análise abrangente usando o OSWorld fornece insights valiosos para o desenvolvimento de agentes generalistas multimodais que não eram possíveis com benchmarks anteriores. Nosso código, ambiente, modelos de base e dados estão publicamente disponíveis em https://os-world.github.io.
Para melhorar a controlabilidade dos modelos de difusão de texto para imagem, esforços existentes, como o ControlNet, incorporaram controles condicionais baseados em imagem. Neste artigo, revelamos que os métodos existentes ainda enfrentam desafios significativos na geração de imagens que se alinham com os controles condicionais de imagem. Para isso, propomos o ControlNet++, uma abordagem inovadora que melhora a geração controlável ao otimizar explicitamente a consistência cíclica em nível de pixel entre as imagens geradas e os controles condicionais. Especificamente, para um controle condicional de entrada, utilizamos um modelo discriminativo de recompensa pré-treinado para extrair a condição correspondente das imagens geradas e, em seguida, otimizamos a perda de consistência entre o controle condicional de entrada e a condição extraída. Uma implementação direta seria gerar imagens a partir de ruídos aleatórios e, então, calcular a perda de consistência, mas essa abordagem exige o armazenamento de gradientes para múltiplos passos de amostragem, resultando em custos consideráveis de tempo e memória. Para resolver isso, introduzimos uma estratégia de recompensa eficiente que deliberadamente perturba as imagens de entrada ao adicionar ruído e, em seguida, utiliza as imagens desnaturadas em um único passo para o ajuste fino da recompensa. Isso evita os custos extensos associados à amostragem de imagens, permitindo um ajuste fino de recompensa mais eficiente. Experimentos extensivos mostram que o ControlNet++ melhora significativamente a controlabilidade sob vários controles condicionais. Por exemplo, ele alcança melhorias em relação ao ControlNet de 7,9% mIoU, 13,4% SSIM e 7,6% RMSE, respectivamente, para condições de máscara de segmentação, borda de arte linear e profundidade.
Apresentamos o RecurrentGemma, um modelo de linguagem aberto que utiliza a nova arquitetura Griffin da Google. O Griffin combina recorrências lineares com atenção local para alcançar um desempenho excepcional em tarefas de linguagem. Ele possui um estado de tamanho fixo, o que reduz o uso de memória e permite inferência eficiente em sequências longas. Disponibilizamos um modelo pré-treinado com 2 bilhões de parâmetros não-embutidos e uma variante ajustada por instruções. Ambos os modelos alcançam desempenho comparável ao Gemma-2B, apesar de terem sido treinados com menos tokens.
Enquanto o Ferret integra de forma contínua a compreensão regional ao Modelo de Linguagem de Grande Escala (LLM) para facilitar sua capacidade de referência e ancoragem, ele apresenta certas limitações: restrito pelo codificador visual fixo pré-treinado e incapaz de desempenhar bem em tarefas mais amplas. Neste trabalho, apresentamos o Ferret-v2, uma atualização significativa do Ferret, com três designs principais. (1) Ancoragem e referência em qualquer resolução: Uma abordagem flexível que lida facilmente com resoluções de imagem mais altas, melhorando a capacidade do modelo de processar e compreender imagens com maior detalhe. (2) Codificação visual multi-granularidade: Ao integrar o codificador adicional DINOv2, o modelo aprende contextos subjacentes melhores e mais diversos para informações visuais globais e detalhadas. (3) Um paradigma de treinamento em três estágios: Além do alinhamento imagem-legenda, um estágio adicional é proposto para o alinhamento denso de alta resolução antes da sintonia final de instruções. Experimentos mostram que o Ferret-v2 oferece melhorias substanciais em relação ao Ferret e outros métodos de ponta, graças à sua escalabilidade de alta resolução e processamento visual refinado.
O sucesso dos modelos de IA depende da disponibilidade de conjuntos de dados grandes, diversos e de alta qualidade, os quais podem ser difíceis de obter devido à escassez de dados, preocupações com privacidade e custos elevados. Os dados sintéticos surgiram como uma solução promissora ao gerar dados artificiais que imitam padrões do mundo real. Este artigo fornece uma visão geral da pesquisa em dados sintéticos, discutindo suas aplicações, desafios e direções futuras. Apresentamos evidências empíricas da literatura anterior para demonstrar sua eficácia e destacamos a importância de garantir sua factualidade, fidelidade e imparcialidade. Enfatizamos a necessidade de um uso responsável dos dados sintéticos para construir modelos de linguagem mais poderosos, inclusivos e confiáveis.
O processamento de contextos longos continua sendo um desafio para modelos de linguagem de grande escala (LLMs, na sigla em inglês) devido ao custo computacional e de memória quadrático do mecanismo de autoatenção e aos tamanhos substanciais do cache de chaves-valores (KV) durante a geração. Propomos uma abordagem inovadora para resolver esse problema, aprendendo contextos offline por meio de compressão de contexto e ajuste fino eficiente em parâmetros dentro de um domínio específico. Nosso método permite que um LLM crie uma representação concisa do contexto original e recupere informações relevantes de forma eficiente para responder perguntas com precisão. Introduzimos o LLoCO, uma técnica que combina compressão de contexto, recuperação e ajuste fino eficiente em parâmetros usando LoRA. Nossa abordagem estende a janela de contexto efetiva de um modelo LLaMA2-7B de 4 mil tokens para lidar com até 128 mil tokens. Avaliamos nossa abordagem em vários conjuntos de dados de perguntas e respostas de contexto longo, demonstrando que o LLoCO supera significativamente o aprendizado em contexto (in-context learning) enquanto utiliza 30 vezes menos tokens durante a inferência. O LLoCO alcança uma aceleração de até 7,62 vezes e reduz substancialmente o custo de perguntas e respostas em documentos longos, tornando-o uma solução promissora para o processamento eficiente de contextos longos. Nosso código está disponível publicamente em https://github.com/jeffreysijuntan/lloco.
No domínio da pesquisa de agentes web, alcançar tanto generalização quanto precisão continua sendo um problema desafiador. Devido à alta variabilidade na estrutura dos sites, as abordagens existentes frequentemente falham. Além disso, as técnicas atuais de ajuste fino e aprendizado em contexto não conseguem generalizar em múltiplos sites. Apresentamos Wilbur, uma abordagem que utiliza um modelo de classificação diferenciável e uma nova técnica de síntese de instruções para preencher de forma ideal o prompt de um modelo de linguagem de grande escala (LLM) com demonstrações de tarefas de execuções anteriores. Para maximizar as taxas de sucesso de ponta a ponta, também propomos um mecanismo inteligente de retrocesso que aprende e se recupera de seus erros. Por fim, demonstramos que nosso modelo de classificação pode ser treinado com dados de um currículo automático gerativo, que amostra objetivos representativos de um LLM, executa o agente e o avalia automaticamente, sem anotação manual. Wilbur alcança resultados de ponta no benchmark WebVoyager, superando modelos baseados apenas em texto em 8% no geral e até 36% em determinados sites. No mesmo benchmark, Wilbur está a menos de 5% de um modelo multimodal forte, apesar de receber apenas entradas textuais, e uma análise mais aprofundada revela que um número significativo de falhas se deve a desafios de engenharia na operação da web.
A Rede Neural Recorrente Linear Hierarquicamente Controlada (HGRN, Qin et al. 2023) demonstrou velocidade de treinamento e desempenho competitivos em modelagem de linguagem, ao mesmo tempo em que oferece inferência eficiente. No entanto, o tamanho do estado recorrente da HGRN permanece relativamente pequeno, o que limita sua expressividade. Para resolver esse problema, inspirados pela atenção linear, introduzimos um mecanismo simples de expansão de estado baseado em produto externo, de modo que o tamanho do estado recorrente possa ser significativamente ampliado sem a introdução de parâmetros adicionais. A forma de atenção linear também permite um treinamento eficiente em termos de hardware. Nossos extensos experimentos verificam a vantagem da HGRN2 sobre a HGRN1 em modelagem de linguagem, classificação de imagens e no Long Range Arena. Nosso maior modelo HGRN2 de 3B supera ligeiramente o Mamba e o Transformer da Arquitetura LLaMa em modelagem de linguagem em um ambiente de experimento controlado; e desempenha-se de forma competitiva com muitos modelos de 3B de código aberto em avaliações downstream, enquanto utiliza um número muito menor de tokens de treinamento totais.
A orientação é uma técnica crucial para extrair o melhor desempenho de modelos de difusão geradores de imagens. Tradicionalmente, um peso de orientação constante tem sido aplicado ao longo da cadeia de amostragem de uma imagem. Mostramos que a orientação é claramente prejudicial no início da cadeia (níveis altos de ruído), em grande parte desnecessária no final (níveis baixos de ruído) e benéfica apenas no meio. Assim, restringimos sua aplicação a um intervalo específico de níveis de ruído, melhorando tanto a velocidade de inferência quanto a qualidade dos resultados. Esse intervalo limitado de orientação melhora significativamente o FID recorde no ImageNet-512, de 1,81 para 1,40. Demonstramos que essa abordagem é quantitativa e qualitativamente benéfica em diferentes parâmetros de amostragem, arquiteturas de rede e conjuntos de dados, incluindo o cenário de grande escala do Stable Diffusion XL. Portanto, sugerimos expor o intervalo de orientação como um hiperparâmetro em todos os modelos de difusão que utilizam orientação.
A detecção de faixas é uma tarefa fundamental na condução autônoma e alcançou grandes avanços com o surgimento do aprendizado profundo. Métodos anteriores baseados em âncoras frequentemente projetam âncoras densas, que dependem fortemente do conjunto de dados de treinamento e permanecem fixas durante a inferência. Analisamos que âncoras densas não são necessárias para a detecção de faixas e propomos um framework de detecção de faixas baseado em transformadores, utilizando um mecanismo de âncoras esparsas. Para isso, geramos âncoras esparsas com consultas de faixas com consciência de posição e consultas de ângulo, em vez de âncoras explícitas tradicionais. Adotamos a Atenção Perceptiva Horizontal (HPA) para agregar as características das faixas ao longo da direção horizontal e a Atenção Cruzada entre Faixa e Ângulo (LACA) para realizar interações entre as consultas de faixas e as consultas de ângulo. Também propomos a Atenção Perceptiva de Faixa (LPA), baseada na atenção cruzada deformável, para refinar ainda mais as previsões de faixas. Nosso método, denominado Sparse Laneformer, é de fácil implementação e treinável de ponta a ponta. Experimentos extensivos demonstram que o Sparse Laneformer supera favoravelmente os métodos state-of-the-art, por exemplo, superando o Laneformer em 3,0% no F1 score e o O2SFormer em 0,7% no F1 score, com menos MACs no CULane, utilizando a mesma backbone ResNet-34.