Artigos de pesquisa em IA selecionados diariamente com traduções
Nos últimos anos, os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em várias tarefas (por exemplo, compreensão de longos contextos), e muitos benchmarks têm sido propostos. No entanto, observamos que as capacidades de geração de texto longo não são bem investigadas. Portanto, introduzimos o Benchmark Hierárquico de Geração de Texto Longo (HelloBench), um benchmark abrangente, em ambiente real e aberto para avaliar o desempenho dos LLMs na geração de texto longo. Com base na Taxonomia de Bloom, o HelloBench categoriza as tarefas de geração de texto longo em cinco subtarefas: perguntas e respostas abertas, sumarização, chat, completamento de texto e geração de texto heurístico. Além disso, propomos a Avaliação Hierárquica de Texto Longo (HelloEval), um método de avaliação alinhado com humanos que reduz significativamente o tempo e esforço necessários para a avaliação humana, mantendo uma alta correlação com a avaliação humana. Realizamos experimentos extensivos em cerca de 30 LLMs mainstream e observamos que os LLMs atuais carecem de capacidades de geração de texto longo. Especificamente, em primeiro lugar, independentemente de as instruções incluírem restrições de comprimento explícitas ou implícitas, observamos que a maioria dos LLMs não consegue gerar texto com mais de 4000 palavras. Em segundo lugar, observamos que, embora alguns LLMs consigam gerar texto mais longo, muitos problemas existem (por exemplo, repetições severas e degradação de qualidade). Em terceiro lugar, para demonstrar a eficácia do HelloEval, comparamos o HelloEval com métricas tradicionais (por exemplo, ROUGE, BLEU, etc.) e métodos de LLM-como-Juiz, que mostram que o HelloEval tem a maior correlação com a avaliação humana. Disponibilizamos nosso código em https://github.com/Quehry/HelloBench.
A síntese de vídeo de personagens tem como objetivo produzir vídeos realistas de personagens animáveis dentro de cenas semelhantes à vida real. Como um problema fundamental na comunidade de visão computacional e gráficos, trabalhos em 3D geralmente requerem capturas de múltiplas vistas para treinamento por caso, o que limita severamente sua aplicabilidade na modelagem de personagens arbitrários em pouco tempo. Métodos recentes em 2D quebram essa limitação por meio de modelos de difusão pré-treinados, mas enfrentam dificuldades com a generalidade de pose e interação de cena. Nesse sentido, propomos o MIMO, um novo framework que não apenas pode sintetizar vídeos de personagens com atributos controláveis (ou seja, personagem, movimento e cena) fornecidos por entradas simples do usuário, mas também alcançar simultaneamente escalabilidade avançada para personagens arbitrários, generalidade para novos movimentos em 3D e aplicabilidade a cenas interativas do mundo real em um framework unificado. A ideia central é codificar o vídeo 2D em códigos espaciais compactos, considerando a natureza inerentemente 3D da ocorrência de vídeo. Concretamente, elevamos os pixels do quadro 2D para 3D usando estimadores de profundidade monocular e decompondo o clipe de vídeo em três componentes espaciais (ou seja, humano principal, cena subjacente e oclusão flutuante) em camadas hierárquicas com base na profundidade 3D. Esses componentes são posteriormente codificados em códigos de identidade canônica, códigos de movimento estruturado e código de cena completa, que são utilizados como sinais de controle do processo de síntese. O design da modelagem espacial decomposta permite controle flexível do usuário, expressão de movimento complexa, bem como síntese consciente em 3D para interações de cena. Resultados experimentais demonstram a eficácia e robustez do método proposto.
Grandes modelos de linguagem (LLMs) com arquiteturas apenas de decodificação demonstram notáveis capacidades de aprendizado em contexto (ICL). Essa característica permite que eles lidem eficazmente com tarefas familiares e novas, utilizando exemplos fornecidos dentro do contexto de entrada. Reconhecendo o potencial dessa capacidade, propomos aproveitar a funcionalidade de ICL nos LLMs para aprimorar o processo de geração de incorporações de texto. Para isso, introduzimos um modelo inovador chamado bge-en-icl, que utiliza exemplos de poucas amostras para produzir incorporações de texto de alta qualidade. Nossa abordagem integra exemplos relacionados à tarefa diretamente no lado da consulta, resultando em melhorias significativas em várias tarefas. Além disso, investigamos como utilizar efetivamente os LLMs como modelos de incorporação, incluindo vários mecanismos de atenção, métodos de pooling, etc. Nossas descobertas sugerem que manter o framework original frequentemente produz os melhores resultados, destacando que a simplicidade é o melhor caminho. Resultados experimentais nos benchmarks MTEB e AIR-Bench demonstram que nossa abordagem estabelece uma nova performance de estado da arte (SOTA). Nosso modelo, código e conjunto de dados estão disponíveis gratuitamente em https://github.com/FlagOpen/FlagEmbedding.
Avanços recentes em modelos de linguagem grandes multimodais (MLLMs) têm como objetivo integrar e interpretar dados em diversas modalidades. No entanto, a capacidade desses modelos de processar e raciocinar simultaneamente sobre múltiplas modalidades ainda é insuficientemente explorada, em parte devido à falta de benchmarks abrangentes por modalidade. Apresentamos o OmniBench, um novo benchmark projetado para avaliar rigorosamente a capacidade dos modelos de reconhecer, interpretar e raciocinar sobre entradas visuais, acústicas e textuais simultaneamente. Definimos modelos capazes desse processamento trímodal como modelos de linguagem omni (OLMs). O OmniBench se destaca por suas anotações humanas de alta qualidade, garantindo que respostas precisas exijam compreensão integrada e raciocínio em todas as três modalidades. Nossas principais descobertas revelam que: i) OLMs de código aberto apresentam limitações críticas na capacidade de seguir instruções e raciocinar em contextos trímodais; e ii) os modelos de referência têm desempenho ruim (abaixo de 50% de precisão) mesmo quando fornecidos com representações textuais alternativas de imagens e áudio. Esses resultados sugerem que a habilidade de construir um contexto consistente a partir de texto, imagem e áudio é frequentemente negligenciada nos paradigmas de treinamento MLLM existentes. Defendemos que futuras pesquisas se concentrem no desenvolvimento de técnicas de integração trímodal mais robustas e estratégias de treinamento para melhorar o desempenho do OLM em diversas modalidades. Os códigos e a classificação ao vivo podem ser encontrados em https://m-a-p.ai/OmniBench.
A qualidade dos LLMs de peso aberto tem visto melhorias significativas, no entanto, eles permanecem predominantemente focados no inglês. Neste artigo, apresentamos o projeto EuroLLM, com o objetivo de desenvolver um conjunto de LLMs multilíngues de peso aberto capazes de compreender e gerar texto em todas as línguas oficiais da União Europeia, bem como em várias outras línguas relevantes. Detalhamos o progresso feito até o momento, descrevendo nosso processo de coleta e filtragem de dados, o desenvolvimento de leis de escalonamento, a criação de nosso tokenizador multilíngue e as configurações de mistura de dados e modelagem. Além disso, lançamos nossos modelos iniciais: EuroLLM-1.7B e EuroLLM-1.7B-Instruct e relatamos seu desempenho em benchmarks gerais multilíngues e tradução automática.
A contínua divulgação de novos e melhores modelos de geração de imagens aumenta a demanda por detectores de imagens sintéticas. Em um campo tão dinâmico, os detectores precisam ser capazes de generalizar amplamente e ser robustos a alterações não controladas. O presente trabalho é motivado por esse cenário, ao analisar o papel do tempo, transformações de imagem e fontes de dados, para a generalização do detector. Nessas experimentações, nenhum dos detectores avaliados é considerado universal, mas os resultados indicam que um conjunto poderia ser. Experimentos em dados coletados na natureza mostram que essa tarefa é mais desafiadora do que aquela definida por conjuntos de dados em larga escala, apontando para uma lacuna entre experimentação e prática real. Por fim, observamos um efeito de equilíbrio de corrida, onde melhores geradores levam a melhores detectores, e vice-versa. Hipotetizamos que isso empurra o campo em direção a uma corrida perpétua entre geradores e detectores.
A maioria dos métodos de multimodalidade existentes utiliza espinhas dorsais separadas para geração de texto discreto baseada em autorregressão e geração visual contínua baseada em difusão, ou a mesma espinha dorsal ao discretizar os dados visuais para usar autorregressão tanto para texto quanto para geração visual. Neste artigo, propomos estudar uma ideia simples: compartilhar um transformador para tanto autorregressão quanto difusão. A viabilidade advém de dois aspectos principais: (i) O Transformer é aplicado com sucesso à difusão para geração visual, e (ii) o treinamento do transformer para autorregressão e difusão é muito semelhante, sendo a diferença meramente que a difusão utiliza máscara de atenção bidirecional e a autorregressão utiliza máscara de atenção causal. Resultados experimentais mostram que nossa abordagem alcança desempenho comparável na geração de imagens aos métodos de ponta atuais, além de manter a capacidade de geração de texto. O projeto está publicamente disponível em https://monoformer.github.io/.
Modelos de transformadores mascarados para geração de imagens condicionais de classe tornaram-se uma alternativa convincente aos modelos de difusão. Tipicamente compostos por duas etapas - um modelo VQGAN inicial para transição entre espaço latente e espaço de imagem, e um modelo Transformer subsequente para geração de imagem dentro do espaço latente - esses frameworks oferecem caminhos promissores para síntese de imagens. Neste estudo, apresentamos duas contribuições principais: em primeiro lugar, um exame empírico e sistemático dos VQGANs, resultando em um VQGAN modernizado. Em segundo lugar, uma rede geradora inovadora sem incorporação que opera diretamente em tokens de bits - uma representação quantizada binária de tokens com semântica rica. A primeira contribuição fornece um modelo VQGAN transparente, reprodutível e de alto desempenho, aprimorando a acessibilidade e igualando o desempenho dos métodos de ponta atuais, revelando detalhes anteriormente não divulgados. A segunda contribuição demonstra que a geração de imagens sem incorporação usando tokens de bits alcança um novo FID de ponta de 1,52 no benchmark ImageNet 256x256, com um modelo gerador compacto de meros 305M parâmetros.
O sistema visual humano está bem ajustado para detectar rostos de todas as formas e tamanhos. Embora isso traga óbvias vantagens de sobrevivência, como uma melhor chance de avistar predadores desconhecidos na mata, também leva a detecções espúrias de rostos. "Pareidolia facial" descreve a percepção de uma estrutura semelhante a um rosto entre estímulos aleatórios: ver rostos em manchas de café ou nuvens no céu. Neste artigo, estudamos a pareidolia facial de uma perspectiva de visão computacional. Apresentamos um conjunto de dados de imagens de "Rostos em Coisas", composto por cinco mil imagens da web com rostos pareidólicos anotados por humanos. Usando este conjunto de dados, examinamos em que medida um detector de rostos humano de última geração exibe pareidolia e encontramos uma diferença comportamental significativa entre humanos e máquinas. Descobrimos que a necessidade evolutiva dos humanos de detectar rostos de animais, bem como rostos humanos, pode explicar parte dessa diferença. Por fim, propomos um modelo estatístico simples de pareidolia em imagens. Através de estudos em sujeitos humanos e em nossos detectores de rostos pareidólicos, confirmamos uma previsão-chave de nosso modelo sobre quais condições de imagem são mais propensas a induzir a pareidolia. Conjunto de Dados e Website: https://aka.ms/faces-in-things
A aprendizagem profunda para previsão de séries temporais tem visto avanços significativos nas últimas décadas. No entanto, apesar do sucesso do pré-treinamento em larga escala nos domínios de linguagem e visão, os modelos pré-treinados de séries temporais permanecem limitados em escala e operam a um custo elevado, dificultando o desenvolvimento de modelos de previsão mais capazes em aplicações do mundo real. Em resposta, apresentamos o Time-MoE, uma arquitetura escalável e unificada projetada para pré-treinar modelos de fundação de previsão maiores e mais capazes, reduzindo os custos de inferência. Ao alavancar um design de mistura de especialistas (MoE) esparsa, o Time-MoE aprimora a eficiência computacional ativando apenas um subconjunto de redes para cada previsão, reduzindo a carga computacional mantendo alta capacidade do modelo. Isso permite que o Time-MoE escale efetivamente sem um aumento correspondente nos custos de inferência. O Time-MoE é composto por uma família de modelos transformadores apenas decodificadores que operam de forma autoregressiva e suportam horizontes de previsão flexíveis com diferentes comprimentos de contexto de entrada. Pré-treinamos esses modelos em nossos dados em grande escala recém-introduzidos, o Time-300B, que abrange mais de 9 domínios e mais de 300 bilhões de pontos temporais. Pela primeira vez, escalamos um modelo de fundação de séries temporais para 2,4 bilhões de parâmetros, alcançando uma precisão de previsão significativamente melhorada. Nossos resultados validam a aplicabilidade das leis de escala para treinamento de tokens e tamanho do modelo no contexto de previsão de séries temporais. Comparados a modelos densos com o mesmo número de parâmetros ativados ou orçamentos de computação equivalentes, nossos modelos consistentemente superam significativamente. Esses avanços posicionam o Time-MoE como uma solução de ponta para enfrentar desafios de previsão de séries temporais do mundo real com capacidade, eficiência e flexibilidade superiores.
Neste relatório técnico, documentamos as alterações que fizemos no SDXL no processo de treinamento do NovelAI Diffusion V3, nosso modelo de geração de imagens de anime de ponta.
Como podem as políticas de manipulação de robôs generalizar para tarefas novas envolvendo tipos de objetos não vistos e novos movimentos? Neste artigo, apresentamos uma solução em termos de prever informações de movimento a partir de dados da web por meio da geração de vídeo humano e condicionando uma política de robô ao vídeo gerado. Em vez de tentar escalar a coleta de dados de robôs, que é cara, mostramos como podemos aproveitar modelos de geração de vídeo treinados em dados da web facilmente disponíveis, para permitir a generalização. Nossa abordagem Gen2Act lança a manipulação condicionada por linguagem como geração de vídeo humano de zero-shot seguida pela execução com uma única política condicionada ao vídeo gerado. Para treinar a política, usamos uma ordem de magnitude menor de dados de interação de robôs em comparação com o que o modelo de previsão de vídeo foi treinado. Gen2Act não requer ajuste fino do modelo de vídeo e usamos diretamente um modelo pré-treinado para gerar vídeos humanos. Nossos resultados em diversos cenários do mundo real mostram como o Gen2Act permite manipular tipos de objetos não vistos e realizar movimentos novos para tarefas não presentes nos dados do robô. Os vídeos estão em https://homangab.github.io/gen2act/
Comparados com os Modelos de Linguagem Grandes (LLMs), os Modelos de Visão-Linguagem Grandes (LVLMs) também podem aceitar imagens como entrada, exibindo assim capacidades emergentes mais interessantes e demonstrando um desempenho impressionante em várias tarefas de visão-linguagem. Motivados pela sugestão de texto nos LLMs, a sugestão visual tem sido explorada para aprimorar as capacidades dos LVLMs de perceber informações visuais. No entanto, técnicas anteriores de sugestão visual processam exclusivamente entradas visuais sem considerar consultas de texto, limitando a capacidade dos modelos de seguir instruções de texto para concluir tarefas. Para preencher essa lacuna, neste trabalho, propomos uma nova técnica de sugestão chamada de Sugestão de Atenção na Imagem, que simplesmente sobrepõe um mapa de atenção guiado por consulta de texto na imagem de entrada original e aprimora efetivamente o LVLM em várias tarefas. Especificamente, geramos um mapa de atenção para a imagem de entrada dependente da consulta de texto com um modelo auxiliar como o CLIP. Em seguida, o mapa de atenção simplesmente multiplica os valores de pixel da imagem original para obter a imagem de entrada real para o LVLM. Experimentos extensivos em diversos benchmarks de visão-linguagem verificam a eficácia de nossa técnica. Por exemplo, a Sugestão de Atenção na Imagem melhora o LLaVA-1.5 em 3.8% e 2.9% nos benchmarks MM-Vet e LLaVA-Wild, respectivamente.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) continuam a progredir em direção a formas mais avançadas de inteligência, o Aprendizado por Reforço a partir do Feedback Humano (RLHF) é cada vez mais visto como um caminho-chave para alcançar a Inteligência Artificial Geral (AGI). No entanto, a dependência de métodos de alinhamento baseados em modelos de recompensa (RM) introduz desafios significativos devido à instabilidade inerente e imperfeições dos Modelos de Recompensa (RMs), que podem levar a questões críticas como manipulação de recompensas e desalinhamento com as intenções humanas. Neste artigo, apresentamos um framework de RLHF robusto em recompensas destinado a abordar esses desafios fundamentais, abrindo caminho para uma aprendizagem mais confiável e resiliente em LLMs. Nossa abordagem introduz um objetivo de otimização inovador que equilibra cuidadosamente desempenho e robustez ao incorporar Conjuntos de Modelos de Recompensa Bayesianos (BRME) para modelar o conjunto de incerteza das funções de recompensa. Isso permite que o framework integre tanto o desempenho nominal quanto os sinais mínimos de recompensa, garantindo uma aprendizagem mais estável mesmo com modelos de recompensa imperfeitos. Resultados empíricos demonstram que nosso framework supera consistentemente o RLHF tradicional em diversos benchmarks, mostrando maior precisão e estabilidade a longo prazo. Também fornecemos uma análise teórica, demonstrando que abordagens de RLHF robustas em recompensas se aproximam da estabilidade de configurações de recompensa constante, o que se mostra eficaz em uma análise de caso estocástico. Em conjunto, essas contribuições destacam o potencial do framework para aprimorar tanto o desempenho quanto a estabilidade do alinhamento de LLMs com RLHF.
Abordagens tradicionais para Reconhecimento de Entidades Nomeadas (NER) estruturam a tarefa como um problema de rotulagem de sequência BIO. Embora esses sistemas frequentemente se destaquem na tarefa subsequente em questão, eles exigem dados anotados extensivamente e têm dificuldade em generalizar para domínios de entrada fora da distribuição e tipos de entidades não vistos. Ao contrário disso, Modelos de Linguagem Grandes (LLMs) têm demonstrado fortes capacidades de zero-shot. Enquanto vários trabalhos abordam o NER de Zero-Shot em inglês, pouco foi feito em outros idiomas. Neste artigo, definimos um framework de avaliação para Zero-Shot NER, aplicando-o ao idioma italiano. Além disso, apresentamos o SLIMER-IT, a versão italiana do SLIMER, uma abordagem de ajuste de instrução para NER de zero-shot aproveitando prompts enriquecidos com definição e diretrizes. Comparando com outros modelos de ponta, demonstramos a superioridade do SLIMER-IT em tags de entidades nunca vistas antes.
Os modelos de recompensa (RMs) desempenham um papel fundamental na alinhamento de grandes modelos de linguagem (LLMs) com as preferências humanas. No entanto, o treinamento tradicional de RM, que se baseia em pares de respostas vinculadas a prompts específicos, enfrenta dificuldades para separar as preferências impulsionadas por prompts de artefatos independentes de prompts, como comprimento e formato de resposta. Neste trabalho, revelamos uma limitação fundamental dos métodos de treinamento de RM atuais, nos quais os RMs falham em distinguir efetivamente entre sinais contextuais e artefatos irrelevantes ao determinar preferências. Para lidar com isso, introduzimos um framework causal que aprende preferências independentemente desses artefatos e propomos uma nova técnica de aumento de dados projetada para eliminá-los. Experimentos extensos mostram que nossa abordagem filtra com sucesso artefatos indesejáveis, resultando em um modelo de recompensa mais robusto (RRM). Nosso RRM melhora o desempenho de um modelo de recompensa em pares treinado no Gemma-2-9b-it, no RewardBench, aumentando a precisão de 80,61% para 84,15%. Além disso, treinamos duas políticas DPO usando tanto o RM quanto o RRM, demonstrando que o RRM melhora significativamente as políticas alinhadas com DPO, aumentando os escores do MT-Bench de 7,27 para 8,31 e as taxas de vitória controladas por comprimento no AlpacaEval-2 de 33,46% para 52,49%.
A aprendizagem por imitação tem se mostrado uma ferramenta poderosa para treinar políticas visuomotoras complexas. No entanto, os métodos atuais frequentemente exigem centenas a milhares de demonstrações de especialistas para lidar com observações visuais de alta dimensão. Uma razão chave para essa baixa eficiência de dados é que as representações visuais são predominantemente pré-treinadas em dados fora do domínio ou treinadas diretamente por meio de um objetivo de clonagem de comportamento. Neste trabalho, apresentamos o DynaMo, um novo método auto-supervisionado in-domain para aprender representações visuais. Dado um conjunto de demonstrações de especialistas, aprendemos em conjunto um modelo latente de dinâmica inversa e um modelo de dinâmica direta ao longo de uma sequência de incorporações de imagem, prevendo o próximo quadro no espaço latente, sem augmentations, amostragem constrastiva ou acesso a ações verdadeiras. Importante ressaltar que o DynaMo não requer nenhum dado fora do domínio, como conjuntos de dados da Internet ou conjuntos de dados cruzados. Em uma série de seis ambientes simulados e reais, mostramos que as representações aprendidas com o DynaMo melhoram significativamente o desempenho da aprendizagem por imitação em tarefas subsequentes em relação aos objetivos de aprendizagem auto-supervisionada anteriores e representações pré-treinadas. Os benefícios do uso do DynaMo se aplicam a diversas classes de políticas, como Behavior Transformer, Política de Difusão, MLP e vizinhos mais próximos. Por fim, realizamos ablação sobre os componentes-chave do DynaMo e medimos seu impacto no desempenho da política subsequente. Os vídeos dos robôs são melhor visualizados em https://dynamo-ssl.github.io
Gerar dados tabulares sintéticos é crucial em aprendizado de máquina, especialmente quando os dados reais são limitados ou sensíveis. Modelos generativos tradicionais frequentemente enfrentam desafios devido às características únicas de dados tabulares, como tipos de dados mistos e distribuições variadas, e exigem um pré-processamento complexo ou grandes modelos pré-treinados. Neste artigo, apresentamos um novo método de transformação binária sem perdas que converte qualquer dado tabular em representações binárias de tamanho fixo, e um novo modelo generativo correspondente chamado Difusão Binária, especificamente projetado para dados binários. A Difusão Binária aproveita a simplicidade das operações XOR para adição e remoção de ruído e emprega a perda binária de entropia cruzada para treinamento. Nossa abordagem elimina a necessidade de um pré-processamento extensivo, ajuste complexo de parâmetros de ruído e pré-treinamento em grandes conjuntos de dados. Avaliamos nosso modelo em vários conjuntos de dados tabulares de referência populares, demonstrando que a Difusão Binária supera os modelos de última geração existentes nos conjuntos de dados de Viagem, Renda Adulta e Diabetes, sendo significativamente menor em tamanho.