Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar da popularidade da quantização de modelos de linguagem grandes (LLM) para aceleração de inferência, permanece uma incerteza significativa em relação aos compromissos entre precisão e desempenho associados a vários formatos de quantização. Apresentamos um estudo empírico abrangente da precisão quantizada, avaliando formatos de quantização populares (FP8, INT8, INT4) em benchmarks acadêmicos e tarefas do mundo real, em toda a família de modelos Llama-3.1. Além disso, nosso estudo examina a diferença no texto gerado por modelos quantizados em comparação com seus equivalentes não comprimidos. Além dos benchmarks, também apresentamos algumas melhorias na quantização que nos permitiram obter resultados de recuperação de precisão de ponta. Nossa investigação, abrangendo mais de 500.000 avaliações individuais, revela várias descobertas importantes: (1) a quantização de peso e ativação FP8 (W8A8-FP) é sem perdas em todas as escalas de modelo, (2) a quantização de peso e ativação INT8 (W8A8-INT), quando ajustada adequadamente, incorre em uma degradação de precisão surpreendentemente baixa de 1-3%, e (3) a quantização apenas de peso INT4 (W4A16-INT) é competitiva com a quantização de peso e ativação de inteiros de 8 bits. Para abordar a questão do "melhor" formato para um determinado ambiente de implantação, realizamos uma análise de desempenho de inferência usando o popular framework de código aberto vLLM em várias arquiteturas de GPU. Descobrimos que W4A16 oferece a melhor relação custo-eficácia para implantações síncronas e para implantação assíncrona em GPUs de médio porte. Ao mesmo tempo, os formatos W8A8 se destacam na implantação assíncrona de "lote contínuo" de modelos de médio e grande porte em GPUs de alta qualidade. Nossos resultados fornecem um conjunto de diretrizes práticas para implantar LLMs quantizados em diferentes escalas e requisitos de desempenho.
Agentes autônomos tornaram-se cada vez mais importantes para interagir com o mundo real. Agentes Android, em particular, têm sido recentemente um método de interação frequentemente mencionado. No entanto, estudos existentes para treinar e avaliar agentes Android carecem de pesquisa sistemática em modelos de código aberto e proprietários. Neste trabalho, propomos o AndroidLab como um framework sistemático para agentes Android. Ele inclui um ambiente operacional com diferentes modalidades, espaço de ação e um benchmark reprodutível. Ele suporta tanto grandes modelos de linguagem (LLMs) quanto modelos multimodais (LMMs) no mesmo espaço de ação. O benchmark do AndroidLab inclui dispositivos virtuais Android predefinidos e 138 tarefas em nove aplicativos construídos nesses dispositivos. Ao utilizar o ambiente AndroidLab, desenvolvemos um conjunto de dados de instruções Android e treinamos seis LLMs e LMMs de código aberto, aumentando as taxas médias de sucesso de 4,59% para 21,50% para LLMs e de 1,93% para 13,28% para LMMs. O AndroidLab é de código aberto e está disponível publicamente em https://github.com/THUDM/Android-Lab.
Os grandes modelos de linguagem (LLMs) têm demonstrado um potencial notável como agentes autônomos, especialmente em tarefas baseadas na web. No entanto, os agentes web LLM existentes dependem fortemente de APIs LLM proprietárias caras, enquanto os LLMs abertos carecem das capacidades de tomada de decisão necessárias. Este artigo apresenta o WebRL, um framework de aprendizado por reforço de currículo online autoevolutivo projetado para treinar agentes web de alto desempenho usando LLMs abertos. O WebRL aborda três desafios-chave na construção de agentes web LLM, incluindo a escassez de tarefas de treinamento, sinais de feedback esparsos e deriva na distribuição de políticas no aprendizado online. Especificamente, o WebRL incorpora 1) um currículo autoevolutivo que gera novas tarefas a partir de tentativas malsucedidas, 2) um modelo de recompensa robusto supervisionado por resultados (ORM) e 3) estratégias adaptativas de aprendizado por reforço para garantir melhorias consistentes. Aplicamos o WebRL para transformar os modelos abertos Llama-3.1 e GLM-4 em agentes web proficientes. No WebArena-Lite, o WebRL melhora a taxa de sucesso do Llama-3.1-8B de 4,8% para 42,4% e de 6,1% para 43% para o GLM-4-9B. Esses modelos abertos superam significativamente o desempenho do GPT-4-Turbo (17,6%) e do GPT-4o (13,9%) e superam os agentes web de última geração treinados em LLMs abertos anteriores (AutoWebGLM, 18,2%). Nossas descobertas demonstram a eficácia do WebRL em preencher a lacuna entre agentes web baseados em LLMs abertos e proprietários, abrindo caminho para sistemas de interação web autônomos mais acessíveis e poderosos.
Os sistemas de agentes LLM existentes geralmente selecionam ações de um conjunto fixo e predefinido a cada passo. Embora essa abordagem seja eficaz em ambientes fechados e de escopo restrito, argumentamos que ela apresenta dois desafios principais ao implantar agentes LLM em cenários do mundo real: (1) a seleção de um conjunto fixo de ações restringe significativamente as capacidades de planejamento e atuação dos agentes LLM, e (2) essa abordagem requer um esforço humano substancial para enumerar e implementar todas as ações possíveis, o que se torna impraticável em ambientes complexos com um vasto número de ações potenciais. Neste trabalho, propomos um framework de agente LLM que permite a criação dinâmica e composição de ações de forma online. Neste framework, o agente interage com o ambiente gerando e executando programas escritos em uma linguagem de programação de propósito geral a cada passo. Além disso, as ações geradas são acumuladas ao longo do tempo para uso futuro. Nossos experimentos extensivos no benchmark GAIA demonstram que este framework oferece uma flexibilidade significativamente maior e supera os métodos anteriores. Notavelmente, ele permite que um agente LLM se recupere em cenários onde nenhuma ação relevante existe no conjunto predefinido ou quando as ações existentes falham devido a casos não previstos. No momento da escrita, ocupamos a primeira posição no ranking público do GAIA. Nosso código pode ser encontrado em https://github.com/adobe-research/dynasaur.
O Sora da OpenAI destaca o potencial da geração de vídeo para o desenvolvimento de modelos de mundo que seguem leis físicas fundamentais. No entanto, a capacidade dos modelos de geração de vídeo de descobrir tais leis puramente a partir de dados visuais sem preconceitos humanos pode ser questionada. Um modelo de mundo que aprende a verdadeira lei deve fornecer previsões robustas a nuances e extrapolar corretamente cenários não vistos. Neste trabalho, avaliamos três cenários-chave: em distribuição, fora de distribuição e generalização combinatorial. Desenvolvemos um ambiente de teste de simulação 2D para movimento de objetos e colisões para gerar vídeos deterministicamente governados por uma ou mais leis de mecânica clássica. Isso fornece um suprimento ilimitado de dados para experimentação em larga escala e possibilita a avaliação quantitativa de se os vídeos gerados seguem leis físicas. Treinamos modelos de geração de vídeo baseados em difusão para prever movimentos de objetos com base em quadros iniciais. Nossos experimentos de escalonamento mostram generalização perfeita dentro da distribuição, comportamento de escalonamento mensurável para generalização combinatorial, mas falha em cenários fora da distribuição. Experimentos adicionais revelam duas percepções-chave sobre os mecanismos de generalização desses modelos: (1) os modelos falham em abstrair regras físicas gerais e, em vez disso, exibem um comportamento de generalização "baseado em casos", ou seja, imitando o exemplo de treinamento mais próximo; (2) ao generalizar para novos casos, os modelos são observados priorizando diferentes fatores ao fazer referência aos dados de treinamento: cor > tamanho > velocidade > forma. Nosso estudo sugere que o escalonamento por si só é insuficiente para que os modelos de geração de vídeo descubram leis físicas fundamentais, apesar de seu papel no sucesso mais amplo do Sora. Consulte nossa página do projeto em https://phyworld.github.io
Os modelos de difusão têm demonstrado excelentes capacidades na geração de texto para imagem. Sua capacidade de compreensão semântica (ou seja, seguimento de instruções) também foi grandemente aprimorada com grandes modelos de linguagem (por exemplo, T5, Llama). No entanto, os modelos existentes não conseguem lidar perfeitamente com instruções de texto longas e complexas, especialmente quando estas contêm vários objetos com inúmeras características e relações espaciais inter-relacionadas. Embora muitos métodos de instrução regional tenham sido propostos para modelos baseados em UNet (SD1.5, SDXL), ainda não existem implementações baseadas na arquitetura recente de Transformer de Difusão (DiT), como SD3 e FLUX. Neste relatório, propomos e implementamos instrução regional para FLUX.1 com base na manipulação de atenção, o que permite ao DiT ter capacidade de geração de texto para imagem composto por detalhes finos de forma livre de treinamento. O código está disponível em https://github.com/antonioo-c/Regional-Prompting-FLUX.
Neste artigo, apresentamos o Hunyuan-Large, que é atualmente o maior modelo de mistura de especialistas baseado em Transformer de código aberto, com um total de 389 bilhões de parâmetros e 52 bilhões de parâmetros de ativação, capaz de lidar com até 256 mil tokens. Realizamos uma avaliação abrangente do desempenho superior do Hunyuan-Large em vários benchmarks, incluindo compreensão e geração de linguagem, raciocínio lógico, resolução de problemas matemáticos, codificação, contexto longo e tarefas agregadas, onde supera o LLama3.1-70B e apresenta desempenho comparável ao modelo significativamente maior LLama3.1-405B. As principais práticas do Hunyuan-Large incluem dados sintéticos em grande escala, muito maiores do que na literatura anterior, uma estratégia de roteamento de especialistas mistos, uma técnica de compressão de cache chave-valor e uma estratégia de taxa de aprendizado específica para especialistas. Além disso, investigamos as leis de escalonamento e o cronograma de taxa de aprendizado de modelos de mistura de especialistas, fornecendo insights valiosos e orientações para o desenvolvimento e otimização de modelos futuros. O código e os pontos de verificação do Hunyuan-Large foram disponibilizados para facilitar futuras inovações e aplicações. Códigos: https://github.com/Tencent/Hunyuan-Large Modelos: https://huggingface.co/tencent/Tencent-Hunyuan-Large
A texturização é uma etapa crucial no fluxo de produção de ativos 3D, que aprimora o apelo visual e a diversidade dos ativos 3D. Apesar dos avanços recentes na geração de Texto-para-Textura (T2T), os métodos existentes frequentemente produzem resultados insatisfatórios, principalmente devido a descontinuidades locais, inconsistências em múltiplas visualizações e sua forte dependência nos resultados de desdobramento UV. Para enfrentar esses desafios, propomos um novo framework de texturização 3D de geração-refinamento chamado MVPaint, que pode gerar texturas contínuas de alta resolução, enfatizando a consistência multi-visualização. O MVPaint consiste principalmente em três módulos-chave. 1) Geração Sincronizada Multi-visualização (SMG). Dado um modelo de malha 3D, o MVPaint primeiro gera simultaneamente imagens de multi-visualização empregando um modelo SMG, o que resulta em texturizações grosseiras com partes não pintadas devido a observações ausentes. 2) Preenchimento 3D Espacialmente Consciente (S3I). Para garantir a texturização 3D completa, introduzimos o método S3I, especificamente projetado para texturizar efetivamente áreas previamente não observadas. 3) Refinamento UV (UVR). Além disso, o MVPaint emprega um módulo UVR para melhorar a qualidade da textura no espaço UV, que primeiro realiza uma Super-Resolução no espaço UV, seguida por um algoritmo de Suavização de Costura Espacialmente Consciente para revisar descontinuidades de texturização espacial causadas pelo desdobramento UV. Além disso, estabelecemos dois benchmarks de avaliação T2T: o benchmark T2T Objaverse e o benchmark T2T GSO, com base em malhas 3D de alta qualidade selecionadas do conjunto de dados Objaverse e de todo o conjunto de dados GSO, respectivamente. Resultados experimentais extensivos demonstram que o MVPaint supera os métodos existentes de ponta. Notavelmente, o MVPaint pode gerar texturas de alta fidelidade com problemas mínimos de Janus e uma consistência aprimorada entre visualizações cruzadas.
A implantação em larga escala de grandes modelos de linguagem (LLMs) em diversas aplicações, como chatbots e assistentes virtuais, requer que os LLMs sejam culturalmente sensíveis ao usuário para garantir a inclusão. A cultura tem sido amplamente estudada em psicologia e antropologia, e houve um aumento recente na pesquisa sobre tornar os LLMs mais culturalmente inclusivos, indo além da multilinguismo e se baseando em descobertas da psicologia e antropologia. Neste artigo, fazemos uma análise dos esforços para incorporar a consciência cultural em LLMs baseados em texto e multimodais. Começamos definindo a consciência cultural em LLMs, tomando as definições de cultura da antropologia e psicologia como ponto de partida. Em seguida, examinamos as metodologias adotadas para criar conjuntos de dados transculturais, estratégias para inclusão cultural em tarefas subsequentes e metodologias utilizadas para avaliar a consciência cultural em LLMs. Além disso, discutimos as implicações éticas da alinhamento cultural, o papel da Interação Humano-Computador em impulsionar a inclusão cultural em LLMs e o papel do alinhamento cultural em impulsionar a pesquisa em ciências sociais. Por fim, fornecemos diretrizes para pesquisas futuras com base em nossas descobertas sobre lacunas na literatura.
Gerar vídeos de alta fidelidade de forma temporalmente consistente pode ser computacionalmente custoso, especialmente ao longo de períodos temporais mais longos. Os Transformadores de Difusão mais recentes (DiTs) - apesar de terem avançado significativamente nesse contexto - apenas intensificaram tais desafios, uma vez que dependem de modelos maiores e mecanismos de atenção mais pesados, resultando em velocidades de inferência mais lentas. Neste artigo, introduzimos um método sem treinamento para acelerar os DiTs de vídeo, denominado de Armazenamento Adaptativo (AdaCache), que é motivado pelo fato de que "nem todos os vídeos são criados iguais": ou seja, alguns vídeos requerem menos etapas de remoção de ruído para atingir uma qualidade razoável do que outros. Com base nisso, não apenas armazenamos cálculos por meio do processo de difusão, mas também elaboramos um cronograma de armazenamento adaptado a cada geração de vídeo, maximizando a relação qualidade-latência. Introduzimos ainda um esquema de Regularização de Movimento (MoReg) para utilizar informações de vídeo dentro do AdaCache, controlando essencialmente a alocação de computação com base no conteúdo de movimento. No geral, nossas contribuições plug-and-play concedem acelerações significativas na inferência (por exemplo, até 4,7 vezes na geração de vídeo Open-Sora 720p - 2s) sem sacrificar a qualidade da geração, em várias bases de linha de base de DiTs de vídeo.
Os recentes avanços na geração visual 2D têm sido notavelmente bem-sucedidos. No entanto, a geração 3D e 4D ainda apresenta desafios em aplicações do mundo real devido à falta de dados em grande escala em 4D e ao design eficaz do modelo. Neste artigo, propomos investigar conjuntamente a geração geral em 3D e 4D, aproveitando os movimentos de câmera e objetos comumente observados na vida cotidiana. Devido à escassez de dados reais em 4D na comunidade, propomos inicialmente um pipeline de curadoria de dados para obter poses de câmera e intensidade de movimento do objeto a partir de vídeos. Com base nesse pipeline, introduzimos um conjunto de dados de cena 4D do mundo real em grande escala: CamVid-30K. Ao aproveitar todos os dados em 3D e 4D, desenvolvemos nosso framework, GenXD, que nos permite produzir qualquer cena em 3D ou 4D. Propomos módulos multivisão-temporais, que separam os movimentos de câmera e objeto, para aprender de forma contínua a partir de dados em 3D e 4D. Além disso, o GenXD emprega condições latentes mascaradas para suportar uma variedade de visualizações condicionais. O GenXD pode gerar vídeos que seguem a trajetória da câmera, bem como visualizações 3D consistentes que podem ser convertidas em representações 3D. Realizamos extensas avaliações em diversos conjuntos de dados do mundo real e sintéticos, demonstrando a eficácia e versatilidade do GenXD em comparação com métodos anteriores na geração em 3D e 4D.
O software moderno de efeitos visuais (VFX) tornou possível para artistas habilidosos criar imagens de praticamente qualquer coisa. No entanto, o processo de criação continua sendo trabalhoso, complexo e em grande parte inacessível para usuários comuns. Neste trabalho, apresentamos o AutoVFX, um framework que cria automaticamente vídeos de VFX realistas e dinâmicos a partir de um único vídeo e instruções em linguagem natural. Ao integrar cuidadosamente modelagem neural de cenas, geração de código baseada em LLM e simulação física, o AutoVFX é capaz de fornecer efeitos de edição fisicamente fundamentados e fotorrealistas que podem ser controlados diretamente usando instruções em linguagem natural. Realizamos experimentos extensivos para validar a eficácia do AutoVFX em uma ampla gama de vídeos e instruções. Resultados quantitativos e qualitativos sugerem que o AutoVFX supera significativamente todos os métodos concorrentes em qualidade generativa, alinhamento de instruções, versatilidade de edição e plausibilidade física.
Os avanços rápidos em Modelos Visão-Linguagem (VLMs) têm demonstrado grande potencial na abordagem de tarefas de raciocínio matemático que envolvem contexto visual. Ao contrário dos humanos que podem aplicar de forma confiável passos de solução a problemas semelhantes com modificações mínimas, descobrimos que os VLMs de última geração, como o GPT-4o, podem consistentemente falhar nesses cenários, revelando limitações em suas capacidades de raciocínio matemático. Neste artigo, investigamos a robustez do raciocínio matemático em VLMs e avaliamos o desempenho desses modelos sob diferentes variantes da mesma pergunta, como mudanças nos valores numéricos visuais ou nos gráficos de funções. Embora vários benchmarks matemáticos baseados em visão tenham sido desenvolvidos para avaliar as capacidades de resolução de problemas dos VLMs, esses benchmarks contêm apenas conjuntos estáticos de problemas e não podem avaliar facilmente a robustez do raciocínio matemático. Para preencher essa lacuna, apresentamos o DynaMath, um benchmark matemático visual dinâmico projetado para avaliação aprofundada de VLMs. O DynaMath inclui 501 perguntas iniciais de alta qualidade e multi-tópico, cada uma representada como um programa Python. Esses programas são cuidadosamente projetados e anotados para permitir a geração automática de um conjunto muito maior de perguntas concretas, incluindo muitos tipos diferentes de variações visuais e textuais. O DynaMath nos permite avaliar a capacidade de generalização dos VLMs, avaliando seu desempenho sob condições de entrada variáveis de uma pergunta inicial. Avaliamos 14 VLMs de última geração com 5.010 perguntas concretas geradas. Nossos resultados mostram que a precisão do modelo no pior caso, definida como a porcentagem de perguntas iniciais respondidas corretamente em todas as 10 variantes, é significativamente menor do que a precisão no caso médio. Nossa análise enfatiza a necessidade de estudar a robustez das habilidades de raciocínio dos VLMs, e o DynaMath fornece insights valiosos para orientar o desenvolvimento de modelos mais confiáveis para o raciocínio matemático.
A esparsidade de ativação denota a existência de elementos substancialmente pouco contribuintes dentro das saídas de ativação que podem ser eliminados, beneficiando muitas aplicações importantes relacionadas a modelos de linguagem grandes (LLMs). Embora promover uma maior esparsidade de ativação dentro de LLMs mereça estudos aprofundados, os trabalhos existentes carecem de pesquisas abrangentes e quantitativas sobre a correlação entre a esparsidade de ativação e fatores potencialmente influentes. Neste artigo, apresentamos um estudo abrangente sobre as propriedades de escala quantitativa e fatores influentes da esparsidade de ativação dentro de LLMs baseados em Transformer apenas no decodificador. Especificamente, propomos a esparsidade PPL-p%, uma métrica precisa e consciente do desempenho de esparsidade de ativação que é aplicável a qualquer função de ativação. Através de experimentos extensivos, encontramos vários fenômenos importantes. Em primeiro lugar, diferentes funções de ativação exibem desempenhos comparáveis, mas tendências de esparsidade no tempo de treinamento opostas. A taxa de ativação (ou seja, 1 - taxa de esparsidade) evolui como uma lei de potência crescente convergente e uma lei de potência decrescente em logspace com a quantidade de dados de treinamento para LLMs ativados por SiLU e ReLU, respectivamente. Isso demonstra que o ReLU é mais eficiente como função de ativação do que o SiLU e pode aproveitar mais dados de treinamento para melhorar a esparsidade de ativação. Em segundo lugar, a taxa de ativação aumenta linearmente com a relação largura-profundidade abaixo de um certo ponto de gargalo, indicando a vantagem potencial de uma arquitetura mais profunda em uma escala de parâmetros fixa. Por fim, em relações largura-profundidade semelhantes, descobrimos surpreendentemente que o valor limite da esparsidade de ativação varia fracamente com a escala de parâmetros, ou seja, os padrões de ativação dentro de LLMs são insensíveis à escala de parâmetros. Essas leis empíricas em direção a LLMs com maior esparsidade de ativação têm implicações importantes para tornar os LLMs mais eficientes e interpretáveis.
O ano passado testemunhou o significativo avanço de modelos de linguagem baseados em vídeo. No entanto, o desafio de desenvolver um modelo unificado para compreensão de vídeos curtos e longos permanece sem solução. A maioria dos modelos de linguagem baseados em vídeo existentes não consegue lidar com vídeos de longa duração, enquanto os métodos personalizados para vídeos longos tendem a ser ineficazes para vídeos curtos e imagens. Neste artigo, identificamos o problema-chave como o conteúdo redundante em vídeos. Para abordar isso, propomos uma nova estratégia de pooling que simultaneamente alcança compressão de tokens e agregação de características visuais conscientes das instruções. Nosso modelo é denominado Pooling Guiado por Prompt LLaVA, ou PPLLaVA para abreviar. Especificamente, o PPLLaVA é composto por três componentes principais: o alinhamento visual baseado em prompt CLIP que extrai informações visuais relevantes às instruções do usuário, o pooling guiado por prompt que comprime a sequência visual para escalas arbitrárias usando pooling no estilo convolucional, e a extensão de contexto de clipe projetada para prompts extensos comuns em diálogos visuais. Além disso, nossa base de código também integra a otimização de preferência direta (DPO) de vídeo mais avançada e treinamento visual intercalado. Experimentos extensivos validaram o desempenho de nosso modelo. Com rendimento superior e apenas 1024 contextos visuais, o PPLLaVA alcança melhores resultados em benchmarks de imagem como um modelo de linguagem baseado em vídeo, ao mesmo tempo que alcança desempenho de ponta em diversos benchmarks de vídeo, destacando-se em tarefas que vão desde geração de legendas até perguntas de múltipla escolha, e lidando com vídeos de segundos a horas. Os códigos estão disponíveis em https://github.com/farewellthree/PPLLaVA.
A Mixture of Experts (MoEs) desempenha um papel importante no desenvolvimento de modelos de linguagem grandes (LLMs) mais eficientes e eficazes. Devido aos enormes requisitos de recursos, o estudo de algoritmos MoE em grande escala permanece inacessível para muitos pesquisadores. Este trabalho desenvolve o LibMoE, um framework abrangente e modular para simplificar a pesquisa, treinamento e avaliação de algoritmos MoE. Construído com base em três princípios principais: (i) design modular, (ii) treinamento eficiente; (iii) avaliação abrangente, o LibMoE torna os MoE em LLMs mais acessíveis a uma ampla gama de pesquisadores, padronizando os pipelines de treinamento e avaliação. Usando o LibMoE, realizamos extensas análises comparativas de cinco algoritmos MoE de última geração em três LLMs diferentes e 11 conjuntos de dados no cenário de zero-shot. Os resultados mostram que, apesar das características únicas, todos os algoritmos MoE apresentam desempenho aproximadamente semelhante quando considerados em uma ampla gama de tarefas. Com o design modular e a avaliação abrangente, acreditamos que o LibMoE será inestimável para os pesquisadores avançarem significativamente em direção à próxima geração de MoE e LLMs. Página do projeto: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
No desenvolvimento de Modelos de Linguagem de Grande Escala (LLM), o Aprendizado por Reforço a partir do Feedback Humano (RLHF) é crucial para alinhar os modelos com os valores e preferências humanas. O RLHF tradicionalmente se baseia na divergência Kullback-Leibler (KL) entre a política atual e uma política inicial congelada como referência, que é adicionada como uma penalidade em algoritmos de otimização de política como a Otimização de Política Proximal (PPO). Embora essa restrição evite que os modelos se desviem muito do ponto de verificação inicial, ela limita a exploração da paisagem de recompensas, reduzindo a capacidade do modelo de descobrir soluções de maior qualidade. Como resultado, a otimização de política frequentemente fica presa em uma região estreita do espaço de parâmetros, levando a um alinhamento e desempenho subótimos. Este artigo apresenta o SALSA (Aprendizado de Alinhamento à Base de Sopa para uma Adaptação Mais Forte), uma abordagem inovadora projetada para superar essas limitações, criando um modelo de referência mais flexível e melhor localizado por meio da média de espaço de pesos de dois modelos independentes finamente ajustados supervisionados (SFT). Essa sopa de modelos permite uma maior divergência na divergência KL e explorar uma região promissora do espaço de soluções sem sacrificar a estabilidade. Ao aproveitar esse modelo de referência mais robusto, o SALSA promove uma melhor exploração, alcançando recompensas mais altas e melhorando a robustez do modelo, generalização fora da distribuição e desempenho. Validamos a eficácia do SALSA por meio de experimentos extensivos em modelos abertos populares (Llama2-7B, Mistral-7B e Gemma-2B) em vários benchmarks (MT-Bench, Arena-Hard, UltraFeedback), onde consistentemente supera o PPO ao promover uma exploração mais profunda e alcançar um alinhamento superior em LLMs.
Apresentamos Representações de Metas de Imagem (IGOR), com o objetivo de aprender um espaço de ação unificado e semanticamente consistente entre humanos e vários robôs. Através deste espaço de ação latente unificado, o IGOR possibilita a transferência de conhecimento entre dados de atividades em larga escala de robôs e humanos. Conseguimos isso comprimindo as mudanças visuais entre uma imagem inicial e seu estado de meta em ações latentes. O IGOR nos permite gerar rótulos de ação latente para dados de vídeo em escala da internet. Este espaço de ação latente unificado possibilita o treinamento de políticas fundamentais e modelos de mundo em uma ampla variedade de tarefas realizadas tanto por robôs quanto por humanos. Demonstramos que: (1) o IGOR aprende um espaço de ação semanticamente consistente para humanos e robôs, caracterizando várias possíveis movimentações de objetos representando o conhecimento de interação física; (2) o IGOR pode "migrar" os movimentos do objeto em um vídeo para outros vídeos, mesmo entre humanos e robôs, utilizando em conjunto o modelo de ação latente e o modelo de mundo; (3) o IGOR pode aprender a alinhar ações latentes com linguagem natural através do modelo de política fundamental, e integrar ações latentes com um modelo de política de baixo nível para alcançar um controle eficaz do robô. Acreditamos que o IGOR abre novas possibilidades para a transferência de conhecimento e controle de humanos para robôs.
Compreender e mitigar os potenciais riscos associados aos modelos fundamentais (FMs) depende do desenvolvimento de métodos de interpretabilidade eficazes. Os Autoencoders Esparsos (SAEs) surgiram como uma ferramenta promissora para desembaraçar as representações dos FMs, mas têm dificuldade em capturar conceitos raros, porém cruciais nos dados. Apresentamos os Autoencoders Especializados Esparsos (SSAEs), projetados para iluminar esses recursos elusivos de matéria escura, concentrando-se em subdomínios específicos. Apresentamos uma receita prática para treinar os SSAEs, demonstrando a eficácia da recuperação densa para seleção de dados e os benefícios da Minimização de Risco Empírico Inclinado como objetivo de treinamento para melhorar a recordação de conceitos. Nossa avaliação dos SSAEs em métricas padrão, como perplexidade subsequente e esparsidade L_0, mostra que eles capturam efetivamente os conceitos de cauda do subdomínio, superando as capacidades dos SAEs de propósito geral. Demonstramos a utilidade prática dos SSAEs em um estudo de caso no conjunto de dados Bias in Bios, onde os SSAEs alcançam um aumento de 12,5\% na precisão de classificação do pior grupo quando aplicados para remover informações de gênero espúrias. Os SSAEs fornecem uma nova e poderosa lente para examinar o funcionamento interno dos FMs em subdomínios.
Apresentamos o Multi-expert Prompting, um aprimoramento inovador do ExpertPrompting (Xu et al., 2023), projetado para melhorar a geração de modelos de linguagem de grande escala (LLM). Especificamente, ele guia um LLM para cumprir uma instrução de entrada simulando múltiplos especialistas, agregando suas respostas e selecionando a melhor entre as respostas individuais e agregadas. Esse processo é realizado em uma única cadeia de pensamentos por meio de nossas sete subtarefas cuidadosamente projetadas derivadas da Técnica do Grupo Nominal (Ven e Delbecq, 1974), um framework de tomada de decisão bem estabelecido. Nossas avaliações demonstram que o Multi-expert Prompting supera significativamente o ExpertPrompting e baselines comparáveis na melhoria da veracidade, factualidade, informatividade e utilidade das respostas, enquanto reduz a toxicidade e a prejudicialidade. Além disso, alcança a veracidade de ponta ao superar o melhor baseline em 8,69% com o ChatGPT. O Multi-expert Prompting é eficiente, explicável e altamente adaptável a diversos cenários, eliminando a necessidade de construção manual de prompts.
Este artigo descreve um algoritmo eficiente para resolver problemas inversos lineares ruidosos usando modelos de difusão pré-treinados. Estendendo o paradigma dos modelos implícitos de difusão para remoção de ruído (DDIM), propomos modelos implícitos de difusão restritos (CDIM) que modificam as atualizações de difusão para impor uma restrição na saída final. Para problemas inversos sem ruído, o CDIM satisfaz exatamente as restrições; no caso ruidoso, generalizamos o CDIM para satisfazer uma restrição exata na distribuição residual do ruído. Experimentos em uma variedade de tarefas e métricas mostram um desempenho sólido do CDIM, com aceleração de inferência análoga ao DDIM não restrito: de 10 a 50 vezes mais rápido do que métodos de difusão condicional anteriores. Demonstramos a versatilidade de nossa abordagem em muitos problemas, incluindo super-resolução, remoção de ruído, preenchimento, desfocagem e reconstrução de nuvem de pontos 3D.
Apresentamos Swan, uma família de modelos de incorporação centrados na língua árabe, abordando casos de uso em pequena e grande escala. Swan inclui duas variantes: Swan-Small, baseado no ARBERTv2, e Swan-Large, construído sobre o ArMistral, um modelo de linguagem árabe grande pré-treinado. Para avaliar esses modelos, propomos o ArabicMTEB, uma suíte abrangente de testes que avalia o desempenho de incorporação de texto árabe em tarefas cruzadas, multidialetais, multidomínio e multiculturais, abrangendo oito tarefas diversas e 94 conjuntos de dados. O Swan-Large alcança resultados de ponta, superando o Multilingual-E5-large na maioria das tarefas árabes, enquanto o Swan-Small consistentemente supera o Multilingual-E5 base. Nossas extensas avaliações demonstram que os modelos Swan são conscientes tanto dialetal quanto culturalmente, destacando-se em diversos domínios árabes, ao mesmo tempo que oferecem eficiência monetária significativa. Este trabalho avança significativamente no campo da modelagem da língua árabe e fornece recursos valiosos para pesquisas futuras e aplicações no processamento de linguagem natural árabe. Nossos modelos e testes serão disponibilizados publicamente para pesquisa.
Grandes modelos multimodais (LMMs) mostraram recentemente grande progresso na compreensão de imagens ricas em texto, no entanto, ainda enfrentam dificuldades com documentos complexos, multi-página e visualmente ricos. Métodos tradicionais que utilizam analisadores de documentos para geração aumentada por recuperação sofrem com limitações de desempenho e eficiência, enquanto apresentar todas as páginas diretamente aos LMMs leva a ineficiências, especialmente com documentos extensos. Neste trabalho, apresentamos um novo framework chamado LoRA-Adaptação Contextualizada de Grandes Modelos Multimodais (LoCAL), que amplia as capacidades de qualquer LMM para suportar a compreensão de documentos longos. Demonstramos que os LMMs podem servir efetivamente como recuperadores multimodais, buscando páginas relevantes para responder perguntas do usuário com base nessas páginas. O LoCAL é implementado com dois adaptadores LMM específicos: um para recuperação de páginas de evidência e outro para resposta a perguntas. Resultados empíricos mostram desempenho de ponta em benchmarks públicos, demonstrando a eficácia do LoCAL.