Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Movie Gen, um elenco de modelos fundamentais que gera vídeos de alta qualidade em HD de 1080p com diferentes proporções de aspecto e áudio sincronizado. Também demonstramos capacidades adicionais, como edição de vídeo precisa baseada em instruções e geração de vídeos personalizados com base na imagem de um usuário. Nossos modelos estabelecem um novo estado da arte em várias tarefas: síntese de texto para vídeo, personalização de vídeo, edição de vídeo, geração de áudio para vídeo e geração de áudio para texto. Nosso maior modelo de geração de vídeo é um transformador de 30B parâmetros treinado com um comprimento máximo de contexto de 73 mil tokens de vídeo, correspondendo a um vídeo gerado de 16 segundos a 16 quadros por segundo. Apresentamos múltiplas inovações técnicas e simplificações na arquitetura, espaços latentes, objetivos e receitas de treinamento, curadoria de dados, protocolos de avaliação, técnicas de paralelização e otimizações de inferência que nos permitem colher os benefícios da escala de dados de pré-treinamento, tamanho do modelo e poder de treinamento para treinar modelos de geração de mídia em grande escala. Esperamos que este artigo ajude a comunidade de pesquisa a acelerar o progresso e a inovação em modelos de geração de mídia. Todos os vídeos deste artigo estão disponíveis em https://go.fb.me/MovieGenResearchVideos.
Perceber e gerar diversas modalidades são cruciais para os modelos de IA aprenderem e interagirem efetivamente com sinais do mundo real, exigindo avaliações confiáveis para o seu desenvolvimento. Identificamos dois problemas principais nas avaliações atuais: (1) padrões inconsistentes, moldados por diferentes comunidades com protocolos e níveis de maturidade variados; e (2) viés significativo em consultas, classificações e generalizações. Para lidar com isso, apresentamos o MixEval-X, o primeiro benchmark do mundo real de qualquer para qualquer, projetado para otimizar e padronizar avaliações em diferentes modalidades de entrada e saída. Propomos misturas de benchmarks multimodais e pipelines de adaptação-retificação para reconstruir distribuições de tarefas do mundo real, garantindo que as avaliações generalizem efetivamente para casos de uso do mundo real. Avaliações meta-extensivas mostram que nossa abordagem alinha efetivamente amostras de benchmark com distribuições de tarefas do mundo real e as classificações dos modelos se correlacionam fortemente com as avaliações do mundo real feitas por multidões (até 0,98). Fornecemos classificações abrangentes para reclassificar modelos e organizações existentes e oferecemos insights para aprimorar a compreensão das avaliações multimodais e informar pesquisas futuras.
Juízes baseados em LLM surgiram como uma alternativa escalável à avaliação humana e estão sendo cada vez mais utilizados para avaliar, comparar e melhorar modelos. No entanto, a confiabilidade dos juízes baseados em LLM raramente é examinada. À medida que os LLMs se tornam mais avançados, suas respostas se tornam mais sofisticadas, exigindo juízes mais robustos para avaliá-los. As referências existentes focam principalmente na concordância de um juiz com as preferências humanas, mas frequentemente falham em considerar tarefas mais desafiadoras, onde a preferência humana coletada em massa é um indicador fraco de correção factual e lógica. Para lidar com isso, propomos um novo framework de avaliação para avaliar objetivamente juízes baseados em LLM. Com base nesse framework, propomos o JudgeBench, um benchmark para avaliar juízes baseados em LLM em pares de respostas desafiadores abrangendo conhecimento, raciocínio, matemática e codificação. O JudgeBench utiliza um pipeline inovador para converter conjuntos de dados difíceis existentes em pares de respostas desafiadores com rótulos de preferência que refletem a correção objetiva. Nossa avaliação abrangente em uma coleção de juízes solicitados, juízes ajustados e modelos de recompensa mostra que o JudgeBench apresenta um desafio significativamente maior do que benchmarks anteriores, com muitos modelos robustos (por exemplo, GPT-4o) performando apenas ligeiramente melhor do que adivinhação aleatória. No geral, o JudgeBench oferece uma plataforma confiável para avaliar juízes baseados em LLM cada vez mais avançados. Os dados e o código estão disponíveis em https://github.com/ScalerLab/JudgeBench.
Aumentar o escopo de modelos autoregressivos em visão não se mostrou tão benéfico quanto em grandes modelos de linguagem. Neste trabalho, investigamos esse problema de escalabilidade no contexto da geração de texto para imagem, focando em dois fatores críticos: se os modelos usam tokens discretos ou contínuos e se os tokens são gerados em uma ordem de grade aleatória ou fixa usando arquiteturas de transformadores semelhantes ao BERT ou GPT. Nossos resultados empíricos mostram que, embora todos os modelos aumentem efetivamente em termos de perda de validação, seu desempenho de avaliação - medido por FID, pontuação GenEval e qualidade visual - segue tendências diferentes. Modelos baseados em tokens contínuos alcançam qualidade visual significativamente melhor do que aqueles que usam tokens discretos. Além disso, a ordem de geração e os mecanismos de atenção afetam significativamente a pontuação GenEval: modelos de ordem aleatória alcançam pontuações GenEval consideravelmente melhores em comparação com modelos de ordem de grade. Inspirados por esses achados, treinamos o Fluid, um modelo autoregressivo de ordem aleatória em tokens contínuos. O modelo Fluid 10.5B alcança um novo estado da arte de FID de zero-shot de 6.16 no MS-COCO 30K e uma pontuação geral de 0.69 no benchmark GenEval. Esperamos que nossos achados e resultados incentivem esforços futuros para diminuir ainda mais a lacuna de escalabilidade entre modelos de visão e linguagem.
Neste artigo, apresentamos Janus, um framework autoregressivo que unifica a compreensão e geração multimodal. Pesquisas anteriores frequentemente dependem de um único codificador visual para ambas as tarefas, como o Chameleon. No entanto, devido aos diferentes níveis de granularidade da informação necessários para a compreensão e geração multimodal, essa abordagem pode levar a um desempenho subótimo, especialmente na compreensão multimodal. Para lidar com esse problema, desacoplamos a codificação visual em caminhos separados, enquanto ainda aproveitamos uma única arquitetura de transformer unificada para processamento. O desacoplamento não apenas alivia o conflito entre os papéis do codificador visual na compreensão e geração, mas também aprimora a flexibilidade do framework. Por exemplo, tanto os componentes de compreensão quanto de geração multimodal podem selecionar independentemente seus métodos de codificação mais adequados. Experimentos mostram que Janus supera o modelo unificado anterior e iguala ou excede o desempenho de modelos específicos de tarefas. A simplicidade, alta flexibilidade e eficácia de Janus o tornam um forte candidato para modelos multimodais unificados de próxima geração.
O sucesso dos grandes modelos de linguagem (LLMs) tem motivado esforços para integrar dados de fala e áudio, com o objetivo de criar modelos fundamentais gerais capazes de processar tanto entradas textuais quanto não textuais. Avanços recentes, como o GPT-4o, destacam o potencial para LLMs de fala de ponta a ponta, que preservam informações não semânticas e conhecimento do mundo para uma compreensão mais profunda da fala. Para orientar o desenvolvimento de LLMs de fala, propomos um roadmap de cinco níveis, que vai desde o reconhecimento automático de fala (ASR) básico até modelos super-humanos avançados capazes de integrar informações não semânticas com conhecimento acústico abstrato para tarefas complexas. Além disso, projetamos um benchmark, o Benchmark SAGI, que padroniza aspectos críticos em várias tarefas nesses cinco níveis, revelando desafios no uso de conhecimento acústico abstrato e completude de capacidade. Nossas descobertas revelam lacunas no tratamento de pistas paralinguísticas e conhecimento acústico abstrato, e oferecemos direções futuras. Este artigo delineia um roadmap para avançar os LLMs de fala, introduz um benchmark para avaliação e fornece insights-chave sobre suas limitações atuais e potencialidades.
Os assistentes móveis atuais são limitados pela dependência de APIs do sistema ou têm dificuldades com instruções complexas dos usuários e interfaces diversas devido a habilidades restritas de compreensão e tomada de decisão. Para enfrentar esses desafios, propomos o MobA, um novo Agente de Telefone Móvel alimentado por modelos de linguagem multimodais que aprimoram as capacidades de compreensão e planejamento por meio de uma sofisticada arquitetura de agente em dois níveis. O Agente Global de alto nível (GA) é responsável por entender os comandos do usuário, rastrear memórias de histórico e planejar tarefas. O Agente Local de baixo nível (LA) prevê ações detalhadas na forma de chamadas de função, guiadas por subtarefas e memória do GA. A integração de um Módulo de Reflexão permite a conclusão eficiente de tarefas e capacita o sistema a lidar com tarefas complexas previamente não vistas. O MobA demonstra melhorias significativas na eficiência de execução de tarefas e na taxa de conclusão em avaliações da vida real, destacando o potencial dos assistentes móveis potencializados por MLLM.
Os Modelos de Linguagem Visual (VLMs) frequentemente enfrentam dificuldades com conhecimentos específicos de culturas, especialmente em idiomas que não sejam o inglês e em contextos culturais sub-representados. Para avaliar sua compreensão desses conhecimentos, apresentamos o WorldCuisines, um benchmark em grande escala para compreensão de linguagem multilíngue e multicultural, fundamentado visualmente. Este benchmark inclui um conjunto de dados de perguntas e respostas visuais (VQA) com pares de texto e imagem em 30 idiomas e dialetos, abrangendo 9 famílias de idiomas e contendo mais de 1 milhão de pontos de dados, tornando-se o maior benchmark VQA multicultural até o momento. Ele inclui tarefas para identificar nomes de pratos e suas origens. Fornecemos conjuntos de dados de avaliação em dois tamanhos (12k e 60k instâncias) juntamente com um conjunto de dados de treinamento (1 milhão de instâncias). Nossas descobertas mostram que, embora os VLMs tenham um melhor desempenho com o contexto de localização correto, eles enfrentam dificuldades com contextos adversariais e na previsão de culinárias e idiomas regionais específicos. Para apoiar pesquisas futuras, disponibilizamos uma base de conhecimento com entradas alimentares anotadas e imagens juntamente com os dados VQA.
A compreensão visual rica em texto - a capacidade de processar ambientes nos quais conteúdo textual denso é integrado com elementos visuais - é crucial para modelos de linguagem grandes multimodais (MLLMs) interagirem de forma eficaz com ambientes estruturados. Para aprimorar essa capacidade, propomos a síntese de instruções multimodais gerais a partir de interfaces de usuário de páginas da web usando modelos de linguagem grandes baseados em texto (LLMs). Apesar da falta de entrada visual direta, os LLMs baseados em texto são capazes de processar representações textuais estruturadas das árvores de acessibilidade das páginas da web. Essas instruções são então combinadas com capturas de tela das interfaces de usuário para treinar modelos multimodais. Apresentamos o MultiUI, um conjunto de dados contendo 7,3 milhões de amostras de 1 milhão de sites, abrangendo diversas tarefas multimodais e layouts de interfaces de usuário. Os modelos treinados no MultiUI não apenas se destacam em tarefas de interface de usuário da web - alcançando até 48% de melhoria no VisualWebBench e um aumento de 19,1% na precisão de ação em um conjunto de dados de agente da web Mind2Web - mas também generalizam surpreendentemente bem para tarefas não relacionadas à interface de usuário da web e até mesmo para domínios não relacionados à interface de usuário, como compreensão de documentos, OCR e interpretação de gráficos. Esses resultados destacam a ampla aplicabilidade de dados de interface de usuário da web para avançar a compreensão visual rica em texto em diversos cenários.
Os avanços recentes na geração de vídeos personalizados permitiram aos usuários criar vídeos adaptados a assuntos específicos e trajetórias de movimento. No entanto, os métodos existentes frequentemente exigem ajustes complicados no momento do teste e têm dificuldade em equilibrar a aprendizagem do assunto e o controle de movimento, limitando suas aplicações no mundo real. Neste artigo, apresentamos o DreamVideo-2, um framework de personalização de vídeo de zero-shot capaz de gerar vídeos com um assunto específico e trajetória de movimento, guiado por uma única imagem e uma sequência de caixas delimitadoras, respectivamente, e sem a necessidade de ajustes complicados no momento do teste. Especificamente, introduzimos a atenção de referência, que aproveita as capacidades inerentes do modelo para aprendizagem do assunto, e desenvolvemos um módulo de movimento guiado por máscara para obter controle preciso de movimento, utilizando totalmente o sinal de movimento robusto das máscaras de caixa derivadas das caixas delimitadoras. Enquanto esses dois componentes alcançam suas funções pretendidas, observamos empiricamente que o controle de movimento tende a dominar a aprendizagem do assunto. Para lidar com isso, propomos dois projetos-chave: 1) a atenção de referência mascarada, que integra um esquema de modelagem de máscara latente misturada na atenção de referência para aprimorar as representações do assunto nas posições desejadas, e 2) uma perda de difusão reponderada, que diferencia as contribuições das regiões dentro e fora das caixas delimitadoras para garantir um equilíbrio entre o controle do assunto e do movimento. Resultados experimentais extensivos em um conjunto de dados recém-curado demonstram que o DreamVideo-2 supera os métodos de ponta tanto na personalização do assunto quanto no controle de movimento. O conjunto de dados, código e modelos serão disponibilizados publicamente.
A Inteligência Artificial (IA) demonstrou um potencial significativo na área da saúde, especialmente no diagnóstico de doenças e no planejamento de tratamentos. O progresso recente nos Modelos Médicos de Grande Visão e Linguagem (Med-LVLMs) abriu novas possibilidades para ferramentas de diagnóstico interativas. No entanto, esses modelos frequentemente sofrem de alucinação factual, o que pode resultar em diagnósticos incorretos. O ajuste fino e a geração aumentada por recuperação (RAG) surgiram como métodos para lidar com esses problemas. No entanto, a quantidade de dados de alta qualidade e as mudanças na distribuição entre os dados de treinamento e os dados de implementação limitam a aplicação dos métodos de ajuste fino. Embora o RAG seja leve e eficaz, as abordagens existentes baseadas em RAG não são suficientemente gerais para diferentes domínios médicos e podem potencialmente causar problemas de desalinhamento, tanto entre modalidades quanto entre o modelo e a verdade fundamental. Neste artigo, propomos um sistema RAG multimodal versátil, MMed-RAG, projetado para aprimorar a factualidade dos Med-LVLMs. Nossa abordagem introduz um mecanismo de recuperação consciente do domínio, um método adaptativo de seleção de contextos recuperados e uma estratégia de ajuste fino baseada em RAG comprovadamente eficaz. Essas inovações tornam o processo RAG suficientemente geral e confiável, melhorando significativamente o alinhamento ao introduzir contextos recuperados. Resultados experimentais em cinco conjuntos de dados médicos (envolvendo radiologia, oftalmologia, patologia) sobre VQA médico e geração de relatórios demonstram que o MMed-RAG pode alcançar uma melhoria média de 43,8% na precisão factual dos Med-LVLMs. Nossos dados e código estão disponíveis em https://github.com/richard-peng-xia/MMed-RAG.
Neste trabalho, aprimoramos o mecanismo de atenção multi-head, o núcleo do modelo Transformer, para melhorar a eficiência mantendo ou superando o nível de precisão anterior. Mostramos que a atenção multi-head pode ser expressa na forma de soma. Com base na percepção de que nem todas as cabeças de atenção possuem igual importância, propomos a atenção Mixture-of-Head (MoH), uma nova arquitetura que trata as cabeças de atenção como especialistas no mecanismo Mixture-of-Experts (MoE). MoH possui duas vantagens significativas: Primeiro, MoH permite que cada token selecione as cabeças de atenção apropriadas, aprimorando a eficiência de inferência sem comprometer a precisão ou aumentar o número de parâmetros. Segundo, MoH substitui a soma padrão na atenção multi-head por uma soma ponderada, introduzindo flexibilidade ao mecanismo de atenção e desbloqueando um potencial de desempenho adicional. Experimentos extensivos em ViT, DiT e LLMs demonstram que MoH supera a atenção multi-head usando apenas 50%-90% das cabeças de atenção. Além disso, demonstramos que modelos de atenção multi-head pré-treinados, como LLaMA3-8B, podem ser continuamente ajustados em nossos modelos MoH. Notavelmente, MoH-LLaMA3-8B alcança uma precisão média de 64,0% em 14 benchmarks, superando LLaMA3-8B em 2,4% ao utilizar apenas 75% das cabeças de atenção. Acreditamos que o MoH proposto é uma alternativa promissora à atenção multi-head e fornece uma base sólida para o desenvolvimento de modelos avançados e eficientes baseados em atenção.
A avaliação de grandes modelos de linguagem (LLMs) é custosa: requer a geração e exame das saídas do LLM em uma ampla avaliação de várias tarefas. Este artigo investiga como reduzir de forma eficiente as tarefas usadas para avaliar LLMs sem afetar a qualidade da avaliação. Nosso estudo revela que a transferibilidade e relevância da tarefa fornecem informações críticas para identificar o subconjunto mais representativo de tarefas, otimizando uma função de localização de instalações. Propomos uma métrica praticamente eficiente para estimar a transferibilidade entre duas tarefas por meio de aprendizado em contexto (ICL). Ao analisar a transferibilidade em pares, podemos reduzir as tarefas em uma avaliação moderna de LLM (por exemplo, MMLU ou FLAN) para 5%, causando apenas uma diferença <4% na avaliação em relação à avaliação original. Comparado aos trabalhos anteriores, nosso método não requer treinamento, não utiliza gradientes e é altamente eficiente, exigindo apenas ICL.
O alinhamento de grandes modelos de linguagem (LLMs) envolve treinar modelos em pares de saída preferência-contrastivos para ajustar suas respostas de acordo com as preferências humanas. Para obter tais pares contrastivos, métodos tradicionais como RLHF e RLAIF dependem de padrões contrastivos limitados, como variar variantes de modelo ou temperaturas de decodificação. Essa singularidade leva a dois problemas: (1) o alinhamento não é abrangente; e, portanto, (2) os modelos são susceptíveis a ataques de jailbreaking. Para lidar com esses problemas, investigamos como construir padrões contrastivos mais abrangentes e diversificados para aprimorar dados de preferência (RQ1) e verificar o impacto da diversificação de padrões contrastivos no alinhamento do modelo (RQ2). Para RQ1, propomos o PopAlign, um framework que integra padrões contrastivos diversificados nos níveis de prompt, modelo e pipeline, introduzindo seis estratégias contrastivas que não requerem procedimentos adicionais de rotulagem de feedback. Em relação a RQ2, conduzimos experimentos detalhados demonstrando que o PopAlign supera significativamente os métodos existentes, resultando em um alinhamento mais abrangente.
Capacitar os Modelos de Linguagem de Grande Escala (LLMs) para lidar com uma gama mais ampla de tarefas complexas (por exemplo, codificação, matemática) tem atraído grande atenção de muitos pesquisadores. À medida que os LLMs continuam a evoluir, simplesmente aumentar o número de parâmetros do modelo resulta em melhorias de desempenho decrescentes e custos computacionais elevados. Recentemente, o modelo o1 da OpenAI mostrou que estratégias de inferência (ou seja, métodos de Cálculo em Tempo de Teste) também podem aprimorar significativamente as capacidades de raciocínio dos LLMs. No entanto, os mecanismos por trás desses métodos ainda não foram explorados. Em nosso trabalho, para investigar os padrões de raciocínio do o1, comparamos o1 com os métodos existentes de Cálculo em Tempo de Teste (BoN, BoN Passo a Passo, Fluxo de Agente e Auto-Aprimoramento) usando o GPT-4o da OpenAI como base em benchmarks de raciocínio geral em três domínios (ou seja, matemática, codificação, raciocínio do senso comum). Especificamente, em primeiro lugar, nossos experimentos mostram que o modelo o1 alcançou o melhor desempenho na maioria dos conjuntos de dados. Em segundo lugar, quanto aos métodos de busca de respostas diversas (por exemplo, BoN), descobrimos que a capacidade dos modelos de recompensa e o espaço de busca limitam o limite superior desses métodos. Em terceiro lugar, quanto aos métodos que dividem o problema em muitos subproblemas, o Fluxo de Agente obteve melhor desempenho do que o BoN Passo a Passo devido ao prompt do sistema específico do domínio para planejar processos de raciocínio melhores. Em quarto lugar, vale ressaltar que resumimos seis padrões de raciocínio do o1 e fornecemos uma análise detalhada em vários benchmarks de raciocínio.
O pós-treinamento surgiu como um paradigma crucial para adaptar modelos pré-treinados em larga escala a várias tarefas, cujos efeitos são totalmente refletidos pelos parâmetros delta (ou seja, a disparidade entre os parâmetros pós-treinados e pré-treinados). Enquanto inúmeros estudos exploraram as propriedades dos parâmetros delta por meio de operações como poda, quantização, aproximação de baixa ordem e extrapolação, tem faltado um framework unificado para examinar sistematicamente essas características. Neste artigo, propomos uma nova perspectiva baseada na aproximação da soma de Riemann da função de perda para elucidar as operações de edição de parâmetros delta. Nossa análise categoriza os métodos existentes em três classes com base em seu desempenho pós-edição: competitivo, diminuído e melhorado, explicando como são expressos pelo termo de aproximação da soma de Riemann e como alteram o desempenho do modelo. Experimentos extensivos em modelos visuais e de linguagem, incluindo ViT, LLaMA 3, Qwen 2 e Mistral, corroboram nossas descobertas teóricas. Além disso, introduzimos extensões às técnicas existentes como DARE e BitDelta, destacando suas limitações em alavancar as propriedades dos parâmetros delta e reorganizando-os em expressões gerais para aprimorar a aplicabilidade e eficácia da edição de parâmetros delta em modelos pós-treinados.
Recentemente, a quantização tem sido amplamente utilizada para a compressão e aceleração de grandes modelos de linguagem (LLMs). Devido aos valores atípicos nos LLMs, é crucial nivelar os pesos e ativações para minimizar o erro de quantização com pontos de quantização igualmente espaçados. Pesquisas anteriores exploram várias transformações pré-quantização para suprimir os valores atípicos, como escalonamento por canal e transformação de Hadamard. No entanto, observamos que esses pesos e ativações transformados ainda podem permanecer íngremes e dispersos. Neste artigo, propomos o FlatQuant (Transformação Afim Rápida e Aprendível), uma nova abordagem de quantização pós-treinamento para melhorar a planicidade dos pesos e ativações. Nossa abordagem identifica transformações afins ótimas adaptadas a cada camada linear, calibradas em horas por meio de um objetivo leve. Para reduzir o overhead de tempo de execução, aplicamos a decomposição de Kronecker às matrizes de transformação e fundimos todas as operações no FlatQuant em um único kernel. Experimentos extensivos mostram que o FlatQuant estabelece um novo referencial de quantização de ponta. Por exemplo, ele alcança menos de 1% de queda de precisão para a quantização W4A4 no modelo LLaMA-3-70B, superando o SpinQuant em 7,5%. Para latência de inferência, o FlatQuant reduz a desaceleração induzida pela transformação pré-quantização de 0,26x do QuaRot para apenas 0,07x, proporcionando até 2,3x de aceleração para preenchimento e 1,7x de aceleração para decodificação, respectivamente. O código está disponível em: https://github.com/ruikangliu/FlatQuant.
A junção de imagens panorâmicas fornece uma visão unificada e ampla de uma cena que se estende além do campo de visão da câmera. Unir quadros de um vídeo panorâmico em uma fotografia panorâmica é um problema bem compreendido para cenas estáticas, mas quando objetos estão em movimento, uma panorâmica estática não consegue capturar a cena. Apresentamos um método para sintetizar um vídeo panorâmico a partir de um vídeo panorâmico capturado casualmente, como se o vídeo original tivesse sido capturado com uma câmera de grande angular. Colocamos a síntese de panoramas como um problema de preenchimento espaço-temporal, no qual buscamos criar um vídeo panorâmico completo com a mesma duração do vídeo de entrada. A conclusão consistente do volume espaço-temporal requer uma poderosa e realista priorização sobre o conteúdo de vídeo e movimento, para a qual adaptamos modelos generativos de vídeo. No entanto, modelos generativos existentes não se estendem imediatamente para o preenchimento de panoramas, como demonstramos. Em vez disso, aplicamos a geração de vídeo como um componente de nosso sistema de síntese de panoramas e demonstramos como explorar os pontos fortes dos modelos enquanto minimizamos suas limitações. Nosso sistema pode criar vídeos panorâmicos para uma variedade de cenas naturais, incluindo pessoas, veículos e água em movimento, bem como características de fundo estacionárias.
Embora os grandes modelos de linguagem (LLMs) demonstrem uma impressionante proficiência em diversas tarefas, eles apresentam potenciais riscos de segurança, como 'jailbreaks', nos quais inputs maliciosos podem forçar os LLMs a gerar conteúdo prejudicial. Para lidar com essas questões, muitos desenvolvedores de LLM implementaram diversas medidas de segurança para alinhar esses modelos. Esse alinhamento envolve várias técnicas, incluindo filtragem de dados durante o pré-treinamento, ajuste fino supervisionado, aprendizado por reforço a partir do feedback humano e exercícios de red teaming. Esses métodos frequentemente introduzem vieses deliberados e intencionais semelhantes à Correção Política (PC) para garantir o comportamento ético dos LLMs. Neste artigo, aprofundamos os vieses intencionais injetados nos LLMs para fins de segurança e examinamos métodos para contornar essas técnicas de alinhamento de segurança. Notavelmente, esses vieses intencionais resultam em uma taxa de sucesso de jailbreaking nos modelos GPT-4o que difere em 20% entre palavras-chave não binárias e cisgêneras e em 16% entre palavras-chave brancas e negras, mesmo quando as outras partes dos prompts são idênticas. Introduzimos o conceito de PCJailbreak, destacando os riscos inerentes causados por esses vieses induzidos pela segurança. Além disso, propomos um método de defesa eficiente, PCDefense, que previne tentativas de jailbreak injetando prompts de defesa antes da geração. PCDefense se apresenta como uma alternativa atraente aos Modelos de Guarda, como o Llama-Guard, que exigem custo adicional de inferência após a geração de texto. Nossas descobertas enfatizam a necessidade urgente de os desenvolvedores de LLM adotarem uma abordagem mais responsável ao projetar e implementar medidas de segurança.
À medida que as capacidades dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) continuam a melhorar, a necessidade de avaliação de capacidades de ordem superior dos MLLMs está aumentando. No entanto, há uma falta de trabalhos que avaliem os MLLMs para a percepção e compreensão de conteúdo visual chinês de ordem superior. Para preencher essa lacuna, apresentamos o **B**enchmark de **C**ompreensão de **I**mplicações de **I**magens Chinesas, **CII-Bench**, que tem como objetivo avaliar as capacidades de percepção e compreensão de ordem superior dos MLLMs para imagens chinesas. O CII-Bench se destaca de várias maneiras em comparação com os benchmarks existentes. Em primeiro lugar, para garantir a autenticidade do contexto chinês, as imagens no CII-Bench são obtidas da Internet chinesa e revisadas manualmente, com respostas correspondentes também elaboradas manualmente. Além disso, o CII-Bench incorpora imagens que representam a cultura tradicional chinesa, como pinturas tradicionais chinesas famosas, que podem refletir profundamente a compreensão do modelo sobre a cultura tradicional chinesa. Através de experimentos extensivos no CII-Bench com vários MLLMs, fizemos descobertas significativas. Inicialmente, observa-se uma lacuna substancial entre o desempenho dos MLLMs e dos humanos no CII-Bench. A precisão mais alta dos MLLMs atinge 64,4%, enquanto a precisão humana tem uma média de 78,2%, atingindo um impressionante 81,0%. Posteriormente, os MLLMs têm um desempenho pior em imagens de cultura tradicional chinesa, sugerindo limitações em sua capacidade de compreender semântica de alto nível e falta de um conhecimento profundo da cultura tradicional chinesa. Por fim, observa-se que a maioria dos modelos apresenta uma precisão aprimorada quando pistas de emoção da imagem são incorporadas nas sugestões. Acreditamos que o CII-Bench permitirá que os MLLMs obtenham uma melhor compreensão da semântica chinesa e de imagens específicas chinesas, avançando na jornada em direção à inteligência artificial geral especializada (AGI). Nosso projeto está publicamente disponível em https://cii-bench.github.io/.
As interações de várias etapas entre grandes modelos de linguagem (LLMs) e usuários naturalmente incluem sinais de feedback implícitos. Se um LLM responde de forma inesperada a uma instrução, é provável que o usuário sinalize isso reformulando o pedido, expressando frustração ou mudando para uma tarefa alternativa. Tais sinais são independentes da tarefa e ocupam um espaço de linguagem relativamente restrito, permitindo que o LLM os identifique mesmo se falhar na tarefa real. Isso cria uma oportunidade para aprender continuamente com as interações sem anotações adicionais. Apresentamos o ReSpect, um método para aprender com tais sinais em interações passadas por meio de retrospectiva. Implementamos o ReSpect em um novo cenário de interação multimodal, onde humanos instruem um LLM a resolver uma tarefa de raciocínio abstrato com um espaço de solução combinatório. Através de milhares de interações com humanos, mostramos como o ReSpect melhora gradualmente a taxa de conclusão da tarefa de 31% para 82%, tudo sem nenhuma anotação externa.
A Correção de Erros Generativa (GEC) surgiu como um método poderoso de pós-processamento para aprimorar o desempenho dos sistemas de Reconhecimento Automático de Fala (ASR). No entanto, demonstramos que os modelos de GEC têm dificuldade em generalizar além dos tipos específicos de erros encontrados durante o treinamento, limitando sua capacidade de corrigir novos erros não vistos no momento do teste, especialmente em cenários fora do domínio (OOD). Esse fenômeno se intensifica com entidades nomeadas (NEs), onde, além da informação contextual insuficiente ou do conhecimento sobre as NEs, novas NEs continuam surgindo. Para lidar com essas questões, propomos DARAG (Correção de Erros Generativa Aumentada por Dados e Recuperação), uma abordagem inovadora projetada para melhorar o GEC para ASR em cenários dentro do domínio (ID) e fora do domínio (OOD). Nós aumentamos o conjunto de dados de treinamento do GEC com dados sintéticos gerados por meio de prompts de LLMs e modelos de texto para fala, simulando assim erros adicionais dos quais o modelo pode aprender. Para cenários fora do domínio, simulamos erros no momento do teste a partir de novos domínios de maneira semelhante e de forma não supervisionada. Além disso, para lidar melhor com entidades nomeadas, introduzimos a correção aumentada por recuperação, ao aumentar a entrada com entidades recuperadas de um banco de dados. Nossa abordagem é simples, escalável e agnóstica em relação ao domínio e à linguagem. Realizamos experimentos em vários conjuntos de dados e configurações, mostrando que o DARAG supera todos os nossos baselines, alcançando melhorias de 8\% - 30\% no WER relativo em cenários dentro do domínio e melhorias de 10\% - 33\% em configurações fora do domínio.
O desenvolvimento de grandes modelos de linguagem (LLMs) aprimorou significativamente as capacidades dos modelos de linguagem multimodais (MLLMs) como assistentes gerais. No entanto, a falta de conhecimento específico do usuário ainda restringe sua aplicação na vida diária das pessoas. Neste artigo, apresentamos o framework de Personalização com Recuperação Aumentada (RAP) para personalização de MLLMs. Partindo de um MLLM geral, transformamo-lo em um assistente personalizado em três etapas. (a) Lembrar: Projetamos um banco de dados chave-valor para armazenar informações relacionadas ao usuário, como nome do usuário, avatar e outros atributos. (b) Recuperar: Quando o usuário inicia uma conversa, o RAP recuperará informações relevantes do banco de dados usando um recuperador multimodal. (c) Gerar: A consulta de entrada e as informações dos conceitos recuperados são inseridas nos MLLMs para gerar respostas personalizadas, enriquecidas com conhecimento. Ao contrário de métodos anteriores, o RAP permite a edição de conceitos em tempo real por meio da atualização do banco de dados externo. Para melhorar ainda mais a qualidade da geração e a alinhamento com informações específicas do usuário, projetamos um pipeline para coleta de dados e criamos um conjunto de dados especializado para treinamento personalizado de MLLMs. Com base no conjunto de dados, treinamos uma série de MLLMs como assistentes multimodais personalizados. Ao pré-treinar em um conjunto de dados em grande escala, os RAP-MLLMs podem generalizar para conceitos visuais infinitos sem ajustes adicionais. Nossos modelos demonstram flexibilidade excepcional e qualidade de geração em uma variedade de tarefas, como legenda de imagens personalizada, resposta a perguntas e reconhecimento visual. O código, dados e modelos estão disponíveis em https://github.com/Hoar012/RAP-MLLM.
Gerar música que esteja alinhada com o conteúdo visual de um vídeo tem sido uma tarefa desafiadora, uma vez que requer um profundo entendimento da semântica visual e envolve gerar música cuja melodia, ritmo e dinâmica harmonizem com as narrativas visuais. Este artigo apresenta o MuVi, um novo framework que aborda efetivamente esses desafios para aprimorar a coesão e a experiência imersiva de conteúdos audiovisuais. O MuVi analisa o conteúdo do vídeo por meio de um adaptador visual especialmente projetado para extrair características relevantes contextualmente e temporalmente. Essas características são utilizadas para gerar música que não apenas combina com o humor e tema do vídeo, mas também com seu ritmo e andamento. Também introduzimos um esquema de pré-treinamento musical-visual contrastivo para garantir a sincronização, com base na natureza periódica das frases musicais. Além disso, demonstramos que nosso gerador de música baseado em correspondência de fluxo possui capacidade de aprendizado contextual, permitindo-nos controlar o estilo e gênero da música gerada. Resultados experimentais mostram que o MuVi demonstra desempenho superior tanto em qualidade de áudio quanto em sincronização temporal. As amostras de vídeos musicais gerados estão disponíveis em https://muvi-v2m.github.io.
Os modelos de linguagem (LMs) têm demonstrado habilidades de raciocínio e memorização em nível de especialista na medicina. No entanto, os custos computacionais e as preocupações com a privacidade estão se tornando barreiras para a implementação em larga escala. Apresentamos uma adaptação parcimoniosa do phi-3-mini, o MedMobile, um LM com 3,8 bilhões de parâmetros capaz de ser executado em um dispositivo móvel, para aplicações médicas. Demonstramos que o MedMobile alcança 75,7% no MedQA (USMLE), superando a marca de aprovação para médicos (~60%), e se aproximando dos resultados de modelos 100 vezes maiores. Em seguida, realizamos um conjunto cuidadoso de ablações e demonstramos que a cadeia de pensamento, o ensemble e o ajuste fino levam aos maiores ganhos de desempenho, enquanto inesperadamente a geração aumentada por recuperação falha em demonstrar melhorias significativas.
Apesar do significativo progresso em modelos de linguagem multimodais de grande escala (MLLMs), seu alto custo computacional continua sendo uma barreira para implementações no mundo real. Inspirados pela mistura de profundidades (MoDs) no processamento de linguagem natural, nosso objetivo é abordar essa limitação a partir da perspectiva dos "tokens ativados". Nossa principal percepção é que se a maioria dos tokens for redundante para o cálculo da camada, eles podem ser pulados diretamente via camada MoD. No entanto, a conversão direta das camadas densas dos MLLMs para camadas MoD leva a uma degradação substancial de desempenho. Para lidar com esse problema, propomos uma estratégia inovadora de adaptação MoD para MLLMs existentes chamada gamma-MoD. No gamma-MoD, uma métrica inovadora é proposta para orientar a implementação de MoDs no MLLM, ou seja, a classificação dos mapas de atenção (ARank). Através do ARank, podemos identificar de forma eficaz qual camada é redundante e deve ser substituída pela camada MoD. Com base no ARank, propomos ainda dois projetos inovadores para maximizar a esparsidade computacional do MLLM mantendo seu desempenho, ou seja, roteador compartilhado visão-linguagem e aprendizado de roteamento mascarado. Com esses projetos, mais de 90% das camadas densas do MLLM podem ser efetivamente convertidas para as MoD. Para validar nosso método, aplicamo-lo a três MLLMs populares e realizamos experimentos extensivos em 9 conjuntos de dados de referência. Os resultados experimentais não apenas validam o benefício significativo de eficiência do gamma-MoD para os MLLMs existentes, mas também confirmam sua capacidade de generalização em vários MLLMs. Por exemplo, com uma pequena queda de desempenho, ou seja, -1,5%, o gamma-MoD pode reduzir o tempo de treinamento e inferência do LLaVA-HR em 31,0% e 53,2%, respectivamente.
O rápido crescimento da escala do modelo tem exigido recursos computacionais substanciais para o ajuste fino. Abordagens existentes, como a Adaptação de Baixo Rank (LoRA), têm buscado resolver o problema de lidar com os grandes parâmetros atualizados no ajuste fino completo. No entanto, o LoRA utiliza inicialização aleatória e otimização de matrizes de baixo rank para aproximar os pesos atualizados, o que pode resultar em convergência subótima e uma lacuna de precisão em comparação com o ajuste fino completo. Para lidar com essas questões, propomos o LoLDU, uma abordagem de Ajuste Fino Eficiente de Parâmetros (PEFT) que reduz significativamente os parâmetros treináveis em 2600 vezes em comparação com métodos de PEFT regulares, mantendo um desempenho comparável. O LoLDU utiliza a Decomposição Lower-Diag-Upper (LDU) para inicializar matrizes de baixo rank para uma convergência mais rápida e ortogonalidade. Focamos na otimização da matriz diagonal para transformações de escala. Até onde sabemos, o LoLDU possui o menor número de parâmetros entre todas as abordagens de PEFT. Realizamos experimentos extensivos em 4 conjuntos de dados de seguimento de instruções, 6 conjuntos de dados de compreensão de linguagem natural (NLU), 8 conjuntos de dados de classificação de imagens e conjuntos de dados de geração de imagens com vários tipos de modelos (LLaMA2, RoBERTa, ViT e Stable Diffusion), fornecendo uma análise abrangente e detalhada. Nosso código aberto pode ser acessado em https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.
A capacidade de descobrir novos materiais com propriedades desejáveis é fundamental para inúmeras aplicações, desde ajudar a mitigar as mudanças climáticas até avanços em hardware de computação de próxima geração. A IA tem o potencial de acelerar a descoberta e o design de materiais, explorando de forma mais eficaz o espaço químico em comparação com outros métodos computacionais ou tentativa e erro. Embora tenham sido feitos progressos significativos em IA para dados, benchmarks e modelos de materiais, uma barreira que surgiu é a falta de dados de treinamento publicamente disponíveis e modelos pré-treinados abertos. Para abordar isso, apresentamos um lançamento Meta FAIR do conjunto de dados aberto em larga escala Open Materials 2024 (OMat24) e um conjunto de modelos pré-treinados correspondentes. O OMat24 contém mais de 110 milhões de cálculos de teoria funcional da densidade (DFT) focados em diversidade estrutural e composicional. Nossos modelos EquiformerV2 alcançam desempenho de ponta no Matbench Discovery leaderboard e são capazes de prever estabilidade no estado fundamental e energias de formação para um escore F1 acima de 0,9 e uma precisão de 20 meV/átomo, respectivamente. Exploramos o impacto do tamanho do modelo, objetivos auxiliares de redução de ruído e ajuste fino no desempenho em uma variedade de conjuntos de dados, incluindo OMat24, MPtraj e Alexandria. O lançamento aberto do conjunto de dados OMat24 e dos modelos permite à comunidade de pesquisa construir sobre nossos esforços e impulsionar novos avanços na ciência de materiais assistida por IA.
Propomos o Long-LRM, um modelo de reconstrução Gaussiano 3D generalizável capaz de reconstruir uma cena grande a partir de uma longa sequência de imagens de entrada. Especificamente, nosso modelo pode processar 32 imagens de origem com resolução de 960x540 em apenas 1,3 segundos em uma única GPU A100 80G. Nossa arquitetura apresenta uma mistura dos recentes blocos Mamba2 e dos blocos transformadores clássicos, o que permitiu processar muito mais tokens do que trabalhos anteriores, aprimorado por etapas eficientes de fusão de tokens e poda Gaussiana que equilibram entre qualidade e eficiência. Ao contrário de modelos anteriores de avanço direto limitados ao processamento de 1 a 4 imagens de entrada e capazes de reconstruir apenas uma pequena parte de uma cena grande, o Long-LRM reconstrói a cena inteira em uma única etapa de avanço direto. Em conjuntos de dados de cena em grande escala como DL3DV-140 e Tanks and Temples, nosso método alcança desempenho comparável a abordagens baseadas em otimização, sendo duas ordens de magnitude mais eficiente. Página do projeto: https://arthurhero.github.io/projects/llrm
À medida que os modelos de linguagem de grande escala evoluem rapidamente para suportar contextos mais longos, há uma disparidade notável em sua capacidade de gerar saídas de maior extensão. Um estudo recente sugere que a causa principal desse desequilíbrio pode surgir da falta de dados com saídas longas durante o treinamento de alinhamento. Diante dessa observação, tentativas são feitas para realinhar os modelos fundamentais com dados que preencham essa lacuna, resultando em modelos capazes de gerar saídas extensas quando instruídos. Neste artigo, exploramos o impacto da qualidade dos dados na sintonização de um modelo para saídas longas, e a possibilidade de fazê-lo a partir dos pontos de partida de modelos alinhados com humanos (instrução ou conversação). Com uma curadoria cuidadosa dos dados, demonstramos ser possível alcançar melhorias de desempenho semelhantes em nossos modelos ajustados, com apenas uma pequena fração de instâncias de dados de treinamento e computação. Além disso, avaliamos a generalizabilidade de tais abordagens aplicando nossas receitas de sintonização a vários modelos. Nossas descobertas sugerem que, embora as capacidades de gerar saídas longas variem entre diferentes modelos prontos para uso, nossa abordagem de ajustá-los com dados de alta qualidade usando computação leve resulta consistentemente em melhorias notáveis em todos os modelos nos quais experimentamos. Disponibilizamos publicamente nosso conjunto de dados curados para sintonizar a capacidade de escrita longa, as implementações de sintonização e avaliação do modelo, bem como os modelos ajustados, todos os quais podem ser acessados abertamente.
A Orientação sem Classificador (CFG) é uma técnica crítica para aprimorar a qualidade da amostra de modelos generativos visuais. No entanto, na geração multimodal autoregressiva (AR), a CFG introduz inconsistências de design entre linguagem e conteúdo visual, contradizendo a filosofia de design de unificar diferentes modalidades para AR visual. Motivados por métodos de alinhamento de modelos de linguagem, propomos o Alinhamento Contrastivo Condicional (CCA) para facilitar a geração visual AR sem orientação com alto desempenho e analisar sua conexão teórica com métodos de amostragem orientada. Ao contrário de métodos de orientação que alteram o processo de amostragem para atingir a distribuição ideal de amostragem, o CCA ajusta diretamente modelos pré-treinados para se adequarem ao mesmo alvo de distribuição. Resultados experimentais mostram que o CCA pode aprimorar significativamente o desempenho sem orientação de todos os modelos testados com apenas um época de ajuste fino (aproximadamente 1% das épocas de pré-treinamento) no conjunto de dados de pré-treinamento, em pé de igualdade com os métodos de amostragem orientada. Isso elimina em grande parte a necessidade de amostragem orientada na geração visual AR e reduz o custo de amostragem pela metade. Além disso, ajustando os parâmetros de treinamento, o CCA pode alcançar compensações entre diversidade e fidelidade da amostra semelhantes à CFG. Isso confirma experimentalmente a forte conexão teórica entre o alinhamento direcionado à linguagem e os métodos de orientação visual, unificando dois campos de pesquisa anteriormente independentes. Código e pesos do modelo: https://github.com/thu-ml/CCA.
A pervasão de modelos de linguagem proprietários tem levantado preocupações com a privacidade dos dados sensíveis dos usuários, enfatizando a necessidade de inferência privada (IP), onde a inferência é realizada diretamente em entradas criptografadas. No entanto, os métodos de IP atuais enfrentam sobrecargas de comunicação e latência proibitivamente mais altas, principalmente devido a operações não lineares. Neste artigo, apresentamos uma análise abrangente para compreender o papel das não linearidades em modelos de linguagem baseados em decodificadores do tipo transformer. Introduzimos AERO, um framework de otimização arquitetural de quatro etapas que aprimora a arquitetura existente de LLM para IP eficiente, removendo sistematicamente não linearidades como LayerNorm e GELU e reduzindo contagens de FLOPs. Pela primeira vez, propomos uma arquitetura apenas com Softmax com significativamente menos FLOPs adaptada para IP eficiente. Além disso, desenvolvemos uma nova técnica de regularização de entropia para melhorar o desempenho de modelos apenas com Softmax. AERO alcança redução de comunicação de até 4,23 vezes e redução de latência de 1,94 vezes. Validamos a eficácia do AERO comparando-o com o estado-da-arte.
Modelos fundamentais de visão e linguagem (como o CLIP) têm recentemente demonstrado seu poder em aprendizado por transferência, devido ao pré-treinamento em larga escala de imagens e texto. No entanto, os dados do domínio-alvo nas tarefas subsequentes podem ser muito diferentes da fase de pré-treinamento, o que torna difícil para um único modelo generalizar bem. Alternativamente, existe uma ampla gama de modelos especializados que contêm conhecimento diversificado de visão e/ou linguagem pré-treinados em diferentes modalidades, tarefas, redes e conjuntos de dados. Infelizmente, esses modelos são "agentes isolados" com estruturas heterogêneas, e como integrar seu conhecimento para generalizar modelos semelhantes ao CLIP ainda não foi totalmente explorado. Para preencher essa lacuna, propomos um framework TransAgente geral e conciso, que transporta o conhecimento dos agentes isolados de forma unificada e orienta efetivamente o CLIP a generalizar com destilação de conhecimento de várias fontes. Com um framework tão distinto, colaboramos de forma flexível com 11 agentes heterogêneos para potencializar modelos fundamentais de visão e linguagem, sem custos adicionais na fase de inferência. Por fim, nosso TransAgente alcança desempenho de ponta em 11 conjuntos de dados de reconhecimento visual. Sob a mesma configuração de baixa quantidade de dados, supera o popular CoOp em cerca de 10% em média, e 20% no EuroSAT, que contém grandes mudanças de domínio.
Muitos estudantes têm dificuldade com problemas matemáticos em palavras (PMPs), frequentemente achando difícil identificar informações-chave e selecionar as operações matemáticas apropriadas. A instrução baseada em esquemas (IBE) é uma estratégia com base em evidências que ajuda os estudantes a categorizar problemas com base em sua estrutura, melhorando a precisão na resolução de problemas. A partir disso, propomos um framework de Instrução Baseada em Esquemas com Recuperação e Geração Aprimoradas (IBE-RGA) que incorpora um grande modelo de linguagem (GLM). Nossa abordagem enfatiza o raciocínio passo a passo, aproveitando esquemas para orientar a geração de soluções. Avaliamos seu desempenho no conjunto de dados GSM8K, comparando-o com o GPT-4 e o GPT-3.5 Turbo, e introduzimos uma métrica de "pontuação de raciocínio" para avaliar a qualidade da solução. Nossas descobertas sugerem que o IBE-RGA melhora a clareza do raciocínio e a precisão na resolução de problemas, potencialmente proporcionando benefícios educacionais para os estudantes.