Artigos de pesquisa em IA selecionados diariamente com traduções
As informações chegam em diversas modalidades. Modelos nativos multimodais de IA são essenciais para integrar informações do mundo real e fornecer uma compreensão abrangente. Embora existam modelos nativos multimodais proprietários, a falta de transparência impõe obstáculos para adoções, quanto mais para adaptações. Para preencher essa lacuna, apresentamos Aria, um modelo nativo multimodal aberto com desempenho de ponta em uma ampla gama de tarefas multimodais, linguísticas e de codificação. Aria é um modelo misto de especialistas com 3,9 bilhões e 3,5 bilhões de parâmetros ativados por token visual e token de texto, respectivamente. Ele supera o Pixtral-12B e o Llama3.2-11B, e é competitivo em relação aos melhores modelos proprietários em várias tarefas multimodais. Pré-treinamos Aria do zero seguindo um pipeline de 4 estágios, que equipa progressivamente o modelo com fortes capacidades em compreensão de linguagem, compreensão multimodal, janela de contexto longa e seguimento de instruções. Disponibilizamos os pesos do modelo em código aberto juntamente com uma base de código que facilita a adoção e adaptação fácil de Aria em aplicações do mundo real.
Os Modelos de Linguagem de Grande Escala (LLMs) mostram um potencial significativo em interações econômicas e estratégicas, onde a comunicação por meio da linguagem natural é frequentemente predominante. Isso levanta questões-chave: Os LLMs se comportam de forma racional? Eles podem imitar o comportamento humano? Eles tendem a alcançar um resultado eficiente e justo? Qual é o papel da linguagem natural na interação estratégica? Como as características do ambiente econômico influenciam essas dinâmicas? Essas questões se tornam cruciais no que diz respeito às implicações econômicas e sociais da integração de agentes baseados em LLM em sistemas do mundo real orientados por dados, como plataformas de varejo online e sistemas de recomendação. Enquanto a comunidade de ML tem explorado o potencial dos LLMs em tais configurações multiagentes, pressupostos variados, escolhas de design e critérios de avaliação em estudos diferentes tornam difícil tirar conclusões robustas e significativas. Para abordar isso, introduzimos um benchmark para padronizar a pesquisa em jogos baseados em linguagem sequencial para dois jogadores. Inspirados na literatura econômica, definimos três famílias de jogos base com parametrização consistente, graus de liberdade e medidas econômicas para avaliar o desempenho dos agentes (auto-ganho), bem como o resultado do jogo (eficiência e justiça). Desenvolvemos um framework de código aberto para simulação e análise de interações, e o utilizamos para coletar um conjunto de dados de interações LLM vs. LLM em várias configurações de jogo e um conjunto de dados adicional de interações humanos vs. LLM. Através de experimentação extensiva, demonstramos como nosso framework e conjunto de dados podem ser usados para: (i) comparar o comportamento de agentes baseados em LLM com jogadores humanos em vários contextos econômicos; (ii) avaliar agentes em medidas de desempenho individuais e coletivas; e (iii) quantificar o efeito das características econômicas dos ambientes no comportamento dos agentes.
Os avanços recentes em modelos de linguagem multimodais grandes (MLLMs) têm demonstrado progresso significativo; no entanto, esses modelos apresentam uma limitação notável, que denominamos "cegueira facial". Especificamente, eles podem participar de conversas gerais, mas falham em conduzir diálogos personalizados direcionados a indivíduos específicos. Essa deficiência dificulta a aplicação de MLLMs em ambientes personalizados, como assistentes visuais personalizados em dispositivos móveis, ou robôs domésticos que precisam reconhecer membros da família. Neste artigo, apresentamos o Ajuste Personalizado de Instruções Visuais (PVIT), um novo framework de curadoria de dados e treinamento projetado para capacitar MLLMs a identificar indivíduos-alvo em uma imagem e participar de diálogos personalizados e coerentes. Nossa abordagem envolve o desenvolvimento de um pipeline sofisticado que gera autonomamente dados de treinamento contendo conversas personalizadas. Esse pipeline aproveita as capacidades de vários especialistas visuais, modelos de geração de imagens e modelos de linguagem grandes (multi-modais). Para avaliar o potencial personalizado dos MLLMs, apresentamos um benchmark chamado P-Bench, que engloba vários tipos de perguntas com diferentes níveis de dificuldade. Os experimentos demonstram um substancial aprimoramento de desempenho personalizado após o ajuste fino com nosso conjunto de dados curados.
Apresentamos o Pixtral-12B, um modelo de linguagem multimodal com 12 bilhões de parâmetros. O Pixtral-12B é treinado para compreender tanto imagens naturais quanto documentos, alcançando um desempenho líder em vários benchmarks multimodais, superando diversos modelos maiores. Ao contrário de muitos modelos de código aberto, o Pixtral também é um modelo de texto de ponta para o seu tamanho e não compromete o desempenho em linguagem natural para se destacar em tarefas multimodais. O Pixtral utiliza um novo codificador de visão treinado do zero, o que permite a ingestão de imagens em sua resolução e proporção naturais. Isso oferece aos usuários flexibilidade no número de tokens usados para processar uma imagem. O Pixtral também é capaz de processar qualquer número de imagens em sua janela de contexto longa de 128 mil tokens. O Pixtral 12B supera substancialmente outros modelos abertos de tamanhos semelhantes (Llama-3.2 11B e Qwen-2-VL 7B). Também supera modelos abertos muito maiores como o Llama-3.2 90B sendo 7 vezes menor. Contribuímos ainda com um benchmark de código aberto, MM-MT-Bench, para avaliar modelos de visão-linguagem em cenários práticos, e fornecemos análises detalhadas e código para protocolos de avaliação padronizados para LLMs multimodais. O Pixtral-12B é lançado sob a licença Apache 2.0.
Este artigo apresenta o F5-TTS, um sistema totalmente não autoregressivo de texto para fala baseado em correspondência de fluxo com o Transformador de Difusão (DiT). Sem exigir projetos complexos como modelo de duração, codificador de texto e alinhamento fonético, a entrada de texto é simplesmente preenchida com tokens de preenchimento até o mesmo comprimento que a fala de entrada, e então a desruído é realizada para geração de fala, o que foi originalmente comprovado como viável pelo E2 TTS. No entanto, o design original do E2 TTS torna difícil de seguir devido à sua convergência lenta e baixa robustez. Para abordar essas questões, primeiro modelamos a entrada com ConvNeXt para refinar a representação do texto, facilitando o alinhamento com a fala. Além disso, propomos uma estratégia de Amostragem de Balanço no tempo de inferência, que melhora significativamente o desempenho e eficiência de nosso modelo. Esta estratégia de amostragem para passo de fluxo pode ser facilmente aplicada a modelos existentes baseados em correspondência de fluxo sem necessidade de retreinamento. Nosso design permite um treinamento mais rápido e alcança um RTF de inferência de 0,15, o que é significativamente melhorado em comparação com os modelos de TTS baseados em difusão de última geração. Treinado em um conjunto de dados multilíngue público de 100 mil horas, nosso Fairytaler Fakes Fluent e Faithful speech com correspondência de fluxo (F5-TTS) exibe uma capacidade altamente natural e expressiva de zero-shot, capacidade de alternância de código sem interrupções e eficiência de controle de velocidade. Amostras de demonstração podem ser encontradas em https://SWivid.github.io/F5-TTS. Disponibilizamos todo o código e checkpoints para promover o desenvolvimento comunitário.
Modelos de Texto-para-Vídeo (T2V) como Sora têm avançado significativamente na visualização de instruções complexas, o que é cada vez mais considerado um caminho promissor para a construção do simulador de mundo universal. Psicólogos cognitivos acreditam que a base para alcançar esse objetivo é a capacidade de compreender a física intuitiva. No entanto, a capacidade desses modelos de representar com precisão a física intuitiva permanece amplamente inexplorada. Para preencher essa lacuna, apresentamos o PhyGenBench, um amplo Benchmark de Geração de Física projetado para avaliar a correção do senso comum físico na geração T2V. O PhyGenBench é composto por 160 instruções cuidadosamente elaboradas abrangendo 27 leis físicas distintas, que abrangem quatro domínios fundamentais, podendo avaliar de forma abrangente a compreensão dos modelos sobre o senso comum físico. Junto com o PhyGenBench, propomos um novo framework de avaliação chamado PhyGenEval. Esse framework emprega uma estrutura de avaliação hierárquica utilizando modelos avançados apropriados de visão-linguagem e grandes modelos de linguagem para avaliar o senso comum físico. Através do PhyGenBench e do PhyGenEval, podemos realizar avaliações automatizadas em larga escala da compreensão dos modelos T2V sobre o senso comum físico, alinhando-se de perto com o feedback humano. Nossos resultados de avaliação e análises detalhadas demonstram que os modelos atuais têm dificuldade em gerar vídeos que estejam de acordo com o senso comum físico. Além disso, simplesmente aumentar a escala dos modelos ou empregar técnicas de engenharia de instruções é insuficiente para abordar totalmente os desafios apresentados pelo PhyGenBench (por exemplo, cenários dinâmicos). Esperamos que este estudo inspire a comunidade a priorizar a aprendizagem do senso comum físico nesses modelos para além das aplicações de entretenimento. Vamos disponibilizar os dados e códigos em https://github.com/OpenGVLab/PhyGenBench
Modelos avançados de difusão como RPG, Difusão Estável 3 e FLUX têm avançado significativamente na geração de texto para imagem de composição. No entanto, esses métodos geralmente apresentam pontos fortes distintos para a geração de composição, com alguns se destacando no tratamento de ligação de atributos e outros em relacionamentos espaciais. Essa disparidade destaca a necessidade de uma abordagem que possa aproveitar os pontos fortes complementares de vários modelos para melhorar abrangentemente a capacidade de composição. Para isso, apresentamos o IterComp, um novo framework que agrega preferências de modelo conscientes da composição de vários modelos e emprega uma abordagem de aprendizado de feedback iterativo para aprimorar a geração composicional. Especificamente, curamos uma galeria de seis poderosos modelos de difusão de código aberto e avaliamos suas três principais métricas composicionais: ligação de atributos, relacionamentos espaciais e relacionamentos não espaciais. Com base nessas métricas, desenvolvemos um conjunto de dados de preferência de modelo consciente da composição composto por inúmeras duplas de classificação de imagem para treinar modelos de recompensa conscientes da composição. Em seguida, propomos um método de aprendizado de feedback iterativo para aprimorar a composicionalidade de maneira em circuito fechado, permitindo o autorefinamento progressivo tanto do modelo de difusão base quanto dos modelos de recompensa ao longo de várias iterações. Uma prova teórica demonstra a eficácia e experimentos extensivos mostram nossa superioridade significativa em relação a métodos anteriores de última geração (por exemplo, Omost e FLUX), especialmente na composição de objetos de várias categorias e alinhamento semântico complexo. O IterComp abre novas oportunidades de pesquisa em aprendizado de feedback de recompensa para modelos de difusão e geração composicional. Código: https://github.com/YangLing0818/IterComp
A geração de vídeo requer modelar um vasto espaço espaço-temporal, o que exige significativos recursos computacionais e uso de dados. Para reduzir a complexidade, as abordagens predominantes empregam uma arquitetura em cascata para evitar o treinamento direto com resolução total. Apesar de reduzir as demandas computacionais, a otimização separada de cada subestágio dificulta o compartilhamento de conhecimento e sacrifica a flexibilidade. Este trabalho introduz um algoritmo unificado de correspondência de fluxo piramidal. Ele reinterpreta a trajetória original de remoção de ruído como uma série de estágios piramidais, onde apenas o estágio final opera na resolução total, permitindo assim uma modelagem gerativa de vídeo mais eficiente. Através do nosso design sofisticado, os fluxos de diferentes estágios piramidais podem ser interligados para manter a continuidade. Além disso, desenvolvemos a geração de vídeo autoregressiva com uma pirâmide temporal para comprimir o histórico de resolução total. Todo o framework pode ser otimizado de ponta a ponta e com um único Transformer de Difusão unificado (DiT). Experimentos extensivos demonstram que nosso método suporta a geração de vídeos de alta qualidade de 5 segundos (até 10 segundos) em resolução de 768p e 24 FPS em 20,7 mil horas de treinamento de GPU A100. Todo o código e modelos serão disponibilizados em código aberto em https://pyramid-flow.github.io.
Apresentamos a Taxa de Integração de Modalidade (MIR), uma métrica eficaz, robusta e generalizada para indicar a qualidade de pré-treinamento multi-modal de Modelos de Linguagem de Visão Ampliada (LVLMs). O pré-treinamento em larga escala desempenha um papel crítico na construção de LVLMs capazes, enquanto a avaliação de sua qualidade de treinamento sem a etapa dispendiosa de ajuste fino supervisionado é pouco explorada. Perda, perplexidade e resultados de avaliação no contexto são métricas comumente utilizadas para pré-treinamento de Modelos de Linguagem Ampliada (LLMs), enquanto observamos que essas métricas são menos indicativas ao alinhar um LLM bem treinado com uma nova modalidade. Devido à falta de métricas adequadas, a pesquisa de LVLMs na fase crítica de pré-treinamento é grandemente prejudicada, incluindo a escolha dos dados de treinamento, o design eficiente do módulo, etc. Neste artigo, propomos avaliar a qualidade do pré-treinamento a partir da perspectiva da distância de distribuição inter-modal e apresentamos o MIR, a Taxa de Integração de Modalidade, que é 1) Eficaz para representar a qualidade do pré-treinamento e mostrar uma relação positiva com o desempenho de referência após o ajuste fino supervisionado. 2) Robusto em relação a diferentes dados de treinamento/avaliação. 3) Generaliza em diferentes configurações de treinamento e escolhas de arquitetura. Realizamos uma série de experimentos de pré-treinamento para explorar a eficácia do MIR e observamos resultados satisfatórios que indicam que o MIR é informativo sobre a seleção de dados de treinamento, programação da estratégia de treinamento e design da arquitetura do modelo para obter melhores resultados de pré-treinamento. Esperamos que o MIR possa ser uma métrica útil para a construção de LVLMs capazes e inspirar pesquisas futuras sobre o alinhamento de modalidades em diferentes áreas. Nosso código está em: https://github.com/shikiw/Modality-Integration-Rate.
Este artigo explora a interação entre espinhas dorsais de visão e otimizadores, revelando um fenômeno interdependente denominado \textbf{viés de acoplamento espinha dorsal-otimizador} (BOCB). Observamos que CNNs canônicas, como VGG e ResNet, exibem uma marcada co-dependência com famílias SGD, enquanto arquiteturas recentes como ViTs e ConvNeXt compartilham um acoplamento estreito com os que possuem taxa de aprendizado adaptativa. Demonstramos ainda que o BOCB pode ser introduzido tanto por otimizadores quanto por certos projetos de espinha dorsal e pode impactar significativamente o pré-treinamento e o ajuste fino downstream de modelos de visão. Através de uma análise empírica aprofundada, resumimos lições sobre otimizadores recomendados e insights sobre arquiteturas robustas de espinha dorsal de visão. Esperamos que este trabalho possa inspirar a comunidade a questionar pressupostos de longa data sobre espinhas dorsais e otimizadores, estimular mais explorações e, assim, contribuir para sistemas de visão mais robustos. O código-fonte e os modelos estão disponíveis publicamente em https://bocb-ai.github.io/.
Neste relatório técnico, apresentamos o Falcon Mamba 7B, um novo modelo de linguagem baseado na arquitetura inovadora Mamba. O Falcon Mamba 7B é treinado em 5,8 trilhões de tokens com misturas de dados cuidadosamente selecionadas. Como um modelo puramente baseado em Mamba, o Falcon Mamba 7B supera os principais modelos de peso aberto baseados em Transformers, como Mistral 7B, Llama3.1 8B e Falcon2 11B. Ele está em pé de igualdade com o Gemma 7B e supera modelos com diferentes arquiteturas, como RecurrentGemma 9B e RWKV-v6 Finch 7B/14B. Atualmente, o Falcon Mamba 7B é o modelo Mamba de melhor desempenho na literatura nessa escala, superando tanto os modelos Mamba existentes quanto os modelos híbridos Mamba-Transformer, de acordo com o Open LLM Leaderboard. Devido à sua arquitetura, o Falcon Mamba 7B é significativamente mais rápido na inferência e requer substancialmente menos memória para geração de sequências longas. Apesar de estudos recentes sugerirem que modelos híbridos Mamba-Transformer superam os designs de arquitetura pura, demonstramos que até mesmo o design puro de Mamba pode alcançar resultados semelhantes, ou até superiores, em comparação com os designs Transformer e híbridos. Disponibilizamos os pesos de nossa implementação do Falcon Mamba 7B publicamente em https://huggingface.co/tiiuae/falcon-mamba-7b, sob uma licença permissiva.
Esta pesquisa tem como objetivo explorar de forma abrangente a construção de um modelo de base multimodal para compreensão de vídeos egocêntricos. Para alcançar esse objetivo, trabalhamos em três frentes. Primeiramente, devido à escassez de dados de perguntas e respostas para compreensão de vídeos egocêntricos, desenvolvemos um mecanismo de dados que gera de forma eficiente 7 mil amostras de perguntas e respostas de alta qualidade para vídeos egocêntricos com duração de 30 segundos a uma hora, com base em dados anotados por humanos. Atualmente, este é o maior conjunto de dados de perguntas e respostas egocêntricas. Em segundo lugar, contribuímos com um desafiador benchmark de perguntas e respostas egocêntricas, contendo 629 vídeos e 7.026 perguntas, para avaliar a capacidade dos modelos em reconhecer e memorizar detalhes visuais em vídeos de diferentes durações. Introduzimos um novo método de avaliação de desvio para ajudar a mitigar o viés linguístico inevitável presente nos modelos em avaliação. Em terceiro lugar, propomos uma arquitetura multimodal especializada apresentando um mecanismo inovador de "Memory Pointer Prompting". Este design inclui uma etapa de visão global para obter uma compreensão abrangente do vídeo inteiro e identificar informações visuais-chave, seguida por uma etapa de fallback que utiliza as informações visuais-chave para gerar respostas. Isso permite que o modelo compreenda de forma mais eficaz o conteúdo estendido do vídeo. Com os dados, benchmark e modelo, construímos com sucesso o MM-Ego, um LLM multimodal egocêntrico que demonstra um desempenho poderoso na compreensão de vídeos egocêntricos.
A visualização de histórias, a tarefa de gerar imagens coerentes com base em uma narrativa, tem visto avanços significativos com o surgimento de modelos de texto para imagem, especialmente modelos de difusão. No entanto, manter consistência semântica, gerar interações de alta qualidade detalhadas e garantir viabilidade computacional continuam sendo desafios, especialmente em visualizações de histórias longas (ou seja, até 100 quadros). Neste trabalho, propomos um framework sem treinamento e computacionalmente eficiente, denominado Story-Adapter, para aprimorar a capacidade generativa de histórias longas. Especificamente, propomos um paradigma iterativo para refinar cada imagem gerada, aproveitando tanto o prompt de texto quanto todas as imagens geradas da iteração anterior. Central em nosso framework está um módulo de atenção cruzada global de referência sem treinamento, que agrega todas as imagens geradas da iteração anterior para preservar a consistência semântica em toda a história, ao mesmo tempo que minimiza os custos computacionais com embeddings globais. Esse processo iterativo otimiza progressivamente a geração de imagens incorporando repetidamente restrições de texto, resultando em interações mais precisas e detalhadas. Experimentos extensos validam a superioridade do Story-Adapter em melhorar tanto a consistência semântica quanto a capacidade generativa para interações detalhadas, especialmente em cenários de histórias longas. A página do projeto e o código associado podem ser acessados em https://jwmao1.github.io/storyadapter.
Por meio do alinhamento com as preferências humanas, os Modelos de Linguagem de Grande Escala (LLMs) avançaram significativamente na geração de respostas honestas, inofensivas e úteis. No entanto, coletar dados de preferência de alta qualidade é um processo intensivo em recursos e exigente em criatividade, especialmente para a melhoria contínua dos LLMs. Apresentamos o SynPO, um paradigma de auto-aperfeiçoamento que aproveita dados de preferência sintéticos para o alinhamento do modelo. O SynPO emprega um mecanismo iterativo no qual um gerador de auto-prompt cria prompts diversas, e um aprimorador de resposta refina progressivamente as respostas do modelo. Essa abordagem treina os LLMs para aprender autonomamente as recompensas generativas para suas próprias saídas e elimina a necessidade de anotação em larga escala de prompts e preferências humanas. Após quatro iterações do SynPO, o Llama3-8B e o Mistral-7B mostram melhorias significativas nas habilidades de seguir instruções, alcançando mais de 22,1% de melhoria na taxa de vitória no AlpacaEval 2.0 e ArenaHard. Simultaneamente, o SynPO melhora o desempenho geral dos LLMs em diversas tarefas, validado por um aumento médio de 3,2 a 5,0 pontos na bem reconhecida classificação do Open LLM leaderboard.
Os modelos fundamentais (FMs) são pré-treinados em conjuntos de dados em larga escala e, em seguida, ajustados para uma tarefa específica em uma aplicação posterior. O método de ajuste mais bem-sucedido e comumente utilizado é atualizar os pesos pré-treinados por meio de uma adaptação de baixa patente (LoRA). O LoRA introduz novas matrizes de pesos que geralmente são inicializadas aleatoriamente com uma distribuição de patente uniforme entre os pesos do modelo. Trabalhos recentes se concentram na inicialização orientada por pesos ou no aprendizado de patentes adaptativas durante o treinamento. Ambas as abordagens foram investigadas isoladamente, resultando em uma convergência lenta ou uma distribuição de patentes uniforme, levando a um desempenho subótimo. Propomos aprimorar o LoRA inicializando os novos pesos de maneira orientada por dados, calculando a decomposição em valores singulares em minilotes de vetores de ativação. Em seguida, inicializamos as matrizes LoRA com os vetores singulares direitos obtidos e redistribuímos as patentes entre todas as matrizes de pesos para explicar a quantidade máxima de variância e continuamos o procedimento padrão de ajuste fino do LoRA. Isso resulta no nosso novo método de Adaptação da Variância Explicada (EVA). Aplicamos o EVA a uma variedade de tarefas de ajuste fino, que vão desde geração e compreensão de linguagem até classificação de imagens e aprendizado por reforço. O EVA apresenta uma convergência mais rápida do que os concorrentes e alcança a maior pontuação média em uma infinidade de tarefas por domínio.
Neste artigo, focamos em aprimorar um modelo texto-para-vídeo (T2V) baseado em difusão durante a fase pós-treinamento, destilando um modelo de consistência altamente capaz a partir de um modelo T2V pré-treinado. Nosso método proposto, T2V-Turbo-v2, apresenta um avanço significativo ao integrar vários sinais de supervisão, incluindo dados de treinamento de alta qualidade, feedback do modelo de recompensa e orientação condicional, no processo de destilação de consistência. Através de estudos abrangentes de ablação, destacamos a importância crucial de adaptar conjuntos de dados para objetivos de aprendizado específicos e a eficácia de aprender com diversos modelos de recompensa para aprimorar tanto a qualidade visual quanto o alinhamento texto-vídeo. Além disso, destacamos o vasto espaço de design de estratégias de orientação condicional, que se concentra em projetar uma função de energia eficaz para aumentar o resolvedor ODE do professor. Demonstramos o potencial deste enfoque ao extrair orientação de movimento dos conjuntos de dados de treinamento e incorporá-la no resolvedor ODE, demonstrando sua eficácia em melhorar a qualidade de movimento dos vídeos gerados com as métricas relacionadas ao movimento aprimoradas do VBench e T2V-CompBench. Empiricamente, nosso T2V-Turbo-v2 estabelece um novo resultado de ponta no VBench, com uma pontuação Total de 85,13, superando sistemas proprietários como Gen-3 e Kling.
Grandes modelos de linguagem têm sido aplicados com sucesso em tarefas de assistência à programação, como conclusão de código, inserção de código e edição de código instrucional. No entanto, essas aplicações ainda são insuficientemente automatizadas e têm dificuldade em integrar efetivamente vários tipos de informações durante o processo de programação, incluindo histórico de codificação, código atual e instruções do usuário. Neste trabalho, propomos um novo framework conversacional que integra de forma abrangente essas fontes de informação, coletamos dados para treinar nossos modelos e avaliamos seu desempenho. Primeiramente, para avaliar minuciosamente o alinhamento dos modelos com diferentes tipos de informação e a qualidade de suas saídas, introduzimos um novo benchmark, APEval (Assist Programming Eval), para avaliar de forma abrangente o desempenho dos modelos em tarefas de assistência à programação. Em seguida, para a coleta de dados, desenvolvemos um pipeline de geração de dados, Programming-Instruct, que sintetiza dados de treinamento de diversas fontes, como GitHub e plataformas de juízes online. Este pipeline pode gerar automaticamente vários tipos de mensagens ao longo do processo de programação. Por fim, utilizando este pipeline, geramos 219 mil amostras, ajustamos vários modelos e desenvolvemos a série CursorCore. Mostramos que o CursorCore supera outros modelos de tamanho comparável. Este framework unifica aplicações como bate-papo inline e edição automatizada, contribuindo para o avanço dos assistentes de codificação. Código, modelos e dados estão disponíveis gratuitamente em https://github.com/TechxGenus/CursorCore.
Os Modelos de Linguagem em Vídeo de Grande Escala (Video LLMs) têm demonstrado capacidades promissoras na compreensão de vídeos, no entanto, enfrentam dificuldades em rastrear mudanças temporais e raciocinar sobre relações temporais. Enquanto pesquisas anteriores atribuíram essa limitação à codificação temporal ineficaz das entradas visuais, nosso estudo diagnóstico revela que as representações de vídeo contêm informações suficientes para que até mesmo classificadores de sondagem pequenos alcancem precisão perfeita. Surpreendentemente, descobrimos que o principal gargalo na capacidade de raciocínio temporal dos Video LLMs decorre da dificuldade inerente dos LLMs subjacentes com conceitos temporais, como evidenciado pelo desempenho fraco em tarefas de perguntas e respostas temporais textuais. Com base nessa descoberta, apresentamos a Transferência de Raciocínio Temporal Textual (T3). O T3 sintetiza diversas tarefas de raciocínio temporal em formato de texto puro a partir de conjuntos de dados de imagem-texto existentes, abordando a escassez de amostras de vídeo com cenários temporais complexos. Notavelmente, sem utilizar nenhum dado de vídeo, o T3 aprimora a compreensão temporal do LongVA-7B, resultando em um aumento absoluto de 5,3 pontos percentuais de precisão no desafiador benchmark TempCompass, o que permite que nosso modelo supere o ShareGPT4Video-8B treinado em 28.000 amostras de vídeo. Além disso, o modelo LongVA-7B aprimorado alcança um desempenho competitivo em benchmarks abrangentes de vídeo. Por exemplo, ele atinge uma precisão de 49,7 no benchmark de Raciocínio Temporal do Video-MME, superando modelos em larga escala poderosos como o InternVL-Chat-V1.5-20B e o VILA1.5-40B. Uma análise adicional revela uma forte correlação entre o desempenho em tarefas temporais textuais e de vídeo, validando a eficácia da transferência de habilidades de raciocínio temporal de texto para domínios de vídeo.
O progresso recente em modelos de difusão de texto para vídeo em larga escala (T2V) e de imagem para vídeo (I2V) tem aprimorado significativamente a geração de vídeos, especialmente em termos de interpolação de quadros-chave. No entanto, os atuais modelos de difusão de imagem para vídeo, embora potentes na geração de vídeos a partir de um único quadro condicionante, necessitam de adaptação para a geração condicionada de dois quadros (início e fim), o que é essencial para uma interpolação limitada eficaz. Infelizmente, abordagens existentes que fundem caminhos temporais para frente e para trás em paralelo frequentemente sofrem de problemas fora do conjunto, resultando em artefatos ou exigindo múltiplas etapas iterativas de re-ruidificação. Neste trabalho, introduzimos uma estratégia de amostragem bidirecional inovadora para lidar com esses problemas fora do conjunto sem exigir extensa re-ruidificação ou ajuste fino. Nosso método emprega amostragem sequencial ao longo dos caminhos para frente e para trás, condicionados nos quadros de início e fim, respectivamente, garantindo uma geração mais coerente e dentro do conjunto de quadros intermediários. Além disso, incorporamos técnicas avançadas de orientação, CFG++ e DDS, para aprimorar ainda mais o processo de interpolação. Ao integrar essas técnicas, nosso método alcança desempenho de ponta, gerando eficientemente vídeos de alta qualidade e suaves entre quadros-chave. Em uma única GPU 3090, nosso método pode interpolar 25 quadros em resolução de 1024 x 576 em apenas 195 segundos, estabelecendo-o como uma solução líder para interpolação de quadros-chave.
Apesar dos avanços significativos na personalização de modelos de geração de texto para imagem e vídeo, gerar imagens e vídeos que integrem efetivamente múltiplos conceitos personalizados ainda é uma tarefa desafiadora. Para abordar isso, apresentamos TweedieMix, um método inovador para compor modelos de difusão personalizados durante a fase de inferência. Ao analisar as propriedades da amostragem de difusão reversa, nossa abordagem divide o processo de amostragem em duas etapas. Durante as etapas iniciais, aplicamos uma técnica de amostragem consciente de múltiplos objetos para garantir a inclusão dos objetos-alvo desejados. Nas etapas posteriores, mesclamos as aparências dos conceitos personalizados no espaço de imagem denoised usando a fórmula de Tweedie. Nossos resultados demonstram que o TweedieMix pode gerar múltiplos conceitos personalizados com maior fidelidade do que os métodos existentes. Além disso, nosso framework pode ser facilmente estendido para modelos de difusão de imagem para vídeo, possibilitando a geração de vídeos que apresentam múltiplos conceitos personalizados. Resultados e código-fonte estão em nossa página de projeto anônima.
A afinação de instruções - ajuste fino supervisionado usando pares de instrução-resposta - é um passo fundamental na transição de Modelos de Linguagem Grandes (LLMs) pré-treinados em assistentes de chat úteis e seguros. Nossa hipótese é que estabelecer um espaço de saída adequado pode permitir essa transição, dadas as capacidades inerentes nos LLMs pré-treinados. Para verificar isso, propomos o Ajuste de Resposta (RT), que elimina a etapa de condicionamento de instrução na afinação de instruções e foca exclusivamente na supervisão do espaço de resposta. Nossos experimentos demonstram que modelos RT, treinados apenas com respostas, podem responder efetivamente a uma ampla gama de instruções e exibir utilidade comparável à de seus equivalentes ajustados por instrução. Além disso, observamos que controlar a distribuição de respostas de treinamento pode melhorar significativamente a preferência do usuário ou provocar comportamentos-alvo, como recusar assistência para consultas inseguras. Nossas descobertas iluminam o papel de estabelecer um espaço de saída adequado em alinhamento, destacando o potencial das extensas capacidades inerentes dos LLMs pré-treinados.
Neste artigo, propomos o AutoDAN-Turbo, um método de jailbreak de caixa-preta que pode descobrir automaticamente o maior número possível de estratégias de jailbreak a partir do zero, sem qualquer intervenção humana ou escopos predefinidos (por exemplo, estratégias candidatas especificadas) e usá-las para red teaming. Como resultado, o AutoDAN-Turbo pode superar significativamente os métodos de referência, alcançando uma taxa média de sucesso de ataque 74,3% maior em benchmarks públicos. Notavelmente, o AutoDAN-Turbo alcança uma taxa de sucesso de ataque de 88,5% no GPT-4-1106-turbo. Além disso, o AutoDAN-Turbo é um framework unificado que pode incorporar estratégias de jailbreak projetadas por humanos existentes de forma plug-and-play. Ao integrar estratégias projetadas por humanos, o AutoDAN-Turbo pode até mesmo alcançar uma taxa de sucesso de ataque mais alta de 93,4% no GPT-4-1106-turbo.
Os avanços recentes em modelos de difusão têm demonstrado capacidades excepcionais na geração de imagens e vídeos, melhorando ainda mais a eficácia da síntese 4D. Métodos de geração 4D existentes podem criar objetos ou cenas 4D de alta qualidade com base em condições amigáveis ao usuário, beneficiando as indústrias de jogos e vídeos. No entanto, esses métodos enfrentam dificuldades em sintetizar deformações significativas de objetos em transições 4D complexas e interações dentro das cenas. Para enfrentar esse desafio, propomos o Trans4D, um novo framework de síntese de texto para 4D que possibilita transições de cena complexas realistas. Especificamente, primeiro utilizamos modelos de linguagem multimodal grande (MLLMs) para produzir uma descrição de cena consciente da física para inicialização de cena 4D e planejamento eficaz de tempo de transição. Em seguida, propomos uma rede de transição 4D consciente da geometria para realizar uma transição 4D de nível de cena complexa com base no plano, que envolve deformações geométricas expressivas de objetos. Experimentos extensivos demonstram que o Trans4D consistentemente supera os métodos existentes de ponta na geração de cenas 4D com transições precisas e de alta qualidade, validando sua eficácia. Código: https://github.com/YangLing0818/Trans4D
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) estão evoluindo rapidamente, demonstrando capacidades impressionantes como assistentes multimodais que interagem tanto com humanos quanto com seus ambientes. No entanto, essa sofisticação aumentada introduz preocupações significativas de segurança. Neste artigo, apresentamos a primeira avaliação e análise de um novo desafio de segurança denominado Segurança Situacional Multimodal, que explora como as considerações de segurança variam com base na situação específica em que o usuário ou agente está envolvido. Argumentamos que, para um MLLM responder de forma segura, seja por meio de linguagem ou ação, muitas vezes precisa avaliar as implicações de segurança de uma consulta de linguagem dentro de seu contexto visual correspondente. Para avaliar essa capacidade, desenvolvemos o benchmark de Segurança Situacional Multimodal (MSSBench) para avaliar o desempenho de segurança situacional dos MLLMs atuais. O conjunto de dados é composto por 1.820 pares de consulta de linguagem-imagem, metade dos quais o contexto da imagem é seguro e a outra metade é insegura. Também desenvolvemos um framework de avaliação que analisa aspectos-chave de segurança, incluindo raciocínio explícito de segurança, compreensão visual e, crucialmente, raciocínio de segurança situacional. Nossas descobertas revelam que os MLLMs atuais enfrentam dificuldades com esse problema de segurança sutil no ambiente de seguir instruções e têm dificuldade em lidar com esses desafios de segurança situacional de uma só vez, destacando uma área-chave para pesquisas futuras. Além disso, desenvolvemos pipelines de múltiplos agentes para resolver coordenadamente desafios de segurança, o que mostra melhoria consistente na segurança em relação à resposta original do MLLM. Código e dados: mssbench.github.io.
Os modelos de geração texto-para-vídeo (T2V), oferecendo uma criação visual conveniente, têm recentemente atraído cada vez mais atenção. Apesar de seu substancial potencial, os vídeos gerados podem apresentar artefatos, incluindo implausibilidade estrutural, inconsistência temporal e falta de movimento, resultando frequentemente em vídeos quase estáticos. Neste trabalho, identificamos uma correlação entre a disparidade dos mapas de atenção temporal em diferentes blocos e a ocorrência de inconsistências temporais. Além disso, observamos que a energia contida nos mapas de atenção temporal está diretamente relacionada com a magnitude da amplitude de movimento nos vídeos gerados. Com base nessas observações, apresentamos o BroadWay, um método sem necessidade de treinamento para melhorar a qualidade da geração texto-para-vídeo sem introduzir parâmetros adicionais, aumentar a memória ou o tempo de amostragem. Especificamente, o BroadWay é composto por dois componentes principais: 1) Auto-Orientação Temporal melhora a plausibilidade estrutural e a consistência temporal dos vídeos gerados ao reduzir a disparidade entre os mapas de atenção temporal em vários blocos decodificadores. 2) Aprimoramento de Movimento Baseado em Fourier melhora a magnitude e a riqueza de movimento ao amplificar a energia do mapa. Experimentos extensivos demonstram que o BroadWay melhora significativamente a qualidade da geração texto-para-vídeo com um custo adicional negligenciável.
Os modelos generativos estão transformando domínios criativos como a geração de música, com estratégias de orientação no tempo de inferência, como a Orientação Livre de Classificadores (CFG), desempenhando um papel crucial. No entanto, a CFG duplica o custo de inferência, ao mesmo tempo que limita a originalidade e diversidade nos conteúdos gerados. Neste artigo, apresentamos a destilação da CFG recompensada pela diversidade, um procedimento de ajuste fino inovador que destila os pontos fortes da CFG enquanto aborda suas limitações. Nossa abordagem otimiza dois objetivos de treinamento: (1) um objetivo de destilação, incentivando o modelo sozinho (sem CFG) a imitar as previsões aumentadas pela CFG, e (2) um objetivo de RL com uma recompensa de diversidade, promovendo a geração de saídas diversas para um prompt dado. Por meio do ajuste fino, aprendemos os pesos do modelo com a capacidade de gerar saídas de alta qualidade e diversas, sem nenhum custo adicional de inferência. Isso também desbloqueia o potencial de estratégias de fusão de modelos baseadas em pesos: ao interpolar entre os pesos de dois modelos (o primeiro focando na qualidade, o segundo na diversidade), podemos controlar o equilíbrio qualidade-diversidade no momento da implantação e até mesmo melhorar ainda mais o desempenho. Realizamos experimentos extensivos no modelo generativo de texto para música MusicLM (Agostinelli et al., 2023), onde nossa abordagem supera a CFG em termos de optimalidade de Pareto qualidade-diversidade. De acordo com avaliadores humanos, nosso modelo ajustado e depois fundido gera amostras com maior qualidade-diversidade do que o modelo base aumentado com CFG. Explore nossas gerações em https://google-research.github.io/seanet/musiclm/diverse_music/.
Este trabalho investiga a seleção de dados de pré-treinamento de alta qualidade a partir de corpora massivos para aprimorar as capacidades de Modelos de Linguagem (LMs) para uso posterior. Formulamos a seleção de dados como um problema generalizado de Controle Ótimo, que pode ser teoricamente resolvido pelo Princípio do Máximo de Pontryagin (PMP), resultando em um conjunto de condições necessárias que caracterizam a relação entre a seleção ótima de dados e a dinâmica de treinamento do LM. Com base nesses resultados teóricos, introduzimos a Seleção de Dados baseada em PMP (PDS), um framework que aproxima a seleção ótima de dados ao resolver as condições do PMP. Em nossos experimentos, adotamos o PDS para selecionar dados do CommmonCrawl e demonstramos que o corpus selecionado pelo PDS acelera a aprendizagem dos LMs e constantemente melhora seu desempenho em uma ampla gama de tarefas posteriores em vários tamanhos de modelo. Além disso, os benefícios do PDS se estendem a modelos de ~400B treinados em ~10T tokens, conforme evidenciado pela extrapolação das curvas de perda de teste de acordo com as Leis de Escalonamento. O PDS também melhora a utilização de dados quando os dados de pré-treinamento são limitados, reduzindo a demanda de dados em 1,8 vezes, o que mitiga o rápido esgotamento dos corpora disponíveis na web. Nosso código, dados e checkpoints de modelo podem ser encontrados em https://github.com/microsoft/LMOps/tree/main/data_selection.
A Temporal Grounding de Vídeo (VTG) é uma capacidade crucial para modelos de compreensão de vídeo e desempenha um papel vital em tarefas subsequentes, como navegação e edição de vídeo. Para lidar efetivamente com várias tarefas simultaneamente e permitir previsões sem a necessidade de exemplos, há uma tendência crescente em empregar LLMs de vídeo para tarefas de VTG. No entanto, os métodos atuais baseados em LLM de vídeo dependem exclusivamente da geração de linguagem natural, carecendo da capacidade de modelar a estrutura clara inerente aos vídeos, o que restringe sua eficácia na abordagem das tarefas de VTG. Para resolver esse problema, este artigo introduz formalmente o framework de modelagem de eventos causais, que representa vídeos como sequências de eventos e prevê o evento atual usando eventos anteriores, entradas de vídeo e instruções textuais. Cada evento é composto por três componentes: timestamps, escores salientes e legendas textuais. Em seguida, propomos um novo LLM de vídeo chamado TRACE, intercalado por tarefas, para implementar efetivamente o framework de modelagem de eventos causais na prática. O TRACE processa quadros visuais, timestamps, escores salientes e texto como tarefas distintas, empregando vários codificadores e cabeçalhos de decodificação para cada um. Tokens de tarefa são organizados em uma sequência intercalada de acordo com a formulação do framework de modelagem de eventos causais. Experimentos extensivos em várias tarefas e conjuntos de dados de VTG demonstram o desempenho superior do TRACE em comparação com os LLMs de vídeo de última geração. Nosso modelo e código estão disponíveis em https://github.com/gyxxyg/TRACE.
À medida que os modelos de linguagem multimodais de grande escala (MLLMs) continuam a demonstrar um desempenho cada vez mais competitivo em uma ampla gama de tarefas, benchmarks mais intrincados e abrangentes têm sido desenvolvidos para avaliar esses modelos de ponta. Esses benchmarks introduzem novos desafios às capacidades essenciais, como percepção, raciocínio e planejamento. No entanto, os benchmarks multimodais existentes deixam a desejar ao fornecer uma avaliação focada no planejamento de vários passos com base em relações espaciais em imagens. Para preencher essa lacuna, apresentamos o ING-VP, o primeiro benchmark INterativo de Visão e Planejamento baseado em jogos, especificamente projetado para avaliar a imaginação espacial e as habilidades de raciocínio de vários passos dos MLLMs. O ING-VP apresenta 6 jogos distintos, abrangendo 300 níveis, cada um com 6 configurações únicas. Um único modelo participa de mais de 60.000 rodadas de interação. O framework do benchmark permite várias configurações de comparação, incluindo entradas de imagem-texto vs. apenas texto, raciocínio de um único passo vs. de vários passos e condições com histórico vs. sem histórico, oferecendo insights valiosos sobre as capacidades do modelo. Avaliamos numerosos MLLMs de ponta, com o modelo de melhor desempenho, Claude-3.5 Sonnet, alcançando uma precisão média de apenas 3,37%, muito abaixo do padrão esperado. Este trabalho tem como objetivo fornecer um framework de avaliação especializado para impulsionar os avanços na capacidade dos MLLMs em raciocínio espacial e planejamento complexo. O código está disponível publicamente em https://github.com/Thisisus7/ING-VP.git.
A capacidade de seguir instruções é uma habilidade fundamental para LLMs. No entanto, estudos recentes têm mostrado que LLMs frequentemente enfrentam dificuldades com instruções que contêm múltiplos requisitos (por exemplo, um pedido para criar uma postagem em redes sociais "com um tom engraçado" sem "nenhum hashtag"). Apesar disso, a maioria das avaliações se concentra exclusivamente em dados sintéticos. Para lidar com isso, apresentamos o RealInstruct, o primeiro benchmark projetado para avaliar a capacidade dos LLMs de seguir instruções do mundo real com múltiplos requisitos, utilizando consultas que usuários reais fizeram a assistentes de IA. Também investigamos a avaliação baseada em modelo como uma alternativa economicamente viável à anotação humana para essa tarefa. Nossas descobertas revelam que até mesmo o modelo proprietário GPT-4 falha em atender pelo menos um requisito em mais de 21% das instruções, destacando as limitações dos modelos de ponta. Para abordar a diferença de desempenho entre modelos de código aberto e proprietários, propomos o pipeline de auto correção Decompose, Critique and Refine (DeCRIM), que aprimora a capacidade dos LLMs de seguir requisitos. O DeCRIM funciona decompondo a instrução original em uma lista de requisitos e utilizando um modelo Crítico para decidir quando e onde a resposta do LLM precisa de refinamento. Nossos resultados mostram que o DeCRIM melhora o desempenho do Mistral em 7,3% no RealInstruct e 8,0% no IFEval mesmo com feedback fraco. Além disso, demonstramos que com feedback forte, LLMs de código aberto com DeCRIM podem superar o GPT-4 em ambos os benchmarks.
À medida que os modelos de difusão texto-imagem se tornam suficientemente avançados para aplicações comerciais, também há uma crescente preocupação com seu potencial para uso malicioso e prejudicial. O desaprendizado do modelo tem sido proposto para mitigar essas preocupações, removendo informações indesejadas e potencialmente prejudiciais do modelo pré-treinado. Até agora, o sucesso do desaprendizado é principalmente medido pela capacidade do modelo desaprendido de gerar um conceito-alvo mantendo a qualidade da imagem. No entanto, o desaprendizado é tipicamente testado sob cenários limitados, e os efeitos colaterais do desaprendizado mal foram estudados na literatura atual. Neste trabalho, analisamos minuciosamente o desaprendizado sob vários cenários com cinco aspectos-chave. Nossa investigação revela que cada método tem efeitos colaterais ou limitações, especialmente em situações mais complexas e realistas. Ao disponibilizar nosso abrangente framework de avaliação com os códigos-fonte e artefatos, esperamos inspirar pesquisas adicionais nessa área, levando a métodos de desaprendizado mais confiáveis e eficazes.
Embora os grandes modelos de linguagem (LLMs) tenham integrado imagens, adaptá-los a gráficos continua sendo um desafio, limitando suas aplicações em materiais e design de medicamentos. Essa dificuldade decorre da necessidade de geração autoregressiva coerente em textos e gráficos. Para lidar com isso, apresentamos o Llamole, o primeiro LLM multimodal capaz de geração entrelaçada de texto e gráfico, possibilitando o design inverso molecular com planejamento retrosintético. O Llamole integra um LLM base com o Transformador de Difusão de Gráfico e Redes Neurais de Gráfico para geração molecular multi-condicional e inferência de reações dentro de textos, enquanto o LLM, com entendimento molecular aprimorado, controla de forma flexível a ativação entre os diferentes módulos de gráfico. Além disso, o Llamole integra a busca A* com funções de custo baseadas em LLM para um planejamento retrosintético eficiente. Criamos conjuntos de dados de referência e realizamos experimentos extensivos para avaliar o Llamole em comparação com aprendizado em contexto e ajuste fino supervisionado. O Llamole supera significativamente 14 LLMs adaptados em 12 métricas para design molecular controlável e planejamento retrosintético.
Os sistemas de diálogo recentemente introduzidos têm demonstrado alta usabilidade. No entanto, ainda não conseguem refletir adequadamente cenários de conversação do mundo real. Os sistemas de diálogo atuais exibem uma incapacidade de replicar as interações dinâmicas, contínuas e de longo prazo envolvendo múltiplos parceiros. Essa lacuna surge devido aos esforços limitados para considerar ambos os aspectos das conversas do mundo real: interações profundamente estratificadas ao longo do diálogo de longo prazo e redes de conversação amplamente expandidas envolvendo múltiplos participantes. À medida que o esforço para incorporar esses aspectos combinados, apresentamos a Conversa de Sessão Mista, um sistema de diálogo projetado para construir conversas com vários parceiros em um ambiente de diálogo de múltiplas sessões. Propomos um novo conjunto de dados chamado MiSC para implementar este sistema. Os episódios de diálogo do MiSC consistem em 6 sessões consecutivas, com quatro falantes (um falante principal e três parceiros) aparecendo em cada episódio. Além disso, propomos um novo modelo de diálogo com um mecanismo de gerenciamento de memória inovador, chamado Agente de Conversa de Sessão Mista com Memória Egocêntrica Aprimorada (EMMA). EMMA coleta e retém memórias da perspectiva do falante principal durante as conversas com os parceiros, possibilitando continuidade perfeita em interações subsequentes. Avaliações humanas extensivas validam que os diálogos no MiSC demonstram um fluxo conversacional contínuo, mesmo quando os parceiros de conversa mudam em cada sessão. EMMA treinado com MiSC também é avaliado para manter alta memorabilidade sem contradições ao longo de toda a conversa.
Gerar uma história longa de várias mil palavras com coerência narrativa usando Modelos de Linguagem de Grande Escala (LLMs) tem sido uma tarefa desafiadora. Pesquisas anteriores abordaram esse desafio propondo diferentes estruturas que criam um plano de história e geram uma história longa com base nesse plano. No entanto, essas estruturas têm se concentrado principalmente em manter a coerência narrativa nas histórias, frequentemente negligenciando a criatividade no planejamento da história e a expressividade das histórias geradas a partir desses planos, que são propriedades desejáveis para cativar o interesse dos leitores. Neste artigo, propomos o framework Collective Critics for Creative Story Generation (CritiCS), que é composto por uma etapa de refinamento do plano (CrPlan) e uma etapa de geração de história (CrText), para integrar um mecanismo de revisão coletiva que promove essas propriedades no processo de geração de histórias de longa extensão. Especificamente, em cada etapa, um grupo de críticos LLM e um líder colaboram para refinar incrementalmente rascunhos de planos e histórias ao longo de múltiplas rodadas. Uma extensa avaliação humana mostra que o CritiCS pode melhorar significativamente a criatividade da história e o engajamento do leitor, mantendo também a coerência narrativa. Além disso, o design do framework permite a participação ativa de escritores humanos em qualquer papel dentro do processo de crítica, possibilitando a colaboração humana-máquina interativa na escrita de histórias.
Propomos o TextToon, um método para gerar um avatar toonificado dirigível. Dada uma sequência curta de vídeo monocular e uma instrução escrita sobre o estilo do avatar, nosso modelo pode gerar um avatar toonificado de alta fidelidade que pode ser controlado em tempo real por outro vídeo com identidades arbitrárias. Trabalhos relacionados existentes dependem fortemente da modelagem multi-visão para recuperar a geometria por meio de incorporações de textura, apresentadas de forma estática, o que leva a limitações de controle. A entrada de vídeo multi-visão também torna difícil implantar esses modelos em aplicações do mundo real. Para lidar com essas questões, adotamos um Tri-plano de incorporação condicional para aprender representações faciais realistas e estilizadas em um campo de deformação gaussiano. Além disso, expandimos as capacidades de estilização do Splatting Gaussiano 3D introduzindo uma rede neural de tradução de pixels adaptativa e aproveitando o aprendizado contrastivo consciente de patches para obter imagens de alta qualidade. Para levar nosso trabalho para aplicações de consumo, desenvolvemos um sistema em tempo real que pode operar a 48 FPS em uma máquina GPU e 15-18 FPS em uma máquina móvel. Experimentos extensivos demonstram a eficácia de nossa abordagem na geração de avatares textuais em relação aos métodos existentes em termos de qualidade e animação em tempo real. Consulte nossa página do projeto para mais detalhes: https://songluchuan.github.io/TextToon/.
A aprendizagem em contexto (ICL) é a capacidade de um modelo aprender uma nova tarefa observando alguns exemplos em seu contexto. Embora predominante em PNL, essa capacidade também foi recentemente observada em configurações de Aprendizado por Reforço (RL). No entanto, os métodos anteriores de RL em contexto exigem episódios inteiros no contexto do agente. Dado que ambientes complexos geralmente resultam em episódios longos com recompensas esparsas, esses métodos são limitados a ambientes simples com episódios curtos. Para enfrentar esses desafios, apresentamos o Transformer de Decisão com Recuperação Aprimorada (RA-DT). O RA-DT utiliza um mecanismo de memória externa para armazenar experiências passadas das quais ele recupera apenas subtrajectórias relevantes para a situação atual. O componente de recuperação no RA-DT não requer treinamento e pode ser completamente independente do domínio. Avaliamos as capacidades do RA-DT em ambientes de mundo em grade, simulações de robótica e jogos de vídeo gerados proceduralmente. Em ambientes de mundo em grade, o RA-DT supera as bases, enquanto utiliza apenas uma fração do comprimento de contexto delas. Além disso, destacamos as limitações dos métodos atuais de RL em contexto em ambientes complexos e discutimos direções futuras. Para facilitar pesquisas futuras, disponibilizamos conjuntos de dados para quatro dos ambientes considerados.
A pesquisa constrói e avalia o potencial adversarial de introduzir código copiado ou recomendações de IA alucinadas para código malicioso em repositórios de código populares. Enquanto modelos de linguagem grandes (LLMs) fundamentais da OpenAI, Google e Anthropic protegem contra comportamentos prejudiciais e cadeias tóxicas, trabalhos anteriores em soluções matemáticas que incorporam prompts prejudiciais demonstram que as proteções podem variar entre contextos de especialistas. Essas brechas podem surgir em modelos de especialistas quando o contexto da pergunta muda e podem oferecer menos exemplos de treinamento maliciosos para filtrar comentários tóxicos ou ações ofensivas recomendadas. O presente trabalho demonstra que modelos fundamentais podem se recusar a propor ações destrutivas corretamente quando solicitados explicitamente, mas infelizmente podem baixar a guarda quando apresentados a uma mudança repentina de contexto, como resolver um desafio de programação de computadores. Mostramos exemplos empíricos com repositórios hospedeiros de cavalos de Troia como GitHub, NPM, NuGet e redes de entrega de conteúdo populares (CDN) como jsDelivr, que ampliam a superfície de ataque. Nas diretrizes do LLM para ser útil, recomendações de exemplo propõem pontos de extremidade de interface de programação de aplicativos (API) que um especulador de domínio determinado poderia adquirir e configurar uma infraestrutura móvel de ataque que é acionada a partir do código ingenuamente copiado. Comparamos esse ataque a trabalhos anteriores sobre mudança de contexto e contrastamos a superfície de ataque como uma versão inovadora de ataques "living off the land" na literatura de malware. Neste último caso, os modelos de linguagem fundamentais podem se apropriar de prompts de usuário de outra forma inocentes para recomendar ações que violam as políticas de segurança de seus proprietários quando apresentados diretamente sem a solicitação de suporte de codificação acompanhante.
Tocar piano requer controle ágil, preciso e coordenado das mãos que estica os limites da destreza. Modelos de movimento das mãos com a sofisticação necessária para recriar com precisão a execução do piano têm uma ampla gama de aplicações em animação de personagens, IA incorporada, biomecânica e RV/RA. Neste artigo, construímos um conjunto de dados em larga escala pioneiro que contém aproximadamente 10 horas de movimento tridimensional das mãos e áudio de 15 pianistas de elite executando 153 peças de música clássica. Para capturar performances naturais, projetamos uma configuração sem marcadores na qual os movimentos são reconstruídos a partir de vídeos de múltiplas vistas usando modelos de estimativa de pose de última geração. Os dados de movimento são ainda refinados por meio de cinemática inversa utilizando os dados de pressionamento de teclas MIDI de alta resolução obtidos de sensores em um piano Yamaha Disklavier especializado. Aproveitando o conjunto de dados coletado, desenvolvemos um pipeline que pode sintetizar movimentos das mãos fisicamente plausíveis para partituras musicais fora do conjunto de dados. Nossa abordagem emprega uma combinação de aprendizado por imitação e aprendizado por reforço para obter políticas para controle bimanual baseado em física envolvendo a interação entre as mãos e as teclas do piano. Para resolver o problema de eficiência de amostragem com o grande conjunto de dados de movimento, utilizamos um modelo de difusão para gerar movimentos de referência naturais, que fornecem informações de trajetória e posicionamento dos dedos em alto nível. No entanto, o movimento de referência gerado sozinho não fornece precisão suficiente para a modelagem de performance no piano. Em seguida, ampliamos ainda mais os dados usando similaridade musical para recuperar movimentos semelhantes do conjunto de dados capturado a fim de aumentar a precisão da política de aprendizado por reforço. Com o método proposto, nosso modelo gera movimentos naturais e ágeis que se generalizam para músicas fora do conjunto de dados de treinamento.
Apresentamos o MLE-bench, um benchmark para medir o desempenho de agentes de IA em engenharia de aprendizado de máquina. Para isso, curamos 75 competições relacionadas à engenharia de ML do Kaggle, criando um conjunto diversificado de tarefas desafiadoras que testam habilidades reais de engenharia de ML no mundo real, como treinar modelos, preparar conjuntos de dados e executar experimentos. Estabelecemos baselines humanos para cada competição usando os rankings publicamente disponíveis do Kaggle. Utilizamos estruturas de agentes de código aberto para avaliar diversos modelos de linguagem de ponta em nosso benchmark, descobrindo que a configuração de melhor desempenho - o o1-preview da OpenAI com a estrutura AIDE - alcança pelo menos o nível de uma medalha de bronze do Kaggle em 16,9% das competições. Além de nossos principais resultados, investigamos várias formas de escalonamento de recursos para agentes de IA e o impacto da contaminação do pré-treinamento. Disponibilizamos o código do nosso benchmark de código aberto (github.com/openai/mle-bench/) para facilitar pesquisas futuras na compreensão das capacidades de engenharia de ML de agentes de IA.
No desenvolvimento de software do mundo real, o tratamento inadequado ou ausente de exceções pode impactar severamente a robustez e confiabilidade do código. Mecanismos de tratamento de exceções exigem que os desenvolvedores detectem, capturem e gerenciem exceções de acordo com altos padrões, mas muitos desenvolvedores têm dificuldade com essas tarefas, resultando em código frágil. Esse problema é particularmente evidente em projetos de código aberto e afeta a qualidade geral do ecossistema de software. Para enfrentar esse desafio, exploramos o uso de grandes modelos de linguagem (LLMs) para aprimorar o tratamento de exceções no código. Através de uma análise extensiva, identificamos três questões-chave: Detecção Insensível de Código Frágil, Captura Inexata de Tipos de Exceção e Soluções de Tratamento Distorcidas. Esses problemas são generalizados em repositórios do mundo real, sugerindo que práticas robustas de tratamento de exceções são frequentemente negligenciadas ou mal gerenciadas. Em resposta, propomos Seeker, um framework multiagente inspirado em estratégias de desenvolvedores especializados para tratamento de exceções. Seeker utiliza agentes: Scanner, Detector, Predator, Ranker e Handler para auxiliar os LLMs na detecção, captura e resolução de exceções de forma mais eficaz. Nosso trabalho é o primeiro estudo sistemático sobre o aproveitamento de LLMs para aprimorar práticas de tratamento de exceções, fornecendo insights valiosos para futuras melhorias na confiabilidade do código.
A consistência multi-visão continua sendo um desafio para os modelos de difusão de imagens. Mesmo no problema Texto-para-Textura, onde correspondências geométricas perfeitas são conhecidas a priori, muitos métodos falham em produzir previsões alinhadas entre as visões, exigindo métodos de fusão não triviais para incorporar os resultados na malha original. Exploramos essa questão para um fluxo de trabalho de Controle Colaborativo especificamente em Texto-para-Textura PBR. O Controle Colaborativo modela diretamente as distribuições de probabilidade de imagens PBR, incluindo mapas de relevo normais; até onde sabemos, é o único modelo de difusão que produz diretamente pilhas completas de PBR. Discutimos as decisões de design envolvidas para tornar este modelo consistente multi-visão e demonstramos a eficácia de nossa abordagem em estudos de ablação, bem como em aplicações práticas.
Os distúrbios de saúde mental estão entre as doenças mais graves do mundo. A maioria das pessoas com esse tipo de doença não tem acesso a cuidados adequados, o que destaca a importância de treinar modelos para o diagnóstico e tratamento de distúrbios de saúde mental. No entanto, no domínio da saúde mental, preocupações com privacidade limitam a acessibilidade de dados de tratamento personalizados, tornando desafiador construir modelos poderosos. Neste artigo, apresentamos o MentalArena, um framework de autojogo para treinar modelos de linguagem gerando dados personalizados específicos do domínio, onde obtemos um modelo melhor capaz de fazer um diagnóstico e tratamento personalizados (como terapeuta) e fornecer informações (como paciente). Para modelar com precisão pacientes de saúde mental semelhantes a humanos, desenvolvemos o Codificador de Sintomas, que simula um paciente real tanto do ponto de vista cognitivo quanto comportamental. Para lidar com o viés de intenção durante as interações paciente-terapeuta, propomos o Decodificador de Sintomas para comparar sintomas diagnosticados com sintomas codificados e gerenciar dinamicamente o diálogo entre paciente e terapeuta de acordo com as discrepâncias identificadas. Avaliamos o MentalArena em comparação com 6 benchmarks, incluindo tarefas de BiomedicalQA e saúde mental, em relação a 6 modelos avançados. Nossos modelos, ajustados tanto no GPT-3.5 quanto no Llama-3-8b, superam significativamente seus equivalentes, incluindo o GPT-4o. Esperamos que nosso trabalho possa inspirar pesquisas futuras sobre cuidados personalizados. O código está disponível em https://github.com/Scarelette/MentalArena/tree/main
Este artigo apresenta o TinyEmo, uma família de pequenos modelos de linguagem multimodais para raciocínio e classificação emocional. Nossa abordagem inclui: (1) um conjunto de dados sintético de instruções emocionais para os estágios de pré-treinamento e ajuste fino, (2) um Projetor Métrico que delega a classificação do modelo de linguagem permitindo um treinamento e inferência mais eficientes, (3) um grande modelo de linguagem multimodal (MM-LLM) para raciocínio emocional, e (4) um framework semi-automatizado para detecção de viés. O TinyEmo é capaz de realizar classificação de emoções e raciocínio emocional, tudo isso utilizando substancialmente menos parâmetros do que modelos comparáveis. Essa eficiência nos permite incorporar livremente conjuntos de dados emocionais mais diversos, possibilitando um desempenho sólido em tarefas de classificação, com nosso menor modelo (700M parâmetros) superando modelos maiores de ponta baseados em MM-LLMs de propósito geral com mais de 7B parâmetros. Além disso, o Projetor Métrico permite interpretabilidade e detecção indireta de viés em grandes modelos sem treinamento adicional, oferecendo uma abordagem para entender e melhorar sistemas de IA. Disponibilizamos o código, modelos e conjunto de dados em https://github.com/ggcr/TinyEmo
Os avanços recentes dos grandes modelos de linguagem (LLMs) levaram a alegações de que a IA ultrapassou os humanos em tarefas de processamento de linguagem natural (NLP) como compreensão textual e raciocínio. Este trabalho investiga essas afirmações ao introduzir o CAIMIRA, um novo framework enraizado na teoria da resposta ao item (IRT) que possibilita a avaliação quantitativa e comparação das habilidades de resolução de problemas de agentes de perguntas e respostas (QA): humanos e sistemas de IA. Através da análise de mais de 300.000 respostas de ~70 sistemas de IA e 155 humanos em milhares de perguntas de quiz, o CAIMIRA revela padrões distintos de proficiência em domínios de conhecimento e habilidades de raciocínio. Os humanos superam os sistemas de IA em raciocínio abdutivo e conceitual fundamentado em conhecimento, enquanto LLMs de ponta como GPT-4 e LLaMA demonstram desempenho superior em recuperação de informações direcionadas e raciocínio baseado em fatos, especialmente quando lacunas de informação são bem definidas e podem ser abordadas por meio de correspondência de padrões ou recuperação de dados. Essas descobertas destacam a necessidade de futuras tarefas de QA se concentrarem em perguntas que desafiem não apenas o raciocínio de ordem superior e o pensamento científico, mas também exijam interpretação linguística refinada e aplicação de conhecimento intercontextual, ajudando a avançar no desenvolvimento de IA que melhor emulem ou complementem as habilidades cognitivas humanas na resolução de problemas do mundo real.
Os modelos de incorporação têm sido cruciais para possibilitar várias tarefas subsequentes, como similaridade semântica, recuperação de informação e agrupamento. Recentemente, houve um aumento de interesse no desenvolvimento de modelos de incorporação de texto universais que possam generalizar entre tarefas (por exemplo, MTEB). No entanto, o progresso na aprendizagem de modelos de incorporação multimodais universais tem sido relativamente lento, apesar de sua importância. Neste trabalho, nosso objetivo é explorar o potencial de construir incorporações universais capazes de lidar com uma ampla gama de tarefas subsequentes. Nossas contribuições são duplas: (1) MMEB (Massive Multimodal Embedding Benchmark), que abrange 4 meta-tarefas (ou seja, classificação, resposta a perguntas visuais, recuperação multimodal e ancoragem visual) e 36 conjuntos de dados, incluindo 20 conjuntos de dados de treinamento e 16 de avaliação, e (2) VLM2Vec (Modelo de Visão-Linguagem -> Vetor), um framework de treinamento contrastivo que converte qualquer modelo de visão-linguagem de ponta em um modelo de incorporação por meio de treinamento em MMEB. Ao contrário de modelos anteriores como CLIP e BLIP, VLM2Vec pode processar qualquer combinação de imagens e texto para gerar um vetor de dimensão fixa com base nas instruções da tarefa. Construímos uma série de modelos VLM2Vec em Phi-3.5-V e os avaliamos na divisão de avaliação do MMEB. Nossos resultados mostram que o modelo alcança uma melhoria média absoluta de 10% a 20% em relação aos modelos de incorporação multimodais existentes, tanto em conjuntos de dados de distribuição quanto fora de distribuição no MMEB.
Os benchmarks atuais para avaliar modelos de visão e linguagem (VLMs) frequentemente se concentram em suas capacidades de percepção ou resolução de problemas e negligenciam outros aspectos críticos, como equidade, multilinguismo ou toxicidade. Além disso, diferem em seus procedimentos de avaliação e no escopo da avaliação, tornando difícil a comparação entre os modelos. Para lidar com essas questões, estendemos o framework HELM para VLMs a fim de apresentar a Avaliação Holística de Modelos de Visão e Linguagem (VHELM). O VHELM agrega vários conjuntos de dados para abranger um ou mais dos 9 aspectos: percepção visual, conhecimento, raciocínio, viés, equidade, multilinguismo, robustez, toxicidade e segurança. Ao fazer isso, produzimos uma visão abrangente e multidimensional das capacidades dos VLMs em relação a esses fatores importantes. Além disso, padronizamos os parâmetros de inferência padrão, métodos de estímulo e métricas de avaliação para possibilitar comparações justas entre os modelos. Nosso framework é projetado para ser leve e automático, de modo que as execuções de avaliação sejam baratas e rápidas. Nossa execução inicial avalia 22 VLMs em 21 conjuntos de dados existentes para fornecer uma visão holística dos modelos. Descobrimos novas descobertas importantes, como o fato de que modelos focados na eficiência (por exemplo, Claude 3 Haiku ou Gemini 1.5 Flash) têm um desempenho significativamente pior do que seus modelos completos (por exemplo, Claude 3 Opus ou Gemini 1.5 Pro) no benchmark de viés, mas não ao serem avaliados em outros aspectos. Para transparência, disponibilizamos as gerações de modelos brutos e resultados completos em nosso site (https://crfm.stanford.edu/helm/vhelm/v2.0.1). O VHELM é destinado a ser um benchmark em constante evolução, e esperamos continuar adicionando novos conjuntos de dados e modelos ao longo do tempo.
Os modelos de linguagem de grande escala (LLMs) centrados no inglês frequentemente demonstram fortes capacidades multilíngues. No entanto, o desempenho multilíngue desses modelos permanece obscuro e não é amplamente avaliado para muitos idiomas. A maioria dos benchmarks para multilinguismo se concentra em tarefas clássicas de PNL, ou abrange um número mínimo de idiomas. Apresentamos o MEXA, um método para avaliar as capacidades multilíngues de LLMs pré-treinados centrados no inglês usando frases paralelas, disponíveis para mais idiomas do que as tarefas subsequentes existentes. O MEXA aproveita o fato de que os LLMs centrados no inglês usam o inglês como uma espécie de idioma pivô em suas camadas intermediárias. Ele calcula o alinhamento entre o inglês e idiomas não ingleses usando frases paralelas para avaliar a transferência de compreensão de idiomas do inglês para outros idiomas. Esse alinhamento pode ser usado para estimar o desempenho do modelo em outros idiomas. Realizamos estudos usando vários conjuntos de dados paralelos (FLORES-200 e Bíblia), modelos (família Llama, família Gemma, Mistral e OLMo) e tarefas subsequentes estabelecidas (Belebele, m-MMLU e m-ARC). Exploramos diferentes métodos para calcular embeddings em modelos somente de decodificação. Nossos resultados mostram que o MEXA, em suas configurações padrão, alcança uma correlação de Pearson média estatisticamente significativa de 0,90 com três tarefas subsequentes estabelecidas em nove modelos e dois conjuntos de dados paralelos. Isso sugere que o MEXA é um método confiável para estimar as capacidades multilíngues de LLMs centrados no inglês, proporcionando uma compreensão mais clara de seu potencial multilíngue e do funcionamento interno dos LLMs. Tabela de classificação: https://huggingface.co/spaces/cis-lmu/Mexa, Código: https://github.com/cisnlp/Mexa.
Uma vantagem essencial das redes neurais recorrentes (RNNs) sobre os modelos de linguagem baseados em transformadores é a sua complexidade computacional linear em relação ao comprimento da sequência, o que as torna muito mais rápidas no processamento de sequências longas durante a inferência. No entanto, a maioria das RNNs disponíveis publicamente (por exemplo, Mamba e RWKV) são treinadas em sequências com menos de 10 mil tokens, e sua eficácia em contextos mais longos tem sido amplamente insatisfatória até o momento. Neste artigo, estudamos a causa da incapacidade de processar contextos longos para as RNNs e sugerimos mitigadores críticos. Examinamos duas preocupações práticas ao aplicar RNNs de última geração a contextos longos: (1) a incapacidade de extrapolar para entradas mais longas do que o comprimento de treinamento e (2) o limite superior da capacidade de memória. Para abordar a primeira preocupação, investigamos inicialmente o *colapso de estado* (SC), um fenômeno que causa degradação severa de desempenho em comprimentos de sequência não encontrados durante o treinamento. Com experimentos controlados, atribuímos isso ao overfitting devido ao estado recorrente estar superparametrizado para o comprimento de treinamento. Para a segunda preocupação, treinamos uma série de modelos Mamba-2 em documentos longos para estimar empiricamente a capacidade do estado recorrente em modelagem de linguagem e recuperação de passkey. Em seguida, três métodos de mitigação de SC são propostos para melhorar a capacidade de generalização de comprimento do Mamba-2, permitindo que o modelo processe mais de 1 milhão de tokens sem SC. Também descobrimos que a capacidade do estado recorrente na recuperação de passkey escala exponencialmente com o tamanho do estado, e treinamos empiricamente um Mamba-2 370M com precisão de recuperação de passkey quase perfeita em um comprimento de contexto de 256 mil. Isso sugere um futuro promissor para a modelagem de longo contexto baseada em RNNs.
Ainda não. Apresentamos o SPACE, um benchmark que avalia sistematicamente a cognição espacial em modelos de ponta. Nosso benchmark se baseia em décadas de pesquisa em ciências cognitivas. Ele avalia habilidades de mapeamento em larga escala que são utilizadas quando um organismo atravessa ambientes físicos, raciocínio em menor escala sobre formas e disposições de objetos, e infraestrutura cognitiva como atenção espacial e memória. Para muitas tarefas, instanciamos apresentações paralelas via texto e imagens, permitindo-nos avaliar tanto grandes modelos de linguagem quanto grandes modelos multimodais. Os resultados sugerem que os modelos de ponta contemporâneos não alcançam a inteligência espacial dos animais, apresentando desempenho próximo ao nível de chance em diversos testes clássicos de cognição animal.