Artigos de pesquisa em IA selecionados diariamente com traduções
O Transformer tende a alocar excessivamente a atenção a contextos irrelevantes. Neste trabalho, apresentamos o Diff Transformer, que amplifica a atenção ao contexto relevante enquanto cancela o ruído. Especificamente, o mecanismo de atenção diferencial calcula os escores de atenção como a diferença entre dois mapas de atenção softmax separados. A subtração cancela o ruído, promovendo o surgimento de padrões de atenção esparsos. Resultados experimentais em modelagem de linguagem mostram que o Diff Transformer supera o Transformer em várias configurações de aumento do tamanho do modelo e tokens de treinamento. Mais intrigante ainda, ele oferece vantagens notáveis em aplicações práticas, como modelagem de longos contextos, recuperação de informações-chave, mitigação de alucinações, aprendizado em contexto e redução de valores atípicos de ativação. Ao ser menos distraído por contextos irrelevantes, o Diff Transformer pode mitigar alucinações em perguntas e respostas e sumarização de texto. Para o aprendizado em contexto, o Diff Transformer não apenas aprimora a precisão, mas também é mais robusto à permutação de ordem, que era considerada um problema crônico de robustez. Os resultados posicionam o Diff Transformer como uma arquitetura altamente eficaz e promissora para avançar em grandes modelos de linguagem.
Este artigo apresenta um avançado framework de resolução de problemas matemáticos, LLaMA-Berry, para aprimorar a capacidade de raciocínio matemático de Modelos de Linguagem de Grande Escala (LLMs). O framework combina Busca em Árvore de Monte Carlo (MCTS) com Auto-Refinamento Iterativo para otimizar o caminho de raciocínio e utiliza um modelo de recompensa em pares para avaliar diferentes caminhos globalmente. Ao aproveitar as capacidades de autocrítica e reescrita dos LLMs, o Auto-Refinamento aplicado ao MCTS (SR-MCTS) supera as ineficiências e limitações dos algoritmos convencionais de busca passo a passo e gananciosos, promovendo uma exploração mais eficiente dos espaços de solução. O Modelo de Recompensa de Preferência em Pares (PPRM), inspirado no Aprendizado por Reforço a partir do Feedback Humano (RLHF), é então utilizado para modelar preferências em pares entre soluções, utilizando um método de Contagem de Borda Aprimorado (EBC) para sintetizar essas preferências em uma pontuação de classificação global para encontrar respostas melhores. Esta abordagem aborda os desafios de variabilidade de pontuação e distribuições não independentes em tarefas de raciocínio matemático. O framework foi testado em benchmarks gerais e avançados, demonstrando desempenho superior em termos de eficiência de busca e capacidade de resolução de problemas em comparação com métodos existentes como ToT e rStar, especialmente em benchmarks complexos de nível olímpico, incluindo GPQA, AIME24 e AMC23.
Grandes modelos de linguagem (LLMs) frequentemente produzem erros, incluindo imprecisões factuais, viéses e falhas de raciocínio, coletivamente referidos como "alucinações". Estudos recentes têm demonstrado que os estados internos dos LLMs codificam informações sobre a veracidade de suas saídas, e que essas informações podem ser utilizadas para detectar erros. Neste trabalho, mostramos que as representações internas dos LLMs codificam muito mais informações sobre a veracidade do que anteriormente reconhecido. Primeiramente, descobrimos que as informações sobre a veracidade estão concentradas em tokens específicos, e aproveitar essa propriedade melhora significativamente o desempenho na detecção de erros. No entanto, demonstramos que tais detectores de erros falham em generalizar entre conjuntos de dados, implicando que - ao contrário de alegações anteriores - a codificação da veracidade não é universal, mas sim multifacetada. Em seguida, mostramos que as representações internas também podem ser usadas para prever os tipos de erros que o modelo provavelmente cometerá, facilitando o desenvolvimento de estratégias de mitigação personalizadas. Por fim, revelamos uma discrepância entre a codificação interna dos LLMs e seu comportamento externo: eles podem codificar a resposta correta, mas consistentemente geram uma resposta incorreta. Em conjunto, essas percepções aprofundam nossa compreensão dos erros dos LLMs a partir da perspectiva interna do modelo, o que pode orientar pesquisas futuras sobre aprimoramento da análise e mitigação de erros.
Os modelos de difusão texto-para-imagem (T2I) revolucionaram a criação de conteúdo visual, mas estender essas capacidades para a geração de texto-para-vídeo (T2V) ainda é um desafio, especialmente na preservação da consistência temporal. Métodos existentes que visam melhorar a consistência frequentemente causam compensações como redução na qualidade da imagem e tempo computacional impraticável. Para lidar com essas questões, apresentamos o VideoGuide, um novo framework que aprimora a consistência temporal de modelos T2V pré-treinados sem a necessidade de treinamento adicional ou ajuste fino. Em vez disso, o VideoGuide aproveita qualquer modelo de difusão de vídeo pré-treinado (VDM) ou ele mesmo como guia durante as fases iniciais da inferência, melhorando a qualidade temporal ao interpolar as amostras denoizadas do modelo guia no processo de denoização do modelo de amostragem. O método proposto traz melhorias significativas na consistência temporal e fidelidade da imagem, fornecendo uma solução custo-eficaz e prática que potencializa os pontos fortes de vários modelos de difusão de vídeo. Além disso, demonstramos a destilação prévia, revelando que os modelos base podem alcançar maior coerência de texto ao utilizar a priorização de dados superior do modelo guia por meio do método proposto. Página do Projeto: http://videoguide2025.github.io/
Apesar do notável sucesso alcançado pelas redes neurais, particularmente aquelas representadas por MLP e Transformer, revelamos que elas apresentam falhas potenciais na modelagem e raciocínio da periodicidade, ou seja, tendem a memorizar os dados periódicos em vez de compreender genuinamente os princípios subjacentes da periodicidade. No entanto, a periodicidade é uma característica crucial em várias formas de raciocínio e generalização, sustentando a previsibilidade em sistemas naturais e projetados por meio de padrões recorrentes nas observações. Neste artigo, propomos FAN, uma arquitetura de rede neural inovadora baseada em Análise de Fourier, que capacita a capacidade de modelar e raciocinar eficientemente sobre fenômenos periódicos. Ao introduzir a Série de Fourier, a periodicidade é integrada naturalmente na estrutura e nos processos computacionais da rede neural, alcançando assim uma expressão e previsão mais precisas de padrões periódicos. Como uma promissora substituta para a multi-camada perceptron (MLP), FAN pode substituir MLP de forma contínua em vários modelos com menos parâmetros e FLOPs. Através de experimentos extensivos, demonstramos a eficácia de FAN na modelagem e raciocínio sobre funções periódicas, bem como a superioridade e generalizabilidade de FAN em uma variedade de tarefas do mundo real, incluindo representação de fórmulas simbólicas, previsão de séries temporais e modelagem de linguagem.
Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) despertaram interesse em suas capacidades formais de raciocínio, especialmente em matemática. O benchmark GSM8K é amplamente utilizado para avaliar o raciocínio matemático dos modelos em questões de nível escolar. Embora o desempenho dos LLMs no GSM8K tenha melhorado significativamente nos últimos anos, permanece incerto se suas capacidades de raciocínio matemático realmente avançaram, levantando dúvidas sobre a confiabilidade das métricas relatadas. Para abordar essas preocupações, realizamos um estudo em larga escala em vários modelos abertos e fechados de última geração. Para superar as limitações das avaliações existentes, introduzimos o GSM-Simbólico, um benchmark aprimorado criado a partir de modelos simbólicos que permitem a geração de um conjunto diversificado de questões. O GSM-Simbólico possibilita avaliações mais controláveis, fornecendo insights importantes e métricas mais confiáveis para medir as capacidades de raciocínio dos modelos. Nossas descobertas revelam que os LLMs apresentam uma variação notável ao responder a diferentes instantiações da mesma questão. Especificamente, o desempenho de todos os modelos diminui quando apenas os valores numéricos na questão são alterados no benchmark GSM-Simbólico. Além disso, investigamos a fragilidade do raciocínio matemático nesses modelos e mostramos que seu desempenho deteriora significativamente à medida que o número de cláusulas em uma questão aumenta. Hipotetizamos que esse declínio ocorre porque os LLMs atuais não conseguem realizar um raciocínio lógico genuíno; eles replicam etapas de raciocínio de seus dados de treinamento. Adicionar uma única cláusula que pareça relevante para a questão causa quedas significativas de desempenho (até 65%) em todos os modelos de última geração, mesmo que a cláusula não contribua para a cadeia de raciocínio necessária para a resposta final. No geral, nosso trabalho oferece uma compreensão mais sutil das capacidades e limitações dos LLMs no raciocínio matemático.
Os avanços dos modelos de linguagem (LLMs) despertaram um crescente interesse no desenvolvimento de agentes de linguagem baseados em LLMs para automatizar a descoberta científica de ponta a ponta, o que gerou tanto entusiasmo quanto ceticismo sobre as verdadeiras capacidades desses agentes. Neste trabalho, argumentamos que, para um agente automatizar completamente a descoberta científica, ele deve ser capaz de concluir todas as tarefas essenciais no fluxo de trabalho. Portanto, defendemos uma avaliação rigorosa dos agentes em tarefas individuais em um fluxo de trabalho científico antes de fazer afirmações ousadas sobre a automação de ponta a ponta. Para isso, apresentamos o ScienceAgentBench, um novo benchmark para avaliar agentes de linguagem para descoberta científica orientada por dados. Para garantir a autenticidade científica e relevância do nosso benchmark, extraímos 102 tarefas de 44 publicações revisadas por pares em quatro disciplinas e envolvemos nove especialistas no assunto para validá-las. Unificamos a saída alvo para cada tarefa em um arquivo de programa Python autocontido e utilizamos uma variedade de métricas de avaliação para examinar os programas gerados, resultados de execução e custos. Cada tarefa passa por várias rodadas de validação manual por anotadores e especialistas no assunto para garantir a qualidade da anotação e a plausibilidade científica. Também propomos duas estratégias eficazes para mitigar preocupações de contaminação de dados. Usando nosso benchmark, avaliamos cinco LLMs de peso aberto e proprietários, cada um com três estruturas: prompt direto, OpenHands e auto-depurador. Dadas três tentativas para cada tarefa, o agente com melhor desempenho só consegue resolver 32,4% das tarefas de forma independente e 34,3% com conhecimento fornecido por especialistas. Esses resultados destacam as capacidades limitadas dos atuais agentes de linguagem na geração de código para descoberta orientada por dados, muito menos para automação de ponta a ponta na pesquisa científica.
Os modelos de linguagem multimodais de grande escala (MLLMs) estão transformando as capacidades dos agentes de interface gráfica do usuário (GUI), facilitando sua transição de simulações controladas para aplicações complexas do mundo real em várias plataformas. No entanto, a eficácia desses agentes depende da robustez de sua capacidade de fundamentação. Os agentes de GUI atuais utilizam predominantemente representações baseadas em texto, como HTML ou árvores de acessibilidade, que, apesar de sua utilidade, frequentemente introduzem ruído, incompletude e aumento da carga computacional. Neste artigo, defendemos uma incorporação semelhante à humana para agentes de GUI que percebem o ambiente inteiramente visualmente e realizam operações em nível de pixel diretamente na GUI. A chave são os modelos de fundamentação visual que podem mapear com precisão diversas expressões de referência de elementos de GUI para suas coordenadas na GUI em diferentes plataformas. Mostramos que uma abordagem simples, que inclui dados sintéticos baseados na web e uma adaptação leve da arquitetura LLaVA, é surpreendentemente eficaz para treinar tais modelos de fundamentação visual. Coletamos o maior conjunto de dados para fundamentação visual de GUI até o momento, contendo 10M elementos de GUI e suas expressões de referência em mais de 1.3M capturas de tela, e o utilizamos para treinar o UGround, um modelo de fundamentação visual universal robusto para agentes de GUI. Resultados empíricos em seis benchmarks abrangendo três categorias (fundamentação, agente offline e agente online) mostram que 1) o UGround supera substancialmente os modelos de fundamentação visual existentes para agentes de GUI, em até 20% absoluto, e 2) agentes com UGround superam agentes de ponta, apesar de os agentes existentes utilizarem entrada adicional baseada em texto, enquanto o nosso utiliza apenas percepção visual. Esses resultados fornecem um forte suporte para a viabilidade e promessas de agentes de GUI que navegam pelo mundo digital como os humanos.
Apresentamos o UniMuMo, um modelo multimodal unificado capaz de receber dados arbitrários de texto, música e movimento como condições de entrada para gerar saídas em todas as três modalidades. Para lidar com a falta de dados sincronizados no tempo, alinhamos dados não pareados de música e movimento com base em padrões rítmicos para aproveitar conjuntos de dados existentes de música e movimento em larga escala. Ao converter música, movimento e texto em representação baseada em tokens, nosso modelo conecta essas modalidades por meio de uma arquitetura unificada de transformador codificador-decodificador. Para suportar múltiplas tarefas de geração dentro de um único framework, introduzimos várias melhorias arquiteturais. Propomos codificar movimento com um livro de códigos de música, mapeando o movimento no mesmo espaço de características da música. Introduzimos um esquema de geração paralela música-movimento que unifica todas as tarefas de geração de música e movimento em uma única arquitetura de decodificador de transformador com uma única tarefa de treinamento de geração conjunta de música-movimento. Além disso, o modelo é projetado por meio do ajuste fino de modelos pré-treinados de única modalidade, reduzindo significativamente as demandas computacionais. Experimentos extensivos demonstram que o UniMuMo alcança resultados competitivos em todos os benchmarks de geração unidirecional em todas as modalidades de música, movimento e texto. Resultados quantitativos estão disponíveis na página do projeto: https://hanyangclarence.github.io/unimumo_demo/.
Estimar a geometria de cenas dinâmicas, onde objetos se movem e se deformam ao longo do tempo, continua a ser um desafio central em visão computacional. As abordagens atuais frequentemente dependem de pipelines de múltiplas etapas ou otimizações globais que decomponham o problema em subtarefas, como profundidade e fluxo, resultando em sistemas complexos propensos a erros. Neste artigo, apresentamos o Motion DUSt3R (MonST3R), uma abordagem inovadora que prioriza a geometria e estima diretamente a geometria por etapa de cenas dinâmicas. Nossa principal percepção é que, ao simplesmente estimar um mapa de pontos para cada etapa, podemos adaptar de forma eficaz a representação do DUST3R, anteriormente utilizada apenas para cenas estáticas, para cenas dinâmicas. No entanto, essa abordagem apresenta um desafio significativo: a escassez de dados de treinamento adequados, nomeadamente vídeos dinâmicos com poses e rótulos de profundidade. Apesar disso, demonstramos que ao formular o problema como uma tarefa de ajuste fino, identificando diversos conjuntos de dados adequados e treinando estrategicamente o modelo com esses dados limitados, podemos surpreendentemente capacitar o modelo a lidar com dinâmicas, mesmo sem uma representação explícita de movimento. Com base nisso, introduzimos novas otimizações para diversas tarefas específicas de vídeo e demonstramos um desempenho sólido na estimativa de profundidade e pose de câmera em vídeos, superando trabalhos anteriores em termos de robustez e eficiência. Além disso, o MonST3R apresenta resultados promissores para reconstrução principalmente 4D direta.
Apesar dos avanços nos métodos de texto para música (TTM) baseados em difusão, a geração eficiente e de alta qualidade ainda é um desafio. Apresentamos o Presto!, uma abordagem para aceleração de inferência para transformadores de difusão baseados em partituras, reduzindo tanto o número de passos de amostragem quanto o custo por passo. Para reduzir os passos, desenvolvemos um novo método de destilação de correspondência de distribuição baseada em partituras (DMD) para a família de modelos de difusão EDM, o primeiro método de destilação baseado em GAN para TTM. Para reduzir o custo por passo, desenvolvemos uma melhoria simples, porém poderosa, em um recente método de destilação de camada que aprimora a aprendizagem ao preservar melhor a variância do estado oculto. Por fim, combinamos nossos métodos de destilação de passo e camada para uma abordagem dupla. Avaliamos nossos métodos de destilação de passo e camada de forma independente e mostramos que cada um produz um desempenho de primeira classe. Nosso método de destilação combinado pode gerar saídas de alta qualidade com diversidade aprimorada, acelerando nosso modelo base em 10-18 vezes (latência de 230/435ms para 32 segundos mono/estéreo 44.1kHz, 15 vezes mais rápido do que o estado da arte comparável) - o TTM de alta qualidade mais rápido de que temos conhecimento. Exemplos sonoros podem ser encontrados em https://presto-music.github.io/web/.
Este relatório técnico apresenta um Benchmark de Reconhecimento de Entidades Clínicas Nomeadas para avaliar modelos de linguagem na área da saúde, abordando a crucial tarefa de processamento de linguagem natural (PLN) de extrair informações estruturadas de narrativas clínicas para apoiar aplicações como codificação automatizada, identificação de coortes de ensaios clínicos e suporte à decisão clínica. A tabela de classificação fornece uma plataforma padronizada para avaliar diversos modelos de linguagem, incluindo arquiteturas de codificador e decodificador, em sua capacidade de identificar e classificar entidades clínicas em múltiplos domínios médicos. Uma coleção selecionada de conjuntos de dados clínicos disponíveis publicamente é utilizada, abrangendo entidades como doenças, sintomas, medicamentos, procedimentos e medições laboratoriais. Importante ressaltar que essas entidades são padronizadas de acordo com o Modelo de Dados Comuns da Parceria de Resultados Médicos Observacionais (OMOP), garantindo consistência e interoperabilidade entre diferentes sistemas de saúde e conjuntos de dados, e uma avaliação abrangente do desempenho do modelo. O desempenho dos modelos é avaliado principalmente usando o escore F1 e é complementado por vários modos de avaliação para fornecer insights abrangentes sobre o desempenho do modelo. O relatório também inclui uma breve análise dos modelos avaliados até o momento, destacando tendências observadas e limitações. Ao estabelecer este framework de benchmarking, a tabela de classificação tem como objetivo promover transparência, facilitar análises comparativas e impulsionar a inovação em tarefas de reconhecimento de entidades clínicas, abordando a necessidade de métodos de avaliação robustos em PLN na área da saúde.
Embora os modelos de recompensa tenham sido bem-sucedidos na melhoria de modelos de linguagem multimodais de grande escala, os próprios modelos de recompensa permanecem brutos e contêm informações mínimas. Notavelmente, os modelos de recompensa existentes apenas imitam as anotações humanas atribuindo apenas um feedback binário a qualquer texto, não importa o quão longo seja o texto. No âmbito dos modelos de linguagem multimodais, onde os modelos precisam processar tanto imagens quanto textos, um modelo de recompensa ingênuo pode aprender vieses implícitos em relação aos textos e se tornar menos fundamentado em imagens. Neste artigo, propomos um Modelo de Recompensa de Detetive em Nível de Token (TLDR) para fornecer anotações detalhadas a cada token de texto. Primeiramente, introduzimos um método baseado em perturbação para gerar negativos sintéticos difíceis e seus rótulos em nível de token para treinar modelos TLDR. Em seguida, demonstramos a grande utilidade dos modelos TLDR tanto em auxiliar modelos prontos a se autocorrigirem em suas gerações, quanto em servir como uma ferramenta de avaliação de alucinação. Por fim, mostramos que os modelos TLDR podem acelerar significativamente a anotação humana em 3 vezes para adquirir uma gama mais ampla de dados de linguagem visual de alta qualidade.
Os recentes modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades versáteis em cenários de longo contexto. Embora alguns benchmarks recentes tenham sido desenvolvidos para avaliar as capacidades de longo contexto dos LLMs, há uma falta de benchmarks que avaliem as habilidades de raciocínio matemático dos LLMs ao longo de contextos extensos, o que é crucial para a aplicação dos LLMs em cenários do mundo real. Neste artigo, apresentamos o MathHay, um benchmark automatizado projetado para avaliar as capacidades de raciocínio matemático de longo contexto dos LLMs. Ao contrário de benchmarks anteriores como Needle in a Haystack, que se concentram principalmente na recuperação de informações dentro de textos longos, o MathHay exige modelos com habilidades tanto de busca de informações quanto de raciocínio matemático complexo. Realizamos experimentos extensivos no MathHay para avaliar as habilidades de raciocínio matemático de longo contexto de oito LLMs de melhor desempenho. Mesmo o modelo com melhor desempenho, Gemini-1.5-Pro-002, ainda enfrenta dificuldades com o raciocínio matemático ao longo de contextos extensos, alcançando apenas 51,26% de precisão em 128 mil tokens. Isso destaca o significativo espaço para melhoria no benchmark MathHay.
À medida que a aplicação de Modelos de Linguagem Grandes (LLMs) se expande, a demanda por avaliações confiáveis aumenta. Os benchmarks de avaliação de LLMs existentes dependem principalmente de conjuntos de dados estáticos, tornando desafiador avaliar o desempenho do modelo em interações dinâmicas com os usuários. Além disso, esses benchmarks frequentemente dependem de conhecimentos específicos, complicando a medição das capacidades de raciocínio lógico de um modelo. Outros métodos de avaliação dinâmica baseados em modelos fortes ou esforços manuais podem introduzir viéses e incorrer em altos custos e demandas de tempo, dificultando a aplicação em larga escala. Para lidar com essas questões, propomos o TurtleBench. O TurtleBench coleta palpites reais de usuários de nossa plataforma online de Quebra-Cabeça da Sopa de Tartaruga que desenvolvemos. Essa abordagem permite a geração relativamente dinâmica de conjuntos de dados de avaliação, mitigando o risco de trapaça do modelo enquanto alinha as avaliações mais de perto com as necessidades genuínas dos usuários em relação às capacidades de raciocínio, aumentando assim a confiabilidade das avaliações. O TurtleBench inclui 1.532 palpites de usuários juntamente com a correção dos palpites após a anotação. Usando esse conjunto de dados, avaliamos minuciosamente nove dos LLMs mais avançados disponíveis hoje. Notavelmente, os modelos da série o1 da OpenAI não alcançaram os principais resultados nessas avaliações. Propomos várias hipóteses para pesquisas futuras, como "o raciocínio latente do o1 utiliza técnicas triviais de Encadeamento de Pensamento (CoT)" e "aumentar o comprimento do CoT não apenas fornece benefícios de raciocínio, mas também incorre em custos de ruído".
Apresentamos o OmniBooth, um framework de geração de imagens que possibilita controle espacial com personalização multi-modal ao nível da instância. Para todas as instâncias, a instrução multimodal pode ser descrita por meio de prompts de texto ou referências de imagem. Dado um conjunto de máscaras definidas pelo usuário e orientações de texto ou imagem associadas, nosso objetivo é gerar uma imagem, onde múltiplos objetos são posicionados em coordenadas especificadas e seus atributos estão alinhados precisamente com as orientações correspondentes. Esta abordagem expande significativamente o escopo da geração de texto para imagem, elevando-a a uma dimensão mais versátil e prática em termos de controlabilidade. Neste artigo, nossa contribuição principal reside nos sinais de controle latentes propostos, um recurso espacial de alta dimensão que fornece uma representação unificada para integrar as condições espaciais, textuais e de imagem de forma contínua. A condição de texto estende o ControlNet para fornecer geração de vocabulário aberto ao nível da instância. A condição de imagem ainda possibilita controle refinado com identidade personalizada. Na prática, nosso método capacita os usuários com mais flexibilidade na geração controlável, pois os usuários podem escolher condições multi-modais a partir de texto ou imagens conforme necessário. Além disso, experimentos detalhados demonstram nosso desempenho aprimorado na fidelidade de síntese de imagem e alinhamento em diferentes tarefas e conjuntos de dados. Página do projeto: https://len-li.github.io/omnibooth-web/
A fusão de modelos tem como objetivo combinar vários modelos especializados em um único modelo mais capaz, oferecendo benefícios como redução de custos de armazenamento e operação, melhoria na generalização e suporte ao desenvolvimento descentralizado de modelos. Apesar de suas promessas, estudos anteriores têm se concentrado principalmente na fusão de alguns modelos pequenos, deixando muitas questões em aberto sobre o efeito da escala do tamanho do modelo e como isso interage com outros fatores-chave - como a qualidade do modelo base e o número de modelos especializados - para afetar o desempenho do modelo fundido. Este trabalho avalia sistematicamente a utilidade da fusão de modelos em escala, examinando o impacto desses diferentes fatores. Experimentamos a fusão de modelos totalmente ajustados usando 4 métodos de fusão populares - Média, Aritmética de Tarefas, Dare e TIES - em tamanhos de modelo variando de 1B-64B parâmetros e fundindo até 8 modelos especializados diferentes. Avaliamos os modelos fundidos em tarefas mantidas internamente, ou seja, as tarefas de treinamento dos especialistas, e na generalização de zero-shot para tarefas mantidas externamente não vistas. Nossos experimentos fornecem várias novas perspectivas sobre a fusão de modelos em escala e a interação entre diferentes fatores. Primeiramente, descobrimos que a fusão é mais eficaz quando os especialistas são criados a partir de modelos base fortes, ou seja, modelos com bom desempenho de zero-shot. Em segundo lugar, modelos maiores facilitam uma fusão mais simples. Em terceiro lugar, a fusão melhora consistentemente as capacidades de generalização. Notavelmente, ao fundir 8 grandes modelos especializados, os modelos fundidos frequentemente generalizam melhor em comparação com os modelos treinados em multitarefa. Em quarto lugar, podemos fundir melhor mais modelos especializados ao trabalhar com modelos maiores. Em quinto lugar, diferentes métodos de fusão se comportam de maneira muito semelhante em escalas maiores. No geral, nossas descobertas lançam luz sobre algumas propriedades interessantes da fusão de modelos, destacando também algumas limitações. Esperamos que este estudo sirva como um ponto de referência sobre fusão em larga escala para pesquisas futuras.
A curadoria de dados é o problema de como coletar e organizar amostras em um conjunto de dados que suporta aprendizado eficiente. Apesar da centralidade da tarefa, pouco trabalho foi dedicado a uma comparação sistemática em larga escala de vários métodos de curadoria. Neste trabalho, damos passos em direção a uma avaliação formal de estratégias de curadoria de dados e apresentamos o SELECT, o primeiro benchmark em larga escala de estratégias de curadoria para classificação de imagens. Para gerar métodos de referência para o benchmark SELECT, criamos um novo conjunto de dados, ImageNet++, que constitui o maior subconjunto do ImageNet-1K até o momento. Nosso conjunto de dados estende o ImageNet com 5 novos deslocamentos de dados de treinamento, cada um aproximadamente do tamanho do próprio ImageNet-1K, e cada um montado usando uma estratégia de curadoria distinta. Avaliamos nossas linhas de base de curadoria de dados de duas maneiras: (i) usando cada deslocamento de dados de treinamento para treinar modelos de classificação de imagens idênticos do zero (ii) usando os dados em si para ajustar uma representação auto-supervisionada pré-treinada. Nossas descobertas mostram tendências interessantes, especialmente relacionadas a métodos recentes de curadoria de dados, como geração de dados sintéticos e busca baseada em embeddings CLIP. Mostramos que, embora essas estratégias sejam altamente competitivas para certas tarefas, a estratégia de curadoria usada para montar o conjunto de dados original do ImageNet-1K permanece como padrão-ouro. Antecipamos que nosso benchmark pode iluminar o caminho para novos métodos para reduzir ainda mais a lacuna. Disponibilizamos nossos pontos de verificação, código, documentação e um link para nosso conjunto de dados em https://github.com/jimmyxu123/SELECT.
A síntese de movimentos humanos em ambientes 3D, especialmente aqueles com atividades complexas como locomoção, alcance de mãos e interação humano-objeto, apresenta demandas substanciais para pontos de passagem definidos pelo usuário e transições de estágios. Esses requisitos representam desafios para os modelos atuais, resultando em uma lacuna significativa na automatização da animação de personagens a partir de entradas humanas simples. Este artigo aborda esse desafio ao introduzir um framework abrangente para a síntese de movimentos de interação cenas multiestágios diretamente a partir de uma única instrução de texto e localização do objetivo. Nossa abordagem utiliza um modelo de difusão auto-regressivo para sintetizar o próximo segmento de movimento, juntamente com um agendador autônomo que prevê a transição para cada estágio de ação. Para garantir que os movimentos sintetizados sejam integrados de forma contínua no ambiente, propomos uma representação de cena que considera a percepção local tanto no início quanto no local do objetivo. Além disso, aprimoramos a coerência do movimento gerado integrando embeddings de quadros com a entrada de linguagem. Adicionalmente, para apoiar o treinamento do modelo, apresentamos um conjunto de dados abrangente de captura de movimento composto por 16 horas de sequências de movimento em 120 cenas internas cobrindo 40 tipos de movimentos, cada um anotado com descrições de linguagem precisas. Resultados experimentais demonstram a eficácia de nosso método na geração de movimentos multiestágios de alta qualidade, intimamente alinhados com as condições ambientais e textuais.
Métodos de aprendizado por reforço a partir do feedback humano (RLHF) estão emergindo como uma forma de ajustar modelos de difusão (DMs) para geração visual. No entanto, estratégias on-policy comumente utilizadas são limitadas pela capacidade de generalização do modelo de recompensa, enquanto abordagens off-policy requerem grandes quantidades de dados emparelhados anotados por humanos, particularmente em tarefas de geração visual, difíceis de obter. Para lidar com as limitações de RLHF tanto on-policy quanto off-policy, propomos um método de otimização de preferência que alinha DMs com preferências sem depender de modelos de recompensa ou dados emparelhados anotados por humanos. Especificamente, introduzimos um método de Otimização de Preferência Semi-Policy (SePPO). SePPO aproveita checkpoints anteriores como modelos de referência enquanto os utiliza para gerar amostras de referência on-policy, que substituem as "imagens perdedoras" em pares de preferência. Essa abordagem nos permite otimizar usando apenas "imagens vencedoras" off-policy. Além disso, projetamos uma estratégia para seleção de modelo de referência que amplia a exploração no espaço de políticas. Notavelmente, não tratamos simplesmente as amostras de referência como exemplos negativos para aprendizado. Em vez disso, projetamos um critério baseado em âncora para avaliar se as amostras de referência provavelmente são imagens vencedoras ou perdedoras, permitindo que o modelo aprenda seletivamente a partir das amostras de referência geradas. Essa abordagem mitiga a degradação de desempenho causada pela incerteza na qualidade das amostras de referência. Validamos o SePPO em benchmarks de texto-para-imagem e texto-para-vídeo. O SePPO supera todas as abordagens anteriores nos benchmarks de texto-para-imagem e também demonstra um desempenho excepcional nos benchmarks de texto-para-vídeo. O código será disponibilizado em https://github.com/DwanZhang-AI/SePPO.
Os modelos de difusão revolucionaram a geração de imagens, e sua extensão para a geração de vídeos tem mostrado promessa. No entanto, os modelos de difusão de vídeo atuais (VDMs) dependem de uma variável de passo escalar aplicada no nível do clipe, o que limita sua capacidade de modelar dependências temporais complexas necessárias para várias tarefas, como geração de imagem para vídeo. Para lidar com essa limitação, propomos um modelo de difusão de vídeo consciente de quadro (FVDM), que introduz uma nova variável de passo vetorizada (VTV). Ao contrário dos VDMs convencionais, nossa abordagem permite que cada quadro siga um cronograma de ruído independente, aprimorando a capacidade do modelo de capturar dependências temporais detalhadas. A flexibilidade do FVDM é demonstrada em várias tarefas, incluindo geração de vídeo padrão, geração de imagem para vídeo, interpolação de vídeo e síntese de vídeo longo. Através de um conjunto diversificado de configurações de VTV, alcançamos qualidade superior em vídeos gerados, superando desafios como esquecimento catastrófico durante o ajuste fino e generalização limitada em métodos de zero-shot. Nossas avaliações empíricas mostram que o FVDM supera os métodos de ponta em qualidade de geração de vídeo, destacando-se também em tarefas estendidas. Ao abordar deficiências fundamentais nos VDMs existentes, o FVDM estabelece um novo paradigma na síntese de vídeo, oferecendo um framework robusto com implicações significativas para modelagem generativa e aplicações multimídia.
Apresentamos uma tarefa e conjunto de dados para geração e compreensão de expressões de referência em ambientes corporificados multiagentes. Nesta tarefa, dois agentes em uma cena compartilhada devem levar em consideração a perspectiva visual um do outro, que pode ser diferente da sua própria, para tanto produzir quanto compreender referências a objetos em uma cena e as relações espaciais entre eles. Coletamos um conjunto de dados de 2.970 expressões de referência escritas por humanos, cada uma associada a julgamentos de compreensão humanos, e avaliamos o desempenho de modelos automatizados como emissores e receptores emparelhados com parceiros humanos, constatando que o desempenho do modelo tanto na geração de referências quanto na compreensão fica aquém do de pares de agentes humanos. Por fim, experimentamos treinar um modelo de emissor de peso aberto com evidências de sucesso comunicativo quando emparelhado com um ouvinte, resultando em uma melhoria de 58,9 para 69,3% em sucesso comunicativo e até mesmo superando o modelo proprietário mais forte.
A inferência LLM para casos de uso empresarial populares, como sumarização, RAG e geração de código, geralmente observa comprimentos de prompt ordens de magnitude maiores do que os comprimentos de geração. Essa característica resulta em alto custo de preenchimento e aumento da latência de resposta. Neste artigo, apresentamos o SwiftKV, um procedimento de transformação e destilação de modelo inovador, projetado especificamente para reduzir o tempo e o custo de processamento de tokens de prompt, ao mesmo tempo que preserva a alta qualidade dos tokens gerados. O SwiftKV combina três mecanismos-chave: i) SingleInputKV, que preenche o cache KV de camadas posteriores usando a saída de uma camada muito anterior, permitindo que os tokens de prompt pulem grande parte da computação do modelo, ii) AcrossKV, que mescla os caches KV de camadas vizinhas para reduzir a pegada de memória e suportar um tamanho de lote maior para maior rendimento, e iii) um procedimento de destilação que preserva o conhecimento e pode adaptar LLMs existentes para o SwiftKV com impacto mínimo na precisão e baixa exigência de computação e dados. Para o Llama-3.1-8B e 70B, o SwiftKV reduz o requisito de computação do preenchimento em 50% e o requisito de memória do cache KV em 62,5%, enquanto incorre em degradação mínima de qualidade em uma ampla gama de tarefas. No atendimento de inferência de ponta a ponta usando uma implementação vLLM otimizada, o SwiftKV alcança até 2 vezes mais rendimento agregado e 60% menos tempo por token de saída. Ele pode atingir um impressionante rendimento de inferência normalizado de 560 TFlops/GPU, o que se traduz em 16K tokens/s para Llama-3.1-70B em precisão de 16 bits em 4x GPUs H100.