Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos autorregressivos (ARMs) são amplamente considerados a base dos grandes modelos de linguagem (LLMs). Desafiamos essa noção ao introduzir o LLaDA, um modelo de difusão treinado do zero sob o paradigma de pré-treinamento e ajuste fino supervisionado (SFT). O LLaDA modela distribuições por meio de um processo de mascaramento de dados direto e um processo reverso, parametrizado por um Transformer convencional para prever tokens mascarados. Ao otimizar um limite de verossimilhança, ele oferece uma abordagem generativa fundamentada para inferência probabilística. Em uma ampla gama de benchmarks, o LLaDA demonstra forte escalabilidade, superando nossas linhas de base de ARMs construídas internamente. Notavelmente, o LLaDA 8B é competitivo com LLMs robustos como o LLaMA3 8B em aprendizado contextual e, após o SFT, exibe habilidades impressionantes de seguir instruções em estudos de caso como diálogos multivolta. Além disso, o LLaDA aborda a maldição da reversão, superando o GPT-4o em uma tarefa de completar poemas reversos. Nossas descobertas estabelecem os modelos de difusão como uma alternativa viável e promissora aos ARMs, desafiando a suposição de que as principais capacidades dos LLMs discutidas acima estão intrinsecamente ligadas aos ARMs.
Os Modelos de Raciocínio Amplo (LRMs) representam um avanço nas capacidades de resolução de problemas de IA, mas sua eficácia em ambientes interativos pode ser limitada. Este artigo introduz e analisa o pensamento excessivo em LRMs, um fenômeno no qual os modelos favorecem cadeias de raciocínio interno prolongadas em detrimento da interação ambiental. Através de experimentos em tarefas de engenharia de software usando o SWE Bench Verified, observamos três padrões recorrentes: Paralisia de Análise, Ações Rebeldes e Desengajamento Prematuro. Propomos um framework para estudar esses comportamentos, que se correlaciona com avaliações de especialistas humanos, e analisamos 4018 trajetórias. Observamos que pontuações mais altas de pensamento excessivo se correlacionam com desempenho reduzido, com modelos de raciocínio exibindo tendências mais fortes ao pensamento excessivo em comparação com modelos não racionais. Nossa análise revela que esforços simples para mitigar o pensamento excessivo em ambientes agentes, como selecionar a solução com a menor pontuação de pensamento excessivo, podem melhorar o desempenho do modelo em quase 30%, reduzindo os custos computacionais em 43%. Esses resultados sugerem que mitigar o pensamento excessivo tem fortes implicações práticas. Sugerimos que, ao alavancar as capacidades nativas de chamada de função e o aprendizado por reforço seletivo, as tendências ao pensamento excessivo podem ser mitigadas. Também disponibilizamos nosso framework de avaliação e conjunto de dados em código aberto para facilitar a pesquisa nessa direção em https://github.com/AlexCuadron/Overthinking.
Apresentamos o Step-Video-T2V, um modelo pré-treinado de texto para vídeo de última geração com 30 bilhões de parâmetros e a capacidade de gerar vídeos com até 204 quadros de duração. Um Variational Autoencoder de compressão profunda, Video-VAE, foi projetado para tarefas de geração de vídeo, alcançando taxas de compressão espacial de 16x16 e temporal de 8x, mantendo uma qualidade excepcional de reconstrução de vídeo. Os prompts dos usuários são codificados usando dois codificadores de texto bilíngues para lidar com inglês e chinês. Um DiT com atenção 3D completa é treinado usando Flow Matching e é empregado para remover o ruído de entrada em quadros latentes. Uma abordagem DPO baseada em vídeo, Video-DPO, é aplicada para reduzir artefatos e melhorar a qualidade visual dos vídeos gerados. Também detalhamos nossas estratégias de treinamento e compartilhamos observações e insights importantes. O desempenho do Step-Video-T2V é avaliado em um novo benchmark de geração de vídeo, Step-Video-T2V-Eval, demonstrando sua qualidade de texto para vídeo de última geração quando comparado com motores de código aberto e comerciais. Além disso, discutimos as limitações do paradigma atual de modelos baseados em difusão e delineamos direções futuras para modelos de fundação de vídeo. Disponibilizamos tanto o Step-Video-T2V quanto o Step-Video-T2V-Eval em https://github.com/stepfun-ai/Step-Video-T2V. A versão online também pode ser acessada em https://yuewen.cn/videos. Nosso objetivo é acelerar a inovação de modelos de fundação de vídeo e capacitar criadores de conteúdo de vídeo.
Os modelos de difusão (DMs) tornaram-se a principal escolha para tarefas generativas em diversos domínios. No entanto, sua dependência de múltiplas passagens sequenciais limita significativamente o desempenho em tempo real. Métodos anteriores de aceleração concentraram-se principalmente em reduzir o número de etapas de amostragem ou reutilizar resultados intermediários, falhando em aproveitar as variações entre regiões espaciais dentro da imagem devido às restrições das estruturas convolucionais U-Net. Ao aproveitar a flexibilidade dos Transformers de Difusão (DiTs) no tratamento de um número variável de tokens, introduzimos o RAS, uma nova estratégia de amostragem sem treinamento que atribui dinamicamente diferentes taxas de amostragem a regiões dentro de uma imagem com base no foco do modelo DiT. Nossa observação principal é que, durante cada etapa de amostragem, o modelo se concentra em regiões semanticamente significativas, e essas áreas de foco exibem forte continuidade entre etapas consecutivas. Aproveitando essa percepção, o RAS atualiza apenas as regiões atualmente em foco, enquanto outras regiões são atualizadas usando ruído armazenado da etapa anterior. O foco do modelo é determinado com base na saída da etapa precedente, capitalizando a consistência temporal que observamos. Avaliamos o RAS no Stable Diffusion 3 e no Lumina-Next-T2I, alcançando acelerações de até 2,36x e 2,51x, respectivamente, com degradação mínima na qualidade de geração. Além disso, um estudo com usuários revela que o RAS oferece qualidades comparáveis sob avaliação humana enquanto alcança uma aceleração de 1,6x. Nossa abordagem representa um passo significativo em direção a transformers de difusão mais eficientes, aumentando seu potencial para aplicações em tempo real.
Grandes Modelos Multimodais (LMMs) apresentam grandes deficiências ao interpretar imagens e, por algumas métricas, possuem cognição espacial inferior à de crianças pequenas ou animais. Apesar disso, eles atingem pontuações altas em muitos benchmarks visuais populares, com margem de melhoria rapidamente reduzida por um surto contínuo de progresso nos modelos. Para abordar isso, há uma necessidade urgente de benchmarks difíceis que permaneçam relevantes por mais tempo. Levamos essa ideia ao limite ao introduzir o ZeroBench — um benchmark leve de raciocínio visual que é completamente impossível para os LMMs de fronteira contemporâneos. Nosso benchmark consiste em 100 questões curadas manualmente e 334 subquestões menos difíceis. Avaliamos 20 LMMs no ZeroBench, todos os quais obtiveram 0,0%, e analisamos rigorosamente os erros. Para incentivar o progresso na compreensão visual, disponibilizamos publicamente o ZeroBench.
Apesar dos avanços notáveis nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), a maioria dos modelos de ponta não passou por um alinhamento minucioso com as preferências humanas. Essa lacuna existe porque a pesquisa atual de alinhamento alcançou progresso principalmente em áreas específicas (por exemplo, redução de alucinações), enquanto a questão mais ampla de se o alinhamento de modelos com as preferências humanas pode melhorar sistematicamente a capacidade dos MLLMs permanece amplamente inexplorada. Para isso, apresentamos o MM-RLHF, um conjunto de dados contendo 120 mil pares de comparação de preferências finamente detalhados e anotados por humanos. Este conjunto de dados representa um avanço substancial em relação aos recursos existentes, oferecendo tamanho superior, diversidade, granularidade de anotação e qualidade. Aproveitando este conjunto de dados, propomos várias inovações-chave para melhorar tanto a qualidade dos modelos de recompensa quanto a eficiência dos algoritmos de alinhamento. Notavelmente, introduzimos um Modelo de Recompensa Baseado em Críticas, que gera críticas das saídas do modelo antes de atribuir pontuações, oferecendo interpretabilidade aprimorada e feedback mais informativo em comparação com mecanismos de recompensa escalares tradicionais. Além disso, propomos o Dimensionamento Dinâmico de Recompensas, um método que ajusta o peso da perda de cada amostra de acordo com o sinal de recompensa, otimizando assim o uso de pares de comparação de alta qualidade. Nossa abordagem é rigorosamente avaliada em 10 dimensões distintas e 27 benchmarks, com resultados que demonstram melhorias significativas e consistentes no desempenho do modelo. Especificamente, o ajuste fino do LLaVA-ov-7B com o MM-RLHF e nosso algoritmo de alinhamento resulta em um aumento de 19,5% nas habilidades de conversação e uma melhoria de 60% na segurança. Disponibilizamos o conjunto de dados de preferências, o modelo de recompensa, o código de treinamento e avaliação, bem como os benchmarks de modelagem de recompensa e segurança em código aberto. Para mais detalhes, visite nossa página do projeto: https://mm-rlhf.github.io.
Modelos de difusão permitem a síntese de conteúdo visual de alta qualidade e diversidade. No entanto, eles enfrentam dificuldades para gerar conceitos raros ou nunca vistos. Para abordar esse desafio, exploramos o uso de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) com modelos de geração de imagens. Propomos o ImageRAG, um método que recupera dinamicamente imagens relevantes com base em um prompt de texto fornecido e as utiliza como contexto para guiar o processo de geração. Abordagens anteriores que utilizaram imagens recuperadas para melhorar a geração treinaram modelos especificamente para geração baseada em recuperação. Em contraste, o ImageRAG aproveita as capacidades de modelos existentes de condicionamento de imagem e não requer treinamento específico para RAG. Nossa abordagem é altamente adaptável e pode ser aplicada a diferentes tipos de modelos, mostrando uma melhoria significativa na geração de conceitos raros e detalhados ao utilizar diferentes modelos base. Nossa página do projeto está disponível em: https://rotem-shalev.github.io/ImageRAG
Modelos de linguagem de raciocínio (LLMs) como o OpenAI o1, o3 e o DeepSeek R1 têm feito progressos significativos em matemática e programação, mas ainda enfrentam desafios em tarefas avançadas, como problemas de combinatória da Olimpíada Internacional de Matemática (IMO), quebra-cabeças do Corpus de Abstração e Raciocínio (ARC) e questões do Exame Final da Humanidade (HLE). Utilizamos uma abordagem de inferência diversificada que combina múltiplos modelos e métodos durante o teste. Descobrimos que verificar problemas de matemática e código, além de aplicar amostragem por rejeição em outros problemas, é simples e eficaz. Verificamos automaticamente a correção das soluções para problemas da IMO usando Lean e para quebra-cabeças do ARC por meio de código, e constatamos que a técnica "best-of-N" responde efetivamente às questões do HLE. Nossa abordagem aumenta a precisão das respostas em problemas de combinatória da IMO de 33,3% para 77,8%, a precisão nas questões do HLE de 8% para 37%, e resolve 80% dos quebra-cabeças do ARC que 948 humanos não conseguiram resolver e 26,5% dos quebra-cabeças do ARC que o o3 com alto poder computacional não resolve. Simulações em tempo de teste, aprendizado por reforço e meta-aprendizado com feedback de inferência melhoram a generalização ao adaptar as representações de grafos do agente e variar prompts, códigos e conjuntos de dados. Nossa abordagem é confiável, robusta e escalável, e, no espírito da pesquisa reproduzível, a disponibilizaremos publicamente após a publicação.
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso significativo em diversas tarefas de PLN. No entanto, seus elevados custos computacionais limitam seu uso amplo, especialmente em aplicações em tempo real. A poda estruturada oferece uma solução eficaz ao comprimir os modelos e proporcionar melhorias de velocidade de ponta a ponta diretamente, independentemente do ambiente de hardware. Enquanto isso, diferentes componentes do modelo exibem sensibilidades variadas em relação à poda, exigindo uma compressão não uniforme do modelo. No entanto, um método de poda não deve apenas identificar uma subestrutura capaz, mas também considerar o treinamento pós-compressão. Para isso, propomos o \sysname, um método de poda estruturada consciente do treinamento. O \sysname se baseia em um processo de busca evolutiva, gerando múltiplos modelos descendentes em cada geração por meio de mutação e selecionando os mais aptos para sobreviver. Para avaliar o efeito do pós-treinamento, incorporamos um processo de treinamento leve e em múltiplas etapas dentro da população de descendentes, aumentando progressivamente o número de tokens e eliminando modelos com desempenho insatisfatório em cada etapa de seleção. Validamos nosso método por meio de extensos experimentos com Llama-2-7B, Llama-3.1-8B e Qwen-2.5-14B-Instruct, alcançando desempenho de ponta para poda estruturada. Por exemplo, o \sysname supera o ShearedLlama enquanto requer 5 vezes menos dados de treinamento durante o treinamento pós-compressão.
Modelos de Linguagem de Grande Escala (LLMs) geralmente representam números usando múltiplos tokens, o que exige que o modelo agregue esses tokens para interpretar valores numéricos. Essa fragmentação torna o treinamento e a inferência menos eficientes e afeta negativamente o desempenho do modelo em tarefas relacionadas a números. Inspirados pela observação de que LLMs pré-treinados aprendem internamente características semelhantes às de Fourier para tokens numéricos, propomos o Fourier Number Embedding (FoNE), um método inovador que mapeia diretamente números no espaço de incorporação com suas características de Fourier. O FoNE codifica cada número como um único token com apenas duas dimensões de incorporação por dígito, capturando efetivamente valores numéricos sem fragmentação. Essa representação compacta acelera tanto o treinamento quanto a inferência. Em comparação com as incorporações tradicionais de subpalavras e dígitos, o FoNE não apenas reduz a sobrecarga computacional, mas também alcança maior precisão em várias tarefas numéricas, incluindo adição, subtração e multiplicação. Na adição decimal de 6 dígitos, o FoNE requer 64 vezes menos dados para atingir 99% de precisão do que as incorporações de subpalavras e dígitos, enquanto usa 3 vezes e 6 vezes menos tokens por número, respectivamente. Além disso, o FoNE é o único método que alcança 100% de precisão em mais de 100.000 exemplos de teste para adição, subtração e multiplicação. Os códigos e visualizações estão disponíveis em https://fouriernumber.github.io/.
Novos modelos de difusão podem sintetizar imagens foto-realistas com texto integrado de alta qualidade. Surpreendentemente, demonstramos através de patches de ativação de atenção que menos de 1% dos parâmetros dos modelos de difusão, todos contidos nas camadas de atenção, influenciam a geração de conteúdo textual nas imagens. Com base nessa observação, melhoramos a eficiência e o desempenho da geração textual ao direcionar as camadas de atenção cruzada e conjunta dos modelos de difusão. Introduzimos várias aplicações que se beneficiam da localização das camadas responsáveis pela geração de conteúdo textual. Primeiro, mostramos que um ajuste fino baseado em LoRA, aplicado apenas às camadas localizadas, aprimora ainda mais as capacidades gerais de geração de texto de grandes modelos de difusão, preservando a qualidade e a diversidade das gerações dos modelos de difusão. Em seguida, demonstramos como podemos usar as camadas localizadas para editar o conteúdo textual em imagens geradas. Por fim, estendemos essa ideia para o caso prático de prevenir a geração de texto tóxico de maneira sem custo. Em contraste com trabalhos anteriores, nossa abordagem de localização é amplamente aplicável a várias arquiteturas de modelos de difusão, incluindo U-Net (por exemplo, LDM e SDXL) e baseadas em transformadores (por exemplo, DeepFloyd IF e Stable Diffusion 3), utilizando diversos codificadores de texto (por exemplo, desde CLIP até modelos de linguagem grandes como T5). Página do projeto disponível em https://t2i-text-loc.github.io/.
Este artigo de posicionamento argumenta que, para compreender a IA, não podemos depender do nosso vocabulário existente de palavras humanas. Em vez disso, devemos nos esforçar para desenvolver neologismos: novas palavras que representem conceitos humanos precisos que desejamos ensinar às máquinas, ou conceitos de máquinas que precisamos aprender. Partimos da premissa de que humanos e máquinas possuem conceitos diferentes. Isso significa que a interpretabilidade pode ser enquadrada como um problema de comunicação: os humanos devem ser capazes de referenciar e controlar os conceitos das máquinas, e comunicar conceitos humanos às máquinas. Acreditamos que a criação de uma linguagem compartilhada entre humanos e máquinas, por meio do desenvolvimento de neologismos, poderia resolver esse problema de comunicação. Neologismos bem-sucedidos alcançam um nível útil de abstração: não são muito detalhados, para que possam ser reutilizados em muitos contextos, e não são muito abstratos, para que transmitam informações precisas. Como prova de conceito, demonstramos como um "neologismo de comprimento" permite controlar o tamanho das respostas de um LLM, enquanto um "neologismo de diversidade" permite amostrar respostas mais variáveis. Em conjunto, argumentamos que não podemos compreender a IA usando nosso vocabulário existente, e que expandi-lo por meio de neologismos cria oportunidades tanto para controlar quanto para entender melhor as máquinas.
Modelos de fundação pré-treinados (FMs) têm demonstrado desempenho excepcional em tarefas de previsão de séries temporais univariadas. No entanto, vários desafios práticos persistem, incluindo o gerenciamento de dependências complexas entre características e a quantificação da incerteza nas previsões. Este estudo visa abordar essas limitações críticas por meio da introdução de adaptadores; transformações no espaço de características que facilitam o uso eficaz de FMs pré-treinados para séries temporais univariadas em tarefas multivariadas. Os adaptadores operam projetando entradas multivariadas em um espaço latente adequado e aplicando o FM independentemente a cada dimensão. Inspirados pela literatura sobre aprendizado de representação e redes neurais bayesianas parcialmente estocásticas, apresentamos uma variedade de adaptadores e estratégias de otimização/inferência. Experimentos conduzidos em conjuntos de dados sintéticos e do mundo real confirmam a eficácia dos adaptadores, demonstrando melhorias substanciais na precisão da previsão e na quantificação da incerteza em comparação com métodos de linha de base. Nosso framework, AdaPTS, posiciona os adaptadores como uma solução modular, escalável e eficaz para aproveitar FMs de séries temporais em contextos multivariados, promovendo assim sua adoção mais ampla em aplicações do mundo real. Disponibilizamos o código em https://github.com/abenechehab/AdaPTS.
As línguas de baixo recurso (LBRs) enfrentam desafios significativos no processamento de linguagem natural (PLN) devido à falta de dados. Enquanto os modelos de linguagem grandes (MLGs) de última geração ainda têm dificuldades com as LBRs, modelos multilíngues menores (MMs) como mBERT e XLM-R oferecem maior promessa devido a uma melhor adaptação de sua capacidade aos tamanhos reduzidos de dados de treinamento. Este estudo investiga sistematicamente métodos baseados em adaptadores eficientes em parâmetros para adaptar MMs a LBRs, avaliando três arquiteturas: Bottleneck Sequencial, Bottleneck Invertível e Adaptação de Baixa Classificação. Utilizando texto não estruturado do GlotCC e conhecimento estruturado do ConceptNet, mostramos que pequenos conjuntos de dados de adaptação (por exemplo, até 1 GB de texto livre ou alguns MB de dados de grafo de conhecimento) resultam em melhorias em tarefas intrínsecas (modelagem de linguagem mascarada) e extrínsecas (classificação de tópicos, análise de sentimento e reconhecimento de entidades nomeadas). Descobrimos que os adaptadores Bottleneck Sequencial se destacam na modelagem de linguagem, enquanto os adaptadores Bottleneck Invertível superam ligeiramente outros métodos em tarefas posteriores devido a uma melhor alinhamento de incorporação e maior contagem de parâmetros. Métodos baseados em adaptadores igualam ou superam a sintonização completa enquanto usam muito menos parâmetros, e MMs menores se mostram mais eficazes para LBRs do que MLGs massivos como modelos destilados baseados em LLaMA-3, GPT-4 e DeepSeek-R1. Enquanto a adaptação melhora o desempenho, o tamanho dos dados de pré-treinamento continua sendo o fator dominante, especialmente para idiomas com ampla cobertura de pré-treinamento.
A afinação de Modelos de Linguagem Grandes (LLMs) em conjuntos de dados específicos é uma prática comum para melhorar o desempenho em tarefas-alvo. No entanto, esse ganho de desempenho frequentemente resulta em sobreajuste, no qual o modelo se torna muito especializado na tarefa ou nas características dos dados de treinamento, resultando em uma perda de generalização. Este artigo apresenta a Abordagem Seletiva de Auto-para-Supervisionado na Afinação (S3FT), uma abordagem de afinação que alcança um desempenho melhor do que a afinação supervisionada padrão (SFT) ao mesmo tempo que melhora a generalização. O S3FT aproveita a existência de múltiplas respostas válidas para uma consulta. Ao utilizar as respostas corretas do modelo, o S3FT reduz a especialização do modelo durante a fase de afinação. O S3FT primeiro identifica as respostas corretas do modelo no conjunto de treinamento por meio de um juiz apropriado. Em seguida, ele afina o modelo utilizando as respostas corretas do modelo e a resposta correta (ou sua paráfrase) para as amostras restantes. A eficácia do S3FT é demonstrada por meio de experimentos em tarefas de raciocínio matemático, programação em Python e compreensão de leitura. Os resultados mostram que o SFT padrão pode levar a uma queda média de desempenho de até 4.4 em vários benchmarks, como MMLU e TruthfulQA. Em contraste, o S3FT reduz essa queda pela metade, ou seja, 2.5, indicando melhores capacidades de generalização do que o SFT, ao mesmo tempo que apresenta um desempenho significativamente melhor nas tarefas de afinação.
Neste artigo, propomos uma arquitetura eficiente de convolução multinível para a tarefa de localização visual 3D. Os métodos convencionais têm dificuldade em atender aos requisitos de inferência em tempo real devido à arquitetura em duas etapas ou baseada em pontos. Inspirados pelo sucesso da arquitetura de convolução totalmente esparsa multinível na detecção de objetos 3D, nosso objetivo é construir um novo framework de localização visual 3D seguindo essa rota técnica. No entanto, como na tarefa de localização visual 3D a representação da cena 3D deve interagir profundamente com as características de texto, a arquitetura baseada em convolução esparsa é ineficiente para essa interação devido à grande quantidade de características de voxel. Para isso, propomos a poda guiada por texto (TGP) e a adição baseada em completação (CBA) para fundir de forma eficiente a representação da cena 3D e as características de texto por meio de poda gradual de regiões e completação de alvos. Especificamente, a TGP esparsifica iterativamente a representação da cena 3D e, assim, interage eficientemente as características de voxel com as características de texto por meio de atenção cruzada. Para mitigar o efeito da poda sobre informações geométricas delicadas, a CBA corrige adaptativamente a região superpoda por meio de completação de voxel com sobrecarga computacional insignificante. Em comparação com métodos anteriores de estágio único, nosso método alcança a maior velocidade de inferência e supera o método mais rápido anterior em 100% de FPS. Nosso método também alcança precisão de ponta, mesmo em comparação com métodos de dois estágios, com uma vantagem de +1,13 em Acc@0.5 no ScanRefer, e vantagens de +2,6 e +3,2 no NR3D e SR3D, respectivamente. O código está disponível em https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.
Um objetivo fundamental da inteligência incorporada é capacitar agentes a realizar tarefas de longo prazo em ambientes dinâmicos, mantendo tomadas de decisão robustas e adaptabilidade. Para alcançar esse objetivo, propomos o Agente de Memória Espaço-Temporal (STMA), uma estrutura inovadora projetada para aprimorar o planejamento e a execução de tarefas por meio da integração de memória espaço-temporal. O STMA é construído com base em três componentes críticos: (1) um módulo de memória espaço-temporal que captura mudanças históricas e ambientais em tempo real, (2) um grafo de conhecimento dinâmico que facilita o raciocínio espacial adaptativo, e (3) um mecanismo planejador-crítico que refina iterativamente as estratégias de tarefas. Avaliamos o STMA no ambiente TextWorld em 32 tarefas, envolvendo planejamento multi-etapas e exploração sob diferentes níveis de complexidade. Os resultados experimentais demonstram que o STMA alcança uma melhoria de 31,25% na taxa de sucesso e um aumento de 24,7% na pontuação média em comparação com o modelo estado da arte. Os resultados destacam a eficácia da memória espaço-temporal no avanço das capacidades de memória de agentes incorporados.
A Modelagem de Imagem Mascarada (MIM) oferece uma abordagem promissora para o aprendizado de representação auto-supervisionado, porém os modelos MIM existentes ainda ficam aquém do estado da arte. Neste artigo, analisamos sistematicamente representações de destino, funções de perda e arquiteturas, para introduzir o CAPI - uma nova estrutura MIM pura que se baseia na previsão de agrupamentos latentes. Nossa abordagem utiliza uma função de perda baseada em agrupamento, que é estável para treinar e exibe propriedades promissoras de escalabilidade. Nossa arquitetura ViT-L, o CAPI, alcança 83,8% de precisão no ImageNet e 32,1% de mIoU no ADE20K com sondas lineares simples, superando substancialmente os métodos MIM anteriores e se aproximando do desempenho do estado da arte atual, o DINOv2. Disponibilizamos todo o nosso código e modelos.
Nas aplicações de modelos de difusão, a geração controlável é de significado prático, porém desafiadora. Os métodos atuais para geração controlável focam principalmente na modificação da função de pontuação dos modelos de difusão, enquanto a Difusão de Média Reversão (MR) modifica diretamente a estrutura da equação diferencial estocástica (SDE), tornando a incorporação de condições de imagem mais simples e natural. No entanto, os atuais amostradores rápidos sem treinamento não são diretamente aplicáveis à Difusão de MR. Portanto, a Difusão de MR requer centenas de NFEs (número de avaliações de função) para obter amostras de alta qualidade. Neste artigo, propomos um novo algoritmo chamado MRS (Amostrador de MR) para reduzir as NFEs de amostragem da Difusão de MR. Resolvemos a SDE de tempo reverso e a equação diferencial ordinária de fluxo de probabilidade (PF-ODE) associada à Difusão de MR, e derivamos soluções semi-analíticas. As soluções consistem em uma função analítica e um parâmetro integralizado por uma rede neural. Com base nesta solução, podemos gerar amostras de alta qualidade em menos passos. Nossa abordagem não requer treinamento e suporta todas as parametrizações principais, incluindo previsão de ruído, previsão de dados e previsão de velocidade. Experimentos extensos demonstram que o Amostrador de MR mantém alta qualidade de amostragem com uma aceleração de 10 a 20 vezes em dez tarefas diferentes de restauração de imagem. Nosso algoritmo acelera o procedimento de amostragem da Difusão de MR, tornando-a mais prática na geração controlável.
O CLaMP 3 é um framework unificado desenvolvido para enfrentar os desafios da generalização multimodal e multilingue na recuperação de informações musicais. Utilizando aprendizado contrastivo, ele alinha todas as principais modalidades musicais—incluindo partituras, sinais de performance e gravações de áudio—com texto multilingue em um espaço de representação compartilhado, permitindo a recuperação entre modalidades não alinhadas usando o texto como ponte. Ele apresenta um codificador de texto multilingue adaptável a idiomas não vistos, exibindo uma forte generalização cross-lingual. Aproveitando a geração aumentada por recuperação, criamos o M4-RAG, um conjunto de dados em escala web composto por 2,31 milhões de pares música-texto. Esse conjunto de dados é enriquecido com metadados detalhados que representam uma ampla variedade de tradições musicais globais. Para impulsionar pesquisas futuras, disponibilizamos o WikiMT-X, um benchmark que consiste em 1.000 triplas de partituras, áudio e descrições textuais ricamente variadas. Experimentos mostram que o CLaMP 3 alcança desempenho de ponta em múltiplas tarefas de MIR, superando significativamente baselines anteriores e demonstrando excelente generalização em contextos multimodais e multilingues de música.
Os veículos autônomos atuais dependem principalmente de seus sensores individuais para compreender as cenas ao redor e planejar trajetórias futuras, o que pode ser pouco confiável quando os sensores apresentam falhas ou estão obstruídos. Para resolver esse problema, métodos de percepção cooperativa por meio de comunicação veículo-a-veículo (V2V) foram propostos, mas tendem a se concentrar em detecção e rastreamento. Como essas abordagens contribuem para o desempenho geral do planejamento cooperativo ainda é pouco explorado. Inspirados pelos recentes avanços no uso de Modelos de Linguagem de Grande Escala (LLMs) para construir sistemas de direção autônoma, propomos uma nova configuração de problema que integra um LLM na direção autônoma cooperativa, com o conjunto de dados e benchmark propostos de Perguntas e Respostas Veículo-a-Veículo (V2V-QA). Também propomos nosso método base, o Modelo de Linguagem de Grande Escala Veículo-a-Veículo (V2V-LLM), que utiliza um LLM para fundir informações de percepção de múltiplos veículos autônomos conectados (CAVs) e responder a perguntas relacionadas à direção: fundamentação, identificação de objetos notáveis e planejamento. Os resultados experimentais mostram que nosso V2V-LLM proposto pode ser uma arquitetura de modelo unificada promissora para realizar diversas tarefas na direção autônoma cooperativa, superando outros métodos base que utilizam abordagens de fusão diferentes. Nosso trabalho também cria uma nova direção de pesquisa que pode melhorar a segurança dos futuros sistemas de direção autônoma. Nosso site do projeto: https://eddyhkchiu.github.io/v2vllm.github.io/.
O treinamento de recusa em Modelos de Linguagem de Grande Escala (LLMs) evita saídas prejudiciais, mas essa defesa ainda permanece vulnerável a jailbreaks automatizados e criados por humanos. Apresentamos uma nova abordagem de LLM-como-red-teamer, na qual um humano realiza um jailbreak em um LLM treinado para recusa, tornando-o disposto a realizar jailbreaks em si mesmo ou em outros LLMs. Referimo-nos aos LLMs que sofreram jailbreak como atacantes J_2, que podem avaliar sistematicamente modelos-alvo usando diversas estratégias de red teaming e melhorar seu desempenho por meio de aprendizado em contexto a partir de falhas anteriores. Nossos experimentos demonstram que Sonnet 3.5 e Gemini 1.5 pro superam outros LLMs como J_2, alcançando taxas de sucesso de ataque (ASRs) de 93,0% e 91,0%, respectivamente, contra GPT-4o (e resultados semelhantes em outros LLMs capazes) no Harmbench. Nosso trabalho não apenas introduz uma abordagem escalável para red teaming estratégico, inspirada em red teamers humanos, mas também destaca o jailbreaking-para-jailbreak como um modo de falha negligenciado da salvaguarda. Especificamente, um LLM pode contornar suas próprias salvaguardas empregando uma versão de si mesmo que sofreu jailbreak e está disposta a auxiliar em novos jailbreaks. Para evitar qualquer uso indevido direto com J_2, enquanto avançamos a pesquisa em segurança de IA, compartilhamos publicamente nossa metodologia, mantendo os detalhes específicos de prompt em sigilo.
As proteínas são máquinas moleculares dinâmicas cujas funções biológicas, abrangendo catálise enzimática, transdução de sinais e adaptação estrutural, estão intrinsecamente ligadas aos seus movimentos. No entanto, projetar proteínas com propriedades dinâmicas específicas ainda é um desafio devido às complexas e degeneradas relações entre sequência, estrutura e movimento molecular. Aqui, apresentamos o VibeGen, um framework de IA generativa que possibilita o design de proteínas de novo, condicionado às vibrações de modos normais. O VibeGen emprega uma arquitetura de modelo duplo agente, composta por um designer de proteínas que gera candidatos de sequência com base em modos vibracionais especificados e um preditor de proteínas que avalia sua precisão dinâmica. Essa abordagem potencializa a diversidade, precisão e novidade durante o processo de design. Por meio de simulações moleculares de átomos completos como validação direta, demonstramos que as proteínas projetadas reproduzem com precisão as amplitudes de modos normais prescritas ao longo do espinhaço, adotando diversas estruturas estáveis e funcionalmente relevantes. Notavelmente, as sequências geradas são de novo, não apresentando similaridade significativa com proteínas naturais, expandindo assim o espaço proteico acessível além das restrições evolutivas. Nosso trabalho integra a dinâmica proteica no design generativo de proteínas e estabelece uma ligação direta e bidirecional entre sequência e comportamento vibracional, abrindo novos caminhos para a engenharia de biomoléculas com propriedades dinâmicas e funcionais personalizadas. Esse framework tem amplas implicações para o design racional de enzimas flexíveis, estruturas dinâmicas e biomateriais, pavimentando o caminho para a engenharia de proteínas impulsionada por IA informada por dinâmica.