Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

Modelos de Difusão de Linguagem em Grande Escala
Large Language Diffusion Models

Feb 14, 2025

Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li

1219

Os modelos autorregressivos (ARMs) são amplamente considerados a base dos grandes modelos de linguagem (LLMs). Desafiamos essa noção ao introduzir o LLaDA, um modelo de difusão treinado do zero sob o paradigma de pré-treinamento e ajuste fino supervisionado (SFT). O LLaDA modela distribuições por meio de um processo de mascaramento de dados direto e um processo reverso, parametrizado por um Transformer convencional para prever tokens mascarados. Ao otimizar um limite de verossimilhança, ele oferece uma abordagem generativa fundamentada para inferência probabilística. Em uma ampla gama de benchmarks, o LLaDA demonstra forte escalabilidade, superando nossas linhas de base de ARMs construídas internamente. Notavelmente, o LLaDA 8B é competitivo com LLMs robustos como o LLaMA3 8B em aprendizado contextual e, após o SFT, exibe habilidades impressionantes de seguir instruções em estudos de caso como diálogos multivolta. Além disso, o LLaDA aborda a maldição da reversão, superando o GPT-4o em uma tarefa de completar poemas reversos. Nossas descobertas estabelecem os modelos de difusão como uma alternativa viável e promissora aos ARMs, desafiando a suposição de que as principais capacidades dos LLMs discutidas acima estão intrinsecamente ligadas aos ARMs.

O Perigo da Superanálise: Examinando o Dilema Raciocínio-Ação em Tarefas Agentes
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

Feb 12, 2025

Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez

592

Os Modelos de Raciocínio Amplo (LRMs) representam um avanço nas capacidades de resolução de problemas de IA, mas sua eficácia em ambientes interativos pode ser limitada. Este artigo introduz e analisa o pensamento excessivo em LRMs, um fenômeno no qual os modelos favorecem cadeias de raciocínio interno prolongadas em detrimento da interação ambiental. Através de experimentos em tarefas de engenharia de software usando o SWE Bench Verified, observamos três padrões recorrentes: Paralisia de Análise, Ações Rebeldes e Desengajamento Prematuro. Propomos um framework para estudar esses comportamentos, que se correlaciona com avaliações de especialistas humanos, e analisamos 4018 trajetórias. Observamos que pontuações mais altas de pensamento excessivo se correlacionam com desempenho reduzido, com modelos de raciocínio exibindo tendências mais fortes ao pensamento excessivo em comparação com modelos não racionais. Nossa análise revela que esforços simples para mitigar o pensamento excessivo em ambientes agentes, como selecionar a solução com a menor pontuação de pensamento excessivo, podem melhorar o desempenho do modelo em quase 30%, reduzindo os custos computacionais em 43%. Esses resultados sugerem que mitigar o pensamento excessivo tem fortes implicações práticas. Sugerimos que, ao alavancar as capacidades nativas de chamada de função e o aprendizado por reforço seletivo, as tendências ao pensamento excessivo podem ser mitigadas. Também disponibilizamos nosso framework de avaliação e conjunto de dados em código aberto para facilitar a pesquisa nessa direção em https://github.com/AlexCuadron/Overthinking.

Relatório Técnico Step-Video-T2V: A Prática, Desafios e Futuro dos Modelos Fundamentais de Vídeo
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Feb 14, 2025

Guoqing Ma, Haoyang Huang, Kun Yan, Liangyu Chen, Nan Duan, Shengming Yin, Changyi Wan, Ranchen Ming, Xiaoniu Song, Xing Chen, Yu Zhou, Deshan Sun, Deyu Zhou, Jian Zhou, Kaijun Tan, Kang An, Mei Chen, Wei Ji, Qiling Wu, Wen Sun, Xin Han, Yanan Wei, Zheng Ge, Aojie Li, Bin Wang, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Chen Xu, Chenfei Wu, Chenguang Yu, Dapeng Shi, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang, Guanzhe Huang, Gulin Yan, Haiyang Feng, Hao Nie, Haonan Jia, Hanpeng Hu, Hanqi Chen, Haolong Yan, Heng Wang, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiaoren Wu, Jie Wu, Jie Yang, Jiashuai Liu, Jiashuo Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Lei Liu, Lei Xia, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Ming Li, Mingliang Li, Muhua Cheng, Na Wang, Qiaohui Chen, Qinglin He, Qiuyan Liang, Quan Sun, Ran Sun, Rui Wang, Shaoliang Pang, Shiliang Yang, Sitong Liu, Siqi Liu, Shuli Gao, Tiancheng Cao, Tianyu Wang, Weipeng Ming, Wenqing He, Xu Zhao, Xuelin Zhang, Xianfang Zeng, Xiaojia Liu, Xuan Yang, Yaqi Dai, Yanbo Yu, Yang Li, Yineng Deng, Yingming Wang, Yilei Wang, Yuanwei Lu, Yu Chen, Yu Luo, Yuchu Luo, Yuhe Yin, Yuheng Feng, Yuxiang Yang, Zecheng Tang, Zekai Zhang, Zidong Yang, Binxing Jiao, Jiansheng Chen, Jing Li, Shuchang Zhou, Xiangyu Zhang, Xinhao Zhang, Yibo Zhu, Heung-Yeung Shum, Daxin Jiang

563

Apresentamos o Step-Video-T2V, um modelo pré-treinado de texto para vídeo de última geração com 30 bilhões de parâmetros e a capacidade de gerar vídeos com até 204 quadros de duração. Um Variational Autoencoder de compressão profunda, Video-VAE, foi projetado para tarefas de geração de vídeo, alcançando taxas de compressão espacial de 16x16 e temporal de 8x, mantendo uma qualidade excepcional de reconstrução de vídeo. Os prompts dos usuários são codificados usando dois codificadores de texto bilíngues para lidar com inglês e chinês. Um DiT com atenção 3D completa é treinado usando Flow Matching e é empregado para remover o ruído de entrada em quadros latentes. Uma abordagem DPO baseada em vídeo, Video-DPO, é aplicada para reduzir artefatos e melhorar a qualidade visual dos vídeos gerados. Também detalhamos nossas estratégias de treinamento e compartilhamos observações e insights importantes. O desempenho do Step-Video-T2V é avaliado em um novo benchmark de geração de vídeo, Step-Video-T2V-Eval, demonstrando sua qualidade de texto para vídeo de última geração quando comparado com motores de código aberto e comerciais. Além disso, discutimos as limitações do paradigma atual de modelos baseados em difusão e delineamos direções futuras para modelos de fundação de vídeo. Disponibilizamos tanto o Step-Video-T2V quanto o Step-Video-T2V-Eval em https://github.com/stepfun-ai/Step-Video-T2V. A versão online também pode ser acessada em https://yuewen.cn/videos. Nosso objetivo é acelerar a inovação de modelos de fundação de vídeo e capacitar criadores de conteúdo de vídeo.

Amostragem Adaptativa por Região para Transformadores de Difusão
Region-Adaptive Sampling for Diffusion Transformers

Feb 14, 2025

Ziming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang

543

Os modelos de difusão (DMs) tornaram-se a principal escolha para tarefas generativas em diversos domínios. No entanto, sua dependência de múltiplas passagens sequenciais limita significativamente o desempenho em tempo real. Métodos anteriores de aceleração concentraram-se principalmente em reduzir o número de etapas de amostragem ou reutilizar resultados intermediários, falhando em aproveitar as variações entre regiões espaciais dentro da imagem devido às restrições das estruturas convolucionais U-Net. Ao aproveitar a flexibilidade dos Transformers de Difusão (DiTs) no tratamento de um número variável de tokens, introduzimos o RAS, uma nova estratégia de amostragem sem treinamento que atribui dinamicamente diferentes taxas de amostragem a regiões dentro de uma imagem com base no foco do modelo DiT. Nossa observação principal é que, durante cada etapa de amostragem, o modelo se concentra em regiões semanticamente significativas, e essas áreas de foco exibem forte continuidade entre etapas consecutivas. Aproveitando essa percepção, o RAS atualiza apenas as regiões atualmente em foco, enquanto outras regiões são atualizadas usando ruído armazenado da etapa anterior. O foco do modelo é determinado com base na saída da etapa precedente, capitalizando a consistência temporal que observamos. Avaliamos o RAS no Stable Diffusion 3 e no Lumina-Next-T2I, alcançando acelerações de até 2,36x e 2,51x, respectivamente, com degradação mínima na qualidade de geração. Além disso, um estudo com usuários revela que o RAS oferece qualidades comparáveis sob avaliação humana enquanto alcança uma aceleração de 1,6x. Nossa abordagem representa um passo significativo em direção a transformers de difusão mais eficientes, aumentando seu potencial para aplicações em tempo real.

ZeroBench: Um Benchmark Visual Impossível para os Modelos Multimodais de Grande Escala Contemporâneos
ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

Feb 13, 2025

Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie

445

Grandes Modelos Multimodais (LMMs) apresentam grandes deficiências ao interpretar imagens e, por algumas métricas, possuem cognição espacial inferior à de crianças pequenas ou animais. Apesar disso, eles atingem pontuações altas em muitos benchmarks visuais populares, com margem de melhoria rapidamente reduzida por um surto contínuo de progresso nos modelos. Para abordar isso, há uma necessidade urgente de benchmarks difíceis que permaneçam relevantes por mais tempo. Levamos essa ideia ao limite ao introduzir o ZeroBench — um benchmark leve de raciocínio visual que é completamente impossível para os LMMs de fronteira contemporâneos. Nosso benchmark consiste em 100 questões curadas manualmente e 334 subquestões menos difíceis. Avaliamos 20 LMMs no ZeroBench, todos os quais obtiveram 0,0%, e analisamos rigorosamente os erros. Para incentivar o progresso na compreensão visual, disponibilizamos publicamente o ZeroBench.

MM-RLHF: O Próximo Passo Adiante na Alinhamento Multimodal de LLM
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

Feb 14, 2025

Yi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan

355

Apesar dos avanços notáveis nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), a maioria dos modelos de ponta não passou por um alinhamento minucioso com as preferências humanas. Essa lacuna existe porque a pesquisa atual de alinhamento alcançou progresso principalmente em áreas específicas (por exemplo, redução de alucinações), enquanto a questão mais ampla de se o alinhamento de modelos com as preferências humanas pode melhorar sistematicamente a capacidade dos MLLMs permanece amplamente inexplorada. Para isso, apresentamos o MM-RLHF, um conjunto de dados contendo 120 mil pares de comparação de preferências finamente detalhados e anotados por humanos. Este conjunto de dados representa um avanço substancial em relação aos recursos existentes, oferecendo tamanho superior, diversidade, granularidade de anotação e qualidade. Aproveitando este conjunto de dados, propomos várias inovações-chave para melhorar tanto a qualidade dos modelos de recompensa quanto a eficiência dos algoritmos de alinhamento. Notavelmente, introduzimos um Modelo de Recompensa Baseado em Críticas, que gera críticas das saídas do modelo antes de atribuir pontuações, oferecendo interpretabilidade aprimorada e feedback mais informativo em comparação com mecanismos de recompensa escalares tradicionais. Além disso, propomos o Dimensionamento Dinâmico de Recompensas, um método que ajusta o peso da perda de cada amostra de acordo com o sinal de recompensa, otimizando assim o uso de pares de comparação de alta qualidade. Nossa abordagem é rigorosamente avaliada em 10 dimensões distintas e 27 benchmarks, com resultados que demonstram melhorias significativas e consistentes no desempenho do modelo. Especificamente, o ajuste fino do LLaVA-ov-7B com o MM-RLHF e nosso algoritmo de alinhamento resulta em um aumento de 19,5% nas habilidades de conversação e uma melhoria de 60% na segurança. Disponibilizamos o conjunto de dados de preferências, o modelo de recompensa, o código de treinamento e avaliação, bem como os benchmarks de modelagem de recompensa e segurança em código aberto. Para mais detalhes, visite nossa página do projeto: https://mm-rlhf.github.io.

ImageRAG: Recuperação Dinâmica de Imagens para Geração de Imagens Orientada por Referência
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

Feb 13, 2025

Rotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried

212

Modelos de difusão permitem a síntese de conteúdo visual de alta qualidade e diversidade. No entanto, eles enfrentam dificuldades para gerar conceitos raros ou nunca vistos. Para abordar esse desafio, exploramos o uso de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) com modelos de geração de imagens. Propomos o ImageRAG, um método que recupera dinamicamente imagens relevantes com base em um prompt de texto fornecido e as utiliza como contexto para guiar o processo de geração. Abordagens anteriores que utilizaram imagens recuperadas para melhorar a geração treinaram modelos especificamente para geração baseada em recuperação. Em contraste, o ImageRAG aproveita as capacidades de modelos existentes de condicionamento de imagem e não requer treinamento específico para RAG. Nossa abordagem é altamente adaptável e pode ser aplicada a diferentes tipos de modelos, mostrando uma melhoria significativa na geração de conceitos raros e detalhados ao utilizar diferentes modelos base. Nossa página do projeto está disponível em: https://rotem-shalev.github.io/ImageRAG

Inferência e Verificação Diversificada para Raciocínio Avançado
Diverse Inference and Verification for Advanced Reasoning

Feb 14, 2025

Iddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell

183

Modelos de linguagem de raciocínio (LLMs) como o OpenAI o1, o3 e o DeepSeek R1 têm feito progressos significativos em matemática e programação, mas ainda enfrentam desafios em tarefas avançadas, como problemas de combinatória da Olimpíada Internacional de Matemática (IMO), quebra-cabeças do Corpus de Abstração e Raciocínio (ARC) e questões do Exame Final da Humanidade (HLE). Utilizamos uma abordagem de inferência diversificada que combina múltiplos modelos e métodos durante o teste. Descobrimos que verificar problemas de matemática e código, além de aplicar amostragem por rejeição em outros problemas, é simples e eficaz. Verificamos automaticamente a correção das soluções para problemas da IMO usando Lean e para quebra-cabeças do ARC por meio de código, e constatamos que a técnica "best-of-N" responde efetivamente às questões do HLE. Nossa abordagem aumenta a precisão das respostas em problemas de combinatória da IMO de 33,3% para 77,8%, a precisão nas questões do HLE de 8% para 37%, e resolve 80% dos quebra-cabeças do ARC que 948 humanos não conseguiram resolver e 26,5% dos quebra-cabeças do ARC que o o3 com alto poder computacional não resolve. Simulações em tempo de teste, aprendizado por reforço e meta-aprendizado com feedback de inferência melhoram a generalização ao adaptar as representações de grafos do agente e variar prompts, códigos e conjuntos de dados. Nossa abordagem é confiável, robusta e escalável, e, no espírito da pesquisa reproduzível, a disponibilizaremos publicamente após a publicação.

DarwinLM: Poda Estrutural Evolutiva de Modelos de Linguagem de Grande Escala
DarwinLM: Evolutionary Structured Pruning of Large Language Models

Feb 11, 2025

Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh

187

Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso significativo em diversas tarefas de PLN. No entanto, seus elevados custos computacionais limitam seu uso amplo, especialmente em aplicações em tempo real. A poda estruturada oferece uma solução eficaz ao comprimir os modelos e proporcionar melhorias de velocidade de ponta a ponta diretamente, independentemente do ambiente de hardware. Enquanto isso, diferentes componentes do modelo exibem sensibilidades variadas em relação à poda, exigindo uma compressão não uniforme do modelo. No entanto, um método de poda não deve apenas identificar uma subestrutura capaz, mas também considerar o treinamento pós-compressão. Para isso, propomos o \sysname, um método de poda estruturada consciente do treinamento. O \sysname se baseia em um processo de busca evolutiva, gerando múltiplos modelos descendentes em cada geração por meio de mutação e selecionando os mais aptos para sobreviver. Para avaliar o efeito do pós-treinamento, incorporamos um processo de treinamento leve e em múltiplas etapas dentro da população de descendentes, aumentando progressivamente o número de tokens e eliminando modelos com desempenho insatisfatório em cada etapa de seleção. Validamos nosso método por meio de extensos experimentos com Llama-2-7B, Llama-3.1-8B e Qwen-2.5-14B-Instruct, alcançando desempenho de ponta para poda estruturada. Por exemplo, o \sysname supera o ShearedLlama enquanto requer 5 vezes menos dados de treinamento durante o treinamento pós-compressão.

FoNE: Incorporação Precisas de Números de Único Token por meio de Recursos de Fourier
FoNE: Precise Single-Token Number Embeddings via Fourier Features

Feb 13, 2025

Tianyi Zhou, Deqing Fu, Mahdi Soltanolkotabi, Robin Jia, Vatsal Sharan

153

Modelos de Linguagem de Grande Escala (LLMs) geralmente representam números usando múltiplos tokens, o que exige que o modelo agregue esses tokens para interpretar valores numéricos. Essa fragmentação torna o treinamento e a inferência menos eficientes e afeta negativamente o desempenho do modelo em tarefas relacionadas a números. Inspirados pela observação de que LLMs pré-treinados aprendem internamente características semelhantes às de Fourier para tokens numéricos, propomos o Fourier Number Embedding (FoNE), um método inovador que mapeia diretamente números no espaço de incorporação com suas características de Fourier. O FoNE codifica cada número como um único token com apenas duas dimensões de incorporação por dígito, capturando efetivamente valores numéricos sem fragmentação. Essa representação compacta acelera tanto o treinamento quanto a inferência. Em comparação com as incorporações tradicionais de subpalavras e dígitos, o FoNE não apenas reduz a sobrecarga computacional, mas também alcança maior precisão em várias tarefas numéricas, incluindo adição, subtração e multiplicação. Na adição decimal de 6 dígitos, o FoNE requer 64 vezes menos dados para atingir 99% de precisão do que as incorporações de subpalavras e dígitos, enquanto usa 3 vezes e 6 vezes menos tokens por número, respectivamente. Além disso, o FoNE é o único método que alcança 100% de precisão em mais de 100.000 exemplos de teste para adição, subtração e multiplicação. Os códigos e visualizações estão disponíveis em https://fouriernumber.github.io/.

Localização Precisa de Parâmetros para Geração Textual em Modelos de Difusão
Precise Parameter Localization for Textual Generation in Diffusion Models

Feb 14, 2025

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic

122

Novos modelos de difusão podem sintetizar imagens foto-realistas com texto integrado de alta qualidade. Surpreendentemente, demonstramos através de patches de ativação de atenção que menos de 1% dos parâmetros dos modelos de difusão, todos contidos nas camadas de atenção, influenciam a geração de conteúdo textual nas imagens. Com base nessa observação, melhoramos a eficiência e o desempenho da geração textual ao direcionar as camadas de atenção cruzada e conjunta dos modelos de difusão. Introduzimos várias aplicações que se beneficiam da localização das camadas responsáveis pela geração de conteúdo textual. Primeiro, mostramos que um ajuste fino baseado em LoRA, aplicado apenas às camadas localizadas, aprimora ainda mais as capacidades gerais de geração de texto de grandes modelos de difusão, preservando a qualidade e a diversidade das gerações dos modelos de difusão. Em seguida, demonstramos como podemos usar as camadas localizadas para editar o conteúdo textual em imagens geradas. Por fim, estendemos essa ideia para o caso prático de prevenir a geração de texto tóxico de maneira sem custo. Em contraste com trabalhos anteriores, nossa abordagem de localização é amplamente aplicável a várias arquiteturas de modelos de difusão, incluindo U-Net (por exemplo, LDM e SDXL) e baseadas em transformadores (por exemplo, DeepFloyd IF e Stable Diffusion 3), utilizando diversos codificadores de texto (por exemplo, desde CLIP até modelos de linguagem grandes como T5). Página do projeto disponível em https://t2i-text-loc.github.io/.

Não Podemos Compreender a IA Usando Nosso Vocabulário Existente
We Can't Understand AI Using our Existing Vocabulary

Feb 11, 2025

John Hewitt, Robert Geirhos, Been Kim

104

Este artigo de posicionamento argumenta que, para compreender a IA, não podemos depender do nosso vocabulário existente de palavras humanas. Em vez disso, devemos nos esforçar para desenvolver neologismos: novas palavras que representem conceitos humanos precisos que desejamos ensinar às máquinas, ou conceitos de máquinas que precisamos aprender. Partimos da premissa de que humanos e máquinas possuem conceitos diferentes. Isso significa que a interpretabilidade pode ser enquadrada como um problema de comunicação: os humanos devem ser capazes de referenciar e controlar os conceitos das máquinas, e comunicar conceitos humanos às máquinas. Acreditamos que a criação de uma linguagem compartilhada entre humanos e máquinas, por meio do desenvolvimento de neologismos, poderia resolver esse problema de comunicação. Neologismos bem-sucedidos alcançam um nível útil de abstração: não são muito detalhados, para que possam ser reutilizados em muitos contextos, e não são muito abstratos, para que transmitam informações precisas. Como prova de conceito, demonstramos como um "neologismo de comprimento" permite controlar o tamanho das respostas de um LLM, enquanto um "neologismo de diversidade" permite amostrar respostas mais variáveis. Em conjunto, argumentamos que não podemos compreender a IA usando nosso vocabulário existente, e que expandi-lo por meio de neologismos cria oportunidades tanto para controlar quanto para entender melhor as máquinas.

AdaPTS: Adaptando Modelos Fundamentais Univariados para Previsão Probabilística de Séries Temporais Multivariadas
AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting

Feb 14, 2025

Abdelhakim Benechehab, Vasilii Feofanov, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl

Modelos de fundação pré-treinados (FMs) têm demonstrado desempenho excepcional em tarefas de previsão de séries temporais univariadas. No entanto, vários desafios práticos persistem, incluindo o gerenciamento de dependências complexas entre características e a quantificação da incerteza nas previsões. Este estudo visa abordar essas limitações críticas por meio da introdução de adaptadores; transformações no espaço de características que facilitam o uso eficaz de FMs pré-treinados para séries temporais univariadas em tarefas multivariadas. Os adaptadores operam projetando entradas multivariadas em um espaço latente adequado e aplicando o FM independentemente a cada dimensão. Inspirados pela literatura sobre aprendizado de representação e redes neurais bayesianas parcialmente estocásticas, apresentamos uma variedade de adaptadores e estratégias de otimização/inferência. Experimentos conduzidos em conjuntos de dados sintéticos e do mundo real confirmam a eficácia dos adaptadores, demonstrando melhorias substanciais na precisão da previsão e na quantificação da incerteza em comparação com métodos de linha de base. Nosso framework, AdaPTS, posiciona os adaptadores como uma solução modular, escalável e eficaz para aproveitar FMs de séries temporais em contextos multivariados, promovendo assim sua adoção mais ampla em aplicações do mundo real. Disponibilizamos o código em https://github.com/abenechehab/AdaPTS.

Modelos Pequenos, Grande Impacto: Adaptação Eficiente de Modelos de Linguagem Pequenos Multilíngues para Idiomas de Baixos Recursos com Base em Corpus e Grafos
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

Feb 14, 2025

Daniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann

As línguas de baixo recurso (LBRs) enfrentam desafios significativos no processamento de linguagem natural (PLN) devido à falta de dados. Enquanto os modelos de linguagem grandes (MLGs) de última geração ainda têm dificuldades com as LBRs, modelos multilíngues menores (MMs) como mBERT e XLM-R oferecem maior promessa devido a uma melhor adaptação de sua capacidade aos tamanhos reduzidos de dados de treinamento. Este estudo investiga sistematicamente métodos baseados em adaptadores eficientes em parâmetros para adaptar MMs a LBRs, avaliando três arquiteturas: Bottleneck Sequencial, Bottleneck Invertível e Adaptação de Baixa Classificação. Utilizando texto não estruturado do GlotCC e conhecimento estruturado do ConceptNet, mostramos que pequenos conjuntos de dados de adaptação (por exemplo, até 1 GB de texto livre ou alguns MB de dados de grafo de conhecimento) resultam em melhorias em tarefas intrínsecas (modelagem de linguagem mascarada) e extrínsecas (classificação de tópicos, análise de sentimento e reconhecimento de entidades nomeadas). Descobrimos que os adaptadores Bottleneck Sequencial se destacam na modelagem de linguagem, enquanto os adaptadores Bottleneck Invertível superam ligeiramente outros métodos em tarefas posteriores devido a uma melhor alinhamento de incorporação e maior contagem de parâmetros. Métodos baseados em adaptadores igualam ou superam a sintonização completa enquanto usam muito menos parâmetros, e MMs menores se mostram mais eficazes para LBRs do que MLGs massivos como modelos destilados baseados em LLaMA-3, GPT-4 e DeepSeek-R1. Enquanto a adaptação melhora o desempenho, o tamanho dos dados de pré-treinamento continua sendo o fator dominante, especialmente para idiomas com ampla cobertura de pré-treinamento.

Ajuste Fino Seletivo de Auto-para-Supervisionado para Generalização em Modelos de Linguagem Grandes
Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models

Feb 12, 2025

Sonam Gupta, Yatin Nandwani, Asaf Yehudai, Dinesh Khandelwal, Dinesh Raghu, Sachindra Joshi

A afinação de Modelos de Linguagem Grandes (LLMs) em conjuntos de dados específicos é uma prática comum para melhorar o desempenho em tarefas-alvo. No entanto, esse ganho de desempenho frequentemente resulta em sobreajuste, no qual o modelo se torna muito especializado na tarefa ou nas características dos dados de treinamento, resultando em uma perda de generalização. Este artigo apresenta a Abordagem Seletiva de Auto-para-Supervisionado na Afinação (S3FT), uma abordagem de afinação que alcança um desempenho melhor do que a afinação supervisionada padrão (SFT) ao mesmo tempo que melhora a generalização. O S3FT aproveita a existência de múltiplas respostas válidas para uma consulta. Ao utilizar as respostas corretas do modelo, o S3FT reduz a especialização do modelo durante a fase de afinação. O S3FT primeiro identifica as respostas corretas do modelo no conjunto de treinamento por meio de um juiz apropriado. Em seguida, ele afina o modelo utilizando as respostas corretas do modelo e a resposta correta (ou sua paráfrase) para as amostras restantes. A eficácia do S3FT é demonstrada por meio de experimentos em tarefas de raciocínio matemático, programação em Python e compreensão de leitura. Os resultados mostram que o SFT padrão pode levar a uma queda média de desempenho de até 4.4 em vários benchmarks, como MMLU e TruthfulQA. Em contraste, o S3FT reduz essa queda pela metade, ou seja, 2.5, indicando melhores capacidades de generalização do que o SFT, ao mesmo tempo que apresenta um desempenho significativamente melhor nas tarefas de afinação.

Poda de Voxels Esparsos Guiada por Texto para Ancoragem Visual 3D Eficiente
Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

Feb 14, 2025

Wenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu

Neste artigo, propomos uma arquitetura eficiente de convolução multinível para a tarefa de localização visual 3D. Os métodos convencionais têm dificuldade em atender aos requisitos de inferência em tempo real devido à arquitetura em duas etapas ou baseada em pontos. Inspirados pelo sucesso da arquitetura de convolução totalmente esparsa multinível na detecção de objetos 3D, nosso objetivo é construir um novo framework de localização visual 3D seguindo essa rota técnica. No entanto, como na tarefa de localização visual 3D a representação da cena 3D deve interagir profundamente com as características de texto, a arquitetura baseada em convolução esparsa é ineficiente para essa interação devido à grande quantidade de características de voxel. Para isso, propomos a poda guiada por texto (TGP) e a adição baseada em completação (CBA) para fundir de forma eficiente a representação da cena 3D e as características de texto por meio de poda gradual de regiões e completação de alvos. Especificamente, a TGP esparsifica iterativamente a representação da cena 3D e, assim, interage eficientemente as características de voxel com as características de texto por meio de atenção cruzada. Para mitigar o efeito da poda sobre informações geométricas delicadas, a CBA corrige adaptativamente a região superpoda por meio de completação de voxel com sobrecarga computacional insignificante. Em comparação com métodos anteriores de estágio único, nosso método alcança a maior velocidade de inferência e supera o método mais rápido anterior em 100% de FPS. Nosso método também alcança precisão de ponta, mesmo em comparação com métodos de dois estágios, com uma vantagem de +1,13 em Acc@0.5 no ScanRefer, e vantagens de +2,6 e +3,2 no NR3D e SR3D, respectivamente. O código está disponível em https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.

STMA: Um Agente de Memória Espaço-Temporal para Planejamento de Tarefas Corporificadas de Longo Prazo
STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning

Feb 14, 2025

Mingcong Lei, Yiming Zhao, Ge Wang, Zhixin Mai, Shuguang Cui, Yatong Han, Jinke Ren

Um objetivo fundamental da inteligência incorporada é capacitar agentes a realizar tarefas de longo prazo em ambientes dinâmicos, mantendo tomadas de decisão robustas e adaptabilidade. Para alcançar esse objetivo, propomos o Agente de Memória Espaço-Temporal (STMA), uma estrutura inovadora projetada para aprimorar o planejamento e a execução de tarefas por meio da integração de memória espaço-temporal. O STMA é construído com base em três componentes críticos: (1) um módulo de memória espaço-temporal que captura mudanças históricas e ambientais em tempo real, (2) um grafo de conhecimento dinâmico que facilita o raciocínio espacial adaptativo, e (3) um mecanismo planejador-crítico que refina iterativamente as estratégias de tarefas. Avaliamos o STMA no ambiente TextWorld em 32 tarefas, envolvendo planejamento multi-etapas e exploração sob diferentes níveis de complexidade. Os resultados experimentais demonstram que o STMA alcança uma melhoria de 31,25% na taxa de sucesso e um aumento de 24,7% na pontuação média em comparação com o modelo estado da arte. Os resultados destacam a eficácia da memória espaço-temporal no avanço das capacidades de memória de agentes incorporados.

Agrupe e Preveja Patches Latentes para Melhorar a Modelagem de Imagens Mascaradas
Cluster and Predict Latents Patches for Improved Masked Image Modeling

Feb 12, 2025

Timothée Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski

A Modelagem de Imagem Mascarada (MIM) oferece uma abordagem promissora para o aprendizado de representação auto-supervisionado, porém os modelos MIM existentes ainda ficam aquém do estado da arte. Neste artigo, analisamos sistematicamente representações de destino, funções de perda e arquiteturas, para introduzir o CAPI - uma nova estrutura MIM pura que se baseia na previsão de agrupamentos latentes. Nossa abordagem utiliza uma função de perda baseada em agrupamento, que é estável para treinar e exibe propriedades promissoras de escalabilidade. Nossa arquitetura ViT-L, o CAPI, alcança 83,8% de precisão no ImageNet e 32,1% de mIoU no ADE20K com sondas lineares simples, superando substancialmente os métodos MIM anteriores e se aproximando do desempenho do estado da arte atual, o DINOv2. Disponibilizamos todo o nosso código e modelos.

MRS: Um Amostrador Rápido para Difusão de Reversão à Média baseado em ODE e Solucionadores SDE
MRS: A Fast Sampler for Mean Reverting Diffusion based on ODE and SDE Solvers

Feb 11, 2025

Ao Li, Wei Fang, Hongbo Zhao, Le Lu, Ge Yang, Minfeng Xu

Nas aplicações de modelos de difusão, a geração controlável é de significado prático, porém desafiadora. Os métodos atuais para geração controlável focam principalmente na modificação da função de pontuação dos modelos de difusão, enquanto a Difusão de Média Reversão (MR) modifica diretamente a estrutura da equação diferencial estocástica (SDE), tornando a incorporação de condições de imagem mais simples e natural. No entanto, os atuais amostradores rápidos sem treinamento não são diretamente aplicáveis à Difusão de MR. Portanto, a Difusão de MR requer centenas de NFEs (número de avaliações de função) para obter amostras de alta qualidade. Neste artigo, propomos um novo algoritmo chamado MRS (Amostrador de MR) para reduzir as NFEs de amostragem da Difusão de MR. Resolvemos a SDE de tempo reverso e a equação diferencial ordinária de fluxo de probabilidade (PF-ODE) associada à Difusão de MR, e derivamos soluções semi-analíticas. As soluções consistem em uma função analítica e um parâmetro integralizado por uma rede neural. Com base nesta solução, podemos gerar amostras de alta qualidade em menos passos. Nossa abordagem não requer treinamento e suporta todas as parametrizações principais, incluindo previsão de ruído, previsão de dados e previsão de velocidade. Experimentos extensos demonstram que o Amostrador de MR mantém alta qualidade de amostragem com uma aceleração de 10 a 20 vezes em dez tarefas diferentes de restauração de imagem. Nosso algoritmo acelera o procedimento de amostragem da Difusão de MR, tornando-a mais prática na geração controlável.

CLaMP 3: Recuperação Universal de Informação Musical em Modalidades Não Alinhadas e Idiomas Não Vistos
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages

Feb 14, 2025

Shangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun

O CLaMP 3 é um framework unificado desenvolvido para enfrentar os desafios da generalização multimodal e multilingue na recuperação de informações musicais. Utilizando aprendizado contrastivo, ele alinha todas as principais modalidades musicais—incluindo partituras, sinais de performance e gravações de áudio—com texto multilingue em um espaço de representação compartilhado, permitindo a recuperação entre modalidades não alinhadas usando o texto como ponte. Ele apresenta um codificador de texto multilingue adaptável a idiomas não vistos, exibindo uma forte generalização cross-lingual. Aproveitando a geração aumentada por recuperação, criamos o M4-RAG, um conjunto de dados em escala web composto por 2,31 milhões de pares música-texto. Esse conjunto de dados é enriquecido com metadados detalhados que representam uma ampla variedade de tradições musicais globais. Para impulsionar pesquisas futuras, disponibilizamos o WikiMT-X, um benchmark que consiste em 1.000 triplas de partituras, áudio e descrições textuais ricamente variadas. Experimentos mostram que o CLaMP 3 alcança desempenho de ponta em múltiplas tarefas de MIR, superando significativamente baselines anteriores e demonstrando excelente generalização em contextos multimodais e multilingues de música.

V2V-LLM: Condução Autônoma Cooperativa entre Veículos com Modelos de Linguagem Multimodais de Grande Escala
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

Feb 14, 2025

Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen

Os veículos autônomos atuais dependem principalmente de seus sensores individuais para compreender as cenas ao redor e planejar trajetórias futuras, o que pode ser pouco confiável quando os sensores apresentam falhas ou estão obstruídos. Para resolver esse problema, métodos de percepção cooperativa por meio de comunicação veículo-a-veículo (V2V) foram propostos, mas tendem a se concentrar em detecção e rastreamento. Como essas abordagens contribuem para o desempenho geral do planejamento cooperativo ainda é pouco explorado. Inspirados pelos recentes avanços no uso de Modelos de Linguagem de Grande Escala (LLMs) para construir sistemas de direção autônoma, propomos uma nova configuração de problema que integra um LLM na direção autônoma cooperativa, com o conjunto de dados e benchmark propostos de Perguntas e Respostas Veículo-a-Veículo (V2V-QA). Também propomos nosso método base, o Modelo de Linguagem de Grande Escala Veículo-a-Veículo (V2V-LLM), que utiliza um LLM para fundir informações de percepção de múltiplos veículos autônomos conectados (CAVs) e responder a perguntas relacionadas à direção: fundamentação, identificação de objetos notáveis e planejamento. Os resultados experimentais mostram que nosso V2V-LLM proposto pode ser uma arquitetura de modelo unificada promissora para realizar diversas tarefas na direção autônoma cooperativa, superando outros métodos base que utilizam abordagens de fusão diferentes. Nosso trabalho também cria uma nova direção de pesquisa que pode melhorar a segurança dos futuros sistemas de direção autônoma. Nosso site do projeto: https://eddyhkchiu.github.io/v2vllm.github.io/.

Libertação para Libertar
Jailbreaking to Jailbreak

Feb 9, 2025

Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang

O treinamento de recusa em Modelos de Linguagem de Grande Escala (LLMs) evita saídas prejudiciais, mas essa defesa ainda permanece vulnerável a jailbreaks automatizados e criados por humanos. Apresentamos uma nova abordagem de LLM-como-red-teamer, na qual um humano realiza um jailbreak em um LLM treinado para recusa, tornando-o disposto a realizar jailbreaks em si mesmo ou em outros LLMs. Referimo-nos aos LLMs que sofreram jailbreak como atacantes J_2, que podem avaliar sistematicamente modelos-alvo usando diversas estratégias de red teaming e melhorar seu desempenho por meio de aprendizado em contexto a partir de falhas anteriores. Nossos experimentos demonstram que Sonnet 3.5 e Gemini 1.5 pro superam outros LLMs como J_2, alcançando taxas de sucesso de ataque (ASRs) de 93,0% e 91,0%, respectivamente, contra GPT-4o (e resultados semelhantes em outros LLMs capazes) no Harmbench. Nosso trabalho não apenas introduz uma abordagem escalável para red teaming estratégico, inspirada em red teamers humanos, mas também destaca o jailbreaking-para-jailbreak como um modo de falha negligenciado da salvaguarda. Especificamente, um LLM pode contornar suas próprias salvaguardas empregando uma versão de si mesmo que sofreu jailbreak e está disposta a auxiliar em novos jailbreaks. Para evitar qualquer uso indevido direto com J_2, enquanto avançamos a pesquisa em segurança de IA, compartilhamos publicamente nossa metodologia, mantendo os detalhes específicos de prompt em sigilo.

Design de Proteínas De Novo de Ponta a Ponta Agêntico para Dinâmicas Sob Medida Usando um Modelo de Difusão de Linguagem
Agentic End-to-End De Novo Protein Design for Tailored Dynamics Using a Language Diffusion Model

Feb 14, 2025

Bo Ni, Markus J. Buehler

As proteínas são máquinas moleculares dinâmicas cujas funções biológicas, abrangendo catálise enzimática, transdução de sinais e adaptação estrutural, estão intrinsecamente ligadas aos seus movimentos. No entanto, projetar proteínas com propriedades dinâmicas específicas ainda é um desafio devido às complexas e degeneradas relações entre sequência, estrutura e movimento molecular. Aqui, apresentamos o VibeGen, um framework de IA generativa que possibilita o design de proteínas de novo, condicionado às vibrações de modos normais. O VibeGen emprega uma arquitetura de modelo duplo agente, composta por um designer de proteínas que gera candidatos de sequência com base em modos vibracionais especificados e um preditor de proteínas que avalia sua precisão dinâmica. Essa abordagem potencializa a diversidade, precisão e novidade durante o processo de design. Por meio de simulações moleculares de átomos completos como validação direta, demonstramos que as proteínas projetadas reproduzem com precisão as amplitudes de modos normais prescritas ao longo do espinhaço, adotando diversas estruturas estáveis e funcionalmente relevantes. Notavelmente, as sequências geradas são de novo, não apresentando similaridade significativa com proteínas naturais, expandindo assim o espaço proteico acessível além das restrições evolutivas. Nosso trabalho integra a dinâmica proteica no design generativo de proteínas e estabelece uma ligação direta e bidirecional entre sequência e comportamento vibracional, abrindo novos caminhos para a engenharia de biomoléculas com propriedades dinâmicas e funcionais personalizadas. Esse framework tem amplas implicações para o design racional de enzimas flexíveis, estruturas dinâmicas e biomateriais, pavimentando o caminho para a engenharia de proteínas impulsionada por IA informada por dinâmica.

Relatório Técnico Step-Video-T2V: A Prática, Desafios e Futuro dos Modelos Fundamentais de Vídeo
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Feb 14, 2025

563