Artigos de pesquisa em IA selecionados diariamente com traduções
Sistemas Multi-LLM aproveitam os pontos fortes complementares de diversos Modelos de Linguagem de Grande Escala (LLMs), alcançando ganhos de desempenho e eficiência inatingíveis por um único modelo. Nos designs existentes, os LLMs se comunicam por meio de texto, forçando as representações internas a serem transformadas em sequências de tokens de saída. Esse processo tanto perde informações semânticas ricas quanto incorre em latência de geração token por token. Motivados por essas limitações, perguntamos: Os LLMs podem se comunicar além do texto? Experimentos oráculos mostram que enriquecer a semântica do KV-Cache pode melhorar a qualidade da resposta sem aumentar o tamanho do cache, apoiando o KV-Cache como um meio eficaz de comunicação entre modelos. Assim, propomos o Cache-to-Cache (C2C), um novo paradigma para comunicação semântica direta entre LLMs. O C2C usa uma rede neural para projetar e fundir o KV-cache do modelo de origem com o do modelo de destino, permitindo a transferência semântica direta. Um mecanismo de portão aprendível seleciona as camadas de destino que se beneficiam da comunicação via cache. Em comparação com a comunicação por texto, o C2C utiliza a semântica profunda e especializada de ambos os modelos, evitando a geração explícita de texto intermediário. Experimentos mostram que o C2C alcança uma precisão média 8,5-10,5% maior do que os modelos individuais. Ele ainda supera o paradigma de comunicação por texto em aproximadamente 3,0-5,0%, enquanto oferece um aumento de velocidade médio de 2,0x na latência. Nosso código está disponível em https://github.com/thu-nics/C2C.
A tokenização visual continua sendo um desafio central na unificação da compreensão e geração visual dentro do paradigma autoregressivo. Os métodos existentes geralmente empregam tokenizadores em espaços latentes discretos para alinhar-se com os tokens de grandes modelos de linguagem, onde os erros de quantização podem limitar a expressividade semântica e degradar a capacidade de compreensão visão-linguagem. Para abordar isso, introduzimos o MingTok, uma nova família de tokenizadores visuais com um espaço latente contínuo, para geração e compreensão unificadas de forma autoregressiva. Enquanto tarefas de compreensão favorecem características discriminativas de alta dimensionalidade, tarefas de geração preferem códigos compactos de baixo nível. Assim, para conciliar essas demandas concorrentes, o MingTok adota uma arquitetura sequencial de três estágios envolvendo codificação de baixo nível, expansão semântica e reconstrução visual. Construído sobre isso, o Ming-UniVision elimina a necessidade de representações visuais específicas para cada tarefa e unifica diversas tarefas visão-linguagem sob um único paradigma de previsão autoregressiva. Ao formular tanto a compreensão quanto a geração como previsão do próximo token em um espaço contínuo compartilhado, ele suporta de forma contínua tarefas de múltiplas rodadas e em contexto, como compreensão iterativa, geração e edição. Empiricamente, descobrimos que o uso de uma representação visual contínua unificada concilia as demandas concorrentes impostas aos tokenizadores pelas tarefas de compreensão e geração, levando assim a um desempenho de ponta em ambos os domínios. Esperamos que nossas descobertas facilitem a tokenização visual unificada no domínio contínuo. O código de inferência e os pesos do modelo são disponibilizados para beneficiar a comunidade.
Apresentamos o Lumina-DiMOO, um modelo fundamental de código aberto para geração e compreensão multi-modal contínua. O Lumina-DiMOO se diferencia dos modelos unificados anteriores ao utilizar uma modelagem de difusão totalmente discreta para processar entradas e saídas em várias modalidades. Essa abordagem inovadora permite que o Lumina-DiMOO alcance maior eficiência de amostragem em comparação com os paradigmas autoregressivos (AR) ou híbridos AR-Difusão anteriores, além de suportar habilmente uma ampla gama de tarefas multi-modais, incluindo geração de texto para imagem, geração de imagem para imagem (por exemplo, edição de imagem, geração orientada por assunto e preenchimento de imagem, entre outros), bem como compreensão de imagem. O Lumina-DiMOO alcança desempenho de ponta em vários benchmarks, superando os modelos unificados multi-modais de código aberto existentes. Para promover avanços adicionais na pesquisa de modelos multi-modais e de difusão discreta, disponibilizamos nosso código e checkpoints para a comunidade. Página do Projeto: https://synbol.github.io/Lumina-DiMOO.
Os recentes avanços em modelos de base para visão e linguagem têm impulsionado significativamente a compreensão, raciocínio e geração multimodal, inspirando um crescente interesse em estender tais capacidades para ambientes corporificados por meio de modelos visão-linguagem-ação (VLA). No entanto, a maioria dos modelos VLA ainda é treinada com ajuste fino supervisionado (SFT), que enfrenta dificuldades para generalizar sob mudanças de distribuição devido ao acúmulo de erros. O aprendizado por reforço (RL) oferece uma alternativa promissora ao otimizar diretamente o desempenho da tarefa por meio da interação, mas as tentativas existentes permanecem fragmentadas e carecem de uma plataforma unificada para comparação justa e sistemática entre arquiteturas de modelos e designs algorítmicos. Para preencher essa lacuna, introduzimos o RLinf-VLA, um framework unificado e eficiente para treinamento escalável de RL em modelos VLA. O sistema adota um design altamente flexível de alocação de recursos que aborda o desafio de integrar renderização, treinamento e inferência no treinamento RL+VLA. Em particular, para simuladores paralelizados em GPU, o RLinf-VLA implementa um novo modo híbrido de alocação de pipeline de granularidade fina, alcançando uma aceleração de 1,61x a 1,88x no treinamento. Por meio de uma interface unificada, o RLinf-VLA suporta de forma contínua diversas arquiteturas VLA (por exemplo, OpenVLA, OpenVLA-OFT), múltiplos algoritmos de RL (por exemplo, PPO, GRPO) e vários simuladores (por exemplo, ManiSkill, LIBERO). Em simulação, um modelo unificado alcança 98,11% em 130 tarefas do LIBERO e 97,66% em 25 tarefas do ManiSkill. Além do desempenho empírico, nosso estudo destila um conjunto de melhores práticas para aplicar RL ao treinamento VLA e lança luz sobre padrões emergentes nessa integração. Além disso, apresentamos uma implantação preliminar em um robô Franka do mundo real, onde políticas treinadas com RL exibem uma generalização mais forte do que aquelas treinadas com SFT. Enxergamos o RLinf-VLA como uma base para acelerar e padronizar a pesquisa em inteligência corporificada.
Os Video DiTs avançaram na geração de vídeos, mas ainda enfrentam dificuldades para modelar interações multi-instância ou sujeito-objeto. Isso levanta uma questão fundamental: Como esses modelos representam internamente as interações? Para responder a isso, criamos o MATRIX-11K, um conjunto de dados de vídeo com legendas conscientes de interações e trilhas de máscaras multi-instância. Utilizando esse conjunto de dados, realizamos uma análise sistemática que formaliza duas perspectivas dos Video DiTs: a fundamentação semântica, por meio da atenção vídeo-texto, que avalia se os tokens de substantivos e verbos capturam instâncias e suas relações; e a propagação semântica, por meio da atenção vídeo-vídeo, que verifica se os vínculos das instâncias persistem entre os quadros. Descobrimos que ambos os efeitos se concentram em um pequeno subconjunto de camadas dominadas por interações. Motivados por isso, introduzimos o MATRIX, uma regularização simples e eficaz que alinha a atenção em camadas específicas dos Video DiTs com as trilhas de máscaras multi-instância do conjunto de dados MATRIX-11K, melhorando tanto a fundamentação quanto a propagação. Além disso, propomos o InterGenEval, um protocolo de avaliação para geração de vídeos conscientes de interações. Nos experimentos, o MATRIX melhora tanto a fidelidade das interações quanto o alinhamento semântico, ao mesmo tempo que reduz a deriva e a alucinação. Ablações extensivas validam nossas escolhas de design. Códigos e pesos serão liberados.
Os atuais modelos de linguagem de grande escala (LLMs) e modelos de linguagem falada (SLMs) começam a pensar e agir somente após o usuário terminar sua vez. Isso impede que o modelo interaja durante a fala do usuário e pode resultar em alta latência de resposta enquanto aguarda para pensar. Consequentemente, pensar após receber a entrada completa não é adequado para interações de fala para fala, onde a troca em tempo real e de baixa latência é importante. Abordamos isso observando que os humanos naturalmente "pensam enquanto ouvem". Neste artigo, propomos o SHANKS, uma estrutura de inferência geral que permite que SLMs gerem raciocínios não falados em cadeia de pensamento enquanto ouvem a entrada do usuário. O SHANKS transmite a fala de entrada em blocos de duração fixa e, assim que um bloco é recebido, gera raciocínios não falados com base em toda a fala e raciocínio anteriores, enquanto o usuário continua falando. O SHANKS usa esse raciocínio não falado para decidir se deve interromper o usuário e fazer chamadas de ferramentas para concluir a tarefa. Demonstramos que o SHANKS melhora a interação em tempo real entre o usuário e o SLM em dois cenários: (1) quando o usuário está apresentando uma solução passo a passo para um problema matemático, o SHANKS pode ouvir, raciocinar e interromper quando o usuário comete um erro, alcançando uma precisão de interrupção 37,1% maior do que uma linha de base que interrompe sem pensar; e (2) em um diálogo aumentado por ferramentas, o SHANKS pode concluir 56,9% das chamadas de ferramentas antes que o usuário termine sua vez. No geral, o SHANKS avança em direção a modelos que continuam pensando ao longo da conversa, não apenas após o término de uma vez. Ilustrações animadas do SHANKS podem ser encontradas em https://d223302.github.io/SHANKS/.
Os Modelos de Linguagem de Grande Escala (LLMs) catalisaram o "vibe coding", onde os usuários utilizam LLMs para gerar e refinar iterativamente o código por meio de interações em linguagem natural até que ele passe no seu "vibe check". O "vibe check" está ligado às preferências humanas do mundo real e vai além da funcionalidade: a solução deve parecer certa, ser legível, preservar a intenção e permanecer correta. No entanto, a avaliação atual de código ainda está ancorada no pass@k e captura apenas a correção funcional, ignorando as instruções não funcionais que os usuários aplicam rotineiramente. Neste artigo, hipotetizamos que o seguimento de instruções é a peça que falta subjacente ao "vibe check" e que representa a preferência humana na codificação além da correção funcional. Para quantificar as capacidades dos modelos de seguir instruções de código com sinais mensuráveis, apresentamos o VeriCode, uma taxonomia de 30 instruções de código verificáveis juntamente com verificadores determinísticos correspondentes. Usamos essa taxonomia para ampliar conjuntos de avaliação estabelecidos, resultando no Vibe Checker, um ambiente de teste para avaliar tanto o seguimento de instruções de código quanto a correção funcional. Ao avaliar 31 LLMs líderes, mostramos que mesmo os modelos mais fortes lutam para cumprir múltiplas instruções e exibem clara regressão funcional. Mais importante, uma pontuação composta de correção funcional e seguimento de instruções correlaciona-se melhor com a preferência humana, com o último emergindo como o principal diferenciador em tarefas de programação do mundo real. Nosso trabalho identifica os fatores centrais do "vibe check", fornecendo um caminho concreto para benchmarking e desenvolvimento de modelos que se alinhem melhor com as preferências dos usuários na codificação.
Modelos de linguagem de grande escala (LLMs) estão cada vez mais dependendo de planejamento integrado a ferramentas em múltiplos turnos para tarefas de raciocínio complexas e intensivas em conhecimento. As implementações existentes geralmente dependem de um único agente, mas sofrem com limitações no comprimento do contexto e respostas ruidosas das ferramentas. Uma solução natural é adotar uma estrutura multiagente com agentes planejadores e executores para gerenciar o contexto. No entanto, não existem métodos atuais que suportem o treinamento eficaz por reforço pós-treinamento de estruturas multiagentes integradas a ferramentas. Para preencher essa lacuna, propomos a Otimização de Política Integrada a Ferramentas Multiagente (MATPO), que permite que papéis distintos (planejador e executor) sejam treinados dentro de uma única instância de LLM usando prompts específicos para cada papel por meio de aprendizado por reforço. O MATPO é derivado de um mecanismo de atribuição de crédito fundamentado entre as execuções do planejador e do executor. Esse design elimina a necessidade de implantar múltiplos LLMs, o que seria intensivo em memória, enquanto preserva os benefícios da especialização. Experimentos no GAIA-text, WebWalkerQA e FRAMES mostram que o MATPO supera consistentemente as abordagens de agente único com uma melhoria relativa média de 18,38% no desempenho e exibe maior robustez a saídas ruidosas de ferramentas. Nossos resultados destacam a eficácia de unificar múltiplos papéis de agentes dentro de um único LLM e fornecem insights práticos para treinamento estável e eficiente de RL multiagente.
O aprendizado por reforço (RL) tornou-se recentemente uma abordagem robusta para treinar modelos de linguagem de grande escala (LLMs) que produzem longas cadeias de raciocínio (LongCoT). No entanto, o ambiente padrão de "pensamento" do RL, onde o estado é o prompt mais todos os tokens de raciocínio anteriores, torna o estado ilimitado e força políticas baseadas em atenção a exigir computação quadrática à medida que os pensamentos se alongam. Revisitamos o próprio ambiente. Propomos o Pensamento Markoviano, um paradigma no qual a política avança o raciocínio condicionando-se a um estado de tamanho constante, desacoplando o comprimento do pensamento do tamanho do contexto. Como consequência imediata, isso resulta em computação linear com memória constante. Instanciamos essa ideia com o Delethink, um ambiente de RL que estrutura o raciocínio em blocos de tamanho fixo. Dentro de cada bloco, o modelo pensa como de costume; no limite, o ambiente redefine o contexto e reinicializa o prompt com uma breve continuidade. Por meio do RL, a política aprende a escrever um estado textual próximo ao final de cada bloco, suficiente para a continuação perfeita do raciocínio após a reinicialização. Treinado nesse ambiente, um modelo R1-Distill 1.5B raciocina em blocos de 8K tokens, mas pensa até 24K tokens, igualando ou superando o LongCoT-RL treinado com um orçamento de 24K. Com escalonamento em tempo de teste, o Delethink continua a melhorar onde o LongCoT atinge um platô. O efeito da computação linear é substancial: estimamos empiricamente que, com um comprimento médio de pensamento de 96K, o LongCoT-RL custa 27 meses-H100 contra 7 para o Delethink. Análises na inicialização do RL mostram que modelos de raciocínio prontos para uso (1.5B-120B) frequentemente amostram traços Markovianos zero-shot em diversos benchmarks, fornecendo amostras positivas que tornam o RL eficaz em escala. Nossos resultados mostram que redesenhar o ambiente de pensamento é uma alavanca poderosa: permite raciocínios muito longos sem sobrecarga quadrática e abre um caminho para LLMs de raciocínio eficientes e escaláveis.
A modelagem de sequências longas enfrenta uma compensação fundamental entre a eficiência da memória de tamanho fixo e compressiva em modelos semelhantes a RNNs e a fidelidade da memória crescente e sem perdas em Transformers baseados em atenção. Inspirados pelo Modelo de Armazenamento Múltiplo da ciência cognitiva, introduzimos um framework de memória para redes neurais artificiais. Nosso método mantém uma janela deslizante do cache KV do Transformer como memória de curto prazo sem perdas, enquanto um módulo aprendível, denominado Rede Hipocampo Artificial (AHN), comprime recursivamente informações fora da janela em uma memória de longo prazo compacta e de tamanho fixo. Para validar esse framework, instanciamos AHNs usando arquiteturas modernas semelhantes a RNNs, incluindo Mamba2, DeltaNet e Gated DeltaNet. Experimentos extensivos em benchmarks de contexto longo, como LV-Eval e InfiniteBench, demonstram que modelos aumentados com AHNs superam consistentemente as linhas de base de janela deslizante e alcançam desempenho comparável ou até superior aos modelos de atenção completa, enquanto reduzem substancialmente os requisitos computacionais e de memória. Por exemplo, aumentar o Qwen2.5-3B-Instruct com AHNs reduz os FLOPs de inferência em 40,5% e o cache de memória em 74,0%, enquanto melhora sua pontuação média no LV-Eval (comprimento de sequência de 128k) de 4,41 para 5,88. O código está disponível em: https://github.com/ByteDance-Seed/AHN.
Modelos de ponta recentes empregam raciocínio de cadeia de pensamento longa para explorar espaços de solução em contexto e alcançar desempenho superior. Embora muitos trabalhos estudem a destilação para construir modelos menores, porém capazes, a maioria se concentra no inglês, e pouco se sabe sobre o raciocínio específico de idiomas. Para preencher essa lacuna, introduzimos o **CoT Misto de Idiomas**, um esquema de raciocínio que alterna entre o inglês e um idioma alvo, usando o inglês como âncora para se destacar no raciocínio enquanto minimiza artefatos de tradução. Como estudo de caso em coreano, criamos o **Yi-Sang**: 5,79 milhões de prompts nativos em coreano de Q&A da web, exames, STEM e código; 3,7 milhões de traços de raciocínio longo gerados a partir do Qwen3-32B; e um subconjunto direcionado de 260 mil exemplos de alto rendimento. Treinamos nove modelos (4B-35B) em seis famílias (Qwen2.5, Llama-3.1, Gemma-3, etc.). Nosso melhor modelo, **KO-REAson-35B**, alcança desempenho de ponta, com a maior média geral de pontuação (64,0 ± 25), ocupando o primeiro lugar em 5/9 benchmarks e o segundo lugar nos demais. Modelos menores e de médio porte também se beneficiam substancialmente, com uma melhoria média de +18,6 pontos nos nove benchmarks avaliados. Ablações mostram que o **CoT Misto de Idiomas** é mais eficaz que o CoT monolíngue, resultando também em ganhos de desempenho cross-lingual e multimodal. Disponibilizamos nosso pipeline de curadoria de dados, sistema de avaliação, conjuntos de dados e modelos para avançar a pesquisa em raciocínio específico de idiomas. Coleção de dados e modelos: https://huggingface.co/KOREAson.
Apesar de representarem quase um terço das línguas do mundo, os idiomas africanos permanecem gravemente subatendidos pelas tecnologias modernas de PLN, com 88\% classificados como severamente sub-representados ou completamente ignorados na linguística computacional. Apresentamos o African Languages Lab (All Lab), uma iniciativa de pesquisa abrangente que aborda essa lacuna tecnológica por meio de coleta sistemática de dados, desenvolvimento de modelos e capacitação. Nossas contribuições incluem: (1) um pipeline de coleta de dados com controle de qualidade, resultando no maior conjunto de dados multimodais validados de fala e texto africano, abrangendo 40 idiomas com 19 bilhões de tokens de texto monolíngue e 12.628 horas de dados de fala alinhados; (2) validação experimental extensa demonstrando que nosso conjunto de dados, combinado com ajuste fino, alcança melhorias substanciais em relação aos modelos de base, com médias de +23,69 ChrF++, +0,33 COMET e +15,34 pontos BLEU em 31 idiomas avaliados; e (3) um programa de pesquisa estruturado que orientou com sucesso quinze pesquisadores em início de carreira, estabelecendo capacidade local sustentável. Nossa avaliação comparativa com o Google Translate revela desempenho competitivo em vários idiomas, ao mesmo tempo que identifica áreas que exigem desenvolvimento contínuo.
A busca por eficiência computacional tem impulsionado a adoção de formatos de baixa precisão para o treinamento de modelos transformadores. No entanto, esse progresso é frequentemente dificultado por instabilidades notórias durante o treinamento. Este artigo fornece a primeira explicação mecanicista para um caso de falha antigo e não resolvido, no qual o treinamento com atenção flash em configurações de baixa precisão leva a explosões catastróficas de perda. Nossa análise detalhada revela que a falha não é um artefato aleatório, mas causada por dois fenômenos interligados: o surgimento de representações de baixo posto semelhantes dentro do mecanismo de atenção e o efeito cumulativo de erros de arredondamento tendenciosos inerentes à aritmética de baixa precisão. Demonstramos como esses fatores criam um ciclo vicioso de acúmulo de erros que corrompe as atualizações de pesos, acabando por desestabilizar a dinâmica de treinamento. Para validar nossas descobertas, introduzimos uma modificação mínima na atenção flash que mitiga o viés nos erros de arredondamento. Essa mudança simples estabiliza o processo de treinamento, confirmando nossa análise e oferecendo uma solução prática para esse problema persistente.
Modelos de difusão de texto para imagem em grande escala, embora poderosos, sofrem com custos computacionais proibitivos. Os métodos existentes de poda de rede em uma única etapa dificilmente podem ser aplicados diretamente a eles devido à natureza iterativa de remoção de ruído dos modelos de difusão. Para preencher essa lacuna, este artigo apresenta o OBS-Diff, uma nova estrutura de poda em uma única etapa que permite a compressão precisa e sem treinamento de modelos de difusão de texto para imagem em grande escala. Especificamente, (i) o OBS-Diff revitaliza o clássico Optimal Brain Surgeon (OBS), adaptando-o às arquiteturas complexas dos modelos de difusão modernos e suportando diversas granularidades de poda, incluindo esparsidade não estruturada, semi-estruturada N:M e estruturada (cabeças MHA e neurônios FFN); (ii) Para alinhar os critérios de poda com a dinâmica iterativa do processo de difusão, ao examinar o problema sob a perspectiva de acumulação de erros, propomos uma nova construção de Hessiana consciente do passo de tempo que incorpora um esquema de ponderação de diminuição logarítmica, atribuindo maior importância aos passos de tempo iniciais para mitigar a potencial acumulação de erros; (iii) Além disso, uma estratégia de poda sequencial por grupos computacionalmente eficiente é proposta para amortizar o caro processo de calibração. Experimentos extensivos mostram que o OBS-Diff alcança a poda em uma única etapa de ponta para modelos de difusão, proporcionando aceleração de inferência com degradação mínima na qualidade visual.
Modelos de contexto longo (LCMs) têm demonstrado grande potencial no processamento de sequências longas, facilitando muitas aplicações do mundo real. O sucesso dos LCMs pode ser atribuído à sua capacidade de localizar informações críticas implícitas dentro do contexto para previsões subsequentes. No entanto, pesquisas recentes revelam que os LCMs são frequentemente suscetíveis a ruídos contextuais, ou seja, tokens irrelevantes, que podem desviar a atenção do modelo. Neste artigo, realizamos uma análise detalhada do ruído contextual e propomos uma métrica eficaz, o escore de Gradiente Integrado (IG), para detectar e quantificar as informações de ruído dentro do contexto. Nossas descobertas revelam que mesmo uma mitigação simples do ruído contextual detectado pode aumentar substancialmente a atenção do modelo em tokens críticos e beneficiar previsões subsequentes. Com base nessa percepção, propomos o Treinamento de Redução de Ruído Contextual (CDT), uma estratégia de treinamento direta, porém eficaz, que melhora a atenção em tokens críticos enquanto reforça sua influência nas previsões do modelo. Experimentos extensos em quatro tarefas, tanto em cenários de escalonamento de janela de contexto quanto de alinhamento de contexto longo, demonstram a superioridade do CDT. Notavelmente, quando treinado com CDT, um modelo de código aberto de 8B pode alcançar desempenho (50,92) comparável ao GPT-4o (51,00).
Modelos de Raciocínio de Grande Escala (LRMs) demonstraram capacidades robustas em raciocínio complexo de múltiplos passos, abrindo novas oportunidades para a automação de modelagem de otimização. No entanto, os métodos existentes de adaptação de domínio, originalmente projetados para modelos ajustados por instrução anteriores, frequentemente falham em explorar os padrões avançados de raciocínio dos LRMs modernos — em particular, mostramos que o ajuste fino direto em conjuntos de dados tradicionais não reflexivos resulta em ganhos limitados. Para aproveitar plenamente as habilidades inerentes de raciocínio dos LRMs, propomos o CALM (Adaptação Corretiva com Modificação Leve), um framework que refina progressivamente os LRMs dentro de seus modos nativos de raciocínio para tarefas de modelagem de otimização. No CALM, um interventor especializado identifica falhas de raciocínio e fornece dicas corretivas concisas, que o LRM incorpora para produzir trajetórias de raciocínio aprimoradas. Essas intervenções modificam menos de 2,6% dos tokens gerados, mas geram dados de alta qualidade para adaptação suave por meio de ajuste fino supervisionado. O modelo adaptado é então ainda mais aprimorado por meio de aprendizado por reforço. Com base no CALM, desenvolvemos o STORM (Modelo de Raciocínio de Otimização com Pensamento Inteligente), um LRM de 4 bilhões de parâmetros que alcança uma nova precisão média de ponta de 68,9% em cinco benchmarks populares de modelagem de otimização, equiparando-se ao desempenho de um LRM de 671 bilhões. Esses resultados demonstram que a síntese dinâmica de dados baseada em dicas preserva e amplifica os padrões nativos de raciocínio dos LRMs modernos, oferecendo um caminho mais eficaz e escalável para o desempenho de nível especialista em tarefas desafiadoras de modelagem de otimização.
Os Transformers se destacam na modelagem de sequências, mas enfrentam complexidade quadrática, enquanto a atenção linear oferece eficiência aprimorada, mas frequentemente compromete a precisão de recall em contextos longos. Neste trabalho, introduzimos a Atenção Híbrida Nativa (NHA), uma nova arquitetura híbrida de atenção linear e completa que integra hibridização intra e inter-camadas em um design unificado de camada. A NHA mantém o contexto de longo prazo em slots de chave-valor atualizados por um RNN linear e os complementa com tokens de curto prazo de uma janela deslizante. Uma única operação de atenção softmax é então aplicada sobre todas as chaves e valores, permitindo ponderação dependente do contexto por token e por cabeça sem a necessidade de parâmetros de fusão adicionais. O comportamento inter-camadas é controlado por um único hiperparâmetro, o tamanho da janela deslizante, que permite ajuste suave entre atenção puramente linear e completa, mantendo todas as camadas estruturalmente uniformes. Resultados experimentais mostram que a NHA supera os Transformers e outras baselines híbridas em tarefas intensivas de recall e raciocínio de senso comum. Além disso, LLMs pré-treinados podem ser hibridizados estruturalmente com a NHA, alcançando precisão competitiva enquanto oferecem ganhos significativos de eficiência. O código está disponível em https://github.com/JusenD/NHA.
A rápida evolução dos modelos de linguagem de grande escala (LLMs) e do mundo real superou a natureza estática dos benchmarks de avaliação amplamente utilizados, levantando preocupações sobre sua confiabilidade para avaliar a factualidade dos LLMs. Embora trabalhos substanciais continuem a depender dos benchmarks populares, porém antigos, seu desalinhamento temporal com os fatos do mundo real e os LLMs modernos, bem como seus efeitos na avaliação da factualidade dos LLMs, permanecem pouco explorados. Portanto, neste trabalho, apresentamos uma investigação sistemática dessa questão, examinando cinco benchmarks de factualidade populares e oito LLMs lançados em diferentes anos. Um pipeline de recuperação de fatos atualizado e três métricas são adaptados para quantificar o envelhecimento dos benchmarks e seu impacto na avaliação da factualidade dos LLMs. Os resultados experimentais e a análise ilustram que uma porção considerável das amostras nos benchmarks de factualidade amplamente utilizados está desatualizada, levando a avaliações não confiáveis da factualidade dos LLMs. Esperamos que nosso trabalho possa fornecer um ambiente de teste para avaliar a confiabilidade de um benchmark para a avaliação da factualidade dos LLMs e inspirar mais pesquisas sobre a questão do envelhecimento dos benchmarks. Os códigos estão disponíveis em https://github.com/JiangXunyi/BenchAge.
Um desafio fundamental na inteligência incorporada é desenvolver representações de estado expressivas e compactas para modelagem eficiente do mundo e tomada de decisões. No entanto, os métodos existentes frequentemente falham em alcançar esse equilíbrio, gerando representações que são ou excessivamente redundantes ou carentes de informações críticas para a tarefa. Propomos uma abordagem não supervisionada que aprende uma representação de estado altamente compacta de dois tokens, utilizando um codificador leve e um decodificador pré-treinado de Transformador de Difusão (DiT), aproveitando seu forte prior generativo. Nossa representação é eficiente, interpretável e integra-se perfeitamente em modelos baseados em VLA, melhorando o desempenho em 14,3% no LIBERO e em 30% no sucesso de tarefas do mundo real com sobrecarga mínima de inferência. Mais importante, descobrimos que a diferença entre esses tokens, obtida por meio de interpolação latente, naturalmente serve como uma ação latente altamente eficaz, que pode ser decodificada em ações executáveis por robôs. Essa capacidade emergente revela que nossa representação captura dinâmicas estruturadas sem supervisão explícita. Nomeamos nosso método de StaMo por sua capacidade de aprender Movimento robótico generalizável a partir de uma representação de Estado compacta, que é codificada a partir de imagens estáticas, desafiando a dependência prevalente de aprender ações latentes em arquiteturas complexas e dados de vídeo. As ações latentes resultantes também aprimoram o co-treinamento de políticas, superando métodos anteriores em 10,4% com maior interpretabilidade. Além disso, nossa abordagem escala efetivamente em diversas fontes de dados, incluindo dados de robôs do mundo real, simulação e vídeo egocêntrico humano.
Esforços recentes para acelerar a inferência em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm se concentrado principalmente na compressão de tokens visuais. A eficácia desses métodos é tipicamente avaliada medindo a queda de precisão em benchmarks estabelecidos, comparando o desempenho do modelo antes e depois da compressão. No entanto, esses benchmarks foram originalmente projetados para avaliar as capacidades de percepção e raciocínio dos MLLMs, em vez de avaliar técnicas de compressão. Como resultado, sua aplicação direta à compressão de tokens visuais introduz uma incompatibilidade de tarefas. Surpreendentemente, nossa investigação revela que o simples downsampling de imagens supera consistentemente muitos métodos avançados de compressão em vários benchmarks amplamente utilizados. Por meio de extensos experimentos, fazemos as seguintes observações: (i) Os benchmarks atuais são ruidosos para a tarefa de compressão de tokens visuais. (ii) O downsampling pode servir como um filtro de dados para avaliar a dificuldade das amostras na tarefa de compressão de tokens visuais. Motivados por essas descobertas, introduzimos o VTC-Bench, uma estrutura de avaliação que incorpora um mecanismo de filtragem de dados para remover o ruído dos benchmarks existentes, permitindo assim uma avaliação mais justa e precisa dos métodos de compressão de tokens visuais. Todos os dados e códigos estão disponíveis em https://github.com/Chenfei-Liao/VTC-Bench.
Modelos de linguagem multimodal de grande escala (MLLMs) avançaram rapidamente nos últimos anos. No entanto, as abordagens existentes para tarefas visuais frequentemente dependem de representações indiretas, como gerar coordenadas em texto para detecção, o que limita o desempenho e impede tarefas de predição densa, como segmentação. Para superar esses desafios, introduzimos o Patch-as-Decodable Token (PaDT), um paradigma unificado que permite que MLLMs gerem diretamente tanto saídas textuais quanto visuais diversas. Central ao PaDT estão os Tokens de Referência Visual (VRTs), derivados de embeddings de patches visuais de imagens de consulta e intercalados de forma contínua com os tokens textuais de saída do LLM. Um decodificador leve então transforma as saídas do LLM em previsões de detecção, segmentação e grounding. Diferente de métodos anteriores, o PaDT processa VRTs independentemente em cada passagem direta e expande dinamicamente a tabela de embeddings, melhorando assim a localização e a diferenciação entre objetos similares. Além disso, adaptamos uma estratégia de treinamento para o PaDT, selecionando aleatoriamente VRTs para ajuste fino supervisionado e introduzindo uma robusta função de perda de entropia cruzada por token. Nossos estudos empíricos em quatro tarefas de percepção e compreensão visual sugerem que o PaDT consistentemente alcança desempenho de ponta, mesmo quando comparado com modelos MLLM significativamente maiores. O código está disponível em https://github.com/Gorilla-Lab-SCUT/PaDT.
Os métodos existentes para extrair sinais de recompensa em Aprendizado por Reforço geralmente dependem de dados rotulados e divisões de treinamento dedicadas, uma configuração que contrasta com a forma como os humanos aprendem diretamente de seu ambiente. Neste trabalho, propomos o TTRV para aprimorar a compreensão de visão e linguagem adaptando o modelo em tempo real durante a inferência, sem a necessidade de qualquer dado rotulado. Concretamente, aprimoramos o framework Group Relative Policy Optimization (GRPO) projetando recompensas baseadas na frequência da saída do modelo base, enquanto inferimos cada amostra de teste múltiplas vezes. Além disso, também propomos controlar a diversidade da saída do modelo recompensando simultaneamente o modelo por obter baixa entropia da distribuição empírica da saída. Nossa abordagem proporciona ganhos consistentes tanto em reconhecimento de objetos quanto em resposta a perguntas visuais (VQA), com melhorias de até 52,4% e 29,8%, respectivamente, e aumentos médios de 24,6% e 10,0% em 16 conjuntos de dados. Notavelmente, no reconhecimento de imagens, o TTRV aplicado ao InternVL 8B supera o GPT-4o em média 2,3% em 8 benchmarks, enquanto permanece altamente competitivo em VQA, demonstrando que o aprendizado por reforço em tempo de teste pode igualar ou superar os modelos proprietários mais fortes. Por fim, descobrimos muitas propriedades interessantes do RL em tempo de teste para VLMs: por exemplo, mesmo em cenários extremamente limitados em dados, onde a adaptação é realizada em um único exemplo de teste não rotulado escolhido aleatoriamente, o TTRV ainda produz melhorias não triviais de até 5,5% em tarefas de reconhecimento.
O desenvolvimento de modelos de linguagem de última geração é comumente entendido como um processo de duas etapas envolvendo pré-treinamento e pós-treinamento. Nós destacamos a necessidade de uma etapa intermediária adicional chamada reforço de meio-treinamento, com potencial para ganhos significativos de desempenho. Neste artigo, definimos formalmente o problema e identificamos três desafios principais: (1) treinamento ineficiente devido a etapas de raciocínio excessivas, (2) desconsideração da distribuição desequilibrada de entropia de tokens e (3) subutilização das informações dos tokens. Para enfrentar esses desafios, propomos o RMT, uma estrutura para reforço de meio-treinamento eficiente, adaptativo e unificado, com diversos componentes inovadores. Em particular, primeiro introduzimos um mecanismo de orçamento dinâmico de tokens que restringe etapas desnecessárias de raciocínio e mitiga o excesso de pensamento do modelo. Em seguida, projetamos um método de amostragem adaptativa baseado em currículo que promove uma trajetória de aprendizado progressivo, de tokens fáceis para difíceis. Por fim, apresentamos uma estratégia de treinamento duplo que combina aprendizado por reforço com previsão do próximo token, garantindo aprendizado direcionado em tokens-chave e plena exploração de todas as informações dos tokens. Experimentos extensivos demonstram a superioridade do RMT sobre os métodos de última geração, alcançando uma melhoria de desempenho de até +64,91% com apenas 21% do comprimento de raciocínio na modelagem de linguagem. Também mostramos que checkpoints obtidos após o reforço de meio-treinamento podem beneficiar o subsequente pós-treinamento, resultando em uma melhoria de até +18,76% no domínio matemático.
A hipótese da Densidade Uniforme de Informação (UID, na sigla em inglês) sugere que a comunicação eficaz mantém um fluxo estável de informações. Neste trabalho, revisitamos esse princípio no contexto de traços de raciocínio de modelos de linguagem de grande escala (LLMs), questionando se a uniformidade em nível de etapa reflete a qualidade do raciocínio. Para isso, propomos uma métrica de densidade de informação por etapa baseada em entropia e introduzimos duas medidas complementares de uniformidade: escores de uniformidade local e global. Nos experimentos realizados em seis benchmarks diferentes de raciocínio, descobrimos que a uniformidade em nível de etapa não apenas oferece uma forte lente teórica, mas também traz benefícios práticos de desempenho; por exemplo, selecionar traços de raciocínio com densidade de informação mais uniforme em nível de etapa melhora a precisão com ganhos relativos de 10-32\% em relação às linhas de base no AIME2025. Nossa análise revela ainda que traços de raciocínio corretos tendem a evitar picos abruptos de densidade de informação, enquanto traços incorretos exibem explosões irregulares de informação. Esses resultados demonstram que as medidas de densidade de informação inspiradas na UID superam sinais internos alternativos como preditores da qualidade do raciocínio. Os resultados destacam a uniformidade da densidade de informação como um critério robusto de diagnóstico e seleção para a construção de sistemas de raciocínio mais confiáveis e precisos.
A escolha do otimizador impacta significativamente a eficiência do treinamento e os custos computacionais de grandes modelos de linguagem (LLMs). Recentemente, o otimizador Muon demonstrou resultados promissores ao ortogonalizar as atualizações de parâmetros, melhorando a geometria de otimização por meio de um melhor condicionamento. Apesar do Muon emergir como um candidato a sucessor do Adam, o potencial de aproveitar conjuntamente seus pontos fortes não foi sistematicamente explorado. Neste trabalho, preenchemos essa lacuna propondo o NorMuon (Muon Normalizado por Neurônio), um otimizador que combina sinergicamente a ortogonalização com taxas de aprendizado adaptativas em nível de neurônio. Nossa análise revela que, embora o Muon reduza efetivamente os números de condição, as atualizações resultantes exibem normas de neurônios altamente não uniformes, fazendo com que certos neurônios dominem o processo de otimização. O NorMuon aborda esse desequilíbrio mantendo estatísticas de momento de segunda ordem para cada neurônio e aplicando normalização por linha após a ortogonalização, garantindo uma utilização equilibrada dos parâmetros enquanto preserva os benefícios de condicionamento do Muon. Para permitir a implantação prática em escala, desenvolvemos uma implementação distribuída eficiente sob o framework FSDP2 que distribui estrategicamente os cálculos de ortogonalização entre dispositivos. Experimentos em múltiplas escalas de modelos demonstram que o NorMuon supera consistentemente tanto o Adam quanto o Muon, alcançando 21,74% de melhor eficiência de treinamento em relação ao Adam e 11,31% de melhoria sobre o Muon em um cenário de pré-treinamento de 1,1 B, enquanto mantém uma pegada de memória comparável ao Muon. Nossos achados sugerem que a ortogonalização e as taxas de aprendizado adaptativas são abordagens complementares, e não concorrentes, abrindo novos caminhos para o design de otimizadores em aprendizado profundo em larga escala.
Observações da perspectiva do pulso são cruciais para modelos VLA, pois capturam interações mão-objeto de alta granularidade que melhoram diretamente o desempenho de manipulação. No entanto, conjuntos de dados em grande escala raramente incluem tais gravações, resultando em uma lacuna significativa entre as abundantes visões âncora e as escassas visões do pulso. Modelos de mundo existentes não conseguem preencher essa lacuna, pois exigem um primeiro quadro da visão do pulso e, portanto, falham em gerar vídeos da visão do pulso apenas a partir de visões âncora. Diante dessa lacuna, modelos recentes de geometria visual, como o VGGT, surgem com prioridades geométricas e de visão cruzada que possibilitam abordar mudanças extremas de perspectiva. Inspirados por essas ideias, propomos o WristWorld, o primeiro modelo de mundo 4D que gera vídeos da visão do pulso exclusivamente a partir de visões âncora. O WristWorld opera em duas etapas: (i) Reconstrução, que estende o VGGT e incorpora nossa Perda de Consistência de Projeção Espacial (SPC) para estimar poses da visão do pulso e nuvens de pontos 4D geometricamente consistentes; (ii) Geração, que emprega nosso modelo de geração de vídeo para sintetizar vídeos da visão do pulso temporalmente coerentes a partir da perspectiva reconstruída. Experimentos no Droid, Calvin e Franka Panda demonstram geração de vídeo de última geração com consistência espacial superior, enquanto também melhoram o desempenho do VLA, aumentando o comprimento médio de conclusão de tarefas no Calvin em 3,81% e fechando 42,4% da lacuna entre as visões âncora e do pulso.
A integração do aprendizado por reforço online (RL) em modelos de difusão e fluxo surgiu recentemente como uma abordagem promissora para alinhar modelos generativos com preferências humanas. A amostragem estocástica via Equações Diferenciais Estocásticas (SDE) é empregada durante o processo de remoção de ruído para gerar direções diversas de remoção de ruído para exploração em RL. Embora os métodos existentes explorem efetivamente amostras de alto valor potencial, eles sofrem com alinhamento subótimo de preferências devido a sinais de recompensa esparsos e estreitos. Para enfrentar esses desafios, propomos uma nova estrutura Granular-GRPO (G^2RPO) que alcança avaliações precisas e abrangentes de recompensas para direções de amostragem no aprendizado por reforço de modelos de fluxo. Especificamente, uma estratégia de Amostragem Estocástica Singular é introduzida para apoiar a exploração estocástica passo a passo, ao mesmo tempo em que reforça uma alta correlação entre a recompensa e o ruído injetado, facilitando assim uma recompensa fiel para cada perturbação SDE. Paralelamente, para eliminar o viés inerente à remoção de ruído de granularidade fixa, introduzimos um módulo de Integração de Vantagem Multi-Granularidade que agrega vantagens calculadas em múltiplas escalas de difusão, produzindo uma avaliação mais abrangente e robusta das direções de amostragem. Experimentos conduzidos em vários modelos de recompensa, incluindo avaliações dentro e fora do domínio, demonstram que nosso G^2RPO supera significativamente as linhas de base GRPO baseadas em fluxo, destacando sua eficácia e robustez.
Embora os Modelos de Linguagem (LMs) tenham feito progressos significativos na automação da engenharia de aprendizado de máquina (MLE), a aquisição de dados de treinamento de alta qualidade para MLE é significativamente limitada. Os benchmarks atuais de MLE sofrem com baixa escalabilidade e aplicabilidade limitada, pois dependem de tarefas estáticas e manualmente curadas, exigindo tempo extensivo e esforço manual para serem produzidos. Apresentamos o MLE-Smith, um pipeline multiagente totalmente automatizado, para transformar conjuntos de dados brutos em desafios de MLE no estilo de competições por meio de um paradigma eficiente de geração-verificação-execução, visando escalar tarefas de MLE com qualidade verificável, usabilidade no mundo real e diversidade rica. O pipeline multiagente proposto no MLE-Smith impulsiona o design estruturado de tarefas e a refatoração padronizada, aliado a um mecanismo de verificação híbrido que aplica regras estruturais rigorosas e consistência semântica de alto nível. Ele ainda valida a solvabilidade empírica e a fidelidade ao mundo real por meio de execução interativa. Aplicamos o MLE-Smith a 224 conjuntos de dados do mundo real e geramos 606 tarefas abrangendo múltiplas categorias, objetivos e modalidades, demonstrando que o MLE-Smith pode funcionar efetivamente em uma ampla gama de conjuntos de dados do mundo real. A avaliação das tarefas geradas mostra que o desempenho de oito LLMs principais e de ponta nas tarefas do MLE-Smith está fortemente correlacionado com seu desempenho em tarefas cuidadosamente projetadas por humanos, destacando a eficácia do MLE-Smith para escalar tarefas de MLE, mantendo a qualidade das tarefas.
Avaliações comuns de modelos de linguagem de grande escala (LLMs) dependem de exemplos de demonstração para direcionar as respostas dos modelos ao estilo desejado. Embora o número de exemplos utilizados tenha sido estudado e padronizado, a escolha de como formatar os exemplos é menos investigada. Em protocolos de avaliação e no uso real, os usuários enfrentam a decisão de como separar os exemplos no contexto: usar uma vírgula? Nova linha? Ponto e vírgula? Hashtag? etc.? Surpreendentemente, descobrimos que essa escolha aparentemente trivial pode alterar drasticamente a qualidade da resposta do modelo. Em famílias de modelos líderes (Llama, Qwen, Gemma), o desempenho no MMLU, por exemplo, pode variar em ±23% dependendo da escolha do delimitador. Na verdade, é possível manipular as classificações dos modelos para colocar qualquer modelo na liderança apenas modificando o único caractere que separa os exemplos. Descobrimos que a fragilidade dos LLMs permeia tópicos, famílias de modelos e não melhora com a escala. Ao investigar as pontuações das cabeças de atenção, descobrimos que delimitadores de bom desempenho direcionam a atenção para tokens-chave na entrada. Por fim, exploramos métodos para melhorar a robustez dos LLMs em relação à escolha do delimitador. Descobrimos que especificar o delimitador selecionado no prompt aumenta a robustez e oferecemos recomendações práticas para a seleção dos delimitadores de melhor desempenho.
Apresentamos o AlphaApollo, um sistema de raciocínio agentico autoevolutivo que visa abordar dois gargalos no raciocínio de modelos de base (FM): capacidade intrínseca limitada do modelo e iteração não confiável em tempo de teste. O AlphaApollo orquestra múltiplos modelos com ferramentas profissionais para permitir um raciocínio deliberado e verificável. Ele acopla (i) uma ferramenta de computação (Python com bibliotecas numéricas e simbólicas) e (ii) uma ferramenta de recuperação (informação externa relevante para a tarefa) para executar cálculos exatos e fundamentar decisões. O sistema ainda suporta a evolução de soluções em múltiplas rodadas e com múltiplos modelos por meio de um mapa de estado compartilhado que registra candidatos, verificações executáveis e feedback para refinamento iterativo. Nas avaliações do AIME 2024/2025 em vários modelos, o AlphaApollo apresenta ganhos consistentes: +5,15% Average@32 e +23,34% Pass@32 para o Qwen2.5-14B-Instruct, e +8,91% Average@32 com +26,67% Pass@32 para o Llama-3.3-70B-Instruct. A análise do uso de ferramentas mostra que mais de 80% das chamadas de ferramentas são executadas com sucesso, com desempenho consistentemente superior às linhas de base sem ferramentas, elevando assim o limite de capacidade dos FMs. Mais resultados empíricos e detalhes de implementação serão atualizados em https://github.com/tmlr-group/AlphaApollo.
Na última década, a U-Net tem sido a arquitetura dominante na segmentação de imagens médicas, levando ao desenvolvimento de milhares de variantes em forma de U. Apesar de sua ampla adoção, ainda não existe um benchmark abrangente para avaliar sistematicamente seu desempenho e utilidade, principalmente devido à validação estatística insuficiente e à consideração limitada de eficiência e generalização em diversos conjuntos de dados. Para preencher essa lacuna, apresentamos o U-Bench, o primeiro benchmark em larga escala e estatisticamente rigoroso que avalia 100 variantes de U-Net em 28 conjuntos de dados e 10 modalidades de imagem. Nossas contribuições são triplas: (1) Avaliação Abrangente: O U-Bench avalia os modelos em três dimensões principais: robustez estatística, generalização zero-shot e eficiência computacional. Introduzimos uma nova métrica, o U-Score, que captura conjuntamente a relação entre desempenho e eficiência, oferecendo uma perspectiva orientada para a implantação sobre o progresso dos modelos. (2) Análise Sistemática e Orientação para Seleção de Modelos: Resumimos as principais descobertas da avaliação em larga escala e analisamos sistematicamente o impacto das características dos conjuntos de dados e dos paradigmas arquitetônicos no desempenho dos modelos. Com base nessas percepções, propomos um agente consultor de modelos para orientar os pesquisadores na seleção dos modelos mais adequados para conjuntos de dados e tarefas específicos. (3) Disponibilidade Pública: Disponibilizamos todo o código, modelos, protocolos e pesos, permitindo que a comunidade reproduza nossos resultados e estenda o benchmark com métodos futuros. Em resumo, o U-Bench não apenas expõe lacunas em avaliações anteriores, mas também estabelece uma base para benchmarks justos, reproduzíveis e praticamente relevantes na próxima década de modelos de segmentação baseados em U-Net. O projeto pode ser acessado em: https://fenghetan9.github.io/ubench. O código está disponível em: https://github.com/FengheTan9/U-Bench.
A Detecção de Limites de Eventos Genéricos (GEBD) visa interpretar vídeos de longa duração através da perspectiva da percepção humana. No entanto, os métodos atuais de GEBD exigem o processamento completo dos quadros do vídeo para fazer previsões, ao contrário dos humanos, que processam dados de forma online e em tempo real. Para preencher essa lacuna, introduzimos uma nova tarefa, a Detecção de Limites de Eventos Genéricos Online (On-GEBD), que visa detectar os limites de eventos genéricos imediatamente em vídeos em streaming. Essa tarefa enfrenta desafios únicos de identificar mudanças sutis e sem taxonomia em eventos em tempo real, sem acesso a quadros futuros. Para enfrentar esses desafios, propomos um novo framework On-GEBD, chamado Estimator, inspirado na Teoria de Segmentação de Eventos (EST), que explica como os humanos segmentam atividades contínuas em eventos, aproveitando as discrepâncias entre informações previstas e reais. Nosso framework consiste em dois componentes principais: o Antecipador de Eventos Consistente (CEA) e o Discriminador de Limites Online (OBD). Especificamente, o CEA gera uma previsão do quadro futuro refletindo a dinâmica do evento atual com base apenas em quadros anteriores. Em seguida, o OBD mede o erro de previsão e ajusta adaptativamente o limite usando testes estatísticos sobre erros passados para capturar transições de eventos diversas e sutis. Resultados experimentais demonstram que o Estimator supera todas as baselines adaptadas de modelos recentes de compreensão de vídeo online e alcança desempenho comparável aos métodos anteriores de GEBD offline nos conjuntos de dados Kinetics-GEBD e TAPOS.
A tecnologia de geração de texto para vídeo (T2V) tem o potencial de transformar múltiplos domínios, como educação, marketing, entretenimento e tecnologias assistivas para indivíduos com desafios visuais ou de compreensão de leitura, ao criar conteúdo visual coerente a partir de prompts de linguagem natural. Desde sua concepção, o campo evoluiu de modelos adversariais para modelos baseados em difusão, resultando em saídas de maior fidelidade e consistência temporal. No entanto, desafios persistem, como alinhamento, coerência de longo alcance e eficiência computacional. Diante desse cenário em evolução, apresentamos uma pesquisa abrangente sobre modelos generativos de texto para vídeo, traçando seu desenvolvimento desde os primeiros GANs e VAEs até arquiteturas híbridas de Difusão-Transformer (DiT), detalhando como esses modelos funcionam, quais limitações eles abordaram em seus predecessores e por que mudanças em direção a novos paradigmas arquitetônicos foram necessárias para superar desafios em qualidade, coerência e controle. Fornecemos um relato sistemático dos conjuntos de dados nos quais os modelos de texto para vídeo pesquisados foram treinados e avaliados e, para apoiar a reprodutibilidade e avaliar a acessibilidade do treinamento desses modelos, detalhamos suas configurações de treinamento, incluindo especificações de hardware, número de GPUs, tamanhos de lote, taxas de aprendizado, otimizadores, épocas e outros hiperparâmetros-chave. Além disso, delineamos as métricas de avaliação comumente usadas para avaliar esses modelos e apresentamos seu desempenho em benchmarks padrão, enquanto discutimos as limitações dessas métricas e a mudança emergente em direção a estratégias de avaliação mais holísticas e alinhadas à percepção. Por fim, com base em nossa análise, delineamos os desafios atuais em aberto e propomos algumas direções futuras promissoras, estabelecendo uma perspectiva para futuros pesquisadores explorarem e construírem avanços na pesquisa e aplicações de T2V.
Apresentamos o Heptapod, um modelo autoregressivo de imagens que adere aos princípios fundamentais da modelagem de linguagem. O Heptapod emprega atenção causal, elimina a dependência de CFG (Class-Free Guidance) e rejeita a tendência de tokenizadores semânticos. Nossa principal inovação é a previsão de distribuição 2D seguinte: um Transformer causal com um tokenizador visual focado em reconstrução, que aprende a prever a distribuição sobre toda a grade espacial 2D de imagens em cada passo de tempo. Esse objetivo de aprendizagem unifica a modelagem sequencial do framework autoregressivo com a aprendizagem auto-supervisionada holística de auto-codificação mascarada, permitindo que o modelo capture a semântica abrangente das imagens por meio de treinamento generativo. No benchmark de geração do ImageNet, o Heptapod alcança um FID de 2,70, superando significativamente as abordagens autoregressivas causais anteriores. Esperamos que nosso trabalho inspire uma reconsideração fundamentada da modelagem de linguagem em sinais visuais e além.
A alternância de código (CSW, do inglês Code-Switching), que consiste na alternância de idiomas e scripts dentro de uma única expressão, continua sendo um desafio fundamental para o PLN (Processamento de Linguagem Natural) multilíngue, mesmo diante dos rápidos avanços dos grandes modelos de linguagem (LLMs, do inglês Large Language Models). A maioria dos LLMs ainda enfrenta dificuldades com entradas de linguagem mista, conjuntos de dados limitados para CSW e vieses de avaliação, o que dificulta sua implantação em sociedades multilíngues. Esta pesquisa oferece a primeira análise abrangente de estudos sobre LLMs conscientes de CSW, revisando estudos únicos que abrangem cinco áreas de pesquisa, 12 tarefas de PLN, mais de 30 conjuntos de dados e mais de 80 idiomas. Classificamos os avanços recentes por arquitetura, estratégia de treinamento e metodologia de avaliação, destacando como os LLMs remodelaram a modelagem de CSW e quais desafios persistem. O artigo conclui com um roteiro que enfatiza a necessidade de conjuntos de dados inclusivos, avaliação justa e modelos linguisticamente fundamentados para alcançar uma inteligência verdadeiramente multilíngue. Uma coleção curada de todos os recursos é mantida em https://github.com/lingo-iitgn/awesome-code-mixing/.
Frameworks de agentes de uso de computador (CUA), impulsionados por modelos de linguagem de grande escala (LLMs) ou LLMs multimodais (MLLMs), estão amadurecendo rapidamente como assistentes capazes de perceber contexto, raciocinar e agir diretamente em ambientes de software. Entre suas aplicações mais críticas está o controle de sistemas operacionais (OS). À medida que os CUAs no domínio de OS se tornam cada vez mais integrados às operações diárias, é imperativo examinar suas implicações de segurança no mundo real, especificamente se os CUAs podem ser mal utilizados para realizar ataques realistas e relevantes para a segurança. Os trabalhos existentes apresentam quatro grandes limitações: Falta de um modelo de conhecimento do atacante sobre táticas, técnicas e procedimentos (TTP), Cobertura incompleta para cadeias de ataque de ponta a ponta, ambiente irreal sem múltiplos hosts e credenciais de usuário criptografadas, e julgamento não confiável dependente de LLM-como-juiz. Para abordar essas lacunas, propomos o AdvCUA, o primeiro benchmark alinhado com TTPs do mundo real na Matriz Enterprise do MITRE ATT&CK, que compreende 140 tarefas, incluindo 40 tarefas maliciosas diretas, 74 tarefas maliciosas baseadas em TTP e 26 cadeias de ataque de ponta a ponta, avaliando sistematicamente os CUAs sob uma ameaça de segurança realista de OS empresarial em um ambiente sandbox de múltiplos hosts por meio de avaliação codificada. Avaliamos os cinco CUAs principais existentes, incluindo ReAct, AutoGPT, Gemini CLI, Cursor CLI e Cursor IDE, com base em 8 LLMs fundamentais. Os resultados demonstram que os CUAs de fronteira atuais não cobrem adequadamente as ameaças centradas na segurança de OS. Essas capacidades dos CUAs reduzem a dependência de malware personalizado e de conhecimento profundo do domínio, permitindo que até mesmo atacantes inexperientes realizem intrusões empresariais complexas, o que levanta preocupações sociais sobre a responsabilidade e a segurança dos CUAs.
Apesar da impressionante fidelidade visual, os modelos modernos de geração de vídeo frequentemente produzem sequências que violam leis físicas intuitivas, como objetos flutuando, se teleportando ou se transformando de maneiras que desafiam a causalidade. Embora os seres humanos possam detectar facilmente tais implausibilidades, ainda não existe um método robusto para avaliar quantitativamente o realismo físico em vídeos. Neste trabalho, exploramos se os Modelos de Vídeo-Linguagem (VLMs) podem ser treinados para servir como juízes confiáveis da plausibilidade física. Descobrimos que os VLMs existentes têm dificuldade em identificar violações da física, expondo limitações fundamentais em seu raciocínio temporal e causal. Para abordar isso, introduzimos o TRAVL, uma receita de ajuste fino que combina um conjunto de dados de treinamento balanceado com um módulo de atenção consciente da trajetória para melhorar a codificação e discriminação do movimento em VLMs. Para avaliar o raciocínio físico de forma mais rigorosa, propomos o ImplausiBench, um benchmark de 300 vídeos (150 reais, 150 gerados) que remove vieses linguísticos e isola o entendimento visual-temporal. O desempenho é relatado tanto com julgamentos humanos de padrão ouro quanto com métricas mais rigorosas de LLM-como-juiz. Juntos, TRAVL e ImplausiBench oferecem uma estrutura unificada para investigar e melhorar a plausibilidade física em modelos multimodais, lançando luz sobre um aspecto desafiador e pouco explorado do entendimento visual-temporal.
Com o uso crescente de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation), modelos de recuperação robustos tornaram-se mais importantes do que nunca. Na área da saúde, modelos de recuperação multimodal que combinam informações de texto e imagens oferecem vantagens significativas para diversas tarefas subsequentes, como resposta a perguntas, recuperação cruzada de modalidades e sumarização multimodal, uma vez que os dados médicos frequentemente incluem ambos os formatos. No entanto, atualmente não existe um benchmark padrão para avaliar o desempenho desses modelos em contextos médicos. Para preencher essa lacuna, apresentamos o M3Retrieve, um Benchmark de Recuperação Multimodal Médica. O M3Retrieve abrange 5 domínios, 16 áreas médicas e 4 tarefas distintas, com mais de 1,2 milhão de documentos de texto e 164 mil consultas multimodais, todos coletados sob licenças aprovadas. Avaliamos modelos líderes de recuperação multimodal neste benchmark para explorar os desafios específicos de diferentes especialidades médicas e compreender seu impacto no desempenho da recuperação. Ao disponibilizar o M3Retrieve, nosso objetivo é permitir uma avaliação sistemática, fomentar a inovação de modelos e acelerar a pesquisa para a construção de sistemas de recuperação multimodal mais capazes e confiáveis para aplicações médicas. O conjunto de dados e o código das linhas de base estão disponíveis nesta página do GitHub: https://github.com/AkashGhosh/M3Retrieve.
O agente de planejamento de viagens (TP) tem atuado recentemente como um bloco de construção emergente para interagir com ferramentas e recursos externos na geração de itinerários de viagem, garantindo uma experiência agradável ao usuário. Apesar de seus benefícios, os estudos existentes dependem de prompts manuais e fluxos de trabalho fixos do agente, limitando a criação de um agente de TP mais flexível e autônomo. Este artigo propõe o DeepTravel, uma estrutura de aprendizado por reforço agentica de ponta a ponta para a construção de um agente autônomo de planejamento de viagens, capaz de planejar, executar ferramentas e refletir sobre as respostas das ferramentas para explorar, verificar e refinar ações intermediárias em raciocínios de múltiplos passos. Para isso, primeiro construímos um ambiente sandbox robusto, armazenando em cache dados de transporte, hospedagem e pontos de interesse (POI), facilitando o treinamento do agente de TP sem as limitações das APIs do mundo real (por exemplo, saídas inconsistentes). Além disso, desenvolvemos um sistema hierárquico de modelagem de recompensas, onde um verificador de nível de trajetória primeiro verifica a viabilidade espaço-temporal e filtra itinerários insatisfatórios, e então o verificador de nível de turno valida a consistência dos detalhes do itinerário com as respostas das ferramentas, permitindo um serviço de recompensa eficiente e preciso. Por fim, propomos o método de aprendizado por reforço aumentado por repetição, que permite ao agente de TP revisitar periodicamente um buffer de experiências de falhas, desenvolvendo uma capacidade agentica notável. Implantamos o agente de TP treinado no aplicativo DiDi Enterprise Solutions e realizamos avaliações abrangentes online e offline, demonstrando que o DeepTravel permite que modelos de linguagem pequenos (por exemplo, Qwen3 32B) superem significativamente modelos de linguagem de ponta existentes, como OpenAI o1, o3 e DeepSeek R1, em tarefas de planejamento de viagens.
Modelos de Linguagem de Grande Escala (LLMs) frequentemente alucinam em respostas a perguntas de formato longo, produzindo respostas plausíveis, mas factualmente incorretas. Uma estratégia comum de mitigação é fornecer atribuição às saídas dos LLMs. No entanto, benchmarks existentes focam principalmente em atribuições simples que recuperam evidências textuais de suporte como referências. Argumentamos que, em cenários do mundo real, como aplicações financeiras, a atribuição vai além da recuperação de referências. Introduzimos o FinLFQA, um benchmark projetado para avaliar a capacidade dos LLMs de gerar respostas de formato longo para perguntas financeiras complexas com atribuições confiáveis e detalhadas. O FinLFQA avalia três aspectos críticos da atribuição por meio de anotações humanas: (1) evidências de suporte extraídas de relatórios financeiros, (2) etapas intermediárias de raciocínio numérico e (3) conhecimento financeiro específico do domínio que informa o processo de raciocínio. Além disso, fornecemos um framework de avaliação automática que cobre tanto a qualidade da resposta quanto a qualidade da atribuição. Por meio de experimentos extensos em oito LLMs em múltiplos paradigmas de geração de atribuição, descobrimos que métricas refinadas são importantes para distinguir as capacidades dos modelos, que a geração end-to-end alcança desempenho comparável às abordagens pós-hoc, e que o refinamento iterativo só ajuda quando guiado por feedback externo.
O surgimento de modelos autoregressivos (AR) visuais revolucionou a geração de imagens, ao mesmo tempo em que apresentou novos desafios para a detecção de imagens sintéticas. Diferentemente de métodos anteriores baseados em GANs ou difusão, os modelos AR geram imagens por meio da previsão de tokens discretos, exibindo tanto melhorias significativas na qualidade da síntese de imagens quanto características únicas em suas representações vetorizadas. Neste artigo, propomos utilizar o Erro de Quantização com Consciência de Discrepância de Distribuição Discreta (D^3QE) para a detecção de imagens geradas por modelos autoregressivos, explorando os padrões distintos e o viés na distribuição de frequência do codebook presente em imagens reais e falsas. Introduzimos um transformer com consciência de discrepância de distribuição discreta que integra estatísticas dinâmicas de frequência do codebook em seu mecanismo de atenção, fundindo características semânticas e o erro de quantização latente. Para avaliar nosso método, construímos um conjunto de dados abrangente denominado ARForensics, que abrange 7 modelos AR visuais principais. Os experimentos demonstram uma precisão superior de detecção e uma forte generalização do D^3QE em diferentes modelos AR, com robustez a perturbações do mundo real. O código está disponível em https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
Este trabalho investiga as capacidades de raciocínio e planejamento de modelos de base e sua escalabilidade em ambientes complexos e dinâmicos. Introduzimos o PuzzlePlex, um benchmark projetado para avaliar essas capacidades por meio de um conjunto diversificado de quebra-cabeças. O PuzzlePlex consiste em 15 tipos de quebra-cabeças, incluindo jogos determinísticos e estocásticos de dificuldade variada, além de cenários para um jogador e dois jogadores. O framework PuzzlePlex fornece um ambiente abrangente para cada jogo e suporta extensibilidade para gerar instâncias mais desafiadoras à medida que os modelos de base evoluem. Além disso, implementamos estratégias personalizadas de jogo para comparação. Com base nesse benchmark, desenvolvemos métricas detalhadas para medir o desempenho e realizamos uma análise aprofundada de modelos de base de ponta em dois cenários: baseado em instruções e baseado em código. Adicionalmente, investigamos sistematicamente seus limites de escalabilidade. Nossos resultados mostram que modelos de raciocínio superam os demais em cenários baseados em instruções, enquanto a execução baseada em código apresenta desafios maiores, mas oferece uma alternativa escalável e eficiente. O PuzzlePlex permite avaliação direcionada e orienta melhorias futuras em raciocínio, planejamento e generalização para modelos de base.
A Imputação de Séries Temporais (TSI), que visa recuperar valores ausentes em dados temporais, continua sendo um desafio fundamental devido à complexidade e à alta taxa de valores ausentes em cenários do mundo real. Os modelos existentes normalmente otimizam a perda de reconstrução ponto a ponto, focando na recuperação de valores numéricos (informação local). No entanto, observamos que, sob altas taxas de valores ausentes, esses modelos ainda apresentam bom desempenho na fase de treinamento, mas produzem imputações ruins e distribuições distorcidas de representações latentes (informação global) na fase de inferência. Isso revela um dilema crítico de otimização: os objetivos atuais carecem de orientação global, levando os modelos a se ajustarem excessivamente ao ruído local e a falharem em capturar a informação global dos dados. Para resolver esse problema, propomos um novo paradigma de treinamento, o Global Information Bottleneck (Glocal-IB). O Glocal-IB é independente de modelo e estende o framework padrão de IB ao introduzir uma perda de Alinhamento Global, derivada de uma aproximação tratável de informação mútua. Essa perda alinha as representações latentes de entradas mascaradas com as de suas contrapartes originalmente observadas. Isso ajuda o modelo a reter a estrutura global e os detalhes locais, enquanto suprime o ruído causado pelos valores ausentes, resultando em uma melhor generalização sob altas taxas de valores ausentes. Experimentos extensivos em nove conjuntos de dados confirmam que o Glocal-IB leva a um desempenho consistentemente melhorado e a representações latentes alinhadas sob valores ausentes. Nossa implementação de código está disponível em https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB.