Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos o FlashWorld, um modelo generativo que produz cenas 3D a partir de uma única imagem ou prompt de texto em segundos, sendo 10 a 100 vezes mais rápido do que trabalhos anteriores, enquanto mantém uma qualidade de renderização superior. Nossa abordagem se afasta do paradigma convencional orientado a múltiplas vistas (MV-oriented), que gera imagens de múltiplas vistas para subsequente reconstrução 3D, para uma abordagem orientada a 3D, onde o modelo produz diretamente representações 3D de Gaussianas durante a geração de múltiplas vistas. Embora garanta consistência 3D, o método orientado a 3D geralmente sofre com qualidade visual inferior. O FlashWorld inclui uma fase de pré-treinamento em modo duplo seguida por uma fase de pós-treinamento em modo cruzado, integrando efetivamente as vantagens de ambos os paradigmas. Especificamente, aproveitando o conhecimento prévio de um modelo de difusão de vídeo, primeiro pré-treinamos um modelo de difusão de múltiplas vistas em modo duplo, que suporta conjuntamente modos de geração orientados a MV e 3D. Para reduzir a lacuna de qualidade na geração orientada a 3D, propomos ainda uma destilação de pós-treinamento em modo cruzado, alinhando a distribuição do modo consistente orientado a 3D com o modo de alta qualidade orientado a MV. Isso não apenas melhora a qualidade visual enquanto mantém a consistência 3D, mas também reduz o número de etapas de remoção de ruído necessárias para inferência. Além disso, propomos uma estratégia para aproveitar um grande número de imagens de vista única e prompts de texto durante esse processo, a fim de melhorar a generalização do modelo para entradas fora da distribuição. Experimentos extensivos demonstram a superioridade e eficiência do nosso método.
Os avanços recentes em modelos multimodais unificados indicam uma tendência clara em direção à geração abrangente de conteúdo. No entanto, o domínio auditivo continua sendo um desafio significativo, com música e fala frequentemente desenvolvidas de forma isolada, dificultando o progresso em direção à síntese universal de áudio. Essa separação decorre de conflitos inerentes às tarefas e de graves desequilíbrios de dados, que impedem o desenvolvimento de um modelo verdadeiramente unificado de geração de áudio. Para enfrentar esse desafio, propomos o UniMoE-Audio, um modelo unificado de geração de fala e música dentro de uma nova estrutura de Mistura de Especialistas com Capacidade Dinâmica (MoE). Arquitetonicamente, o UniMoE-Audio introduz uma estratégia de roteamento Top-P para alocação dinâmica do número de especialistas e um design híbrido de especialistas que inclui especialistas roteados para conhecimento específico do domínio, especialistas compartilhados para características independentes do domínio e especialistas nulos para a omissão adaptativa de computação. Para lidar com o desequilíbrio de dados, introduzimos um currículo de treinamento em três estágios: 1) O Treinamento Independente de Especialistas aproveita os conjuntos de dados originais para incutir conhecimento específico do domínio em cada "proto-especialista" sem interferência; 2) A Integração e Aquecimento do MoE incorpora esses especialistas na arquitetura do UniMoE-Audio, aquecendo o módulo de gate e o especialista compartilhado usando um subconjunto de dados balanceados; e 3) O Treinamento Conjunto Sinérgico treina o modelo inteiro de ponta a ponta no conjunto de dados totalmente balanceado, promovendo uma sinergia aprimorada entre domínios. Experimentos extensivos mostram que o UniMoE-Audio não apenas alcança desempenho de ponta em benchmarks importantes de geração de fala e música, mas também demonstra aprendizado sinérgico superior, mitigando a degradação de desempenho tipicamente observada no treinamento conjunto ingênuo. Nossas descobertas destacam o potencial substancial da arquitetura MoE especializada e das estratégias de treinamento cuidadosamente elaboradas no avanço do campo da geração universal de áudio. Página inicial: https://mukioxun.github.io/Uni-MoE-site/home.html
Modelos de linguagem multimodal totalmente abertos (MLLMs) atualmente ficam atrás de suas contrapartes proprietárias, principalmente devido a uma lacuna significativa na qualidade dos dados para ajuste fino supervisionado (SFT). Os conjuntos de dados de código aberto existentes frequentemente sofrem com ruído generalizado e uma deficiência crítica em dados de raciocínio complexo, como Chain-of-Thought (CoT), o que dificulta o desenvolvimento de capacidades avançadas dos modelos. Para enfrentar esses desafios, nosso trabalho faz três contribuições principais. Primeiro, introduzimos o Honey-Data-15M, um novo conjunto de dados SFT composto por aproximadamente 15 milhões de pares de perguntas e respostas, processados por meio de múltiplas técnicas de limpeza e aprimorados com uma nova estratégia de enriquecimento CoT de dois níveis (curto e longo). Segundo, apresentamos o HoneyPipe, o pipeline de curadoria de dados, e sua estrutura subjacente, o DataStudio, fornecendo à comunidade uma metodologia transparente e adaptável para curadoria de dados que vai além de lançamentos estáticos de conjuntos de dados. Por fim, para validar nosso conjunto de dados e pipeline, treinamos o Bee-8B, um modelo de 8B no Honey-Data-15M. Experimentos mostram que o Bee-8B estabelece um novo estado da arte (SOTA) para MLLMs totalmente abertos, alcançando desempenho competitivo e, em alguns casos, superando modelos semi-abertos recentes, como o InternVL3.5-8B. Nosso trabalho entrega à comunidade um conjunto de recursos fundamentais, incluindo: o corpus Honey-Data-15M; o pacote completo composto por HoneyPipe e DataStudio; receitas de treinamento; um conjunto de avaliação; e os pesos do modelo. Esse esforço demonstra que um foco principiado na qualidade dos dados é um caminho essencial para desenvolver MLLMs totalmente abertos altamente competitivos com suas contrapartes semi-abertas.
O padrão de raciocínio dos modelos de linguagem de grande escala (LLMs) permanece opaco, e o aprendizado por reforço (RL) normalmente aplica crédito uniforme em toda uma geração, obscurecendo a distinção entre passos cruciais e rotineiros. Este trabalho posiciona a atenção como um substrato privilegiado que torna a lógica interna dos LLMs legível, não apenas como um subproduto da computação, mas como um projeto mecanicista do próprio raciocínio. Primeiro, distinguimos os cabeçalhos de atenção entre processamento de informações focado localmente e globalmente, e revelamos que os cabeçalhos focados localmente produzem um padrão de dente de serra próximo à diagonal, indicando segmentos frasais, enquanto os cabeçalhos focados globalmente expõem tokens que exercem uma ampla influência descendente sobre tokens futuros. Formalizamos isso com duas métricas: 1) Distância Média de Atenção em Janela, que mede a extensão da atenção para trás dentro de uma janela delimitada; 2) Influência de Atenção Futura, que quantifica a importância global de um token como a atenção média que ele recebe de tokens subsequentes. Juntas, essas métricas revelam um mecanismo recorrente de pré-planejamento e ancoragem, onde o modelo primeiro realiza uma referência contextual de longo alcance para gerar um token introdutório, que é imediatamente seguido ou coincide com um token âncora semântico que organiza o raciocínio subsequente. Aproveitando esses insights, introduzimos três novas estratégias de RL que realizam dinamicamente a atribuição de crédito direcionada a nós críticos (tokens de pré-planejamento, tokens âncora e seu acoplamento temporal) e mostram ganhos consistentes de desempenho em várias tarefas de raciocínio. Ao alinhar a otimização com o ritmo intrínseco de raciocínio do modelo, visamos transformar a otimização opaca em um processo acionável e consciente da estrutura, esperando oferecer um passo potencial em direção a uma otimização mais transparente e eficaz do raciocínio dos LLMs.
Os modelos Visual-Language-Action (VLA) relatam taxas de sucesso impressionantes em benchmarks de manipulação robótica, mas esses resultados podem mascarar fraquezas fundamentais em termos de robustez. Realizamos uma análise sistemática de vulnerabilidades ao introduzir perturbações controladas em sete dimensões: disposição de objetos, ângulos de câmera, estados iniciais do robô, instruções de linguagem, condições de iluminação, texturas de fundo e ruído de sensores. Analisamos de forma abrangente vários modelos state-of-the-art e revelamos uma fragilidade consistente por trás de uma aparente competência. Nossa análise expõe fraquezas críticas: os modelos exibem extrema sensibilidade a fatores de perturbação, incluindo ângulos de câmera e estados iniciais do robô, com o desempenho caindo de 95% para menos de 30% sob perturbações modestas. Surpreendentemente, os modelos são amplamente insensíveis a variações de linguagem, com experimentos adicionais revelando que os modelos tendem a ignorar completamente as instruções de linguagem. Nossas descobertas desafiam a suposição de que altas pontuações em benchmarks equivalem a uma verdadeira competência e destacam a necessidade de práticas de avaliação que testem a confiabilidade sob variações realistas.
Os modelos de geração de vídeo atuais são capazes de produzir vídeos visualmente realistas, mas frequentemente falham em aderir às leis físicas, limitando sua capacidade de gerar vídeos fisicamente plausíveis e atuar como "modelos do mundo". Para resolver esse problema, propomos o PhysMaster, que captura conhecimento físico como uma representação para orientar modelos de geração de vídeo a aprimorar sua consciência física. Especificamente, o PhysMaster é baseado na tarefa de imagem para vídeo, na qual o modelo deve prever dinâmicas fisicamente plausíveis a partir de uma imagem de entrada. Como a imagem de entrada fornece prévias físicas, como posições relativas e interações potenciais dos objetos no cenário, desenvolvemos o PhysEncoder para codificar informações físicas dela como uma condição adicional, injetando conhecimento físico no processo de geração de vídeo. A falta de supervisão adequada sobre o desempenho físico do modelo, além da mera aparência, motiva o PhysEncoder a aplicar aprendizado por reforço com feedback humano ao aprendizado de representações físicas, que aproveita o feedback dos modelos de geração para otimizar representações físicas com Otimização de Preferência Direta (DPO) de ponta a ponta. O PhysMaster oferece uma solução viável para melhorar a consciência física do PhysEncoder e, consequentemente, da geração de vídeo, comprovando sua capacidade em uma tarefa proxy simples e sua generalização para uma ampla gama de cenários físicos. Isso implica que nosso PhysMaster, que unifica soluções para diversos processos físicos por meio de aprendizado de representações no paradigma de aprendizado por reforço, pode atuar como uma solução genérica e plug-and-play para geração de vídeo com consciência física e aplicações mais amplas.
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se central para o treinamento de grandes modelos de linguagem (LLMs, do inglês Large Language Models), mas o campo carece de metodologias preditivas de escalonamento comparáveis às estabelecidas para o pré-treinamento. Apesar dos orçamentos de computação estarem crescendo rapidamente, não há um entendimento fundamentado de como avaliar melhorias algorítmicas para o escalonamento de computação em RL. Apresentamos o primeiro estudo sistemático em larga escala, totalizando mais de 400.000 horas de GPU, que define uma estrutura fundamentada para analisar e prever o escalonamento de RL em LLMs. Ajustamos curvas sigmoidais de desempenho-computação para o treinamento de RL e realizamos uma ablação de uma ampla gama de escolhas de design comuns para analisar seus efeitos no desempenho assintótico e na eficiência computacional. Observamos: (1) Nem todas as abordagens produzem desempenho assintótico semelhante, (2) Detalhes como agregação de perda, normalização, currículo e algoritmos off-policy modulam principalmente a eficiência computacional sem alterar significativamente o limite assintótico, e (3) Abordagens estáveis e escaláveis seguem trajetórias de escalonamento previsíveis, permitindo extrapolação a partir de execuções em menor escala. Combinando esses insights, propomos uma abordagem de melhores práticas, o ScaleRL, e demonstramos sua eficácia ao escalar e prever com sucesso o desempenho de validação em uma única execução de RL escalada para 100.000 horas de GPU. Nosso trabalho fornece tanto uma estrutura científica para analisar o escalonamento em RL quanto uma abordagem prática que aproxima o treinamento de RL da previsibilidade há muito alcançada no pré-treinamento.
A representação espaço-temporal eficaz é fundamental para modelar, compreender e prever a dinâmica em vídeos. A unidade atômica de um vídeo, o pixel, traça uma trajetória contínua 3D ao longo do tempo, servindo como o elemento primitivo da dinâmica. Com base nesse princípio, propomos representar qualquer vídeo como um Campo de Trajetória: um mapeamento denso que atribui uma função de trajetória contínua 3D ao tempo para cada pixel em cada quadro. Com essa representação, introduzimos o Trace Anything, uma rede neural que prevê todo o campo de trajetória em uma única passagem direta. Especificamente, para cada pixel em cada quadro, nosso modelo prevê um conjunto de pontos de controle que parametrizam uma trajetória (ou seja, uma B-spline), fornecendo sua posição 3D em instantes de tempo arbitrários. Treinamos o modelo Trace Anything em dados 4D em grande escala, incluindo dados de nossa nova plataforma, e nossos experimentos demonstram que: (i) o Trace Anything alcança desempenho de ponta em nosso novo benchmark para estimação de campo de trajetória e se sai de forma competitiva em benchmarks estabelecidos de rastreamento de pontos; (ii) oferece ganhos significativos de eficiência graças ao seu paradigma de passagem única, sem exigir otimização iterativa ou estimadores auxiliares; e (iii) exibe habilidades emergentes, incluindo manipulação condicionada a objetivos, previsão de movimento e fusão espaço-temporal. Página do projeto: https://trace-anything.github.io/.
Apresentamos o InteractiveOmni, um modelo de linguagem grande omni-modal unificado e de código aberto para interação multi-turn áudio-visual, variando de 4B a 8B parâmetros, projetado para liderar o campo de modelos leves ao oferecer capacidades abrangentes de compreensão omni-modal e geração de fala. Para alcançar isso, integramos o codificador de visão, o codificador de áudio, o modelo de linguagem grande e o decodificador de fala em um modelo unificado para tarefas de compreensão e geração. Projetamos uma estratégia de treinamento em múltiplos estágios para garantir capacidades robustas de cruzamento modal, incluindo pré-treinamento para compreensão omni-modal, seguido de pós-treinamento com conversação de fala e interação áudio-visual. Para habilitar uma capacidade de conversação de longo prazo semelhante à humana, curamos meticulosamente um conjunto de dados de treinamento multi-turn que aprimora a capacidade do modelo de lidar com interações complexas e multi-turn. Para avaliar efetivamente as capacidades de memória multi-turn e interação de fala, construímos o benchmark de memória multi-turn multimodal e o benchmark de interação de fala multi-turn. Experimentos demonstram que o InteractiveOmni supera significativamente os principais modelos de código aberto e oferece uma experiência áudio-visual multi-turn mais inteligente, particularmente em suas capacidades de memória de longo prazo. Notavelmente, o InteractiveOmni-4B é comparável a modelos muito maiores, como o Qwen2.5-Omni-7B, em benchmarks gerais, e pode reter 97% do desempenho do InteractiveOmni-8B enquanto utiliza apenas 50% do tamanho do modelo. Alcançando resultados de ponta contra modelos de tamanho similar em tarefas de compreensão de imagem, áudio, vídeo e geração de fala, o InteractiveOmni é uma base acessível e de código aberto para sistemas interativos inteligentes de próxima geração.
Sistemas multiagentes (MAS) e aprendizado por reforço (RL) são amplamente utilizados para aprimorar as capacidades agentivas de grandes modelos de linguagem (LLMs). O MAS melhora o desempenho em tarefas por meio de orquestração baseada em papéis, enquanto o RL utiliza recompensas ambientais para aprender políticas mais robustas, como a otimização no estilo GRPO. No entanto, a aplicação de RL on-policy ao MAS ainda é pouco explorada e apresenta desafios únicos. Algoritmicamente, as suposições padrão de agrupamento do GRPO se desfazem porque os prompts variam conforme o papel e o turno. Em termos de sistema, a infraestrutura de treinamento deve suportar rollouts de fluxos de trabalho MAS e atualizações on-policy tanto para modelos de política única quanto de múltiplas políticas. Propomos o AT-GRPO, que inclui (i) um algoritmo de RL agrupado por agente e turno, adaptado ao MAS, e (ii) um sistema de treinamento que suporta regimes de política única e múltiplas políticas. Em tarefas de jogos, planejamento, codificação e matemática, o AT-GRPO oferece ganhos substanciais. No planejamento de longo horizonte, ele aumenta a precisão de uma linha de base de RL de agente único de 14,0 a 47,0 por cento para 96,0 a 99,5 por cento. Ele também melhora o desempenho em raciocínio, com ganhos médios de 3,87 a 7,62 por cento em tarefas de codificação e de 9,0 a 17,93 por cento em matemática. O código e os ambientes estão disponíveis em: https://github.com/pettingllms-ai/PettingLLMs.
Enquanto a maioria dos LLMs autoregressivos está limitada à decodificação token por token, os LLMs de difusão (dLLMs) têm atraído crescente interesse por seu potencial de acelerar drasticamente a inferência por meio da decodificação paralela. Apesar dessa promessa, a suposição de independência condicional nos dLLMs faz com que a decodificação paralela ignore as dependências entre tokens, degradando inevitavelmente a qualidade da geração quando essas dependências são fortes. No entanto, trabalhos existentes em grande parte negligenciam esses desafios inerentes, e avaliações em benchmarks padrão (por exemplo, matemática e codificação) não são suficientes para capturar a degradação de qualidade causada pela decodificação paralela. Para abordar essa lacuna, primeiro fornecemos uma análise teórica da informação da decodificação paralela. Em seguida, conduzimos estudos de caso em operações sintéticas de listas analiticamente tratáveis, tanto da perspectiva da distribuição de dados quanto da estratégia de decodificação, oferecendo insights quantitativos que destacam as limitações fundamentais da decodificação paralela. Com base nesses insights, propomos o ParallelBench, o primeiro benchmark especificamente projetado para dLLMs, apresentando tarefas realistas que são triviais para humanos e LLMs autoregressivos, mas excepcionalmente desafiadoras para dLLMs sob decodificação paralela. Usando o ParallelBench, analisamos sistematicamente tanto dLLMs quanto LLMs autoregressivos, revelando que: (i) dLLMs sob decodificação paralela podem sofrer uma degradação dramática de qualidade em cenários do mundo real, e (ii) as estratégias atuais de decodificação paralela lutam para adaptar seu grau de paralelismo com base na dificuldade da tarefa, falhando assim em alcançar aceleração significativa sem comprometer a qualidade. Nossas descobertas destacam a necessidade urgente de métodos inovadores de decodificação que possam superar o atual trade-off entre velocidade e qualidade. Disponibilizamos nosso benchmark para ajudar a acelerar o desenvolvimento de dLLMs verdadeiramente eficientes.
Apresentamos o Verificador Universal Generativo, um conceito e plugin inovador projetado para a próxima geração de raciocínio multimodal em modelos de visão e linguagem e modelos multimodais unificados, fornecendo a capacidade fundamental de reflexão e refinamento de resultados visuais durante o processo de raciocínio e geração. Este trabalho faz três contribuições principais: (1) Construímos o ViVerBench, um benchmark abrangente que abrange 16 categorias de tarefas críticas para avaliar resultados visuais no raciocínio multimodal. Os resultados mostram que os VLMs existentes consistentemente têm desempenho inferior nessas tarefas, destacando uma lacuna substancial em relação à capacidade humana em verificação visual confiável. (2) Projetamos dois pipelines automatizados para construir dados de verificação visual em larga escala e treinar o OmniVerifier-7B, o primeiro verificador generativo omnicapaz treinado para verificação visual universal, que alcança ganhos notáveis no ViVerBench (+8,3). Através do treinamento, identificamos três capacidades atômicas na verificação visual e demonstramos como elas se generalizam e interagem sinergicamente. (3) Propomos o OmniVerifier-TTS, um paradigma de escalonamento sequencial em tempo de teste que aproveita o verificador universal para unir geração e edição de imagens em modelos unificados, aprimorando o limite superior da capacidade generativa por meio de otimização iterativa e granular. Além da geração, estendemos o verificador universal para cenários mais amplos de raciocínio intercalado com modelagem de mundo. Empiricamente, o OmniVerifier-TTS alcança melhorias no T2I-ReasonBench (+3,7) e no GenEval++ (+4,3), superando métodos existentes de escalonamento em tempo de teste, como Best-of-N. Ao dotar o raciocínio multimodal com verificação visual confiável, o OmniVerifier avança tanto a reflexão confiável durante a geração quanto o refinamento escalável em tempo de teste, marcando um passo em direção a sistemas de raciocínio de próxima geração mais confiáveis e controláveis.
Modelos generativos têm sido amplamente aplicados à modelagem de mundos para simulação de ambientes e previsão de estados futuros. Com os avanços na condução autônoma, há uma demanda crescente não apenas pela geração de vídeos de alta fidelidade sob vários controles, mas também pela produção de informações diversas e significativas, como estimativa de profundidade. Para abordar isso, propomos o CVD-STORM, um modelo de difusão de vídeo de visão cruzada que utiliza um Variational Autoencoder (VAE) de reconstrução espaço-temporal, capaz de gerar vídeos de longo prazo e múltiplas visões com capacidades de reconstrução 4D sob várias entradas de controle. Nossa abordagem primeiro ajusta o VAE com uma tarefa auxiliar de reconstrução 4D, aprimorando sua capacidade de codificar estruturas 3D e dinâmicas temporais. Posteriormente, integramos esse VAE ao processo de difusão de vídeo para melhorar significativamente a qualidade da geração. Resultados experimentais demonstram que nosso modelo alcança melhorias substanciais tanto nas métricas FID quanto FVD. Além disso, o Decodificador de Splatting Gaussiano treinado em conjunto reconstrói efetivamente cenas dinâmicas, fornecendo informações geométricas valiosas para uma compreensão abrangente da cena.
A pesquisa de ponta em Inteligência Artificial (IA) requer recursos consideráveis, incluindo Unidades de Processamento Gráfico (GPUs), dados e recursos humanos. Neste artigo, avaliamos a relação entre esses recursos e o avanço científico dos modelos de base (Foundation Models - FM). Revisamos 6517 artigos sobre FM publicados entre 2022 e 2024 e entrevistamos 229 primeiros autores sobre o impacto dos recursos computacionais na produção científica. Descobrimos que o aumento no poder de computação está correlacionado com as alocações de financiamento nacional e citações, mas nossos achados não observam correlações fortes com o ambiente de pesquisa (acadêmico ou industrial), domínio ou metodologia de estudo. Recomendamos que indivíduos e instituições foquem em criar oportunidades de computação compartilhadas e acessíveis para reduzir a barreira de entrada para pesquisadores com recursos limitados. Essas medidas podem ajudar a expandir a participação na pesquisa de FM, promover a diversidade de ideias e contribuidores, e sustentar a inovação e o progresso na IA. Os dados estarão disponíveis em: https://mit-calc.csail.mit.edu/
Apresentamos o InternVLA-M1, um framework unificado para fundamentação espacial e controle de robôs que avança os robôs seguidores de instruções em direção a uma inteligência escalável e de propósito geral. Sua ideia central é o treinamento espacialmente guiado de visão-linguagem-ação, onde a fundamentação espacial serve como o elo crítico entre as instruções e as ações do robô. O InternVLA-M1 emprega um pipeline de dois estágios: (i) pré-treinamento de fundamentação espacial em mais de 2,3 milhões de dados de raciocínio espacial para determinar "onde agir", alinhando instruções com posições visuais e independentes da forma física do robô, e (ii) pós-treinamento de ação espacialmente guiada para decidir "como agir", gerando ações conscientes da forma física por meio de prompts espaciais plug-and-play. Essa receita de treinamento espacialmente guiado resulta em ganhos consistentes: o InternVLA-M1 supera sua variante sem orientação espacial em +14,6% no SimplerEnv Google Robot, +17% no WidowX e +4,3% no LIBERO Franka, enquanto demonstra uma capacidade de raciocínio espacial mais forte em previsões de caixa, ponto e traçado. Para escalar ainda mais o seguimento de instruções, construímos um motor de simulação para coletar 244 mil episódios generalizáveis de pegar e colocar, permitindo uma melhoria média de 6,2% em 200 tarefas e mais de 3 mil objetos. No mundo real, em tarefas de pegar e colocar em ambientes aglomerados, o InternVLA-M1 melhorou em 7,3%, e com co-treinamento sintético, alcançou +20,6% em objetos não vistos e configurações novas. Além disso, em cenários de raciocínio de longo prazo e intensivos, superou trabalhos existentes em mais de 10%. Esses resultados destacam o treinamento espacialmente guiado como um princípio unificador para robôs generalistas escaláveis e resilientes. Código e modelos estão disponíveis em https://github.com/InternRobotics/InternVLA-M1.
Modelos Vision-Language-Action (VLA) generalistas bem-sucedidos dependem de um treinamento eficaz em diversas plataformas robóticas com conjuntos de dados heterogêneos, de grande escala e de múltiplas incorporações. Para facilitar e aproveitar a heterogeneidade em fontes de dados robóticos ricas e diversas, propomos uma nova abordagem de Soft Prompt com parâmetros minimamente adicionados, ao integrar conceitos de aprendizado de prompts no aprendizado robótico de múltiplas incorporações e introduzir conjuntos separados de embeddings aprendíveis para cada fonte de dados distinta. Esses embeddings funcionam como prompts específicos para cada incorporação, que, em conjunto, capacitam os modelos VLA a explorar efetivamente as características variáveis de múltiplas incorporações. Nosso novo X-VLA, uma arquitetura VLA baseada em correspondência de fluxo, depende exclusivamente de codificadores Transformer padrão com soft prompts, beneficiando-se tanto da escalabilidade quanto da simplicidade. Avaliado em 6 simulações e 3 robôs do mundo real, nossa instanciação de 0,9B — X-VLA-0.9B — alcança simultaneamente desempenho de ponta em uma variedade de benchmarks, demonstrando resultados superiores em uma ampla gama de capacidades, desde destreza flexível até rápida adaptação entre incorporações, ambientes e tarefas. Website: https://thu-air-dream.github.io/X-VLA/
Neste artigo, afirmamos que a fundamentação visual 3D é a pedra angular do raciocínio espacial e introduzimos o Grounded-Spatial Reasoner (GS-Reasoner) para explorar as representações espaciais eficazes que preenchem a lacuna entre eles. Os modelos de linguagem 3D (LLMs) existentes sofrem com a ausência de uma representação 3D unificada capaz de capturar conjuntamente informações semânticas e geométricas. Essa deficiência se manifesta tanto no desempenho insatisfatório na fundamentação quanto em uma dependência excessiva de módulos externos, o que acaba dificultando a integração perfeita entre fundamentação e raciocínio espacial. Para resolver isso, propomos um mecanismo de pooling de duplo caminho simples, porém eficaz, que alinha rigorosamente características geométricas com pistas semânticas e posicionais, construindo uma representação 3D unificada baseada em patches de imagem que encapsula todas as informações essenciais sem aumentar o número de tokens de entrada. Aproveitando essa representação holística, o GS-Reasoner é o primeiro LLM 3D que alcança a fundamentação autoregressiva inteiramente sem módulos externos, ao mesmo tempo que oferece desempenho comparável aos modelos de última geração, estabelecendo um framework unificado e autossuficiente para o raciocínio espacial 3D. Para aproximar ainda mais a fundamentação e o raciocínio espacial, introduzimos o conjunto de dados Grounded Chain-of-Thought (GCoT). Esse conjunto de dados foi meticulosamente elaborado para incluir tanto anotações de caixas delimitadoras 3D para objetos referenciados em perguntas de raciocínio quanto caminhos de raciocínio passo a passo que integram a fundamentação como um componente central do processo de resolução de problemas. Experimentos extensivos demonstram que o GS-Reasoner alcança resultados impressionantes na fundamentação visual 3D, o que, por sua vez, melhora significativamente suas capacidades de raciocínio espacial, levando a um desempenho de ponta.
Modelos universais de incorporação multimodal são fundamentais para diversas tarefas. As abordagens existentes geralmente empregam mineração de negativos em lote medindo a similaridade de pares consulta-candidato. No entanto, esses métodos frequentemente têm dificuldade em capturar diferenças semânticas sutis entre os candidatos e carecem de diversidade nas amostras negativas. Além disso, as incorporações exibem capacidade discriminativa limitada para distinguir falsos negativos e negativos difíceis. Neste artigo, aproveitamos as capacidades avançadas de compreensão dos MLLMs para aprimorar o aprendizado de representação e apresentamos um novo modelo de Incorporação Multimodal Universal (UniME-V2). Nossa abordagem primeiro constrói um conjunto potencial de negativos difíceis por meio de recuperação global. Em seguida, introduzimos o mecanismo MLLM-as-a-Judge, que utiliza MLLMs para avaliar o alinhamento semântico de pares consulta-candidato e gerar pontuações de correspondência semântica suave. Essas pontuações servem como base para a mineração de negativos difíceis, mitigando o impacto de falsos negativos e permitindo a identificação de negativos difíceis diversos e de alta qualidade. Além disso, as pontuações de correspondência semântica são usadas como rótulos suaves para mitigar a restrição rígida de mapeamento um-para-um. Ao alinhar a matriz de similaridade com a matriz de pontuação de correspondência semântica suave, o modelo aprende distinções semânticas entre os candidatos, melhorando significativamente sua capacidade discriminativa. Para aprimorar ainda mais o desempenho, propomos o UniME-V2-Reranker, um modelo de reranking treinado em nossos negativos difíceis minerados por meio de uma abordagem de otimização conjunta pareada e baseada em lista. Realizamos experimentos abrangentes no benchmark MMEB e em várias tarefas de recuperação, demonstrando que nosso método alcança desempenho de ponta em média em todas as tarefas.
Ao empregar modelos de linguagem de grande escala (LLMs) para recuperar documentos e gerar respostas em linguagem natural, os Motores Gerativos, como o Google AI Overview e o ChatGPT, oferecem experiências de usuário significativamente aprimoradas e rapidamente se tornaram a nova forma de busca. Sua rápida adoção também impulsiona a necessidade de Otimização de Motores Gerativos (Generative Engine Optimization - GEO), já que os provedores de conteúdo estão ansiosos para obter maior visibilidade por meio deles. Neste artigo, apresentamos o AutoGEO, uma estrutura para aprender automaticamente as preferências dos motores gerativos ao usar conteúdos recuperados para a geração de respostas e reescrever conteúdos da web para obter maior visibilidade. O AutoGEO primeiro solicita que LLMs de ponta expliquem as preferências dos motores gerativos e extrai regras de preferência significativas dessas explicações. Em seguida, utiliza essas regras de preferência como engenharia de contexto para o AutoGEO_API, um sistema GEO baseado em prompts, e como recompensas baseadas em regras para treinar o AutoGEO_Mini, um modelo GEO de baixo custo. Experimentos no GEO-Bench padrão e em dois novos benchmarks construídos com consultas reais de usuários demonstram a eficácia do AutoGEO em aumentar a visibilidade do conteúdo enquanto preserva a utilidade da busca. Análises confirmam a robustez das regras aprendidas e sua capacidade de capturar preferências únicas em diferentes domínios, bem como a capacidade dos sistemas AutoGEO de incorporá-las na otimização de conteúdo. O código está disponível em https://github.com/cxcscmu/AutoGEO.
A compreensão detalhada entre visão e linguagem requer um alinhamento preciso entre o conteúdo visual e as descrições linguísticas, uma capacidade que ainda é limitada nos modelos atuais, especialmente em contextos não ingleses. Embora modelos como o CLIP tenham bom desempenho no alinhamento global, eles frequentemente lutam para capturar detalhes refinados em atributos de objetos, relações espaciais e expressões linguísticas, com suporte limitado para compreensão bilíngue. Para enfrentar esses desafios, apresentamos o FG-CLIP 2, um modelo bilíngue de visão e linguagem projetado para avançar o alinhamento detalhado tanto para o inglês quanto para o chinês. Nossa abordagem aproveita supervisão detalhada rica, incluindo correspondência entre regiões e texto e modelagem de legendas longas, juntamente com múltiplos objetivos discriminativos. Além disso, introduzimos a perda de Contraste Intra-modal Textual (TIC) para distinguir melhor legendas semanticamente semelhantes. Treinado em uma mistura cuidadosamente curada de dados em grande escala em inglês e chinês, o FG-CLIP 2 alcança um desempenho bilíngue poderoso. Para permitir uma avaliação rigorosa, apresentamos um novo benchmark para compreensão multimodal em chinês, com foco em recuperação de legendas longas e classificação de caixas delimitadoras. Experimentos extensos em 29 conjuntos de dados abrangendo 8 tarefas mostram que o FG-CLIP 2 supera os métodos existentes, alcançando resultados de ponta em ambos os idiomas. Disponibilizamos o modelo, código e benchmark para facilitar pesquisas futuras sobre alinhamento bilíngue detalhado.
Este estudo introduz um método de Pré-Treinamento de Classificação de Degradação Mascarada (MaskDCPT), projetado para facilitar a classificação dos tipos de degradação em imagens de entrada, levando a um pré-treinamento abrangente de restauração de imagens. Diferente dos métodos convencionais de pré-treinamento, o MaskDCPT utiliza o tipo de degradação da imagem como uma supervisão extremamente fraca, enquanto simultaneamente aproveita a reconstrução da imagem para melhorar o desempenho e a robustez. O MaskDCPT inclui um codificador e dois decodificadores: o codificador extrai características da imagem de baixa qualidade mascarada. O decodificador de classificação utiliza essas características para identificar o tipo de degradação, enquanto o decodificador de reconstrução visa reconstruir uma imagem de alta qualidade correspondente. Esse design permite que o pré-treinamento se beneficie tanto da modelagem de imagem mascarada quanto do aprendizado contrastivo, resultando em uma representação generalizada adequada para tarefas de restauração. Beneficiando-se do MaskDCPT simples, porém potente, o codificador pré-treinado pode ser usado para abordar a restauração universal de imagens e alcançar desempenho excepcional. A implementação do MaskDCPT melhora significativamente o desempenho tanto para redes neurais convolucionais (CNNs) quanto para Transformers, com um aumento mínimo de 3,77 dB no PSNR na tarefa de restauração all-in-one 5D e uma redução de 34,8% no PIQE em comparação com a linha de base em cenários de degradação do mundo real. Ele também demonstra forte generalização para tipos e níveis de degradação previamente não vistos. Além disso, organizamos e lançamos o conjunto de dados UIR-2.5M, que inclui 2,5 milhões de amostras de restauração pareadas em 19 tipos de degradação e mais de 200 níveis de degradação, incorporando dados sintéticos e do mundo real. O conjunto de dados, código-fonte e modelos estão disponíveis em https://github.com/MILab-PKU/MaskDCPT.
Modelos multimodais unificados visam habilitar conjuntamente a compreensão e a geração visual, mas os benchmarks atuais raramente examinam sua verdadeira integração. As avaliações existentes tratam as duas habilidades de forma isolada ou ignoram tarefas que as acoplam intrinsecamente. Para abordar essa lacuna, apresentamos o Uni-MMMU, um benchmark abrangente e consciente da disciplina que desdobra sistematicamente a sinergia bidirecional entre geração e compreensão em oito domínios centrados em raciocínio, incluindo ciência, programação, matemática e quebra-cabeças. Cada tarefa é bidirecionalmente acoplada, exigindo que os modelos (i) aproveitem a compreensão conceitual para guiar a síntese visual precisa ou (ii) utilizem a geração como um andaime cognitivo para o raciocínio analítico. O Uni-MMMU incorpora etapas intermediárias de raciocínio verificáveis, verdades fundamentais únicas e um protocolo de pontuação reproduzível para saídas textuais e visuais. Por meio de uma avaliação extensiva de modelos unificados, apenas de geração e apenas de compreensão de última geração, revelamos disparidades substanciais de desempenho e dependências cross-modais, oferecendo novos insights sobre quando e como essas habilidades se reforçam mutuamente, e estabelecendo uma base confiável para o avanço de modelos unificados.
A fusão de modelos, tipicamente em modelos do tipo Instruct e Thinking, tem demonstrado desempenho notável para raciocínio eficiente. Neste artigo, revisitamos sistematicamente o método mais simples de fusão, que interpola diretamente dois conjuntos de pesos. Em particular, observamos que a interpolação de modelos segue um paradigma evolutivo de três estágios com comportamentos distintos na trajetória de raciocínio. Essas dinâmicas fornecem um guia fundamentado para navegar a relação custo-benefício de desempenho. Resultados empíricos demonstram que um modelo estrategicamente interpolado surpreendentemente supera linhas de base sofisticadas de fusão de modelos tanto em eficiência quanto em eficácia. Validamos ainda mais nossas descobertas com extensos estudos de ablação em camadas, módulos e estratégias de decodificação de modelos. Por fim, este trabalho desmistifica a interpolação de modelos e oferece um framework prático para a criação de modelos com capacidades de raciocínio precisamente direcionadas. O código está disponível em https://github.com/wutaiqiang/MI{Github}.
Transformers com apenas decodificadores tornaram-se a arquitetura padrão para grandes modelos de linguagem (LLMs) devido ao seu forte desempenho. Estudos recentes sugerem que, em LLMs pré-treinados, as camadas iniciais, intermediárias e finais podem desempenhar papéis distintos: as camadas iniciais focam na compreensão do contexto de entrada, as camadas intermediárias lidam com o processamento específico da tarefa, e as camadas finais convertem representações abstratas em tokens de saída. Nossa hipótese é que, uma vez que as representações tenham sido processadas pelas camadas iniciais e intermediárias, os estados ocultos resultantes podem encapsular informações suficientes para suportar a geração de múltiplos tokens usando apenas as camadas finais, eliminando a necessidade de percorrer repetidamente as camadas iniciais e intermediárias. Referimo-nos a esse paradigma de inferência como Decodificação Direta de Múltiplos Tokens (DMTD). Diferente da decodificação especulativa, nosso método não introduz parâmetros adicionais, rotinas auxiliares ou verificação pós-geração. Apesar de ter sido treinado em um conjunto de dados limitado, um modelo Qwen3-4B ajustado com DMTD já demonstrou resultados promissores, alcançando até uma aceleração de 2x com apenas uma pequena perda de desempenho. Além disso, como mostrado em nossa análise de escalonamento, espera-se que seu desempenho melhore ainda mais com conjuntos de dados de treinamento maiores.
Os avanços recentes em modelos de linguagem de grande escala (LLMs) têm se concentrado na escalabilidade durante o teste para melhorar o raciocínio por meio do aumento da computação de inferência, mas frequentemente às custas da eficiência. Revisitamos o comportamento durante o teste e descobrimos um fenômeno simples, porém pouco explorado: a incerteza no raciocínio é altamente localizada—apenas um pequeno subconjunto de tokens de alta entropia afeta predominantemente a correção da saída. Motivados por isso, propomos a Intervenção Mínima Durante o Teste (MTI), uma estrutura livre de treinamento que melhora a precisão e a estabilidade do raciocínio com sobrecarga mínima. A MTI inclui: (i) Intervenção Seletiva de CFG, aplicando orientação livre de classificador apenas em posições incertas; e (ii) Orientação Leve de Prompt Negativo, reutilizando o cache KV do modelo principal para aproximar a decodificação incondicional de forma eficiente. A MTI proporciona ganhos consistentes em tarefas gerais, de codificação e STEM—por exemplo, uma melhoria média de +1,35% em oito benchmarks para o Qwen3-8B-Base e +5% no AIME2024 usando o Qwen3-32B-Reasoning—mantendo-se altamente eficiente.
A atenção esparsa treinável emergiu como uma solução promissora para abordar o gargalo de eficiência na decodificação de LLMs no processamento de contextos longos, economizando significativamente acessos à memória enquanto impacta minimamente o desempenho da tarefa. No entanto, os métodos existentes de atenção esparsa deixam uma limitação crucial não resolvida: o tamanho do cache de chave-valor (KV) permanece inalterado, o que restringe o tamanho dos lotes na GPU e limita a taxa de decodificação, especialmente em inferências em lote em grande escala. Neste artigo, mostramos que a atenção esparsa treinável naturalmente exibe forte localidade na seleção de tokens entre passos de decodificação adjacentes, permitindo assim o descarregamento do cache KV sem alterar o cálculo subjacente da atenção. No entanto, a localidade inerente ainda é insuficiente para alcançar um descarregamento eficiente, pois a transferência dos pares KV selecionados entre a CPU e a GPU continua a dominar o custo total da decodificação. Com base nessa percepção, apresentamos o NOSA, um framework de atenção esparsa treinável projetado para suportar nativamente o descarregamento do cache KV. O NOSA introduz restrições explícitas de localidade ao decompor a seleção de tokens em componentes dependentes e independentes da consulta, reduzindo assim as transferências de KV enquanto preserva o mesmo cálculo de atenção utilizado durante o treinamento. Pré-treinamos um modelo de 1 bilhão de parâmetros com o NOSA e realizamos extensos benchmarks, mostrando que ele preserva um desempenho quase sem perdas enquanto alcança uma melhoria de até 2,3x na taxa de decodificação em comparação com a linha de base de atenção esparsa treinável convencional (InfLLM-V2).
Políticas de manipulação robótica frequentemente enfrentam dificuldades para generalizar para objetos novos, limitando sua utilidade no mundo real. Em contraste, a ciência cognitiva sugere que crianças desenvolvem habilidades de manipulação destreza generalizáveis ao dominar um pequeno conjunto de brinquedos simples e, em seguida, aplicar esse conhecimento a itens mais complexos. Inspirados por isso, investigamos se capacidades de generalização semelhantes também podem ser alcançadas por robôs. Nossos resultados indicam que robôs podem aprender a agarrar de forma generalizável usando objetos montados aleatoriamente que são compostos por apenas quatro primitivas de forma: esferas, cuboides, cilindros e anéis. Demonstramos que o treinamento nesses "brinquedos" permite uma generalização robusta para objetos do mundo real, resultando em um forte desempenho zero-shot. Crucialmente, descobrimos que a chave para essa generalização é uma representação visual centrada no objeto induzida pelo nosso mecanismo proposto de pooling de detecção. Avaliado tanto em simulação quanto em robôs físicos, nosso modelo alcança uma taxa de sucesso de 67% em agarramentos no mundo real no conjunto de dados YCB, superando abordagens state-of-the-art que dependem de dados substancialmente mais específicos do domínio. Estudamos ainda como o desempenho de generalização zero-shot escala ao variar o número e a diversidade de brinquedos de treinamento e as demonstrações por brinquedo. Acreditamos que este trabalho oferece um caminho promissor para o aprendizado escalável e generalizável em manipulação robótica. Vídeos de demonstração, código, checkpoints e nosso conjunto de dados estão disponíveis em nossa página do projeto: https://lego-grasp.github.io/.
Sistemas de raciocínio baseados em modelos de linguagem de grande escala (LLMs) alcançaram recentemente desempenho de nível medalha de ouro na competição IMO 2025, produzindo provas matemáticas onde, para receber a pontuação máxima, cada etapa deve não apenas estar correta, mas também suficientemente fundamentada. Para treinar sistemas de raciocínio baseados em LLMs em cenários tão desafiadores e de natureza aberta, verificadores robustos capazes de identificar erros em nível de etapa são pré-requisitos essenciais. Apresentamos o Hard2Verify, um benchmark de verificação em nível de etapa anotado manualmente, produzido com mais de 500 horas de trabalho humano. O Hard2Verify foi projetado para avaliar rigorosamente verificadores em nível de etapa no estado da arte: os verificadores devem fornecer anotações em nível de etapa ou identificar o primeiro erro em respostas geradas por LLMs de ponta para questões matemáticas recentes, desafiadoras e de natureza aberta. Avaliamos 29 críticos generativos e modelos de recompensa de processo, demonstrando que, com exceção de alguns destaques, verificadores de código aberto ficam atrás dos modelos proprietários. Em seguida, analisamos os fatores que levam ao baixo desempenho na verificação em nível de etapa, os impactos do escalonamento de recursos computacionais dos verificadores, bem como questões fundamentais como auto-verificação e a dinâmica entre verificação e geração.
O treinamento de alinhamento apresenta tradeoffs: ele ajuda os modelos de linguagem (LMs) a melhorar em raciocínio e seguimento de instruções, mas pode resultar em perdas em habilidades como criatividade e calibração, onde os modelos base não alinhados se saem melhor. Nosso objetivo é aproveitar o melhor dos dois mundos por meio da colaboração de modelos, onde diferentes modelos no pipeline de treinamento colaboram e se complementam. Como as respostas dos LMs apresentam habilidades intercaladas que favorecem diferentes modelos, propomos a Geração Alternada (Switch Generation), onde versões pré-treinadas e alinhadas dos modelos se alternam para "falar" em uma sequência de respostas. Especificamente, treinamos um LM alternador aprendendo com os resultados da escolha de diferentes modelos para gerar o próximo segmento em diversas consultas e contextos. No momento da inferência, o LM alternador orienta diferentes checkpoints de modelos para gerar dinamicamente o próximo segmento onde seus pontos fortes são mais necessários. Experimentos extensivos com 8 baselines de colaboração de modelos e 18 conjuntos de dados mostram que 1) a colaboração de modelos supera consistentemente os modelos individuais em 16 das 18 tarefas, e 2) a Geração Alternada supera ainda mais as baselines em média 12,9%. Análises adicionais revelam que a Geração Alternada descobre habilidades composicionais para resolver problemas onde os modelos individuais têm dificuldades e generaliza para modelos e tarefas não vistos, reutilizando e reaproveitando subprodutos em pipelines caros de treinamento de modelos que, de outra forma, seriam descartados.
Modelos de condução autônoma de ponta a ponta treinados exclusivamente com aprendizado por imitação (IL) frequentemente apresentam problemas de generalização. Em contraste, o aprendizado por reforço (RL) promove a exploração por meio da maximização de recompensas, mas enfrenta desafios como ineficiência amostral e convergência instável. Uma solução natural é combinar IL e RL. Indo além do paradigma convencional de duas etapas (pré-treinamento com IL seguido de ajuste fino com RL), propomos o CoIRL-AD, uma estrutura de política dual competitiva que permite a interação entre agentes de IL e RL durante o treinamento. O CoIRL-AD introduz um mecanismo baseado em competição que facilita a troca de conhecimento enquanto evita conflitos de gradiente. Experimentos no conjunto de dados nuScenes mostram uma redução de 18% na taxa de colisão em comparação com as abordagens basais, além de uma generalização mais robusta e desempenho aprimorado em cenários de cauda longa. O código está disponível em: https://github.com/SEU-zxj/CoIRL-AD.
Avanços recentes em sistemas multiagentes impulsionados por modelos de linguagem de grande escala demonstraram uma inteligência coletiva notável por meio de comunicação eficaz. No entanto, as abordagens existentes enfrentam dois desafios principais: (i) Modelagem ineficaz da colaboração em grupo, uma vez que dependem de representações de arestas pareadas em estruturas de grafos, limitando sua capacidade de capturar relacionamentos entre múltiplos agentes; e (ii) Adaptabilidade limitada ao design da topologia de comunicação para tarefas específicas, resultando em custo excessivo de comunicação para tarefas simples e coordenação insuficiente para cenários complexos. Esses problemas restringem a escalabilidade e a implantação prática de frameworks de colaboração adaptativa. Para abordar esses desafios, propomos o HyperAgent, um framework baseado em hipergrafos que otimiza topologias de comunicação e captura efetivamente padrões de colaboração em grupo usando representações diretas de hiperarestas. Diferente das abordagens baseadas em arestas, o HyperAgent utiliza hiperarestas para conectar múltiplos agentes dentro da mesma subtarefa e emprega camadas convolucionais de hipergrafos para alcançar agregação de informação em um único passo em grupos de colaboração. Além disso, incorpora um framework de autoencoder variacional com regularização de esparsidade para ajustar dinamicamente as topologias de hipergrafos com base na complexidade da tarefa. Experimentos destacam a superioridade do HyperAgent tanto em desempenho quanto em eficiência. Por exemplo, no GSM8K, o HyperAgent alcança 95,07% de precisão enquanto reduz o consumo de tokens em 25,33%, demonstrando o potencial da otimização baseada em hipergrafos para comunicação multiagente.
O Text-to-SQL Multi-turn tem como objetivo traduzir as expressões conversacionais de um usuário em SQL executável, preservando a coerência do diálogo e o alinhamento ao esquema de destino. No entanto, a maioria dos sistemas existentes trata essa tarefa como uma simples tradução de texto e segue um paradigma de curto prazo, gerando uma consulta por turno sem execução, verificação explícita e refinamento, o que resulta em saídas não executáveis ou incoerentes. Apresentamos o MTSQL-R1, uma estrutura de treinamento agentiva para Text-to-SQL multi-turn de longo prazo. Modelamos a tarefa como um Processo de Decisão de Markov (MDP) no qual um agente interage com (i) um banco de dados para feedback de execução e (ii) uma memória de diálogo persistente para verificação de coerência, realizando um ciclo iterativo de propor para executar -> verificar -> refinar até que todas as verificações sejam aprovadas. Experimentos no COSQL e SPARC demonstram que o MTSQL-R1 supera consistentemente as linhas de base fortes, destacando a importância da verificação orientada pelo ambiente e do refinamento guiado pela memória para a análise semântica conversacional. As receitas completas (incluindo código, modelos treinados, logs, trajetórias de raciocínio, etc.) serão liberadas após a revisão interna para contribuir com a pesquisa da comunidade.
Rastreadores e geradores de vídeo resolvem problemas intimamente relacionados: os primeiros analisam o movimento, enquanto os últimos o sintetizam. Mostramos que essa conexão permite que modelos de difusão de vídeo pré-treinados realizem rastreamento de pontos zero-shot simplesmente solicitando que marquem visualmente os pontos à medida que se movem ao longo do tempo. Colocamos um marcador de cor distinta no ponto de consulta e, em seguida, regeneramos o restante do vídeo a partir de um nível intermediário de ruído. Isso propaga o marcador entre os quadros, traçando a trajetória do ponto. Para garantir que o marcador permaneça visível nessa geração contrafactual, apesar de tais marcadores serem improváveis em vídeos naturais, usamos o quadro inicial não editado como um prompt negativo. Por meio de experimentos com múltiplos modelos de difusão de vídeo condicionados por imagem, descobrimos que esses rastros "emergentes" superam os de métodos zero-shot anteriores e persistem através de oclusões, muitas vezes obtendo desempenho competitivo com modelos especializados e auto-supervisionados.
Modelos modernos de linguagem de grande escala (LLMs) com contexto longo apresentam bom desempenho em benchmarks sintéticos do tipo "agulha no palheiro" (NIAH), mas tais testes ignoram como contextos ruidosos surgem de recuperações enviesadas e fluxos de trabalho agentivos. Argumentamos que a engenharia de palheiros é necessária para construir contextos longos ruidosos que capturem fielmente fatores-chave do mundo real — distração de recuperadores heterogêneos enviesados e erros em cascata em fluxos de trabalho agentivos — para testar a robustez de modelos em contextos longos. Instanciamos isso por meio do HaystackCraft, um novo benchmark NIAH construído sobre a rede completa de hiperlinks da Wikipédia em inglês com perguntas de múltiplos saltos. O HaystackCraft avalia como estratégias heterogêneas de recuperação (por exemplo, esparsa, densa, híbrida e baseada em grafos) afetam a composição de distratores, a ordenação do palheiro e o desempenho subsequente dos LLMs. O HaystackCraft ainda estende o NIAH para configurações dinâmicas dependentes de LLMs que simulam operações agentivas, onde os modelos refinam consultas, refletem sobre seus raciocínios passados e decidem quando parar. Experimentos com 15 modelos de contexto longo mostram que (1) embora recuperadores densos mais fortes possam introduzir distratores mais desafiadores, o reranking baseado em grafos melhora simultaneamente a eficácia da recuperação e mitiga distratores mais prejudiciais; (2) em testes agentivos, até modelos avançados como o Gemini 2.5 Pro e o GPT-5 sofrem falhas em cascata devido a distratores autogerados ou lutam para realizar paradas precoces. Esses resultados destacam desafios persistentes no raciocínio agentivo de contexto longo e estabelecem o HaystackCraft como um valioso campo de testes para progressos futuros.
Sistemas multiagentes impulsionados por Modelos de Linguagem de Grande Escala se destacam em tarefas complexas por meio de colaboração coordenada, mas enfrentam altas taxas de falha em cenários de busca profunda com múltiplos turnos. Os métodos existentes de atribuição temporal lutam para diagnosticar com precisão as causas raiz, especialmente quando os erros se propagam por vários agentes. Tentativas de automatizar a atribuição de falhas analisando sequências de ações permanecem ineficazes devido à incapacidade de considerar dependências de informações que abrangem múltiplos agentes. Este artigo identifica dois desafios centrais: (i) distinguir sintomas de causas raiz na propagação de erros em sistemas multiagentes, e (ii) rastrear dependências de informações além da ordem temporal. Para abordar esses problemas, introduzimos o GraphTracer, uma estrutura que redefine a atribuição de falhas por meio da análise de fluxo de informações. O GraphTracer constrói Grafos de Dependência de Informação (IDGs) para capturar explicitamente como os agentes referenciam e constroem sobre saídas anteriores. Ele localiza causas raiz rastreando essas estruturas de dependência em vez de confiar em sequências temporais. O GraphTracer também utiliza geração sintética de dados com consciência de grafo para direcionar nós críticos, criando cenários de falha realistas. Avaliações no benchmark Who\&When e integração em sistemas de produção demonstram que o GraphTracer-8B alcança até 18,18\% maior precisão de atribuição em comparação com os modelos state-of-the-art e permite melhorias de desempenho de 4,8\% a 14,2\% em estruturas multiagentes implantadas, estabelecendo uma solução robusta para depuração de sistemas multiagentes.
Sistemas de modelos de linguagem de grande escala (LLMs) multiagentes estão sendo cada vez mais adotados para tarefas complexas de processamento de linguagem que exigem comunicação e coordenação entre agentes. No entanto, esses sistemas frequentemente sofrem com uma sobrecarga significativa devido ao reprocessamento repetido de contextos sobrepostos entre os agentes. Em pipelines típicos, uma vez que um agente recebe uma mensagem de seu predecessor, o contexto completo — incluindo turnos anteriores — deve ser reprocessado do zero, resultando em processamento ineficiente. Embora o cache de chave-valor (KV) seja uma solução eficaz para evitar computação redundante em cenários de agente único, onde os prefixos permanecem inalterados, ele não pode ser reutilizado diretamente em cenários multiagentes devido à divergência de prefixos introduzida por extensões de contexto específicas de cada agente. Identificamos que o desafio central reside na variação de deslocamento dos caches KV entre os agentes. Para resolver isso, propomos o KVCOMM, uma estrutura livre de treinamento que permite o preenchimento eficiente em inferência multiagente ao reutilizar caches KV e alinhar deslocamentos de cache para contextos sobrepostos sob diversos prefixos. O KVCOMM estima e ajusta os caches KV para conteúdo compartilhado ao referenciar um conjunto de exemplos em cache — denominados âncoras — que armazenam desvios de cache observados sob diferentes prefixos. O conjunto de âncoras é mantido e atualizado online, permitindo adaptação dinâmica a diferentes solicitações de usuários e estruturas de contexto. O KVCOMM alcança uma taxa de reutilização superior a 70% em diversas cargas de trabalho multiagentes, incluindo geração aumentada por recuperação, raciocínio matemático e tarefas de codificação colaborativa, tudo sem degradação de qualidade. Especificamente, quando cada agente totalmente conectado recebe 1K tokens de entrada com 512 tokens de prefixo e 512 tokens de saída em um cenário de cinco agentes, o KVCOMM alcança uma aceleração de até 7,8x em comparação com o pipeline de preenchimento padrão, reduzindo o TTFT de ~430 ms para ~55 ms.
A inferência remota permite que dispositivos leves aproveitem modelos poderosos na nuvem. No entanto, a latência da rede de comunicação torna as previsões desatualizadas e inadequadas para tarefas em tempo real. Para resolver isso, introduzimos o Dedelayed, um método corretivo de atraso que mitiga atrasos arbitrários na inferência remota, permitindo que o dispositivo local produza saídas de baixa latência em tempo real. Nosso método emprega um modelo local leve que processa o quadro atual e funde características que um modelo remoto pesado calcula a partir de quadros passados. Em vídeos do conjunto de dados de direção BDD100K, o Dedelayed melhora a precisão da segmentação semântica em relação ao mais forte dos baselines apenas local ou apenas remoto em todos os atrasos realistas da rede de comunicação além de 33 ms. Sem incorrer em atraso adicional, ele melhora a precisão em 6,4 mIoU em comparação com a inferência totalmente local e 9,8 mIoU em comparação com a inferência remota, para um atraso de ida e volta de 100 ms. A vantagem aumenta sob atrasos mais longos e cenas de maior movimento, pois a inferência dividida com mitigação de atraso sustenta a precisão de forma mais eficaz, proporcionando vantagens claras para tarefas em tempo real que devem permanecer alinhadas com o estado atual do mundo.
Modelos de Linguagem de Grande Escala (LLMs) demonstram habilidades linguísticas em nível humano ou até superior, modelando efetivamente estruturas sintáticas, embora os módulos computacionais específicos responsáveis permaneçam obscuros. Uma questão fundamental é se as capacidades comportamentais dos LLMs derivam de mecanismos semelhantes aos do cérebro humano. Para abordar essas questões, introduzimos a Sonda de Marcação Hierárquica de Frequência (HFTP), uma ferramenta que utiliza análise no domínio da frequência para identificar componentes neuronais dos LLMs (por exemplo, neurônios individuais de Perceptrons Multicamadas (MLPs)) e regiões corticais (via gravações intracranianas) que codificam estruturas sintáticas. Nossos resultados mostram que modelos como GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1 e GLM-4 processam sintaxe em camadas análogas, enquanto o cérebro humano depende de regiões corticais distintas para diferentes níveis sintáticos. A análise de similaridade representacional revela um alinhamento mais forte entre as representações dos LLMs e o hemisfério esquerdo do cérebro (dominante no processamento de linguagem). Notavelmente, modelos atualizados exibem tendências divergentes: Gemma 2 mostra maior similaridade cerebral do que Gemma, enquanto Llama 3.1 mostra menos alinhamento com o cérebro em comparação com Llama 2. Essas descobertas oferecem novos insights sobre a interpretabilidade das melhorias comportamentais dos LLMs, levantando questões sobre se esses avanços são impulsionados por mecanismos semelhantes ou não aos humanos, e estabelecem a HFTP como uma ferramenta valiosa que une linguística computacional e neurociência cognitiva. Este projeto está disponível em https://github.com/LilTiger/HFTP.
Com o surgimento de modelos de linguagem de raciocínio e métodos de escalonamento em tempo de teste como um paradigma para melhorar o desempenho dos modelos, frequentemente é necessário um volume substancial de computação para gerar múltiplas sequências candidatas a partir do mesmo prompt. Isso permite a exploração de diferentes caminhos de raciocínio em direção à solução correta, mas aloca o mesmo orçamento de computação para cada prompt. Baseados na suposição de que diferentes prompts carregam diferentes graus de complexidade e, portanto, necessidades de computação distintas, propomos o EAGer, um método de geração sem treinamento que aproveita a incerteza do modelo por meio da distribuição de entropia por token para reduzir a computação redundante e, simultaneamente, melhorar o desempenho geral. O EAGer permite a ramificação para múltiplos caminhos de raciocínio apenas na presença de tokens de alta entropia e, em seguida, realoca o orçamento de computação economizado para as instâncias onde a exploração de caminhos alternativos é mais necessária. Descobrimos que, em vários modelos de código aberto em benchmarks de raciocínio complexo, como o AIME 2025, o EAGer pode realocar o orçamento sem acessar rótulos de destino, alcançando a melhor relação eficiência-desempenho em termos de comprimento de raciocínio e Pass@k. Quando os rótulos de destino estão acessíveis, o EAGer gera até 65% menos tokens (economizando, assim, computação) e alcança uma melhoria de até 37% no Pass@k em comparação com a Amostragem Paralela Completa.
Modelos de raciocínio aprimoram sua capacidade de resolução de problemas por meio de escalonamento no tempo de inferência, alocando mais recursos computacionais por meio de orçamentos de tokens mais longos. Identificar quais trajetórias de raciocínio têm maior probabilidade de sucesso continua sendo uma oportunidade crucial: prever de forma confiável caminhos produtivos pode reduzir substancialmente o desperdício de computação e melhorar a eficiência geral. Introduzimos sinais de Trajetória Latente que caracterizam a evolução temporal das representações internas de um modelo durante a geração de tokens intermediários de raciocínio. Ao medir a mudança geral nas representações latentes entre o início e o fim do raciocínio, a mudança acumulada ao longo das etapas intermediárias e a extensão em que essas mudanças avançam em direção ao estado final, mostramos que esses sinais preveem a precisão da solução de forma mais confiável do que métricas entre camadas e medidas de confiança baseadas na saída. Quando usados para orientar a seleção de respostas em várias gerações amostradas, os sinais de Trajetória Latente tornam o escalonamento no tempo de teste mais eficaz e eficiente do que a votação majoritária, reduzindo o uso de tokens em até 70% enquanto preservam e até melhoram a precisão em 2,6% em média. Além disso, esses sinais preditivos frequentemente surgem no início da trajetória de raciocínio, permitindo a seleção precoce e a alocação de recursos computacionais para os candidatos mais promissores. Nossas descobertas contribuem não apenas com estratégias práticas para eficiência no tempo de inferência, mas também com uma perspectiva mais profunda de interpretabilidade sobre como os processos de raciocínio são representados e diferenciados no espaço latente.
Com o advento do DeepSeek-R1, uma nova onda de métodos de aprendizado por reforço (RL) surgiu, aparentemente desbloqueando um raciocínio matemático mais robusto. No entanto, uma análise mais detalhada do ecossistema de código aberto revela uma limitação crítica: com um número suficiente de tentativas (por exemplo, pass@1024), muitos modelos base existentes já resolvem quase todas as questões em benchmarks de matemática amplamente utilizados, como MATH-500 e AIME 2024. Isso sugere que os métodos de ajuste fino com RL predominantes na literatura de raciocínio em modelos de linguagem (LLM) aprimoram principalmente modos de solução existentes, em vez de descobrir novos. Esse aprimoramento contrasta com a promessa mais ampla do RL: fomentar a exploração e adquirir novas habilidades. Para superar esse platô, introduzimos o MATH-Beyond (MATH-B), um benchmark construído deliberadamente para desafiar modelos de código aberto com até 8 bilhões de parâmetros, mesmo sob grandes orçamentos de amostragem. Melhorar o desempenho em nosso benchmark via RL exige métodos que aprendam a raciocinar de maneiras que vão além das capacidades dos modelos base em amostragens repetidas. Como os problemas são extraídos de subconjuntos dos conjuntos de dados DAPO-Math-17K e DeepScaleR, eles permanecem tematicamente equivalentes à matemática padrão do ensino médio. Validando nossa premissa, modelos ajustados com RL, como Nemotron-Research-Reasoning-Qwen-1.5B e DeepScaleR-1.5B-Preview, têm desempenho ruim no MATH-B em pass@1024, mostrando como as abordagens existentes falham em lidar com instâncias mais difíceis. Esperamos que o MATH-B catalise abordagens de RL orientadas à exploração que eliciem capacidades de raciocínio mais profundas. Disponibilizamos o MATH-B em https://huggingface.co/datasets/brendel-group/MATH-Beyond.
O surgimento de grandes modelos de linguagem (LLMs) abriu novas oportunidades para a criação de personagens não jogáveis (NPCs) dinâmicos em ambientes de jogos, permitindo tanto a execução de tarefas funcionais quanto a geração de diálogos consistentes com a personalidade do personagem. Neste artigo, nós (Tu_Character_lab) relatamos nossa participação no Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, que avalia agentes em três categorias: diálogo orientado a tarefas, diálogo contextualmente consciente e sua integração. Nossa abordagem combina duas estratégias complementares: (i) técnicas de *prompting* leve na categoria API, incluindo um método de *prompting* de "Deflanderização" para suprir o excesso de interpretação de papéis e melhorar a fidelidade às tarefas, e (ii) modelos grandes ajustados na categoria GPU, utilizando o Qwen3-14B com ajuste supervisionado (SFT) e Adaptação de Baixa Classificação (LoRA). Nossas melhores submissões ficaram em 2º lugar na Tarefa 1, 2º lugar na Tarefa 3 (categoria API) e 4º lugar na Tarefa 3 (categoria GPU).
O raciocínio não se trata apenas de resolver problemas — também envolve avaliar quais problemas valem a pena resolver. As avaliações de sistemas de inteligência artificial (IA) tradicionalmente se concentraram na resolução de problemas, historicamente estudando como os modelos jogam games como xadrez e Go. Neste artigo, defendemos um novo paradigma que avalia como os sistemas de IA avaliam os games. Primeiro, introduzimos um formalismo para avaliar tais avaliações. Em seguida, utilizamos um conjunto de dados em larga escala com mais de 100 board games inéditos e mais de 450 julgamentos humanos para comparar as avaliações produzidas por modelos modernos de linguagem e raciocínio com as de pessoas e agentes computacionais simbólicos. Consideramos dois tipos de consultas avaliativas: avaliar o payoff (ou justiça) e a diversão dos games. Essas consultas abrangem duas dimensões relevantes para o design de avaliações de IA: a complexidade computacional da consulta e a dificuldade de quantificá-la. Nossos resultados mostram que os modelos de raciocínio geralmente estão mais alinhados com as pessoas em suas avaliações de games do que os modelos de linguagem sem raciocínio. No entanto, observamos uma relação não monotônica: à medida que os modelos se aproximam do ótimo da teoria dos jogos, sua correspondência com os dados humanos diminui. Também observamos mais "irregularidade" entre os modelos ao avaliar a diversão, alinhado com a maior dificuldade de quantificar essa consulta. Em todas as consultas e games, os modelos de raciocínio mostram uso de recursos altamente variável e imprevisível ao avaliar consultas, destacando a importância de incorporar meta-raciocínio mais racional em termos de recursos em modelos de linguagem e raciocínio.