Artigos de pesquisa em IA selecionados diariamente com traduções
Muitos momentos no mundo real não esperam que um usuário pergunte. Um incêndio começa em um monitor de segurança, uma expressão passa por uma chamada de vídeo, ou um produto que um espectador deseja surge rapidamente em uma transmissão ao vivo. No entanto, os grandes modelos de hoje permanecem, em sua maioria, baseados em turnos por design: eles respondem apenas quando são chamados, e até mesmo aplicativos de chamada de vídeo que parecem interativos ainda operam como sistemas de pergunta e resposta, reagindo apenas quando consultados ou solicitados. Defendemos um paradigma diferente: um modelo que está presente no mundo como uma pessoa. Ele observa continuamente o que está acontecendo agora, decide por si mesmo se deve falar ou permanecer em silêncio, interage em tempo real e delega para um modelo de fundo quando o problema é difícil. Para avançar os modelos de interação e sua adoção em diferentes domínios, fazemos duas contribuições totalmente de código aberto. Primeiro, lançamos o JoyAI-VL-Interaction, um modelo de interação VL (visão-linguagem) de escala 8B, focado principalmente em visão. O modelo toma a decisão de resposta internamente, escolhendo a cada segundo permanecer em silêncio, responder ou delegar a um modelo de fundo, e se destaca na capacidade de resposta acionada por visão e na consciência temporal. Acompanhamos com uma receita de treinamento transferível, a partir da qual emergem capacidades para as quais nunca treinamos, como guiar um comprador através de telas de aplicativos em mudança ou improvisar uma palestra a partir de uma apresentação de slides. Em segundo lugar, lançamos um sistema completo e implantável construído em torno desse modelo. O sistema transmite qualquer vídeo em andamento para o modelo, tornando-o genuinamente presente no mundo. Todos os outros componentes são plugáveis, incluindo módulos ASR/TTS, memória, interface de visualização e um cérebro de fundo que pode se conectar a qualquer API ou agente. Em seis cenários do mundo real, avaliadores humanos preferem o JoyAI-VL-Interaction aos assistentes de chamada de vídeo incorporados do Doubao e do Gemini por uma ampla margem. Até onde sabemos, este é o primeiro modelo de interação aberto, orientado por visão, lançado juntamente com sua receita de treinamento, dados e sistema implantável completo.
Os dados contam histórias que moldam a sociedade; o trabalho do jornalista de dados é transformar informações brutas em narrativas nas quais leigos possam confiar. Uma reportagem jornalística de alta qualidade leva semanas de uma equipe de redação: busca por contexto, execução de estatísticas, escolha de um ângulo e elaboração de elementos visuais. Agentes recentes lidam bem com etapas individuais: agentes de ciência de dados fecham o ciclo de análise, enquanto agentes de design sintetizam sites visualmente atraentes. Mas será que um agente pode atuar como jornalista de dados do início ao fim? Apresentamos o Agente Jornalista de Dados (Data2Story), uma estrutura multiagente que orquestra papéis especializados em uma única redação virtual. O Data2Story contribui com duas inovações: (i) alegações são fundamentadas em evidências — um Inspetor vincula cada número, ângulo e recurso de volta aos dados, código ou referência externa; (ii) artigos são multimodalmente generativos — em vez de recorrer a texto simples e gráficos estáticos, o Data2Story raciocina sobre o que os leitores desejarão ver e, então, emprega ferramentas multimodais, como mapas interativos para geografia e áudio para música. Avaliamos o Data2Story em 18 artigos, cada um emparelhado com a reportagem especializada originalmente publicada, ao longo de quatro eixos: (a) cobertura de ângulos humano-agente; (b) avaliação por rubrica com 53 participantes em cinco dimensões; (c) agentes de uso computacional como avaliadores, um substituto econômico para a forma como leitores navegam em artigos interativos; e (d) verificabilidade, onde um verificador de código reexecuta declarações com base nos dados e confere alegações em relação a referências. O Data2Story produz histórias multimídia competitivas e rastreáveis por evidências, com especial destaque em transparência e auditabilidade. Artigos humanos mantêm vantagem no ângulo editorial, design criativo e apresentação. Posicionamos o Data2Story como um colaborador para jornalistas, possibilitando uma reportagem mais baseada em evidências, transparente e verificável. Código e demonstrações estão disponíveis em https://data2story.github.io.
Políticas de robôs generalistas devem seguir instruções do usuário enquanto raciocinam sobre como objetos, câmeras e ações robóticas interagem no mundo físico tridimensional. Modelos recentes de visão-linguagem-ação (VLAs) e modelos de mundo-vídeo-ação (WAMs) herdam fortes prioridades semânticas ou temporais de modelos fundacionais em larga escala, mas ainda operam principalmente em quadros de imagem 2D ou espaços latentes derivados do 2D, deixando implícita a geometria 3D necessária para manipulação com contato. Propomos o Modelo de Ação Geométrica (GAM), uma política de manipulação condicionada por linguagem que reaproveita diretamente um modelo fundacional geométrico (GFM) pré-treinado como substrato compartilhado para percepção, previsão temporal e decodificação de ações. O GAM divide o GFM em uma camada intermediária: as camadas rasas servem como codificador de observação, e um preditor causal futuro inserido na camada de divisão prevê tokens latentes futuros condicionados à linguagem, propriocepção e histórico de ações. Os tokens futuros previstos são então roteados pelos blocos restantes do GFM para propagação e decodificação de características, permitindo que um único backbone produza tanto geometria futura quanto ações. Esse design equipa o GFM com modelagem temporal de mundo condicionada por linguagem por meio de modificações arquitetônicas mínimas, preservando suas ricas prioridades geométricas. Em um conjunto amplo de benchmarks de simulação e manipulação robótica real, o GAM é mais preciso, mais robusto, mais rápido e mais leve que as linhas de base atuais em escala de modelo fundacional.
DreamX-World 1.0 é um modelo de mundo geral interativo de texto/imagem para vídeo, projetado para geração controlável de horizonte longo. Ele suporta navegação de câmera, revisita a regiões previamente observadas e eventos acionáveis por prompt em domínios fotorrealistas, em estilo de jogo e estilizados. Nosso motor de dados combina renderização precisa de câmera no Unreal Engine, gravações de jogabilidade ricas em ação e vídeos do mundo real com geometria de câmera recuperada. Para controle de câmera, introduzimos o E-PRoPE, uma variante leve da codificação posicional projetiva que mantém a geometria de câmera projetiva do PRoPE enquanto aplica atenção consciente de câmera a tokens reduzidos espacialmente. Convertemos um gerador de vídeo bidirecional em um modelo de mundo autorregressivo de poucos passos usando forçamento causal, destilação estilo DMD e treinamento com longos roteiros. O treinamento em contextos de horizonte longo autogerados expõe o modelo ao seu próprio histórico gerado e reduz o desvio de estilo e cor que se acumula ao longo de blocos autorregressivos. A Persistência de Cena Condicionada à Memória recupera visualizações anteriores por meio de recuperação baseada em geometria de câmera, enquanto a reciclagem residual torna o caminho de condicionamento menos sensível a latentes de memória imperfeitas. A Ajustagem de Instruções de Evento adiciona controle de eventos combináveis, e o alinhamento por aprendizado por reforço recupera o controle de câmera e a qualidade visual após a destilação. Com execução DiT de precisão mista, reutilização residual, decodificação VAE podada em 75% e paralelismo de pipeline assíncrono, o DreamX-World 1.0 atinge até 16 FPS em oito GPUs RTX 5090. Em nossa avaliação básica de 5 segundos, o DreamX-World 1.0 alcança uma pontuação de controle de câmera de 73,75 e uma pontuação geral de 84,76, superando o HY-WorldPlay 1.5 e o LingBot-World na pontuação geral, que obtêm 80,79 e 80,45, respectivamente.
Este relatório técnico apresenta o VibeThinker-3B, um modelo denso compacto com 3 bilhões de parâmetros desenvolvido para investigar até onde o raciocínio verificável pode ser impulsionado dentro de um regime estritamente de modelo pequeno. Baseando-se no paradigma de pós-treinamento Spectrum-to-Signal, aprimoramos sistematicamente o modelo por meio de um pipeline otimizado que inclui ajuste fino supervisionado baseado em currículo, aprendizado por reforço multi-domínio e autodestilação offline. Avaliações experimentais demonstram que o VibeThinker-3B atinge desempenho de nível de fronteira em tarefas verificáveis altamente exigentes. Especificamente, atinge uma pontuação de 94,3 no AIME26 (melhorando para 97,1 com escalonamento em tempo de teste no nível de afirmação), 80,2 Pass@1 no LiveCodeBench v6 e exibe forte generalização fora da distribuição com uma taxa de aceitação de 96,1% em concursos recentes não vistos do LeetCode. Isso efetivamente o coloca na faixa de desempenho dos sistemas de raciocínio de primeira linha, equiparando-se ou superando modelos emblemáticos que são ordens de magnitude maiores, como DeepSeek V3.2, GLM-5 e Gemini 3 Pro. Além disso, uma pontuação de 93,4 no IFEval confirma que essa melhoria extrema de raciocínio não compromete a controlabilidade estrita de instruções. Estendendo nosso trabalho anterior de 1,5B, essas descobertas motivam a Hipótese de Compressão-Cobertura Paramétrica, que vê o raciocínio verificável como compressível em núcleos de raciocínio compactos, enquanto o conhecimento de domínio aberto e a competência de propósito geral exigem ampla cobertura de parâmetros sobre fatos, conceitos e cenários de cauda longa. Essa perspectiva sugere que modelos compactos não são meramente substitutos eficientes em implantação, mas um caminho complementar para o desempenho de nível de fronteira em regimes de capacidade densa em parâmetros.
Agentes de codificação baseados em Modelos de Linguagem de Grande Porte (LLM) têm alcançado resultados robustos em tarefas de engenharia de software, mas a exploração de repositórios continua sendo um gargalo significativo: localizar código relevante consome um orçamento substancial de tokens e polui o contexto do agente com trechos irrelevantes. Na maioria dos agentes, o mesmo modelo explora o repositório e resolve a tarefa, deixando leituras e buscas exploratórias no histórico do solucionador. Apresentamos o FastContext, um subagente de exploração dedicado que separa a exploração do repositório da resolução. Invocado sob demanda, o FastContext emite chamadas de ferramentas paralelas e retorna caminhos de arquivos concisos e intervalos de linhas como contexto focado. O FastContext é alimentado por modelos de exploração especializados, abrangendo parâmetros de 4B a 30B. Os inicializamos a partir de trajetórias fortes de modelos de referência e os refinamos com recompensas baseadas na tarefa para busca ampla no primeiro turno, coleta de evidências em vários turnos e geração precisa de citações. Em SWE-bench Multilingual, SWE-bench Pro e SWE-QA, a integração do FastContext ao Mini-SWE-Agent melhora as taxas de resolução de ponta a ponta em até 5,5%, enquanto reduz o consumo de tokens do agente de codificação em até 60%, com sobrecarga marginal. Esses resultados mostram que a exploração do repositório pode ser separada da resolução e tratada de forma eficaz por modelos especializados. Código e dados: https://github.com/microsoft/fastcontext
Inteligência agentiva eficiente e escalável requer modelos que possam oferecer tanto respostas de baixa latência quanto fortes capacidades de raciocínio, mantendo-se práticos para treinar, servir e implantar. Neste relatório, apresentamos Ling-2.6 e Ring-2.6, uma família de modelos projetados para enfrentar esse desafio em escala. O Ling-2.6 é otimizado para geração instantânea de respostas e alta capacidade por token de saída, enquanto o Ring-2.6 é adaptado para raciocínio mais profundo e fluxos de trabalho agentivos mais avançados. Em vez de treinar do zero, atualizamos o modelo base Ling-2.0 por meio de pré-treinamento de migração arquitetural e pós-treinamento em larga escala. Essa atualização é guiada por um co-design unificado da arquitetura do modelo, objetivos de otimização, sistemas de serviço e ambientes de treinamento agentivo, possibilitando melhorias tanto na capacidade do modelo quanto na eficiência de implantação. No nível arquitetural, introduzimos um design de atenção linear híbrido que integra Lightning Attention com MLA, melhorando a eficiência do treinamento e da decodificação em contextos longos. Para aumentar ainda mais a eficiência dos tokens, otimizamos a capacidade por token de saída por meio de Cadeia de Pensamento Evolucionária, Otimização de Política de Unidade Linguística, alinhamento bidirecional de preferências e destilação de resposta correta mais curta. Para capacidades agentivas, propomos KPop, um framework de aprendizado por reforço projetado para suportar o treinamento estável do Ring-2.6-1T em dados fundamentados em ambiente de larga escala. O KPop melhora a eficiência do treinamento por meio de escalonamento assíncrono entre codificação, busca, uso de ferramentas e execução de fluxos de trabalho, permitindo aprendizado escalável a partir de interações complexas agente-ambiente. Juntos, Ling-2.6 e Ring-2.6 fornecem um caminho prático para sistemas agentivos eficientes, escaláveis e abertos. Disponibilizamos como código aberto todos os checkpoints da família 2.6 para apoiar futuras pesquisas e desenvolvimento em inteligência agentiva prática.
Modelos de Linguagem de Difusão Mascarada (MDLMs) emergiram como um paradigma distinto para geração de sequências. À medida que os MDLMs se tornam diversos em capacidades e cobertura de conhecimento, surge uma questão importante sobre como combinar seus conhecimentos. Nesse sentido, investigamos primeiro as dinâmicas únicas de decodificação dos MDLMs. Descobrimos que gerações bem-sucedidas exibem dinâmicas estáveis de confiança sobre posições relevantes para a resposta, enquanto trajetórias não confiáveis podem frequentemente ser corrigidas pela injeção de estados intermediários promissores de outros modelos. Guiados por essa observação, propomos o TIE (Ensemblagem Iterativa Baseada em Trajetórias), uma estrutura de fusão de conhecimento na qual MDLMs identificam iterativamente trajetórias confiáveis de decodificação e as retransmitem entre modelos. O TIE monitora as dinâmicas de confiança sobre posições relevantes para a resposta para determinar qual modelo segue atualmente uma trajetória mais confiável e transfere seletivamente sequências parcialmente desruídas entre modelos. Como o modelo na trajetória mais promissora frequentemente muda ao longo das etapas de desruído, o TIE permite que diferentes modelos contribuam com forças complementares em diferentes estágios da geração. O forte desempenho em diversas tarefas de raciocínio, juntamente com nossas análises, sugere que o TIE oferece uma abordagem prática para o problema pouco explorado da ensemblagem de MDLMs.
A renderização inversa de cenas urbanas a partir de vídeos capturados possibilita inúmeras aplicações, incluindo criação de conteúdo e simulação de direção autônoma. Métodos de renderização baseados em física seguem e controlam a física da iluminação, mas sofrem com artefatos de reconstrução e renderização. Embora modelos generativos produzam vídeos realistas, eles oferecem consistência e controlabilidade limitadas. Apresentamos o BRDFusion, uma estrutura unificada que combina dois modelos complementares para renderização inversa e direta. Especificamente, o BRDFusion recupera propriedades de cena explícitas e consistentes com modelagem física e alivia ambiguidades de otimização com priors generativos. Durante a renderização direta, o modelo físico fornece renderização controlável a partir da configuração da cena, e o modelo generativo remove ruídos e corrige artefatos. Assim, nosso método produz vídeos de alta qualidade enquanto permite controle preciso, superando as bases de referência em cenas reais e sintéticas. Além disso, o BRDFusion suporta reiluminação de novas vistas, simulação noturna e inserção/edição dinâmica de objetos. Página do projeto: https://shigon255.github.io/brdfusion-page/
Modelos de linguagem visual estão servindo como interfaces de propósito geral para tarefas multimodais complexas. No entanto, a implantação ainda enfrenta três lacunas: VLMs geralmente incorrem em alta latência e custo ao processar quadros de vídeo densos e prompts longos, o arcabouço do agente permanece estático após a implantação, e benchmarks padrão de vídeo-QA não testam se os agentes podem usar evidências visuais dentro de ambientes de uso de ferramentas. Apresentamos o VisualClaw, um agente multimodal auto-evolutivo construído em torno de dois princípios. Primeiro, a codificação híbrida reduz o custo de implantação ao filtrar quadros de streaming menos informativos com uma porta em cascata e comprimir o banco de habilidades de texto através de injeção hot/cold top-k. Segundo, a evolução de habilidades permite que o agente aprenda com falhas: memórias recuperadas condicionam um evolver como contexto concatenado direto ou como evidência guiada, produzindo atualizações no banco de habilidades que ajudam perguntas futuras. Em 4 benchmarks de vídeo-QA com 2 VLMs, o VisualClaw reduz o custo de API por pergunta em média -98% em comparação com o upload de quadro completo e -25,9% em relação à linha de base offline uniforme de 8 quadros, ao mesmo tempo que aumenta a precisão na maioria dos cenários, por exemplo, uma média de +3,85% e um pico de +15,80% no EgoSchema com Gemini 3 Flash. Para abordar a lacuna, curadamos o VisualClawArena, um benchmark agêntico multimodal de 200 cenários construído através de um pipeline rigoroso de cinco estágios; os modelos devem usar evidências de vídeo, documentos, atualizações dinâmicas e verificações executáveis dentro de um ambiente de trabalho. No VisualClawArena, a mesma estrutura com backends de agente de uso de computador melhora a precisão macro em +2,9% para Codex (GPT-5.5) e +3,2% para Claude Code (Sonnet 4.6) em comparação com as linhas de base sem evolução, com uma redução de custo de -9,5% em relação à linha de base de amostragem uniforme. Essas propriedades tornam o VisualClaw uma escolha natural para aplicações de borda, onde a cascata reduz uma sessão de streaming de 1 hora de ~3.600 uploads de API para apenas 5 a 20 chamadas e a auto-evolução o torna um assistente personalizado perfeito.
Apresentamos o Qwen-RobotWorld, um modelo de mundo em vídeo condicionado por linguagem para inteligência incorporada. Utilizando linguagem natural como interface de ação unificada, ele prevê trajetórias visuais futuras fisicamente fundamentadas a partir de observações atuais, abrangendo manipulação robótica, direção autônoma, navegação em ambientes internos e transferência humano-robô. Essa formulação unificada oferece três direções de aplicação promissoras: geração de dados sintéticos para aumento de treinamento de políticas, ambientes virtuais escaláveis para avaliação de políticas e sinais de planejamento guiados por linguagem para controle robótico downstream. Isso é alcançado por meio de um design em três partes: a) MMDiT de Fluxo Duplo com Codificação de Ações com MLLM, onde um transformer de difusão de fluxo duplo com 60 camadas acopla a semântica congelada do Qwen2.5-VL com latentes do video-VAE por meio de atenção conjunta camada a camada; b) Conhecimento Mundial Incorporado (EWK), um corpus de vídeo-texto com 8,6M (mais de 200M quadros) com mapeamento ação-linguagem em mais de 20 corporificações e mais de 500 categorias de ação; e c) Currículo Progressivo Geral+Especialista, uma estratégia de treinamento em dois estágios que primeiro aprende priores visuais gerais e depois injeta especialização incorporada sob uma interface de linguagem compartilhada. Resultados extensivos demonstram forte competitividade: classifica-se em 1º lugar geral no EWMBench e no DreamGen Bench, supera todos os modelos de código aberto no WorldModelBench e no PBench. Análises zero-shot adicionais no benchmark RoboTwin-IF corroboram ainda mais a generalização robusta e a consistência multivista.
A aprendizagem multitarefa (MTL) é essencial em sistemas de recomendação para permitir aprendizado complementar entre diversos *feedbacks* de usuários. Embora as práticas industriais modernas tenham migrado de DNNs para arquiteturas centradas em *Transformers* para fortalecer a modelagem sequencial e a capacidade de escalabilidade, elas ainda separam a codificação de características da predição multitarefa, tratando o *Transformer* como um codificador independente de tarefa. Esse projeto limita fundamentalmente o desempenho e a escalabilidade ao (1) criar um gargalo de informação sob objetivos de tarefa heterogêneos, (2) induzir interferência de gradiente que leva ao fenômeno de gangorra, e (3) forçar uma transição de fluxo de dados na qual a aprendizagem adaptativa de representações baseada em atenção é convertida em predição estática *feed-forward* de tarefas, com dinâmicas incompatíveis de leitura e escrita de informações. Propomos o OneRank, uma estrutura de ranqueamento multitarefa nativa de *Transformers* que elimina a separação entre codificador e preditor, introduzindo canais privados de tarefa para aprendizado de representação direta (*forward*) e otimização reversa (*backward*), permitindo aprendizado especializado por tarefa enquanto reduz a interferência entre tarefas. No passe direto, o OneRank aprende representações específicas de tarefa de baixo para cima por meio de seleção de informação condicionada à tarefa, contextualização ciente de candidatos e interação controlada entre tarefas. No passe reverso, o desligamento de gradiente entre tarefas isola as atualizações de parâmetros privados de cada tarefa dos módulos de extração de conhecimento compartilhado, prevenindo transferência negativa. Substituímos ainda os *scorers* MLP estáticos específicos de tarefa por pontuação dinâmica baseada em correspondência para ranqueamento personalizado ciente de contexto. Ao internalizar o raciocínio multitarefa dentro da pilha de *Transformers*, o OneRank estabelece um paradigma arquitetônico unificado e escalável. Experimentos offline e online em conjuntos de dados industriais de grande escala mostram que o OneRank supera significativamente as linhas de base do estado da arte, mantendo eficiência computacional.
À medida que agentes LLM são implantados em sessões de longo horizonte, o acúmulo de contexto eleva os custos de inferência. Abordagens existentes utilizam poda de texto ou remoção dinâmica de memória para minimizar a pegada de tokens; no entanto, suas mutações de sequência não restritas alteram layouts, introduzindo incompatibilidades de prefixo e invalidação de cache. Isso revela um trade-off crítico entre esparsidade do texto e continuidade do cache de prompt. Para abordar isso, apresentamos o TokenPilot, uma estrutura de gerenciamento de contexto de dupla granularidade. Globalmente, a Compactação Consciente de Ingestão atua como um mecanismo da estrutura para estabilizar prefixos de prompt e eliminar ruídos ambientais de mundo aberto no portal de ingestão. Localmente, a Remoção Consciente de Ciclo de Vida monitora a utilidade residual contínua dos segmentos de contexto, impondo um cronograma conservador de lote-turno para descarregar segmentos de conteúdo apenas quando a relevância da tarefa expira. Experimentos no PinchBench e Claw-Eval em modos isolado e contínuo demonstram que o TokenPilot reduz os custos em 61% e 56% no modo isolado, e 61% e 87% no modo contínuo, enquanto mantém desempenho competitivo em comparação com sistemas anteriores. O TokenPilot foi integrado ao LightMem2 em https://github.com/zjunlp/LightMem2.
Modelos de mundo visual (VWMs) sintetizam rollouts interativos e condicionados pela ação a partir de uma única imagem de contexto. No entanto, permanece uma questão em aberto quão robustos são esses modelos a perturbações adversariais. Ataques adversariais padrão falham em avaliar essa vulnerabilidade porque os atacantes não possuem vídeos futuros de referência (ground-truth) e não podem prever os controles subsequentes do usuário. Apresentamos o BadWorld, uma estrutura adversarial livre de rótulos adaptada para VWMs autorregressivos que supera sistematicamente ambas as limitações. Primeiro, para contornar a necessidade de supervisão futura, propomos um ataque de velocidade auto-supervisionado que interrompe diretamente a dinâmica inicial de remoção de ruído do modelo. Segundo, para garantir que o ataque generalize-se através de ações imprevisíveis do usuário, formulamos uma otimização bi-nível adaptativa à trajetória que minera ativamente sequências de controle difíceis para forjar perturbações independentes do controle. Avaliado em VWMs representativos com controles contínuos e discretos, o BadWorld expõe uma fragilidade estrutural severa. Imagens adversariais visualmente indistinguíveis desencadeiam de forma confiável degradação catastrófica em rollouts futuros, levando a remoção de ruído incompleta, colapso estrutural e inconsistência de controle. Essas descobertas revelam riscos críticos para a implantação de VWMs em sistemas de segurança críticos, ao mesmo tempo que destacam um mecanismo prático para proteção de privacidade.
Estender uma política visão-linguagem-ação (VLA) para uma nova tarefa tipicamente requer demonstrações teleoperadas específicas da tarefa e ajuste fino por tarefa, tornando a adaptação custosa tanto em coleta de dados quanto em computação. Neste artigo, mostramos que esse custo de adaptação por tarefa no lado alvo pode ser substituído por recuperação. Nossa política aumentada por recuperação é treinada uma única vez em demonstrações pareadas do embodiment alvo (consulta) e de um embodiment mais barato (pool, por exemplo, vídeo de mão humana), depois congelada. Novas tarefas são adicionadas na implantação anexando demonstrações do lado do pool a um pool de recuperação. A política congelada condiciona-se em trajetórias recuperadas a cada passo de controle, de modo que novas tarefas são absorvidas indexando dados, e não atualizando parâmetros. O ajuste fino é necessário apenas para assumir um novo embodiment não visto, não para cada nova tarefa. Mostramos que a recuperação melhora políticas além de uma arquitetura específica, incluindo políticas VLA padrão, mas seu efeito é especialmente pronunciado no Cosmos Policy, um modelo mundo-ação (WAM) baseado em geração de vídeo. Nesse contexto, a recuperação fornece uma progressão grosseira da tarefa, enquanto o objetivo de imagem futura do WAM oferece um sinal adicional de consistência visual que fortalece as ações condicionadas pela recuperação. No PushT, estudamos como a recuperação fornece um prior de movimento de alto nível reutilizável para generalização entre embodiments a ângulos-alvo não vistos, enquanto no RoboTwin 2.0 nosso método supera linhas de base entre embodiments em tarefas não vistas, e adicionalmente demonstramos o método em um robô real.
Neste artigo, introduzimos o SP^3, um novo algoritmo Plug-and-Play que acelera a restauração de imagens por máximo a posteriori ao substituir denoisers por Codificadores Esféricos (CE) como priors generativos. O SP^3 aproxima a etapa intratável de prior proximal ao utilizar o espaço latente firmemente estruturado dos CE como uma projeção robusta na variedade de imagens naturais. Alternando essa projeção com uma etapa de consistência de dados em forma fechada, por meio da Divisão Meio-Quadrática, obtém-se convergência estável sem exigir cálculo de gradiente durante a inferência. Esta formulação única possibilita capacidades de restauração "a qualquer momento", produzindo imagens nítidas e plausíveis desde a primeira iteração. Avaliações em uma variedade de tarefas de restauração de imagens demonstram que o SP^3 atinge qualidade perceptual comparável à de métodos de difusão e fluxo zero-shot do estado da arte, sendo de 3 a 630 vezes mais rápido.
A geração de vídeos longos exige que sujeitos recorrentes permaneçam consistentes em diferentes planos, ângulos, movimentos e transições de cena. Os métodos existentes de decomposição temporal melhoram a escalabilidade gerando vídeos tomada por tomada. No entanto, eles se concentram principalmente em otimizar continuações plausíveis para a próxima tomada, sem verificar se a memória histórica preserva evidências críticas de identidade do sujeito. Consequentemente, à medida que a geração avança, os sujeitos recorrentes podem ser diluídos, sobrescritos ou esquecidos. Neste artigo, propomos o Memento, uma estrutura guiada por reconstrução de sujeito que trata a preservação do sujeito como um problema explícito de ancoragem de identidade, baseando-se na premissa de que um banco de memória que preserva fielmente um sujeito deve ser capaz de reconstruí-lo apenas a partir da memória. Especificamente, o Memento treina conjuntamente a geração autorregressiva da próxima tomada com a reconstrução do sujeito baseada em memória, recuperando as aparências alvo a partir da memória histórica e de legendas globais da história. Para separar evidências de sujeito de longo alcance de pistas de curto prazo, o Memento introduz um mecanismo de memória de consulta dupla, onde uma consulta recupera memória relevante à identidade e a outra seleciona quadros-chave de contexto curto para uma continuação coerente. Além disso, um pipeline de dados cinematográficos consciente do sujeito fornece supervisão precisa de reconstrução por meio de descrições de sujeito consistentes e sem pronomes. Experimentos demonstram que o Memento alcança desempenho estado da arte em consistência de sujeito de longo prazo, coerência entre tomadas e qualidade visual.
Apresentamos o Massive Video Embedding Benchmark (MVEB), um benchmark de 23 tarefas para embeddings de vídeo abrangendo classificação, classificação zero-shot, agrupamento, classificação de pares, recuperação e resposta a perguntas centradas em vídeo. Avaliamos 33 modelos e descobrimos que nenhum modelo domina isoladamente: embeddings baseados em MLLM lideram em classificação, agrupamento, classificação de pares e QA; a ligação multimodal lidera em recuperação e classificação zero-shot; MLLMs generativos sem adaptação contrastiva colapsam em tarefas cross-modais. Avaliações pareadas de apenas vídeo versus áudio+vídeo mostram que a contribuição do áudio depende da proveniência da anotação do conjunto de dados: o áudio ajuda quando os rótulos foram produzidos a partir de ambas as modalidades e prejudica quando foram produzidos apenas a partir de elementos visuais, uma diferença de seis pontos consistente entre famílias de modelos. O MVEB é derivado do MVEB+, um conjunto de 184 tarefas, e foi projetado para manter a diversidade de tarefas enquanto reduz o custo de avaliação. Ele se integra ao ecossistema MTEB para avaliação unificada em texto, imagem, áudio e vídeo. Disponibilizamos o MVEB e todas as 184 tarefas, juntamente com código e um leaderboard, em https://github.com/embeddings-benchmark/mteb.
Introduzimos o Nemotron 3 Ultra, um modelo de linguagem Mistura de Especialistas híbrido Mamba-Atenção com 550 bilhões de parâmetros totais e 55 bilhões de parâmetros ativos. Pré-treinamos o Nemotron 3 Ultra em 20 trilhões de tokens de texto, estendemos o comprimento do contexto para 1 milhão de tokens e realizamos o pós-treinamento utilizando Ajuste Fino Supervisionado (SFT), Aprendizado por Reforço (RL) e Destilação On-Policy com Múltiplos Professores (MOPD). O Nemotron 3 Ultra é nosso modelo mais capaz até o momento, empregando diversas tecnologias-chave — LatentMoE, Predição de Múltiplos Tokens (MTP), pré-treinamento NVFP4, RLVR multiambiente, MOPD e controle de orçamento de raciocínio. O Nemotron 3 Ultra alcança uma taxa de transferência de inferência até ~6 vezes maior em comparação com LLMs publicamente disponíveis de última geração, mantendo precisão equivalente. A precisão de ponta, a alta taxa de transferência de inferência e o comprimento de contexto de 1 milhão de tokens tornam o Nemotron 3 Ultra ideal para tarefas autônomas e agentivas de longa duração. Disponibilizamos como código aberto os checkpoints base, pós-treinados e quantizados, juntamente com os dados de treinamento e a receita no HuggingFace.
Agentes avançados demonstram cada vez mais potencial para atuarem como engenheiros autônomos, gerando uma demanda crescente por benchmarks de avaliação que capturem a complexidade do desenvolvimento no mundo real. Tais ambientes tipicamente envolvem tanto código complexo quanto dados em larga escala (isto é, sistema de arquivos). No entanto, benchmarks existentes geralmente avaliam capacidades focadas em código ou focadas em dados de forma isolada, deixando uma lacuna clara com cenários reais de desenvolvimento. Neste artigo, preenchemos essa lacuna ao apresentar o CODA-BENCH, o primeiro benchmark a avaliar conjuntamente inteligência de código e de dados em um ambiente de uso intensivo de dados. Construímos uma sandbox Linux de uso intensivo de dados baseada no ecossistema Kaggle (contendo centenas de conjuntos de dados), onde agentes devem explorar ativamente hierarquias de arquivos complexas para identificar recursos relevantes e gerar código para tarefas analíticas orientadas a dados. O CODA-BENCH compreende 1.009 tarefas abrangendo 31 comunidades, com cada ambiente de tarefa contendo em média 980 arquivos, simulando escala e ruído realistas de dados. Avaliações de agentes avançados revelam que até mesmo sistemas de alto desempenho têm dificuldade em integrar efetivamente a descoberta de dados com a execução de código, alcançando uma taxa de sucesso de apenas 61,1%. Esses resultados destacam uma lacuna substancial nas capacidades atuais de agentes para tarefas intensivas em dados e apontam para direções promissoras para pesquisas futuras.
Os agentes web atuam por meio de longas sequências de interação, porém os benchmarks existentes avaliam apenas o sucesso terminal, descartando todas as informações processuais e oferecendo pouca orientação para melhoria. Neste trabalho, realizamos uma análise em nível de processo de agentes web. Apresentamos o WebStep, um benchmark composto por 1.800 instâncias de tarefas com dificuldade controlada e rastreamento automático de estado semântico. Cada site expõe um MDP semântico determinístico juntamente com a GUI: o agente opera na interface, enquanto o ambiente registra estados e transições de alto nível em segundo plano, permitindo uma análise refinada sem anotação manual. Com base na trajetória semântica, mostramos primeiro que métricas de processo revelam diferenças invisíveis à avaliação de resultados: três agentes cujas taxas de sucesso se agrupam entre 31-33% divergem em alcance de exploração versus precisão de execução. Em seguida, a decomposição por habilidade caracteriza a natureza dessas diferenças, expondo rankings opostos por habilidade ocultos no mesmo site: por exemplo, no Housing, o OpenAI CUA supera o Qwen3.5 em 23,7% em ações de commit, mas fica 15,6% abaixo em filtragem, identificando uma habilidade concreta a ser melhorada mesmo dentro de um domínio. A análise de bifurcação localiza ainda o erro decisivo que leva à perda da tarefa e mostra que esse erro é específico do agente, não compartilhado. Por fim, essas diferenças se ampliam à medida que as tarefas se tornam mais difíceis: a taxa de sucesso é semelhante em tarefas fáceis, mas se separa nitidamente quando a exploração se torna mais exigente. Nossa análise em nível de processo abre um novo caminho na avaliação de agentes web, fornecendo insights refinados e acionáveis sobre onde e como cada agente deve ser melhorado.
À medida que os LLMs avançam, o aprendizado por reforço (RL) pós-treinamento depende cada vez mais de recompensas multidimensionais para cultivar capacidades abrangentes. Essa mudança exige novos algoritmos capazes de otimizar objetivos diversos e potencialmente concorrentes simultaneamente. Para enfrentar isso, métodos existentes, como a Otimização de Política Desacoplada de Recompensas em Grupo (GDPO), decompõem a pontuação geral em grupos de recompensas independentes e, em seguida, calculam a perda de RL separadamente dentro de cada grupo. No entanto, essa estratégia ainda encontra conflitos de múltiplas recompensas: um único rollout pode gerar vantagens positivas em certas dimensões de recompensa, mas negativas em outras, fazendo com que sinais opostos se cancelem durante a agregação, prejudicando ainda mais a eficiência do treinamento de RL. Inspirados pela Otimização de Política por Amostragem Dinâmica (DAPO), que melhora a eficiência do treinamento de RL ao filtrar rollouts ineficazes com vantagens próximas de zero, propomos a Otimização de Política Desacoplada de Recompensas Dinâmicas em Grupo (GD^2PO). Especificamente, o GD^2PO emprega um mecanismo de filtragem ciente de conflitos para mascarar rollouts que sofrem de forte discordância entre recompensas. Ao impedir que sinais conflitantes se cancelem, essa estratégia de mascaramento preserva e amplia a magnitude das vantagens efetivas de RL, acelerando significativamente a eficiência do aprendizado. Além disso, introduzimos a reponderação em nível de consulta para ajustar dinamicamente a intensidade de atualização de cada consulta com base no consenso geral de suas recompensas. Experimentos em diversos cenários de múltiplas recompensas, incluindo chamada de ferramentas e alinhamento de preferências humanas, demonstram que o GD^2PO supera de forma consistente e significativa as linhas de base existentes. O código está disponível em https://github.com/Qwen-Applications/GD2PO.
Agentes de telefonia estão cada vez mais sendo exigidos para realizar fluxos de trabalho móveis reais, em vez de apenas prever a próxima ação na tela. No entanto, grande parte da literatura atual sobre agentes móveis ainda os avalia principalmente como controladores de GUI que observam uma tela, emitem toques e deslizes e são pontuados pelo estado-alvo do aplicativo. As tarefas reais de uso do telefone são mais amplas: exigem decidir quando usar GUIs de aplicativos, comandos do lado do dispositivo ou ferramentas estruturadas, deixando evidências de que o efeito colateral pretendido realmente ocorreu. Apresentamos o PhoneHarness, um benchmark e arcabouço de execução de ações mistas para estudar agentes de uso de telefone em fluxos de trabalho móveis verificáveis. O PhoneHarness executa um loop de agente no lado do dispositivo sobre ações de GUI, CLI e ferramentas do lado do host, combinando roteamento determinístico de ações com delegação limitada de GUI e trilhas de execução auditáveis. Seu benchmark, PhoneHarness Bench, avalia se os agentes concluem tarefas com efeitos colaterais observáveis, não apenas se produzem respostas finais plausíveis. Na divisão de avaliação anotada, o PhoneHarness atinge uma taxa de aprovação de 75,0%, superando as configurações não PhoneHarness mais fortes em 12,9 pontos percentuais. O PhoneHarness e o PhoneHarness Bench desempenham, portanto, papéis distintos, mas mutuamente dependentes: o arcabouço torna os fluxos de trabalho mistos de telefone executáveis, enquanto o benchmark mede se os agentes podem usar esse arcabouço de forma confiável e segura. Nossos resultados sugerem que a automação confiável de telefones depende do roteamento da superfície de ação e da execução verificável, e não apenas do controle visual da GUI.
Modelos Multimodais Unificados (UMMs) emergiram como uma direção crítica para a inteligência multimodal de uso geral, integrando compreensão e geração em um único arcabouço. No entanto, os UMMs existentes enfrentam desafios proeminentes: (1) os conflitos inerentes de aprendizado entre tarefas de compreensão visual e geração, levando a uma modelagem subótima em ambas as tarefas; (2) diferentes espaços visuais de compreensão e geração dificultando a escalabilidade; (3) dependência excessiva de dados específicos de tarefa, negligenciando a dualidade da compreensão e geração texto-imagem. Para enfrentar esses desafios, propomos o UniDDT, que utiliza um codificador Noisy ViT juntamente com um LLM para unificar a codificação semântica para tarefas de geração e compreensão visual, enquanto emprega um decodificador de difusão separado para desacoplar a decodificação por difusão da decodificação de texto. Com este codificador Noisy ViT, o UniDDT é capaz de utilizar o espaço latente como uma representação visual unificada, permitindo compatibilidade contínua entre tarefas de compreensão e geração. Assim, a escalabilidade nas tarefas de geração e a expressividade semântica nas tarefas de compreensão podem ser equilibradas. Além disso, construímos estruturas de dados duais a partir dos mesmos pares imagem-texto, promovendo interdependência entre os dados de geração e compreensão para explorar sua dualidade inerente. Experimentos extensivos demonstram que o UniDDT alcança uma unificação eficaz da compreensão e geração multimodal com consistência semântica e escalabilidade aprimoradas. Para tarefas de geração visual, nosso UniDDT obtém uma pontuação GenEval de 0,87 e uma pontuação geral DPG de 86,9. Para tarefas de compreensão multimodal, nosso UniDDT alcança uma pontuação de 1699,5 no benchmark MME e uma pontuação geral de 76,5 no SEEDbench.
O serviço de LLM multi-turno acumula um histórico de diálogo cujo cache de Key-Value (KV) cresce a cada interação e a cada usuário, rapidamente superando os próprios pesos do modelo e tornando a memória — e não a computação — a restrição limitante da taxa de transferência. A compressão não uniforme de KV, que aloca orçamentos heterogêneos entre as cabeças de atenção, preserva a precisão de forma muito superior aos esquemas uniformes, mas continua impraticável: as pilhas de serviço modernas assumem comprimentos de KV idênticos entre as cabeças, de modo que a heterogeneidade aprisiona a memória liberada como fragmentação de páginas, gasta até 25% do tempo de preenchimento recuperando páginas dispersas e distorce as cargas de trabalho da GPU, o que infla a latência de decodificação em até 1,7 vezes ou consome 15–20% de cada etapa de decodificação com replanejamento. Observamos que essa heterogeneidade não precisa ser descoberta em tempo de execução: a retenção por cabeça segue uma regularidade estrutural de dois níveis — um ranqueamento de cabeças invariante à entrada com proporções por cabeça estritamente delimitadas — que pode ser calibrado offline a partir de apenas 50 amostras. Com base nessa percepção, apresentamos o Tangram, um framework de serviço que resolve estaticamente o que os sistemas anteriores tratavam dinamicamente: a Reserva de Orçamento fixa a pegada pós-compressão de cada cabeça no momento da escalonamento, eliminando a recuperação de páginas; a Paginação Irregular agrupa cabeças com orçamentos semelhantes em tabelas de páginas independentes, transformando a fragmentação em memória recuperável; e o Balanceamento de Carga Antecipado pré-computa partições de GPU balanceadas sem nenhum planejamento em tempo de execução. Implementado sobre o vLLM, o Tangram serve como substrato plug-and-play para métodos existentes de compressão não uniforme, igualando sua precisão e melhorando a taxa de transferência ponta a ponta em até 2,6 vezes em relação à linha de base de KV completo. Nossa implementação está disponível publicamente em https://github.com/aiha-lab/TANGRAM.
Re-renderizar um vídeo existente a partir de um novo ponto de vista da câmara exige que a saída siga a trajetória prescrita da câmara, preservando a aparência e a dinâmica da cena original em todos os fotogramas. Os métodos existentes baseiam-se em embeddings de pose por fotograma, renderizações ruidosas de nuvens de pontos ou correspondências implícitas aprendidas, nenhum dos quais fornece uma ligação explícita e temporalmente contínua entre os píxeis de origem e de destino. Propomos o Track2View, que condiciona um transformador de difusão de vídeo a pares de trilhas de pontos 3D: trajetórias esparsas de pontos da cena projetados nas vistas da câmara de origem e de destino. Essas trilhas fornecem correspondências espaço-temporais explícitas que são temporalmente contínuas por construção, codificando qual conteúdo deve aparecer onde e quando. No núcleo do Track2View está um condicionador de trilhas de vista dupla que transfere o contexto visual da vista de origem para a vista de destino através de operações geométricas sem parâmetros e agregação temporal aprendida, garantindo generalização para trajetórias de câmara arbitrárias sem memorizar movimentos específicos. Introduzimos ainda um pipeline de curadoria de dados que extrai correspondências de trilhas um-para-um executando um rastreador de pontos 3D em pares de vistas de múltiplas câmaras temporalmente concatenadas. Num benchmark de 400 vídeos abrangendo cenas estáticas e dinâmicas, o Track2View alcança resultados de última geração em qualidade visual, sincronização de vistas e precisão de câmara, reduzindo o erro de rotação em 30-65% e o erro de translação em 61-72% em relação às principais linhas de base. A página do projeto está disponível neste URL: https://qjizhi.github.io/track2view
Quando políticas VLA pré-treinadas são ajustadas por meio de RL online, cada episódio de rollout produz apenas um único resultado binário (sucesso ou falha), mas a atualização do ator requer supervisão por transição. Abordagens existentes comumente reduzem esse resultado esparso a um único sinal de recompensa escalar ou vantagem, o que confunde formas distintas de feedback no nível da transição e oferece orientação limitada uma vez que o sucesso básico da tarefa se torna alcançável. Primeiro, um único sinal escalar confunde os dois objetivos de viabilidade e eficiência; uma vez que o sucesso básico é alcançado, o rótulo binário não fornece gradiente para distinguir conclusões eficientes das lentas. Segundo, rollouts no mundo real misturam segmentos autônomos e de intervenção; atribuir ingenuamente resultados de episódio através dessas fronteiras introduz atribuição de crédito incorreta. Para resolver esses problemas, propomos o *Hierarchical Advantage-Weighted Behavior Cloning* (HABC), que treina cabeças críticas separadas para esses dois objetivos em diferentes subconjuntos de dados e combina suas saídas com um balanço adaptativo ao estado. Uma porta adaptativa ao estado *g_t* mescla suas vantagens de um passo, priorizando a viabilidade quando o sucesso é incerto e mudando para eficiência apenas quando a viabilidade é alta, e converte o resultado em pesos por transição na perda do ator. A atribuição de crédito consciente de intervenção restringe ainda mais os rótulos de resultado a segmentos executados pela política atual, impedindo que a supervisão vaze através dos limites de intervenção. Em experimentos com robôs reais em três tarefas bimanuais de contato intenso, o HABC eleva o sucesso das linhas de base de *fine-tuning* supervisionado (SFT) de 36%, 44% e 12% para 92%, 88% e 38%.
O progresso em IA tem sido amplamente impulsionado por métodos que assumem menos. À medida que o poder computacional e os dados aumentam, abordagens com vieses indutivos mais fracos geralmente superam aquelas com suposições mais fortes. Isso é particularmente característico da área de Aprendizagem de Representação Visual, onde as abordagens evoluíram de serem dominadas pela Aprendizagem Supervisionada para a Aprendizagem Fracamente Supervisionada, chegando ao agora difundido sucesso da Aprendizagem Autossupervisionada sem rótulos humanos. No entanto, mesmo as abordagens modernas de Aprendizagem Autossupervisionada ainda dependem de vieses indutivos fortes, como aumentos, mascaramento ou recorte. Se essa tendência se mantiver, até mesmo esses vieses residuais devem se tornar gargalos em escala — e nossos experimentos confirmam isso: a força ótima dos vieses indutivos diminui à medida que os dados crescem. Isso motiva a busca por abordagens que dependam de menos suposições. Com esse objetivo, apresentamos a Diferença Temporal em Visão (DTV), um novo paradigma para aprendizado autossupervisionado a partir de vídeo que evita os vieses indutivos existentes, baseando-se, em vez disso, em uma suposição causal de que o passado causa o futuro. A DTV funciona treinando conjuntamente um codificador de imagem e um codificador de movimento, de modo que a representação do quadro atual mais o movimento codificado seja igual à representação do próximo quadro. Apesar de não aproveitar vieses indutivos fortes, a DTV iguala as receitas de ponta em tarefas espaciais densas, lançando as bases para a aprendizagem de representações sem suposições fortes.
Autoencoders esparsos (SAEs) são amplamente utilizados para interpretar representações de redes neurais, mas sua utilidade depende da reprodutibilidade das características aprendidas entre diferentes execuções de treinamento. Investigamos essa questão por meio da estabilidade de características: para cada característica do SAE, estimamos a probabilidade de que uma característica similar reapareça em um SAE treinado de forma independente. Isso fornece um sinal escalável por característica que separa características estáveis de instáveis. Em um estudo em larga escala envolvendo diferentes sementes aleatórias, modelos, camadas, tamanhos de dicionário e variantes de SAEs, encontramos uma assimetria funcional pronunciada: características estáveis carregam a maior parte do sinal relevante para reconstrução e predição, enquanto características instáveis têm impacto marginal fraco e são dominadas por gatilhos de forma superficial de baixa frequência tanto nas estatísticas de ativação quanto em explicações automáticas. Geometricamente, características instáveis são individualmente não reprodutíveis, mas concentram-se em subespaços de posto baixo reprodutíveis, sugerindo que a dependência da semente geralmente reflete ambiguidade de base dentro de uma região compartilhada do espaço de ativação, em vez de ruído puro. Um modelo sintético controlado torna esse mecanismo explícito, mostrando que características verdadeiras de posto baixo podem ser recuperadas no nível do subespaço, permanecendo não identificáveis como latentes individuais do SAE entre diferentes sementes. Finalmente, ao agregar características únicas entre sementes, construímos SAEs mais estáveis, preservando a variância explicada nesse contexto. Juntos, esses resultados mostram que características instáveis não são meramente latentes falhas ou ruidosas: elas têm fraco impacto funcional individual, mas refletem uma estrutura reprodutível de baixa dimensão que SAEs padrão resolvem de forma diferente entre sementes.
Transformadores de difusão demonstraram capacidades generativas notáveis, no entanto, as ricas representações perceptuais computadas ao longo de sua trajetória de eliminação de ruído são descartadas assim que o conteúdo é renderizado. Apresentamos o MMDiff, uma estrutura que transforma um transformador de difusão congelado em um sistema generativo multimodal que produz conjuntamente imagens juntamente com qualquer combinação de modalidades perceptuais densas usando cabeças de decodificador leves. Nossa descoberta central é que a informação perceptual está distribuída temporalmente ao longo da trajetória de eliminação de ruído, e que a fusão de características em múltiplos intervalos de tempo com pesos de agregação com variação espacial é essencial, melhorando os resultados de segmentação semântica em até 28,7% mIoU em relação à extração em um único intervalo de tempo. Adotamos ainda a extração de atenção orientada por conceitos para orientação espacial interpretável, e mostramos que as características de difusão congeladas são competitivas e complementares a codificadores de última geração, como o DINOv3. Ao treinar apenas cabeças de decodificador leves em um backbone congelado, alcançamos um desempenho robusto em segmentação semântica, detecção de objetos salientes e estimativa de profundidade, e demonstramos que essa estrutura possibilita a geração eficaz de dados sintéticos em escala.
O raciocínio avançado normalmente requer o uso de prompting de Cadeia de Pensamento, que é preciso, mas incorre em latência proibitiva e custos substanciais de inferência em tempo de teste. A alternativa padrão, o ajuste fino de modelos menores, frequentemente sacrifica a interpretabilidade enquanto introduz sobrecarga significativa de recursos e operacional. Para superar essas limitações, apresentamos a Destilação em Nível de Prompt (PLD). Extraímos padrões explícitos de raciocínio de um modelo Professor e os organizamos em uma lista estruturada de instruções expressivas para o Prompt do Sistema do modelo Aluno. Avaliado usando Gemma-3 4B, o PLD melhorou as pontuações F1 Macro no StereoSet (57% para 90,0%) e no Contract-NLI (67% para 83%), além de aumentar a precisão no LogiQA para 70%. Resultados semelhantes no Mistral Small 3.1 demonstram generalizabilidade entre arquiteturas, permitindo que esses modelos compactos alcancem desempenho de ponta com sobrecarga de latência desprezível. Essas instruções expressivas tornam o processo de tomada de decisão transparente, permitindo a verificação humana completa da lógica, tornando essa abordagem ideal para indústrias regulamentadas, como direito, finanças e moderação de conteúdo, bem como para casos de uso de alto volume e dispositivos de borda.
O aprendizado por reforço (RL) com recompensas esparsas tornou-se uma ferramenta padrão para melhorar o raciocínio de LLMs, mas seu sucesso depende criticamente da cobertura presente no modelo base. Na prática, os modelos são frequentemente preparados para RL por meio de treinamento intermediário em trajetórias de raciocínio selecionadas que ensinam habilidades primitivas úteis, como decomposição, verificação ou autocorreção. Embora eficaz, essa estratégia exige especificar manualmente o que o modelo deve aprender, e permanece incerto se essa cobertura primitiva é suficiente para problemas muito mais difíceis, que exigem combinar essas habilidades em estratégias de solução mais amplas. Estudamos uma abordagem mais automatizada: treinamento intermediário baseado em RL usando grandes corpora de dados de perguntas e respostas escritas por humanos. Em vez de tratar as soluções de referência como alvos a serem imitados, nosso método, ExpRL, as utiliza como andaimes de recompensa: as referências são ocultadas da política e usadas apenas para construir rubricas de avaliação específicas do problema para julgar trajetórias de raciocínio on-policy. A política amostra a partir do prompt do problema original, enquanto um avaliador LLM compara a trajetória de raciocínio amostrada com a solução de referência e atribui recompensas densas em nível de resultado ou de processo. Isso permite que o ExpRL reforce progresso parcial, reduções intermediárias úteis e comportamentos de raciocínio produtivos que recompensas esparsas de resposta final frequentemente falham em valorizar. Em tarefas desafiadoras de raciocínio matemático, o ExpRL produz uma preparação para RL mais forte do que SFT, GRPO com recompensas esparsas e autodestilação, e fornece uma melhor inicialização para RL subsequente com recompensas esparsas. Experimentos adicionais de domínios mistos sugerem ainda que o ExpRL pode se estender além do cenário original exclusivamente matemático.
A geração consistente de vídeos sob operações de edição requer persistência: quando edições modificam a aparência ou o layout da cena, as gerações subsequentes devem permanecer coerentes ao longo do tempo e dos pontos de vista. No entanto, os designs de memória existentes têm dificuldade em manter a consistência de longo prazo após tais modificações, pois os contextos armazenados podem se tornar desatualizados ou inválidos. Para lidar com isso, propomos o PermaVid, uma nova estrutura baseada em uma memória de contexto multimodal que separa o contexto espacial em aparência semântica e estrutura geométrica, juntamente com uma estratégia de atualização e recuperação de memória consciente de edições que mantém a evolução da memória alinhada com observações subsequentes. Especificamente, desenvolvemos dois bancos de memória complementares: uma memória de contexto RGB que captura observações cientes da aparência enquanto codifica implicitamente a geometria, e uma memória de contexto de profundidade que preserva a estrutura apenas geométrica, separada da semântica. Com base nesse design, introduzimos um modelo de geração de vídeo guiado por memória que realiza fusão de características multimodais sob condições de referência extraídas de contextos de memória de modalidade mista. Experimentos demonstram que nosso método mantém forte consistência semântica e estrutural de longo prazo após edições, superando significativamente os métodos estado da arte.
Bem-vindo à nona edição do relatório do Índice de IA. À medida que a IA continua a avançar rapidamente, surge a questão de saber se os sistemas construídos em torno dela conseguem acompanhar esse ritmo. As estruturas de governança, os métodos de avaliação, os sistemas educacionais e a infraestrutura de dados necessária para monitorizar o impacto da IA enfrentam dificuldades para acompanhar a velocidade da própria tecnologia. Essa lacuna entre o que a IA pode fazer e o quão preparados estamos para geri-la perpassa todos os capítulos deste relatório anual. Nesta edição, o relatório acompanha como a IA está a ser testada de forma mais ambiciosa em áreas como raciocínio, segurança e execução de tarefas no mundo real, e por que razão essas medições são cada vez mais difíceis de confiar. Apresenta também novas estimativas do valor económico da IA generativa, juntamente com evidências emergentes dos seus efeitos no mercado de trabalho, um quadro analítico sobre a soberania da IA e um capítulo sobre ciência desenvolvido em colaboração com a Schmidt Sciences. Pela primeira vez, o relatório inclui capítulos independentes sobre IA na ciência e IA na medicina, refletindo o crescente impacto da IA nestes dois domínios.
Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais adotados como bases para Recomendação Generativa (GR), prometendo acesso a conhecimento mundial pré-treinado. No entanto, a invocação confiável desse conhecimento para GR ainda é pouco compreendida. Um obstáculo fundamental é que GR baseada em LLMs tipicamente representa itens com IDs Semânticos (SIDs), interrompendo a interface de raciocínio em linguagem natural dos LLMs, pois esses tokens não são vistos pelo LLM durante o pré-treinamento. Abordagens existentes lidam com isso usando pipelines caros de múltiplos estágios que fundamentam os SIDs e elicitam justificativas explícitas, mas oferecem insights limitados sobre quando e por que cada estágio é necessário. Neste trabalho, decompomos sistematicamente pipelines de treinamento de raciocínio explícito para GR baseada em LLM, revelando três limitações principais: enfraquecimento da verbalização do conhecimento mundial, desalinhamento entre os espaços de embeddings de tokens de SID e de linguagem natural, e sensibilidade à qualidade das justificativas, todos prejudicando o desempenho do raciocínio explícito. Para contornar esses problemas, propomos PauseRec, um paradigma leve de raciocínio implícito, adaptado para GR. PauseRec é excepcionalmente prático, evitando custosa aquisição de rastros de raciocínio e treinamento de alinhamento de raciocínio, resultando em múltiplos benefícios: (1) supera métodos explícitos padrão de CoT em até 6,22%, (2) reduz o custo de treinamento em até 65% em horas de GPU e (3) acelera a inferência em até 71,3%. Esses resultados posicionam PauseRec como uma alternativa leve à geração explícita de justificativas, possibilitando GR baseada em LLM mais eficaz e eficiente.
Os humanos compreendem naturalmente a física de objetos por meio de interações cotidianas, mas prever com fidelidade dinâmicas deformáveis complexas, como materiais elásticos e tecidos, continua sendo um grande desafio para a visão computacional e a robótica. Apresentamos o EgoPhys, uma estrutura que constrói gêmeos digitais físicos deformáveis a partir de vídeo RGB egocêntrico utilizando priores generalizáveis. O EgoPhys supera as limitações dos métodos existentes, permitindo a geração controlável de gêmeos digitais deformáveis a partir de vídeos egocêntricos, destilando soluções de física inversa por objeto em um codebook compacto, possibilitando a predição de campos densos de rigidez de mola para objetos não vistos sem otimização por mola no momento do teste. Treinado com priores generalizáveis provenientes de diversas interações egocêntricas, o EgoPhys supera as linhas de base em reconstrução, predição futura e generalização zero-shot. Para apoiar o treinamento e a avaliação, selecionamos um conjunto de dados de interação egocêntrica abrangendo diversos objetos deformáveis, cenas e estilos de manipulação. Implantamos o EgoPhys em um robô xArm6 real, demonstrando que um gêmeo digital inicializado a partir de um único vídeo egocêntrico de manipulação humana pode servir como uma representação interna do mundo para auxiliar no planejamento com objetos deformáveis, destacando observações RGB egocêntricas como um caminho escalável para pipelines do real para a simulação.
Os benchmarks de precisão padrão são projetados para testar o quão próximos os grandes modelos de linguagem (LLMs) chegam das respostas corretas, mas não são adequados para testar se os LLMs mantêm uma resposta correta quando essa resposta é desafiada por um contra-argumento plausível. Introduzimos um protocolo controlado para avaliar a estabilidade das respostas: após um modelo responder corretamente a uma pergunta de múltipla escolha, desafiamos a resposta do modelo com um argumento coerente para uma opção incorreta e medimos se o modelo muda de ideia. A configuração a) isola o conteúdo argumentativo da pressão social explícita e b) varia o comprimento do argumento, a auto-atribuição e a fonte entre modelos. Através de sete modelos de fronteira e 57 disciplinas do MMLU, as taxas de mudança (flip rates) variam de 17,5% a 97,3%, revelando grandes diferenças na estabilidade que não são capturadas apenas pelas métricas de precisão. Descobrimos que a auto-atribuição aumenta consistentemente as taxas de mudança (média de +7,1 pp, até +18,7 pp). Além disso, combinar argumentos de respostas incorretas de vários modelos e selecionar o mais eficaz por pergunta produz desafios adversariais mais fortes do que depender de um único modelo fonte. Construímos ainda o MaxFlip, um conjunto de desafios curados que amplifica as mudanças em até +23,6 pp em relação aos desafios autogerados padrão. Disponibilizamos o protocolo, os registros dos desafios e o MaxFlip para apoiar a avaliação da estabilidade juntamente com os benchmarks de precisão padrão. Os materiais estão disponíveis em https://github.com/nafisenik/WhoFlips e https://hf.co/datasets/nafisehNik/WhoFlips.
Modelos Visão-Linguagem-Ação (VLAs) aproveitam o pré-treinamento visão-linguagem em larga escala para controle semântico de robôs, mas frequentemente carecem de previsão explícita sobre como as ações do robô alteram a cena. Modelos Mundo-Ação (WAMs) abordam essa limitação ao condicionar políticas em futuros previstos, embora as abordagens existentes tipicamente dependam de geração computacionalmente custosa de vídeos com redundância substancial em nível de pixel. Apresentamos o LaWAM, um Modelo Mundo-Ação Latente que expõe dinâmicas preditivas a políticas robóticas por meio de subobjetivos visuais latentes compactos, em vez de reconstruir vídeos futuros. No núcleo do LaWAM está um Modelo Mundo Latente (LaWM) condicionado a ações latentes. Obtemos o LaWM treinando um modelo de ação latente no espaço latente de um modelo de visão fundamental pré-treinado e reaproveitando seu decodificador direto para prever características de observações futuras para a evolução da cena. O LaWAM, então, condiciona a geração de ações nesses subobjetivos visuais latentes previstos para viabilizar um controle robótico ciente da dinâmica. O LaWAM alcança taxas de sucesso (SRs) de estado-da-arte ou competitivas em tarefas LIBERO (98,6% SR), RoboTwin (91,22% SR) e manipulação no mundo real, mantendo inferência de baixa latência. O LaWAM opera em 187 ms por predição de bloco de ação e atinge até 24x menor latência de relógio de parede que WAMs baseados em espaço de pixels.
Um sistema de moderação de conteúdo pode obter uma pontuação elevada em todas as métricas padrão de exatidão e ainda assim causar danos reais, se seus erros recaírem sobre os poucos usuários que conectam comunidades, de outra forma, separadas. Demonstramos isso em um modelo baseado em agentes, no qual N=240 agentes aprendizes em uma rede estruturada em comunidades publicam conteúdo inofensivo, produtivo ou perigoso, e um regulador remove ou penaliza tudo o que um classificador ruidoso sinaliza. A utilidade geral quase não se altera à medida que o ruído muda (ANOVA de um fator, p=0,96): por medidas agregadas, nada parece errado. O dano, em vez disso, concentra-se nesses usuários-ponte, cujas postagens úteis são suprimidas indevidamente e cujas postagens perigosas são erroneamente poupadas. Uma perda de governança (L_gov) que precifica esses dois erros separadamente do custo da aplicação mais do que dobra sob um ruído com muitos falsos positivos. A exatidão agregada oculta quem é prejudicado, e a quantidade barata de auditar é quantas conexões um usuário possui (grau), uma proxy quase perfeita para a centralidade de intermediação que define uma ponte (r=0,96).
Apesar do progresso considerável no desenvolvimento de detectores de texto gerado por máquina, a facilidade com que o texto gerado por máquina pode ser manipulado para evadir a detecção levou a sugestões de que o problema é intrinsecamente intratável. Neste trabalho, investigamos os limites de tais estratégias de evasão. Demonstramos que, embora os ataques atuais, desde a engenharia de prompt até a otimização guiada por detector, possam degradar efetivamente o desempenho de detectores padrão, eles não conseguem apagar as subjacentes "impressões digitais" estilísticas do texto de máquina. Mostramos que detectores few-shot que utilizam o espaço de características estilísticas são robustos a essas tentativas de evasão, detectando de forma confiável amostras mesmo de modelos explicitamente ajustados para evitar a detecção. Isso levanta a questão: o estilo representa uma defesa universal contra ataques de detecção de máquina? Demonstramos que a resposta é "não" ao introduzir uma nova abordagem de paráfrase que otimiza simultaneamente a indetectabilidade e a adesão a estilos humanos específicos. Mostramos que, diferentemente dos métodos anteriores, este ataque evade efetivamente todos os detectores considerados, incluindo aqueles que utilizam o estilo de escrita. No entanto, descobrimos que essa evasão não é absoluta: à medida que o número de documentos disponíveis para análise cresce, as distribuições humana e de máquina tornam-se novamente distinguíveis. No geral, nossos achados sugerem que a detecção confiável de texto gerado por máquina requer ir além da análise de um único documento para a análise de múltiplos documentos.
Humanos conseguem agarrar objetos sem esforço, enquanto robôs multifuncionais estão longe desse nível de generalidade. Argumentamos que a fonte mais natural de dados para manipulação robótica são os próprios humanos, que pegam milhares de objetos diariamente. Apresentamos o HUG, um modelo de correspondência de fluxo (flow-matching) que gera diversas formas de agarrar humanas para qualquer objeto especificado pelo usuário em uma única imagem RGB-D capturada por uma câmera estéreo. Utilizando óculos inteligentes, primeiro coletamos o 1M-HUGs, um conjunto de dados egocêntrico de agarrões humanos abrangendo 1 milhão de quadros (27,8 horas) e 6.707 instâncias de objetos distribuídos por 41 edifícios. Em seguida, para modelar a distribuição de agarrões humanos naturais, nosso inovador modelo de correspondência de fluxo funde observações RGB e de profundidade para gerar um agarrão parametrizado pela translação do pulso, rotação do pulso e pose da mão MANO. Os agarrões previstos podem ser redirecionados para diferentes mãos robóticas, possibilitando a captura imediata (zero-shot) em cenas cotidianas. Para padronizar a avaliação, construímos um novo referencial simulado, o HUG-Bench, composto por 90 objetos não vistos pertencentes a cinco categorias geométricas e diversos tamanhos, com malhas 3D em escala métrica. Avaliamos o HUG no mundo real sobre o conjunto de teste de 30 objetos do HUG-Bench, utilizando múltiplas câmeras estéreo, arquiteturas robóticas e ambientes domésticos. O HUG supera as linhas de base mais avançadas do estado da arte em +23% e +34% em nosso desafiador conjunto de objetos. O código, os dados, o referencial, os pontos de verificação (checkpoints) e uma demonstração interativa estão disponíveis em nosso site: https://grasping.io/
Polymarket emergiu como uma proeminente plataforma de mercado de previsão e uma das aplicações de crescimento mais rápido em DeFi. Para alcançar negociações de baixa latência, adota uma arquitetura híbrida que combina ordens fora da cadeia, mas as liquida na cadeia para execução final. Esse design cria uma lacuna de consistência que chamamos de Ghost Fills: uma ordem que é combinada com sucesso fora da cadeia pode posteriormente falhar durante a liquidação na cadeia. Para entender as implicações de segurança dessa lacuna, investigamos tais liquidações fracassadas construindo o GHOSTHUNTER, que as reconstrói a partir de rastros na cadeia e as atribui a padrões de ataque concretos. Em 1.952.440 transações revertidas de ordens combinadas, descobrimos que atacantes exploram o intervalo de tempo entre a combinação e a liquidação para invalidar ordens já combinadas antes que sejam finalizadas na cadeia. Em seguida, identificamos quatro vetores de ataque a partir desses incidentes: nonce bump, drenagem de saldo, revogação de permissão e armadilha de proxy, realizados por meio de 35 variantes em evolução. Esses vetores permitem que atacantes revertam seletivamente 980.133 ordens preenchidas, possibilitando previsão sem risco, caça a bots de arbitragem e manipulação de recompensas de liquidez, gerando pelo menos 1,49 milhões de dólares em lucro, o que coloca 1,78 bilhões de dólares em risco e 2,17 milhões de POL (cerca de 212 mil dólares) pagos pelo operador. Durante horários de pico, mais de 24,3% de todas as ordens preenchidas foram revertidas, causando ataques de DoS de facto. Também descobrimos que o código derivado do contrato defeituoso ainda aparece em 167 contratos independentes em 10 cadeias, mantendo pelo menos 23 milhões de dólares em fundos de usuários, estendendo o impacto além da Polymarket. Divulgamos nossas evidências às partes afetadas, e o problema foi parcialmente mitigado.
Apresentamos o TuneJury, um modelo de recompensa pareada aberto e ao nível de instância para texto-para-música, que prediz uma pontuação de preferência musical a partir de um prompt textual e de um clipe de áudio. O checkpoint disponibilizado é treinado com rótulos de preferência humana publicamente disponíveis, abrangendo votos no estilo arena (A vs. B), pares de preferência por alinhamento métrico, comparações pareadas obtidas por crowdsourcing e classificações estéticas de especialistas. A margem de pontuação prevista entre dois clipes é bem calibrada na nossa divisão de teste reservada, suportando a filtragem de dados por meio de um limiar de pontuação simples. O TuneJury generaliza tanto para pares de teste reservados quanto para benchmarks fora da distribuição, mantendo-se competitivo com linhas de base anteriores nestes últimos. Para geradores lançados após o treinamento, introduzimos a calibração de âncora, uma calibração Bradley-Terry pós-hoc por sistema que recupera a concordância com eficiência de dados substancialmente melhor do que o retreinamento do zero. A mesma recompensa congelada impulsiona ganhos consistentes no eixo de recompensa em três aplicações downstream: seleção best-of-N em tempo de inferência, otimização latente ao estilo DITTO e pós-treinamento por iteração de especialistas. O TuneJury está disponível em https://github.com/yonghyunk1m/TuneJury.