Artigos de pesquisa em IA selecionados diariamente com traduções
Os agentes de uso de computador (CUAs) têm um grande potencial para automatizar fluxos de trabalho complexos em ambientes desktop, mas o progresso em direção a agentes de propósito geral está limitado pela escassez de vídeos de demonstração humana contínuos e de alta qualidade. Trabalhos recentes enfatizam que o vídeo contínuo, e não capturas de tela esparsas, é o ingrediente crítico em falta para escalar esses agentes. No entanto, o maior conjunto de dados aberto existente, o ScaleCUA, contém apenas 2 milhões de capturas de tela, equivalentes a menos de 20 horas de vídeo. Para resolver este gargalo, apresentamos o CUA-Suite, um ecossistema em larga escala de demonstrações em vídeo especializadas e anotações densas para agentes profissionais de uso de desktop. O seu núcleo é o VideoCUA, que disponibiliza aproximadamente 10.000 tarefas demonstradas por humanos em 87 aplicações diversas, com gravações contínuas de tela a 30 fps, trajetórias cinemáticas do cursor e anotações de raciocínio em múltiplas camadas, totalizando aproximadamente 55 horas e 6 milhões de frames de vídeo especializado. Diferente de conjuntos de dados esparsos que capturam apenas coordenadas finais de clique, estes fluxos de vídeo contínuos preservam a dinâmica temporal completa da interação humana, formando um superconjunto de informações que pode ser transformado sem perdas nos formatos exigidos pelas estruturas de agentes existentes. O CUA-Suite fornece ainda dois recursos complementares: o UI-Vision, um benchmark rigoroso para avaliar capacidades de grounding e planeamento em CUAs, e o GroundCUA, um conjunto de dados de grounding em larga escala com 56 mil capturas de tela anotadas e mais de 3,6 milhões de anotações de elementos de interface do utilizador (UI). A avaliação preliminar revela que os atuais modelos de ação de base (foundation action models) têm dificuldades substanciais com aplicações de desktop profissionais (~60% de taxa de falha de tarefas). Para além da avaliação, o corpus multimodal rico do CUA-Suite suporta direções de pesquisa emergentes, incluindo análise de tela generalista, controlo espacial contínuo, modelação de recompensa baseada em vídeo e modelos de mundo visual. Todos os dados e modelos são disponibilizados publicamente.
A compreensão de vídeo com modelos de linguagem grandes multimodais (MLLMs) permanece desafiadora devido às longas sequências de tokens dos vídeos, que contêm extensas dependências temporais e quadros redundantes. As abordagens existentes normalmente tratam os MLLMs como reconhecedores passivos, processando vídeos inteiros ou quadros amostrados uniformemente sem raciocínio adaptativo. Métodos recentes baseados em agentes introduzem ferramentas externas, mas ainda dependem de fluxos de trabalho manualmente projetados e estratégias de percepção-primeiro, resultando em ineficiência em vídeos longos. Apresentamos o EVA, um Framework de Aprendizagem por Reforço Eficiente para Agente de Vídeo de Ponta a Ponta, que permite o planejamento-antes-da-percepção através de um raciocínio iterativo de resumo-planejamento-ação-reflexão. O EVA decide autonomamente o que assistir, quando assistir e como assistir, alcançando uma compreensão de vídeo eficiente e orientada por consulta. Para treinar tais agentes, projetamos um pipeline de aprendizado em três estágios simples, porém eficaz - compreendendo ajuste fino supervisionado (SFT), Otimização de Kahneman-Tversky (KTO) e Otimização de Política de Recompensa Generalizada (GRPO) - que conecta a imitação supervisionada e a aprendizagem por reforço. Além disso, construímos conjuntos de dados de alta qualidade para cada estágio, apoiando um treinamento estável e reproduzível. Avaliamos o EVA em seis benchmarks de compreensão de vídeo, demonstrando suas capacidades abrangentes. Em comparação com as linhas de base existentes, o EVA alcança uma melhoria substancial de 6-12% sobre as linhas de base gerais de MLLM e um ganho adicional de 1-3% sobre os métodos anteriores de agentes adaptativos. Nosso código e modelo estão disponíveis em https://github.com/wangruohui/EfficientVideoAgent.
Embora os esforços anteriores de red-teaming tenham se concentrado em elicitar saídas de texto prejudiciais de grandes modelos de linguagem (LLMs), tais abordagens não conseguem capturar vulnerabilidades específicas de agentes que emergem através da execução multi-etapa de ferramentas, particularmente em ecossistemas em rápido crescimento, como o Model Context Protocol (MCP). Para abordar esta lacuna, propomos um método de busca evolutiva consciente da trajetória, o T-MAP, que aproveita trajetórias de execução para orientar a descoberta de *prompts* adversariais. Nossa abordagem permite a geração automática de ataques que não apenas contornam barreiras de segurança, mas também realizam de forma confiável objetivos maliciosos através de interações reais com ferramentas. Avaliações empíricas em diversos ambientes MCP demonstram que o T-MAP supera substancialmente as linhas de base na taxa de realização de ataques (ARR, do inglês *Attack Realization Rate*) e mantém-se eficaz contra modelos de fronteira, incluindo GPT-5.2, Gemini-3-Pro, Qwen3.5 e GLM-5, revelando assim vulnerabilidades anteriormente pouco exploradas em agentes autônomos baseados em LLMs.
Os agentes autónomos de GUI móvel têm atraído crescente atenção com o avanço dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs). No entanto, os métodos existentes ainda sofrem com aprendizagem ineficiente a partir de trajetórias falhadas e atribuição de crédito ambígua sob recompensas esparsas para tarefas de GUI de longo horizonte. Para tal, propomos o UI-Voyager, um novo agente de GUI móvel de auto-evolução em duas fases. Na primeira fase, empregamos o Ajuste Fino por Rejeição (RFT), que permite a co-evolução contínua de dados e modelos num ciclo totalmente autónomo. A segunda fase introduz a Auto-Distilação Relativa de Grupo (GRSD), que identifica pontos críticos de bifurcação em rollouts de grupo e constrói supervisão densa ao nível do passo a partir de trajetórias bem-sucedidas para corrigir as falhadas. Experimentos extensivos no AndroidWorld mostram que o nosso modelo de 4B atinge uma taxa de sucesso Pass@1 de 81,0%, superando numerosas linhas de base recentes e excedendo o desempenho humano. Estudos de ablação e casos práticos verificam ainda a eficácia da GRSD. O nosso método representa um salto significativo em direção a uma automação de GUI móvel eficiente, auto-evolutiva e de alto desempenho sem a necessidade de anotação manual dispendiosa de dados.
A autodistilação emergiu como um paradigma eficaz de pós-treinamento para LLMs, frequentemente melhorando o desempenho enquanto encurta os traços de raciocínio. No entanto, no raciocínio matemático, descobrimos que ela pode reduzir o comprimento da resposta enquanto degrada o desempenho. Rastreamos essa degradação até a supressão da verbalização epistêmica - a expressão de incerteza do modelo durante o raciocínio. Através de experimentos controlados variando a riqueza do contexto de condicionamento e a cobertura de tarefas, mostramos que condicionar o professor com informações ricas suprime a expressão de incerteza, permitindo uma rápida otimização em domínio com cobertura limitada de tarefas, mas prejudicando o desempenho fora da distribuição (OOD), onde problemas não vistos se beneficiam da expressão de incerteza e do ajuste correspondente. Através dos modelos Qwen3-8B, DeepSeek-Distill-Qwen-7B e Olmo3-7B-Instruct, observamos quedas de desempenho de até 40%. Nossas descobertas destacam que expor níveis apropriados de incerteza é crucial para um raciocínio robusto e sublinham a importância de otimizar o comportamento de raciocínio para além de meramente reforçar traços de respostas corretas.
Os modelos de linguagem multimodal (MLLMs) estão sendo cada vez mais implantados como núcleos de percepção para agentes autônomos em ambientes 3D, desde a robótica até mundos virtuais. Essas aplicações exigem que os agentes percebam mudanças rápidas de estado, atribuam ações às entidades corretas e raciocinem sobre comportamentos multiagentes concorrentes a partir de uma perspectiva em primeira pessoa, capacidades que os benchmarks existentes não avaliam adequadamente. Apresentamos o GameplayQA, uma estrutura para avaliar a percepção e o raciocínio centrados na agenticidade por meio da compreensão de vídeo. Especificamente, anotamos densamente vídeos de jogabilidade multijogador em 3D a uma taxa de 1,22 rótulos/segundo, com legendas concorrentes e sincronizadas no tempo de estados, ações e eventos, estruturadas em torno de um sistema triádico do Eu, de Outros Agentes e do Mundo, uma decomposição natural para ambientes multiagentes. A partir dessas anotações, refinamos 2,4 mil pares de perguntas e respostas de diagnóstico organizados em três níveis de complexidade cognitiva, acompanhados por uma taxonomia de distratores estruturada que permite uma análise refinada de onde os modelos alucinam. A avaliação de MLLMs de ponta revela uma lacuna substancial em relação ao desempenho humano, com falhas comuns na ancoragem temporal e entre vídeos, na atribuição de papéis dos agentes e no tratamento da densidade decisional do jogo. Esperamos que o GameplayQA estimule pesquisas futuras na interseção entre IA incorporada, percepção agentiva e modelagem do mundo.
Os recentes avanços em modelos de linguagem grandes multimodais têm levado a um forte desempenho em tarefas de raciocínio, mas essas melhorias dependem amplamente de dados anotados de alta qualidade ou da destilação de um modelo professor, ambos custosos e difíceis de escalar. Para resolver isso, propomos uma estrutura de treinamento de auto-evolução não supervisionada para raciocínio multimodal que alcança melhorias de desempenho estáveis sem utilizar respostas anotadas por humanos ou modelos externos de recompensa. Para cada entrada, amostramos múltiplas trajetórias de raciocínio e modelamos conjuntamente a sua estrutura intragrupo. Utilizamos o sinal de auto-consistência do Ator como um *prior* de treinamento e introduzimos uma modulação baseada num Juiz limitado para reponderar continuamente trajetórias de qualidade diferente. Modelamos ainda as pontuações moduladas como uma distribuição a nível de grupo e convertemos as pontuações absolutas em vantagens relativas dentro de cada grupo, permitindo atualizações de política mais robustas. Treinado com Otimização de Política Relativa de Grupo (GRPO) em dados não rotulados, o nosso método melhora consistentemente o desempenho do raciocínio e a generalização em cinco *benchmarks* de raciocínio matemático, oferecendo um caminho escalável para modelos multimodais auto-evolutivos. O código está disponível em https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.
A otimização generativa utiliza modelos de linguagem de grande escala (LLMs) para melhorar iterativamente artefatos (como código, fluxos de trabalho ou instruções) usando *feedback* de execução. É uma abordagem promissora para a construção de agentes de autoaprimoramento, mas na prática permanece frágil: apesar da pesquisa ativa, apenas 9% dos agentes pesquisados utilizaram qualquer otimização automatizada. Argumentamos que essa fragilidade surge porque, para configurar um ciclo de aprendizagem, um engenheiro deve tomar escolhas de design "ocultas": O que o otimizador pode editar e qual é a evidência de aprendizagem "correta" a fornecer em cada atualização? Investigamos três fatores que afetam a maioria das aplicações: o artefato inicial, o horizonte de crédito para traços de execução e o agrupamento de tentativas e erros em evidências de aprendizagem. Através de estudos de caso em MLAgentBench, Atari e BigBench Extra Hard, descobrimos que essas decisões de projeto podem determinar se a otimização generativa tem sucesso, mas raramente são explicitadas em trabalhos anteriores. Diferentes artefatos iniciais determinam quais soluções são alcançáveis no MLAgentBench, traços truncados ainda podem melhorar agentes no Atari, e lotes maiores não melhoram monotonicamente a generalização no BBEH. Concluímos que a falta de uma maneira simples e universal de configurar ciclos de aprendizagem entre domínios é um grande obstáculo para a produção e adoção. Fornecemos orientações práticas para fazer essas escolhas.
Embora os modelos generativos de vídeo recentes tenham alcançado um realismo visual notável e estejam sendo explorados como modelos de mundo, uma verdadeira simulação física requer o domínio do espaço e do tempo. Os modelos atuais podem produzir cinemáticas visualmente suaves, mas carecem de um pulso de movimento interno confiável para ancorar esses movimentos em uma escala de tempo consistente e do mundo real. Essa ambiguidade temporal decorre da prática comum de treinar indiscriminadamente com vídeos de velocidades reais muito diferentes, forçando-os a taxas de quadros padronizadas. Isso leva ao que denominamos *alucinação cronométrica*: sequências geradas exibem velocidades de movimento físico ambíguas, instáveis e incontroláveis. Para resolver isso, propomos o Visual Chronometer, um preditor que recupera os Quadros Por Segundo Físicos (PhyFPS) diretamente da dinâmica visual de um vídeo de entrada. Treinado por meio de reamostragem temporal controlada, nosso método estima a escala temporal verdadeira implícita no próprio movimento, contornando metadados não confiáveis. Para quantificar sistematicamente esse problema, estabelecemos dois benchmarks, PhyFPS-Bench-Real e PhyFPS-Bench-Gen. Nossas avaliações revelam uma realidade dura: os geradores de vídeo state-of-the-art sofrem com grave desalinhamento de PhyFPS e instabilidade temporal. Por fim, demonstramos que a aplicação de correções de PhyFPS melhora significativamente a naturalidade percebida por humanos em vídeos gerados por IA. Nossa página do projeto é https://xiangbogaobarry.github.io/Visual_Chronometer/.
O 3D Gaussian Splatting (3DGS) permite a síntese de novas vistas em tempo real e com fotorrealismo, tornando-o uma representação altamente atraente para o rastreamento de vídeo baseado em modelo. No entanto, aproveitar a diferenciabilidade do renderizador 3DGS "em condições reais" permanece notoriamente frágil. Um gargalo fundamental reside no suporte compacto e local das primitivas Gaussianas. Os objetivos fotométricos padrão dependem implicitamente da sobreposição espacial; se um desalinhamento severo da câmera colocar o objeto renderizado fora da área local do alvo, os gradientes desaparecem completamente, deixando o otimizador encalhado. Apresentamos o SpectralSplats, uma estrutura de rastreamento robusta que resolve este problema de "desaparecimento do gradiente" deslocando o objetivo da otimização do domínio espacial para o domínio da frequência. Ao supervisionar a imagem renderizada por meio de um conjunto de características sinusoidais complexas globais (Momentos Espectrais), construímos uma bacia de atração global, garantindo que um gradiente direcional válido em direção ao alvo exista em todo o domínio da imagem, mesmo quando a sobreposição de pixels é completamente inexistente. Para aproveitar esta bacia global sem introduir mínimos locais periódicos associados a altas frequências, derivamos um cronograma de Recozimento de Frequência (Frequency Annealing) baseado em princípios fundamentais, transicionando suavemente o otimizador da convexidade global para o alinhamento espacial preciso. Demonstramos que o SpectralSplats atua como uma substituição direta e integrada para perdas espaciais em diversas parametrizações de deformação (desde MLPs até pontos de controle esparsos), recuperando com sucesso deformações complexas mesmo a partir de inicializações severamente desalinhadas, onde o rastreamento padrão baseado em aparência falha catastroficamente.
Apresentamos o 4DGS360, uma estrutura livre de difusão para reconstrução dinâmica de objetos em 360° a partir de vídeo monocular casual. Os métodos existentes frequentemente falham em reconstruir uma geometria consistente de 360°, pois sua forte dependência de *priors* nativos 2D faz com que os pontos iniciais se ajustem excessivamente à superfície visível em cada vista de treinamento. O 4DGS360 aborda este desafio por meio de uma inicialização avançada nativa 3D que mitiga a ambiguidade geométrica das regiões ocluídas. Nosso rastreador 3D proposto, o AnchorTAP3D, produz trajetórias de pontos 3D reforçadas aproveitando pontos de rastreamento 2D confiáveis como âncoras, suprimindo a deriva e fornecendo uma inicialização confiável que preserva a geometria nas regiões ocluídas. Esta inicialização, combinada com a otimização, resulta em reconstruções 4D coerentes de 360°. Apresentamos ainda o iPhone360, um novo *benchmark* no qual as câmeras de teste são posicionadas até 135° de distância das vistas de treinamento, permitindo uma avaliação de 360° que os conjuntos de dados existentes não podem fornecer. Os experimentos mostram que o 4DGS360 alcança um desempenho de ponta nos conjuntos de dados iPhone360, iPhone e DAVIS, tanto qualitativa quanto quantitativamente.
Os pipelines agentivos multimodais estão transformando a interação humano-computador ao permitir a automação eficiente e acessível de tarefas complexas do mundo real. No entanto, esforços recentes concentraram-se em aplicações de curto prazo ou de propósito geral (por exemplo, interfaces móveis ou de desktop), deixando a automação de longo prazo para sistemas específicos de domínio, particularmente na área da saúde, largamente inexplorada. Para enfrentar este desafio, apresentamos o CareFlow, um benchmark de alta qualidade anotado manualmente, que compreende fluxos de trabalho de software complexos e de longo prazo através de ferramentas de anotação médica, visualizadores DICOM, sistemas de Prontuário Eletrônico de Saúde (EHR) e sistemas de informação laboratorial. Neste benchmark, os modelos visão-linguagem (VLM) existentes têm um desempenho fraco, lutando com o raciocínio de longo prazo e as interações multi-etapa em contextos médicos. Para superar isto, propomos o CarePilot, uma arquitetura multiagente baseada no paradigma ator-crítico. O Ator integra o grounding de ferramentas com mecanismos de memória dupla (experiência de longo e curto prazo) para prever a próxima ação semântica a partir do estado visual da interface e do sistema. O Crítico avalia cada ação, atualiza a memória com base nos efeitos observados e executa a ação ou fornece feedback corretivo para refinar o fluxo de trabalho. Através de simulação agentiva iterativa, o Ator aprende a realizar previsões mais robustas e conscientes do raciocínio durante a inferência. Nossos experimentos mostram que o CarePilot atinge um desempenho state-of-the-art, superando as bases multimodais fortes de código fechado e de código aberto em aproximadamente 15,26% e 3,38%, respectivamente, no nosso benchmark e num conjunto de dados fora da distribuição.
A avaliação de modelos de linguagem de grande escala (LLMs) em questões abertas é difícil porque a qualidade da resposta depende do contexto da pergunta. Pontuações binárias e rubricas estáticas não conseguem capturar esses requisitos dependentes do contexto. Os métodos existentes definem critérios ao nível do conjunto de dados ou os geram numa única passagem, o que limita a sua capacidade de explorar o espaço de avaliação implícito em cada pergunta. Apresentamos o One-Question-One-World (Qworld), um método que gera critérios de avaliação específicos para cada pergunta usando uma árvore de expansão recursiva. Dada uma pergunta, o Qworld decompõe-a em cenários, perspetivas e critérios binários refinados através de uma expansão hierárquica e horizontal estruturada. Os critérios resultantes especificam o que uma resposta de alta qualidade deve abordar para essa questão. No HealthBench, o Qworld cobre 89% dos critérios elaborados por especialistas e gera 79% de critérios novos validados por especialistas humanos. Os especialistas classificam os critérios do Qworld como superiores em perspicácia e granularidade em comparação com os produzidos por métodos anteriores. Quando aplicado a 11 LLMs de ponta no HealthBench e no Humanity's Last Exam, o Qworld revela diferenças de capacidade em dimensões como impacto a longo prazo, equidade, gestão de erros e raciocínio interdisciplinar que as rubricas grosseiras não distinguem. Ao formular a geração de critérios como uma cobertura estruturada dos eixos de avaliação implícitos na pergunta, o Qworld permite uma avaliação que se adapta a cada questão, em vez de depender de critérios fixos ao nível da tarefa.
Trabalhos recentes demonstraram que redes neurais podem executar tarefas 3D, como Síntese de Novas Visões (NVS), sem reconstrução 3D explícita. Mesmo assim, argumentamos que fortes vieses indutivos 3D ainda são úteis no projeto dessas redes. Demonstramos este ponto introduzindo o LagerNVS, uma rede neural codificador-decodificador para NVS que se baseia em características latentes 'conscientes da 3D'. O codificador é inicializado a partir de uma rede de reconstrução 3D pré-treinada usando supervisão 3D explícita. Este é emparelhado com um decodificador leve e treinado de ponta a ponta com perdas fotométricas. O LagerNVS alcança o estado da arte em Síntese de Novas Visões determinística de avanço direto (incluindo 31.4 PSNR no Re10k), com ou sem câmeras conhecidas, renderiza em tempo real, generaliza para dados do mundo real e pode ser combinado com um decodificador de difusão para extrapolação generativa.
Os grandes modelos de linguagem (LLMs) permitiram o desenvolvimento de sistemas agentes capazes de raciocinar, planejar e agir em tarefas complexas, mas ainda não está claro se eles podem alocar recursos de forma eficaz sob incerteza. Diferente de decisões reativas de curto prazo, a alocação exige o comprometimento de recursos escassos ao longo do tempo, equilibrando objetivos concorrentes e preservando flexibilidade para necessidades futuras. Apresentamos o EnterpriseArena, o primeiro benchmark para avaliar agentes em alocação de recursos empresariais de longo horizonte. Ele instancia a tomada de decisão no estilo de um CFO em um simulador empresarial de 132 meses que combina dados financeiros em nível de empresa, documentos comerciais anonimizados, sinais macroeconômicos e setoriais, e regras operacionais validadas por especialistas. O ambiente é parcialmente observável e revela o estado apenas por meio de ferramentas organizacionais orçadas, forçando os agentes a balancear a aquisição de informações contra a conservação de recursos escassos. Experimentos com onze LLMs avançados mostram que este cenário permanece altamente desafiador: apenas 16% das execuções sobrevivem ao horizonte completo, e modelos maiores não superam de forma consistente os menores. Esses resultados identificam a alocação de recursos de longo horizonte sob incerteza como uma lacuna de capacidade distinta para os agentes de LLM atuais.
Embora sistemas proprietários como o Seedance-2.0 tenham alcançado sucesso notável na geração de vídeo omni-capaz, as alternativas de código aberto ficam significativamente para trás. A maioria dos modelos acadêmicos permanece fortemente fragmentada, e os poucos esforços existentes em direção a uma geração de vídeo unificada ainda lutam para integrar perfeitamente tarefas diversas em um único framework. Para preencher essa lacuna, propomos o OmniWeaving, um modelo de geração de vídeo em nível ômni que apresenta capacidades poderosas de composição multimodal e fundamentadas em raciocínio. Ao aproveitar um conjunto de dados de pré-treinamento em larga escala que abrange diversos cenários composicionais e aumentados por raciocínio, o OmniWeaving aprende a vincular temporalmente entradas intercaladas de texto, múltiplas imagens e vídeo, atuando como um agente inteligente para inferir intenções complexas do usuário para uma criação de vídeo sofisticada. Além disso, introduzimos o IntelligentVBench, o primeiro benchmark abrangente projetado para avaliar rigorosamente a geração de vídeo unificada inteligente de próxima geração. Experimentos extensivos demonstram que o OmniWeaving alcança desempenho SoTA entre os modelos unificados de código aberto. Os códigos e o modelo serão disponibilizados publicamente em breve. Página do Projeto: https://omniweaving.github.io.
Os modelos de geração de vídeo têm demonstrado forte potencial como modelos de mundo para simulação de condução autónoma. No entanto, as abordagens existentes são principalmente treinadas em conjuntos de dados de condução do mundo real, que contêm maioritariamente cenários de condução naturais e seguros. Consequentemente, os modelos atuais falham frequentemente quando condicionados a trajetórias desafiadoras ou contrafactuais – como trajetórias imperfeitas geradas por simuladores ou sistemas de planeamento – produzindo vídeos com graves inconsistências físicas e artefactos. Para superar esta limitação, propomos o PhyGenesis, um modelo de mundo concebido para gerar vídeos de condução com alta fidelidade visual e forte consistência física. A nossa arquitetura consiste em dois componentes principais: (1) um gerador de condições físicas que transforma entradas de trajetória potencialmente inválidas em condições fisicamente plausíveis, e (2) um gerador de vídeo com física aprimorada que produz vídeos de condução de alta fidelidade com múltiplas perspetivas sob estas condições. Para treinar estes componentes de forma eficaz, construímos um conjunto de dados heterogéneo, em larga escala e rico em física. Especificamente, para além de vídeos de condução do mundo real, geramos diversos cenários de condução desafiadores usando o simulador CARLA, a partir dos quais derivamos sinais de supervisão que orientam o modelo a aprender dinâmicas fisicamente fundamentadas sob condições extremas. Esta estratégia de aprendizagem com trajetórias desafiadoras permite a correção de trajetórias e promove a geração de vídeos fisicamente consistentes. Experimentos extensivos demonstram que o PhyGenesis supera consistentemente os métodos state-of-the-art, especialmente em trajetórias desafiadoras. A nossa página do projeto está disponível em: https://wm-research.github.io/PhyGenesis/.
Os transformadores de difusão demonstraram capacidades notáveis na geração de vídeos. No entanto, sua implantação prática é severamente limitada pelo alto uso de memória e custo computacional. A Quantização Pós-Treinamento oferece uma maneira prática de reduzir o uso de memória e aumentar a velocidade de computação. Os métodos de quantização existentes normalmente aplicam uma alocação estática de largura de bits, negligenciando a dificuldade de quantização das ativações ao longo das etapas de difusão (timesteps), resultando em um compromisso subótimo entre eficiência e qualidade. Neste artigo, propomos uma estrutura de Quantização de Precisão Mista NVFP4/INT8 em tempo de inferência. Descobrimos uma forte correlação linear entre a diferença entrada-saída de um bloco e a sensibilidade à quantização de suas camadas lineares internas. Com base nessa percepção, projetamos um preditor leve que aloca dinamicamente NVFP4 para camadas temporalmente estáveis para maximizar a compressão de memória, enquanto preserva seletivamente INT8 para camadas voláteis para garantir robustez. Esta estratégia de precisão adaptativa permite uma quantização agressiva sem comprometer a qualidade da geração. Além disso, observamos que o resíduo entre a entrada e a saída de um bloco Transformer exibe alta consistência temporal ao longo das etapas de difusão. Aproveitando essa redundância temporal, introduzimos o Temporal Delta Cache (TDC) para ignorar os cálculos desses blocos invariantes, reduzindo ainda mais o custo computacional. Experimentos extensivos demonstram que nosso método alcança uma aceleração de ponta a ponta de 1,92x e uma redução de memória de 3,32x, estabelecendo uma nova referência para inferência eficiente em Video DiTs.
Aplicações como a inteligência incorporada dependem de um circuito fechado de percepção-decisão-ação em tempo real, impondo desafios rigorosos para a compreensão de vídeo em fluxo contínuo. No entanto, os agentes atuais sofrem com capacidades fragmentadas, como suportar apenas a compreensão de vídeo offline, carecer de mecanismos de memória multimodal de longo prazo ou lutar para alcançar raciocínio em tempo real e interação proativa sob entradas de fluxo contínuo. Essas deficiências tornaram-se um gargalo fundamental que os impede de sustentar a percepção, tomar decisões em tempo real e executar ações em ambientes do mundo real. Para aliviar esses problemas, propomos o StreamingClaw, uma estrutura de agente unificada para compreensão de vídeo em fluxo contínuo e inteligência incorporada. É também uma estrutura compatível com OpenClaw que suporta interação multimodal em fluxo contínuo em tempo real. O StreamingClaw integra cinco capacidades principais: (1) Suporta raciocínio em fluxo contínuo em tempo real. (2) Suporta o raciocínio sobre eventos futuros e a interação proativa sob a evolução online dos objetivos de interação. (3) Suporta armazenamento de longo prazo multimodal, evolução hierárquica e recuperação eficiente de memória compartilhada entre múltiplos agentes. (4) Suporta um circuito fechado de percepção-decisão-ação. Além de ferramentas e habilidades convencionais, também fornece ferramentas de fluxo contínuo e habilidades centradas em ação adaptadas para ambientes físicos do mundo real. (5) É compatível com a estrutura OpenClaw, permitindo aproveitar totalmente os recursos e o suporte da comunidade de código aberto. Com esses projetos, o StreamingClaw integra raciocínio online em tempo real, memória de longo prazo multimodal e interação proativa dentro de uma estrutura unificada. Além disso, ao traduzir decisões em ações executáveis, ele permite o controle direto do mundo físico, apoiando a implantação prática da interação incorporada.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) existentes têm dificuldades com o raciocínio espacial 3D, pois não conseguem construir abstrações estruturadas do ambiente 3D representado em vídeos. Para preencher esta lacuna, inspirando-nos em teorias cognitivas do raciocínio espacial alocêntrico, investigamos como capacitar os MLLMs para modelar e raciocinar sobre representações espaciais baseadas em texto de vídeos. Especificamente, introduzimos a Representação Textual do Contexto Alocêntrico a partir de Vídeo Egocêntrico (TRACE), um método de *prompting* que induz os MLLMs a gerarem representações textuais de ambientes 3D como traços de raciocínio intermediários para uma resposta mais precisa a perguntas espaciais. O TRACE codifica meta-contexto, trajetórias da câmara e entidades objectuais detalhadas para suportar um raciocínio espacial estruturado sobre vídeos egocêntricos. Experiências extensivas no VSI-Bench e no OST-Bench demonstram que o TRACE produz melhorias notáveis e consistentes em relação a estratégias de *prompting* anteriores, numa diversidade de arquiteturas base de MLLMs, abrangendo diferentes escalas de parâmetros e esquemas de treino. Apresentamos ainda estudos de ablação para validar as nossas opções de conceção, juntamente com análises detalhadas que investigam os estrangulamentos do raciocínio espacial 3D nos MLLMs.
Demonstramos que os PLDR-LLMs pré-treinados no ponto de criticalidade auto-organizada exibem raciocínio durante a inferência. As características das saídas dedutivas do PLDR-LLM na criticalidade são semelhantes às transições de fase de segunda ordem. Na criticalidade, o comprimento de correlação diverge, e as saídas dedutivas atingem um estado estacionário metaestável. O comportamento de estado estacionário sugere que as saídas dedutivas aprendem representações equivalentes a funções de escala, classes de universalidade e grupos de renormalização a partir do conjunto de dados de treinamento, levando a capacidades de generalização e raciocínio no processo. Podemos então definir um parâmetro de ordem a partir das estatísticas globais dos parâmetros de saída dedutiva do modelo durante a inferência. As capacidades de raciocínio de um PLDR-LLM são melhores quando seu parâmetro de ordem está próximo de zero na criticalidade. Esta observação é corroborada pelos resultados dos *benchmarks* dos modelos treinados próximo à criticalidade e em sub-criticalidade. Nossos resultados fornecem uma explicação autocontida sobre como o raciocínio se manifesta em modelos de linguagem grandes, e a capacidade de raciocinar pode ser quantificada apenas a partir dos valores dos parâmetros globais do modelo das saídas dedutivas em estado estacionário, sem qualquer necessidade de avaliação de conjuntos de dados de *benchmark* selecionados por meio de saída indutiva para raciocínio e compreensão.
A segmentação de funcionalidades em cenas 3D requer que um agente interprete instruções implícitas em linguagem natural transformando-as em máscaras precisas de elementos interativos de granularidade fina. Os métodos existentes dependem de pipelines fragmentados que sofrem de cegueira visual durante a análise inicial da tarefa. Observamos que esses métodos são limitados pela seleção de quadros em escala única, passiva e heurística. Apresentamos o UniFunc3D, uma estrutura unificada e livre de treinamento que trata o modelo de linguagem grande multimodal como um observador ativo. Ao consolidar o raciocínio semântico, temporal e espacial em uma única passagem direta, o UniFunc3D realiza raciocínio conjunto para fundamentar a decomposição de tarefas em evidência visual direta. Nossa abordagem introduz a ancoragem espaço-temporal ativa com uma estratégia do grosso para o fino. Isso permite que o modelo selecione quadros de vídeo corretos de forma adaptativa e se concentre em partes interativas de alto detalhe, preservando o contexto global necessário para a desambiguação. No SceneFun3D, o UniFunc3D alcança desempenho state-of-the-art, superando tanto métodos livres de treinamento quanto baseados em treinamento por uma grande margem, com uma melhoria relativa de 59,9% no mIoU, sem qualquer treinamento específico para a tarefa. O código será liberado em nossa página do projeto: https://jiaying.link/unifunc3d.