HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

22 papers found

CUA-Suite: Demonstrações Maciças de Vídeo Anotadas por Humanos para Agentes de Uso de Computador
CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

Mar 25

ByXiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar

Os agentes de uso de computador (CUAs) têm um grande potencial para automatizar fluxos de trabalho complexos em ambientes desktop, mas o progresso em direção a agentes de propósito geral está limitado pela escassez de vídeos de demonstração humana contínuos e de alta qualidade. Trabalhos recentes enfatizam que o vídeo contínuo, e não capturas de tela esparsas, é o ingrediente crítico em falta para escalar esses agentes. No entanto, o maior conjunto de dados aberto existente, o ScaleCUA, contém apenas 2 milhões de capturas de tela, equivalentes a menos de 20 horas de vídeo. Para resolver este gargalo, apresentamos o CUA-Suite, um ecossistema em larga escala de demonstrações em vídeo especializadas e anotações densas para agentes profissionais de uso de desktop. O seu núcleo é o VideoCUA, que disponibiliza aproximadamente 10.000 tarefas demonstradas por humanos em 87 aplicações diversas, com gravações contínuas de tela a 30 fps, trajetórias cinemáticas do cursor e anotações de raciocínio em múltiplas camadas, totalizando aproximadamente 55 horas e 6 milhões de frames de vídeo especializado. Diferente de conjuntos de dados esparsos que capturam apenas coordenadas finais de clique, estes fluxos de vídeo contínuos preservam a dinâmica temporal completa da interação humana, formando um superconjunto de informações que pode ser transformado sem perdas nos formatos exigidos pelas estruturas de agentes existentes. O CUA-Suite fornece ainda dois recursos complementares: o UI-Vision, um benchmark rigoroso para avaliar capacidades de grounding e planeamento em CUAs, e o GroundCUA, um conjunto de dados de grounding em larga escala com 56 mil capturas de tela anotadas e mais de 3,6 milhões de anotações de elementos de interface do utilizador (UI). A avaliação preliminar revela que os atuais modelos de ação de base (foundation action models) têm dificuldades substanciais com aplicações de desktop profissionais (~60% de taxa de falha de tarefas). Para além da avaliação, o corpus multimodal rico do CUA-Suite suporta direções de pesquisa emergentes, incluindo análise de tela generalista, controlo espacial contínuo, modelação de recompensa baseada em vídeo e modelos de mundo visual. Todos os dados e modelos são disponibilizados publicamente.

EVA: Aprendizagem por Reforço Eficiente para Agentes de Vídeo End-to-End
EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Mar 24

ByYaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu

A compreensão de vídeo com modelos de linguagem grandes multimodais (MLLMs) permanece desafiadora devido às longas sequências de tokens dos vídeos, que contêm extensas dependências temporais e quadros redundantes. As abordagens existentes normalmente tratam os MLLMs como reconhecedores passivos, processando vídeos inteiros ou quadros amostrados uniformemente sem raciocínio adaptativo. Métodos recentes baseados em agentes introduzem ferramentas externas, mas ainda dependem de fluxos de trabalho manualmente projetados e estratégias de percepção-primeiro, resultando em ineficiência em vídeos longos. Apresentamos o EVA, um Framework de Aprendizagem por Reforço Eficiente para Agente de Vídeo de Ponta a Ponta, que permite o planejamento-antes-da-percepção através de um raciocínio iterativo de resumo-planejamento-ação-reflexão. O EVA decide autonomamente o que assistir, quando assistir e como assistir, alcançando uma compreensão de vídeo eficiente e orientada por consulta. Para treinar tais agentes, projetamos um pipeline de aprendizado em três estágios simples, porém eficaz - compreendendo ajuste fino supervisionado (SFT), Otimização de Kahneman-Tversky (KTO) e Otimização de Política de Recompensa Generalizada (GRPO) - que conecta a imitação supervisionada e a aprendizagem por reforço. Além disso, construímos conjuntos de dados de alta qualidade para cada estágio, apoiando um treinamento estável e reproduzível. Avaliamos o EVA em seis benchmarks de compreensão de vídeo, demonstrando suas capacidades abrangentes. Em comparação com as linhas de base existentes, o EVA alcança uma melhoria substancial de 6-12% sobre as linhas de base gerais de MLLM e um ganho adicional de 1-3% sobre os métodos anteriores de agentes adaptativos. Nosso código e modelo estão disponíveis em https://github.com/wangruohui/EfficientVideoAgent.

T-MAP: Teste de Vulnerabilidade em Agentes de LLM com Busca Evolutiva Consciente da Trajetória
T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Mar 21

ByHyomin Lee, Sangwoo Park, Yumin Choi, Sohyun An, Seanie Lee, Sung Ju Hwang

Embora os esforços anteriores de red-teaming tenham se concentrado em elicitar saídas de texto prejudiciais de grandes modelos de linguagem (LLMs), tais abordagens não conseguem capturar vulnerabilidades específicas de agentes que emergem através da execução multi-etapa de ferramentas, particularmente em ecossistemas em rápido crescimento, como o Model Context Protocol (MCP). Para abordar esta lacuna, propomos um método de busca evolutiva consciente da trajetória, o T-MAP, que aproveita trajetórias de execução para orientar a descoberta de *prompts* adversariais. Nossa abordagem permite a geração automática de ataques que não apenas contornam barreiras de segurança, mas também realizam de forma confiável objetivos maliciosos através de interações reais com ferramentas. Avaliações empíricas em diversos ambientes MCP demonstram que o T-MAP supera substancialmente as linhas de base na taxa de realização de ataques (ARR, do inglês *Attack Realization Rate*) e mantém-se eficaz contra modelos de fronteira, incluindo GPT-5.2, Gemini-3-Pro, Qwen3.5 e GLM-5, revelando assim vulnerabilidades anteriormente pouco exploradas em agentes autônomos baseados em LLMs.

UI-Voyager: Um Agente de Interface Gráfica Autoevolutivo que Aprende por Meio de Experiências de Falha
UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

Mar 25

ByZichuan Lin, Feiyu Liu, Yijun Yang, Jiafei Lyu, Yiming Gao, Yicheng Liu, Zhicong Lu, Yangbin Yu, Mingyu Yang, Junyou Li, Deheng Ye, Jie Jiang

Os agentes autónomos de GUI móvel têm atraído crescente atenção com o avanço dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs). No entanto, os métodos existentes ainda sofrem com aprendizagem ineficiente a partir de trajetórias falhadas e atribuição de crédito ambígua sob recompensas esparsas para tarefas de GUI de longo horizonte. Para tal, propomos o UI-Voyager, um novo agente de GUI móvel de auto-evolução em duas fases. Na primeira fase, empregamos o Ajuste Fino por Rejeição (RFT), que permite a co-evolução contínua de dados e modelos num ciclo totalmente autónomo. A segunda fase introduz a Auto-Distilação Relativa de Grupo (GRSD), que identifica pontos críticos de bifurcação em rollouts de grupo e constrói supervisão densa ao nível do passo a partir de trajetórias bem-sucedidas para corrigir as falhadas. Experimentos extensivos no AndroidWorld mostram que o nosso modelo de 4B atinge uma taxa de sucesso Pass@1 de 81,0%, superando numerosas linhas de base recentes e excedendo o desempenho humano. Estudos de ablação e casos práticos verificam ainda a eficácia da GRSD. O nosso método representa um salto significativo em direção a uma automação de GUI móvel eficiente, auto-evolutiva e de alto desempenho sem a necessidade de anotação manual dispendiosa de dados.

Por Que a Auto-Destilação (Às Vezes) Degrada a Capacidade de Raciocínio dos LLMs?
Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

Mar 25

ByJeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dohyung Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang

A autodistilação emergiu como um paradigma eficaz de pós-treinamento para LLMs, frequentemente melhorando o desempenho enquanto encurta os traços de raciocínio. No entanto, no raciocínio matemático, descobrimos que ela pode reduzir o comprimento da resposta enquanto degrada o desempenho. Rastreamos essa degradação até a supressão da verbalização epistêmica - a expressão de incerteza do modelo durante o raciocínio. Através de experimentos controlados variando a riqueza do contexto de condicionamento e a cobertura de tarefas, mostramos que condicionar o professor com informações ricas suprime a expressão de incerteza, permitindo uma rápida otimização em domínio com cobertura limitada de tarefas, mas prejudicando o desempenho fora da distribuição (OOD), onde problemas não vistos se beneficiam da expressão de incerteza e do ajuste correspondente. Através dos modelos Qwen3-8B, DeepSeek-Distill-Qwen-7B e Olmo3-7B-Instruct, observamos quedas de desempenho de até 40%. Nossas descobertas destacam que expor níveis apropriados de incerteza é crucial para um raciocínio robusto e sublinham a importância de otimizar o comportamento de raciocínio para além de meramente reforçar traços de respostas corretas.

GameplayQA: Uma Estrutura de Avaliação para a Compreensão de Agentes Virtuais 3D em Múltiplos Vídeos Sincronizados em Primeira Pessoa com Alta Densidade Decisória
GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Mar 25

ByYunzhe Wang, Runhui Xu, Kexin Zheng, Tianyi Zhang, Jayavibhav Niranjan Kogundi, Soham Hans, Volkan Ustun

Os modelos de linguagem multimodal (MLLMs) estão sendo cada vez mais implantados como núcleos de percepção para agentes autônomos em ambientes 3D, desde a robótica até mundos virtuais. Essas aplicações exigem que os agentes percebam mudanças rápidas de estado, atribuam ações às entidades corretas e raciocinem sobre comportamentos multiagentes concorrentes a partir de uma perspectiva em primeira pessoa, capacidades que os benchmarks existentes não avaliam adequadamente. Apresentamos o GameplayQA, uma estrutura para avaliar a percepção e o raciocínio centrados na agenticidade por meio da compreensão de vídeo. Especificamente, anotamos densamente vídeos de jogabilidade multijogador em 3D a uma taxa de 1,22 rótulos/segundo, com legendas concorrentes e sincronizadas no tempo de estados, ações e eventos, estruturadas em torno de um sistema triádico do Eu, de Outros Agentes e do Mundo, uma decomposição natural para ambientes multiagentes. A partir dessas anotações, refinamos 2,4 mil pares de perguntas e respostas de diagnóstico organizados em três níveis de complexidade cognitiva, acompanhados por uma taxonomia de distratores estruturada que permite uma análise refinada de onde os modelos alucinam. A avaliação de MLLMs de ponta revela uma lacuna substancial em relação ao desempenho humano, com falhas comuns na ancoragem temporal e entre vídeos, na atribuição de papéis dos agentes e no tratamento da densidade decisional do jogo. Esperamos que o GameplayQA estimule pesquisas futuras na interseção entre IA incorporada, percepção agentiva e modelagem do mundo.

Quando os Modelos Julgam a Si Mesmos: Auto-Evolução Não Supervisionada para Raciocínio Multimodal
When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

Mar 22

ByZhengxian Wu, Kai Shi, Chuanrui Zhang, Zirui Liao, Jun Yang, Ni Yang, Qiuying Peng, Luyuan Zhang, Hangrui Xu, Tianhuang Su, Zhenyu Yang, Haonan Lu, Haoqian Wang

Os recentes avanços em modelos de linguagem grandes multimodais têm levado a um forte desempenho em tarefas de raciocínio, mas essas melhorias dependem amplamente de dados anotados de alta qualidade ou da destilação de um modelo professor, ambos custosos e difíceis de escalar. Para resolver isso, propomos uma estrutura de treinamento de auto-evolução não supervisionada para raciocínio multimodal que alcança melhorias de desempenho estáveis sem utilizar respostas anotadas por humanos ou modelos externos de recompensa. Para cada entrada, amostramos múltiplas trajetórias de raciocínio e modelamos conjuntamente a sua estrutura intragrupo. Utilizamos o sinal de auto-consistência do Ator como um *prior* de treinamento e introduzimos uma modulação baseada num Juiz limitado para reponderar continuamente trajetórias de qualidade diferente. Modelamos ainda as pontuações moduladas como uma distribuição a nível de grupo e convertemos as pontuações absolutas em vantagens relativas dentro de cada grupo, permitindo atualizações de política mais robustas. Treinado com Otimização de Política Relativa de Grupo (GRPO) em dados não rotulados, o nosso método melhora consistentemente o desempenho do raciocínio e a generalização em cinco *benchmarks* de raciocínio matemático, oferecendo um caminho escalável para modelos multimodais auto-evolutivos. O código está disponível em https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.

Compreendendo os Desafios na Otimização Generativa Iterativa com LLMs
Understanding the Challenges in Iterative Generative Optimization with LLMs

Mar 25

ByAllen Nie, Xavier Daull, Zhiyi Kuang, Abhinav Akkiraju, Anish Chaudhuri, Max Piasevoli, Ryan Rong, YuCheng Yuan, Prerit Choudhary, Shannon Xiao, Rasool Fakoor, Adith Swaminathan, Ching-An Cheng

A otimização generativa utiliza modelos de linguagem de grande escala (LLMs) para melhorar iterativamente artefatos (como código, fluxos de trabalho ou instruções) usando *feedback* de execução. É uma abordagem promissora para a construção de agentes de autoaprimoramento, mas na prática permanece frágil: apesar da pesquisa ativa, apenas 9% dos agentes pesquisados utilizaram qualquer otimização automatizada. Argumentamos que essa fragilidade surge porque, para configurar um ciclo de aprendizagem, um engenheiro deve tomar escolhas de design "ocultas": O que o otimizador pode editar e qual é a evidência de aprendizagem "correta" a fornecer em cada atualização? Investigamos três fatores que afetam a maioria das aplicações: o artefato inicial, o horizonte de crédito para traços de execução e o agrupamento de tentativas e erros em evidências de aprendizagem. Através de estudos de caso em MLAgentBench, Atari e BigBench Extra Hard, descobrimos que essas decisões de projeto podem determinar se a otimização generativa tem sucesso, mas raramente são explicitadas em trabalhos anteriores. Diferentes artefatos iniciais determinam quais soluções são alcançáveis no MLAgentBench, traços truncados ainda podem melhorar agentes no Atari, e lotes maiores não melhoram monotonicamente a generalização no BBEH. Concluímos que a falta de uma maneira simples e universal de configurar ciclos de aprendizagem entre domínios é um grande obstáculo para a produção e adoção. Fornecemos orientações práticas para fazer essas escolhas.

O Pulso do Movimento: Medindo a Taxa de Frames Física a Partir da Dinâmica Visual
The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

Mar 15

ByXiangbo Gao, Mingyang Wu, Siyuan Yang, Jiongze Yu, Pardis Taghavi, Fangzhou Lin, Zhengzhong Tu

Embora os modelos generativos de vídeo recentes tenham alcançado um realismo visual notável e estejam sendo explorados como modelos de mundo, uma verdadeira simulação física requer o domínio do espaço e do tempo. Os modelos atuais podem produzir cinemáticas visualmente suaves, mas carecem de um pulso de movimento interno confiável para ancorar esses movimentos em uma escala de tempo consistente e do mundo real. Essa ambiguidade temporal decorre da prática comum de treinar indiscriminadamente com vídeos de velocidades reais muito diferentes, forçando-os a taxas de quadros padronizadas. Isso leva ao que denominamos *alucinação cronométrica*: sequências geradas exibem velocidades de movimento físico ambíguas, instáveis e incontroláveis. Para resolver isso, propomos o Visual Chronometer, um preditor que recupera os Quadros Por Segundo Físicos (PhyFPS) diretamente da dinâmica visual de um vídeo de entrada. Treinado por meio de reamostragem temporal controlada, nosso método estima a escala temporal verdadeira implícita no próprio movimento, contornando metadados não confiáveis. Para quantificar sistematicamente esse problema, estabelecemos dois benchmarks, PhyFPS-Bench-Real e PhyFPS-Bench-Gen. Nossas avaliações revelam uma realidade dura: os geradores de vídeo state-of-the-art sofrem com grave desalinhamento de PhyFPS e instabilidade temporal. Por fim, demonstramos que a aplicação de correções de PhyFPS melhora significativamente a naturalidade percebida por humanos em vídeos gerados por IA. Nossa página do projeto é https://xiangbogaobarry.github.io/Visual_Chronometer/.

SpectralSplats: Rastreamento Diferenciável Robusto via Supervisão de Momentos Espectrais
SpectralSplats: Robust Differentiable Tracking via Spectral Moment Supervision

Mar 25

ByAvigail Cohen Rimon, Amir Mann, Mirela Ben Chen, Or Litany

O 3D Gaussian Splatting (3DGS) permite a síntese de novas vistas em tempo real e com fotorrealismo, tornando-o uma representação altamente atraente para o rastreamento de vídeo baseado em modelo. No entanto, aproveitar a diferenciabilidade do renderizador 3DGS "em condições reais" permanece notoriamente frágil. Um gargalo fundamental reside no suporte compacto e local das primitivas Gaussianas. Os objetivos fotométricos padrão dependem implicitamente da sobreposição espacial; se um desalinhamento severo da câmera colocar o objeto renderizado fora da área local do alvo, os gradientes desaparecem completamente, deixando o otimizador encalhado. Apresentamos o SpectralSplats, uma estrutura de rastreamento robusta que resolve este problema de "desaparecimento do gradiente" deslocando o objetivo da otimização do domínio espacial para o domínio da frequência. Ao supervisionar a imagem renderizada por meio de um conjunto de características sinusoidais complexas globais (Momentos Espectrais), construímos uma bacia de atração global, garantindo que um gradiente direcional válido em direção ao alvo exista em todo o domínio da imagem, mesmo quando a sobreposição de pixels é completamente inexistente. Para aproveitar esta bacia global sem introduir mínimos locais periódicos associados a altas frequências, derivamos um cronograma de Recozimento de Frequência (Frequency Annealing) baseado em princípios fundamentais, transicionando suavemente o otimizador da convexidade global para o alinhamento espacial preciso. Demonstramos que o SpectralSplats atua como uma substituição direta e integrada para perdas espaciais em diversas parametrizações de deformação (desde MLPs até pontos de controle esparsos), recuperando com sucesso deformações complexas mesmo a partir de inicializações severamente desalinhadas, onde o rastreamento padrão baseado em aparência falha catastroficamente.

4DGS360: Reconstrução Gaussiana 360° de Objetos Dinâmicos a Partir de um Único Vídeo
4DGS360: 360° Gaussian Reconstruction of Dynamic Objects from a Single Video

Mar 23

ByJae Won Jang, Yeonjin Chang, Wonsik Shin, Juhwan Cho, Nojun Kwak

Apresentamos o 4DGS360, uma estrutura livre de difusão para reconstrução dinâmica de objetos em 360° a partir de vídeo monocular casual. Os métodos existentes frequentemente falham em reconstruir uma geometria consistente de 360°, pois sua forte dependência de *priors* nativos 2D faz com que os pontos iniciais se ajustem excessivamente à superfície visível em cada vista de treinamento. O 4DGS360 aborda este desafio por meio de uma inicialização avançada nativa 3D que mitiga a ambiguidade geométrica das regiões ocluídas. Nosso rastreador 3D proposto, o AnchorTAP3D, produz trajetórias de pontos 3D reforçadas aproveitando pontos de rastreamento 2D confiáveis como âncoras, suprimindo a deriva e fornecendo uma inicialização confiável que preserva a geometria nas regiões ocluídas. Esta inicialização, combinada com a otimização, resulta em reconstruções 4D coerentes de 360°. Apresentamos ainda o iPhone360, um novo *benchmark* no qual as câmeras de teste são posicionadas até 135° de distância das vistas de treinamento, permitindo uma avaliação de 360° que os conjuntos de dados existentes não podem fornecer. Os experimentos mostram que o 4DGS360 alcança um desempenho de ponta nos conjuntos de dados iPhone360, iPhone e DAVIS, tanto qualitativa quanto quantitativamente.

CarePilot: Uma Estrutura Multiagente para Automação de Tarefas Computacionais de Longo Prazo na Área da Saúde
CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

Mar 25

ByAkash Ghosh, Tajamul Ashraf, Rishu Kumar Singh, Numan Saeed, Sriparna Saha, Xiuying Chen, Salman Khan

Os pipelines agentivos multimodais estão transformando a interação humano-computador ao permitir a automação eficiente e acessível de tarefas complexas do mundo real. No entanto, esforços recentes concentraram-se em aplicações de curto prazo ou de propósito geral (por exemplo, interfaces móveis ou de desktop), deixando a automação de longo prazo para sistemas específicos de domínio, particularmente na área da saúde, largamente inexplorada. Para enfrentar este desafio, apresentamos o CareFlow, um benchmark de alta qualidade anotado manualmente, que compreende fluxos de trabalho de software complexos e de longo prazo através de ferramentas de anotação médica, visualizadores DICOM, sistemas de Prontuário Eletrônico de Saúde (EHR) e sistemas de informação laboratorial. Neste benchmark, os modelos visão-linguagem (VLM) existentes têm um desempenho fraco, lutando com o raciocínio de longo prazo e as interações multi-etapa em contextos médicos. Para superar isto, propomos o CarePilot, uma arquitetura multiagente baseada no paradigma ator-crítico. O Ator integra o grounding de ferramentas com mecanismos de memória dupla (experiência de longo e curto prazo) para prever a próxima ação semântica a partir do estado visual da interface e do sistema. O Crítico avalia cada ação, atualiza a memória com base nos efeitos observados e executa a ação ou fornece feedback corretivo para refinar o fluxo de trabalho. Através de simulação agentiva iterativa, o Ator aprende a realizar previsões mais robustas e conscientes do raciocínio durante a inferência. Nossos experimentos mostram que o CarePilot atinge um desempenho state-of-the-art, superando as bases multimodais fortes de código fechado e de código aberto em aproximadamente 15,26% e 3,38%, respectivamente, no nosso benchmark e num conjunto de dados fora da distribuição.

Qworld: Critérios de Avaliação Específicos por Pergunta para LLMs
Qworld: Question-Specific Evaluation Criteria for LLMs

Mar 6

ByShanghua Gao, Yuchang Su, Pengwei Sui, Curtis Ginder, Marinka Zitnik

A avaliação de modelos de linguagem de grande escala (LLMs) em questões abertas é difícil porque a qualidade da resposta depende do contexto da pergunta. Pontuações binárias e rubricas estáticas não conseguem capturar esses requisitos dependentes do contexto. Os métodos existentes definem critérios ao nível do conjunto de dados ou os geram numa única passagem, o que limita a sua capacidade de explorar o espaço de avaliação implícito em cada pergunta. Apresentamos o One-Question-One-World (Qworld), um método que gera critérios de avaliação específicos para cada pergunta usando uma árvore de expansão recursiva. Dada uma pergunta, o Qworld decompõe-a em cenários, perspetivas e critérios binários refinados através de uma expansão hierárquica e horizontal estruturada. Os critérios resultantes especificam o que uma resposta de alta qualidade deve abordar para essa questão. No HealthBench, o Qworld cobre 89% dos critérios elaborados por especialistas e gera 79% de critérios novos validados por especialistas humanos. Os especialistas classificam os critérios do Qworld como superiores em perspicácia e granularidade em comparação com os produzidos por métodos anteriores. Quando aplicado a 11 LLMs de ponta no HealthBench e no Humanity's Last Exam, o Qworld revela diferenças de capacidade em dimensões como impacto a longo prazo, equidade, gestão de erros e raciocínio interdisciplinar que as rubricas grosseiras não distinguem. Ao formular a geração de critérios como uma cobertura estruturada dos eixos de avaliação implícitos na pergunta, o Qworld permite uma avaliação que se adapta a cada questão, em vez de depender de critérios fixos ao nível da tarefa.

LagerNVS: Geometria Latente para Síntese Neural em Tempo Real de Novas Visões
LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis

Mar 20

ByStanislaw Szymanowicz, Minghao Chen, Jianyuan Wang, Christian Rupprecht, Andrea Vedaldi

Trabalhos recentes demonstraram que redes neurais podem executar tarefas 3D, como Síntese de Novas Visões (NVS), sem reconstrução 3D explícita. Mesmo assim, argumentamos que fortes vieses indutivos 3D ainda são úteis no projeto dessas redes. Demonstramos este ponto introduzindo o LagerNVS, uma rede neural codificador-decodificador para NVS que se baseia em características latentes 'conscientes da 3D'. O codificador é inicializado a partir de uma rede de reconstrução 3D pré-treinada usando supervisão 3D explícita. Este é emparelhado com um decodificador leve e treinado de ponta a ponta com perdas fotométricas. O LagerNVS alcança o estado da arte em Síntese de Novas Visões determinística de avanço direto (incluindo 31.4 PSNR no Re10k), com ou sem câmeras conhecidas, renderiza em tempo real, generaliza para dados do mundo real e pode ser combinado com um decodificador de difusão para extrapolação generativa.

Os Agentes de LLM Podem Ser CFOs? Um Benchmark para Alocação de Recursos em Ambientes Empresariais Dinâmicos
Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

Mar 24

ByYi Han, Lingfei Qian, Yan Wang, Yueru He, Xueqing Peng, Dongji Feng, Yankai Chen, Haohang Li, Yupeng Cao, Jimin Huang, Xue Liu, Jian-Yun Nie, Sophia Ananiadou

Os grandes modelos de linguagem (LLMs) permitiram o desenvolvimento de sistemas agentes capazes de raciocinar, planejar e agir em tarefas complexas, mas ainda não está claro se eles podem alocar recursos de forma eficaz sob incerteza. Diferente de decisões reativas de curto prazo, a alocação exige o comprometimento de recursos escassos ao longo do tempo, equilibrando objetivos concorrentes e preservando flexibilidade para necessidades futuras. Apresentamos o EnterpriseArena, o primeiro benchmark para avaliar agentes em alocação de recursos empresariais de longo horizonte. Ele instancia a tomada de decisão no estilo de um CFO em um simulador empresarial de 132 meses que combina dados financeiros em nível de empresa, documentos comerciais anonimizados, sinais macroeconômicos e setoriais, e regras operacionais validadas por especialistas. O ambiente é parcialmente observável e revela o estado apenas por meio de ferramentas organizacionais orçadas, forçando os agentes a balancear a aquisição de informações contra a conservação de recursos escassos. Experimentos com onze LLMs avançados mostram que este cenário permanece altamente desafiador: apenas 16% das execuções sobrevivem ao horizonte completo, e modelos maiores não superam de forma consistente os menores. Esses resultados identificam a alocação de recursos de longo horizonte sob incerteza como uma lacuna de capacidade distinta para os agentes de LLM atuais.

OmniWeaving: Rumo à Geração Unificada de Vídeos com Composição e Raciocínio de Forma Livre
OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Mar 25

ByKaihang Pan, Qi Tian, Jianwei Zhang, Weijie Kong, Jiangfeng Xiong, Yanxin Long, Shixue Zhang, Haiyi Qiu, Tan Wang, Zheqi Lv, Yue Wu, Liefeng Bo, Siliang Tang, Zhao Zhong

Embora sistemas proprietários como o Seedance-2.0 tenham alcançado sucesso notável na geração de vídeo omni-capaz, as alternativas de código aberto ficam significativamente para trás. A maioria dos modelos acadêmicos permanece fortemente fragmentada, e os poucos esforços existentes em direção a uma geração de vídeo unificada ainda lutam para integrar perfeitamente tarefas diversas em um único framework. Para preencher essa lacuna, propomos o OmniWeaving, um modelo de geração de vídeo em nível ômni que apresenta capacidades poderosas de composição multimodal e fundamentadas em raciocínio. Ao aproveitar um conjunto de dados de pré-treinamento em larga escala que abrange diversos cenários composicionais e aumentados por raciocínio, o OmniWeaving aprende a vincular temporalmente entradas intercaladas de texto, múltiplas imagens e vídeo, atuando como um agente inteligente para inferir intenções complexas do usuário para uma criação de vídeo sofisticada. Além disso, introduzimos o IntelligentVBench, o primeiro benchmark abrangente projetado para avaliar rigorosamente a geração de vídeo unificada inteligente de próxima geração. Experimentos extensivos demonstram que o OmniWeaving alcança desempenho SoTA entre os modelos unificados de código aberto. Os códigos e o modelo serão disponibilizados publicamente em breve. Página do Projeto: https://omniweaving.github.io.

Rumo a Modelos de Mundo de Vídeo de Condução Fisicamente Consistentes em Trajetórias Desafiadoras
Toward Physically Consistent Driving Video World Models under Challenging Trajectories

Mar 25

ByJiawei Zhou, Zhenxin Zhu, Lingyi Du, Linye Lyu, Lijun Zhou, Zhanqian Wu, Hongcheng Luo, Zhuotao Tian, Bing Wang, Guang Chen, Hangjun Ye, Haiyang Sun, Yu Li

Os modelos de geração de vídeo têm demonstrado forte potencial como modelos de mundo para simulação de condução autónoma. No entanto, as abordagens existentes são principalmente treinadas em conjuntos de dados de condução do mundo real, que contêm maioritariamente cenários de condução naturais e seguros. Consequentemente, os modelos atuais falham frequentemente quando condicionados a trajetórias desafiadoras ou contrafactuais – como trajetórias imperfeitas geradas por simuladores ou sistemas de planeamento – produzindo vídeos com graves inconsistências físicas e artefactos. Para superar esta limitação, propomos o PhyGenesis, um modelo de mundo concebido para gerar vídeos de condução com alta fidelidade visual e forte consistência física. A nossa arquitetura consiste em dois componentes principais: (1) um gerador de condições físicas que transforma entradas de trajetória potencialmente inválidas em condições fisicamente plausíveis, e (2) um gerador de vídeo com física aprimorada que produz vídeos de condução de alta fidelidade com múltiplas perspetivas sob estas condições. Para treinar estes componentes de forma eficaz, construímos um conjunto de dados heterogéneo, em larga escala e rico em física. Especificamente, para além de vídeos de condução do mundo real, geramos diversos cenários de condução desafiadores usando o simulador CARLA, a partir dos quais derivamos sinais de supervisão que orientam o modelo a aprender dinâmicas fisicamente fundamentadas sob condições extremas. Esta estratégia de aprendizagem com trajetórias desafiadoras permite a correção de trajetórias e promove a geração de vídeos fisicamente consistentes. Experimentos extensivos demonstram que o PhyGenesis supera consistentemente os métodos state-of-the-art, especialmente em trajetórias desafiadoras. A nossa página do projeto está disponível em: https://wm-research.github.io/PhyGenesis/.

6Bit-Diffusion: Quantização de Precisão Mista no Momento da Inferência para Modelos de Difusão de Vídeo
6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Mar 19

ByRundong Su, Jintao Zhang, Zhihang Yuan, Haojie Duanmu, Jianfei Chen, Jun Zhu

Os transformadores de difusão demonstraram capacidades notáveis na geração de vídeos. No entanto, sua implantação prática é severamente limitada pelo alto uso de memória e custo computacional. A Quantização Pós-Treinamento oferece uma maneira prática de reduzir o uso de memória e aumentar a velocidade de computação. Os métodos de quantização existentes normalmente aplicam uma alocação estática de largura de bits, negligenciando a dificuldade de quantização das ativações ao longo das etapas de difusão (timesteps), resultando em um compromisso subótimo entre eficiência e qualidade. Neste artigo, propomos uma estrutura de Quantização de Precisão Mista NVFP4/INT8 em tempo de inferência. Descobrimos uma forte correlação linear entre a diferença entrada-saída de um bloco e a sensibilidade à quantização de suas camadas lineares internas. Com base nessa percepção, projetamos um preditor leve que aloca dinamicamente NVFP4 para camadas temporalmente estáveis para maximizar a compressão de memória, enquanto preserva seletivamente INT8 para camadas voláteis para garantir robustez. Esta estratégia de precisão adaptativa permite uma quantização agressiva sem comprometer a qualidade da geração. Além disso, observamos que o resíduo entre a entrada e a saída de um bloco Transformer exibe alta consistência temporal ao longo das etapas de difusão. Aproveitando essa redundância temporal, introduzimos o Temporal Delta Cache (TDC) para ignorar os cálculos desses blocos invariantes, reduzindo ainda mais o custo computacional. Experimentos extensivos demonstram que nosso método alcança uma aceleração de ponta a ponta de 1,92x e uma redução de memória de 3,32x, estabelecendo uma nova referência para inferência eficiente em Video DiTs.

Relatório Técnico do StreamingClaw
StreamingClaw Technical Report

Mar 23

ByJiawei Chen, Zhe Chen, Chaoqun Du, Maokui He, Wei He, Hengtao Li, Qizhen Li, Zide Liu, Hao Ma, Xuhao Pan, Chang Ren, Xudong Rao, Xintian Shen, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Shengyu Yao, Chunpeng Zhou, Kun Zhan, Lihao Zheng, Pan Zhou, Xuhan Zhu, Yufei Zheng

Aplicações como a inteligência incorporada dependem de um circuito fechado de percepção-decisão-ação em tempo real, impondo desafios rigorosos para a compreensão de vídeo em fluxo contínuo. No entanto, os agentes atuais sofrem com capacidades fragmentadas, como suportar apenas a compreensão de vídeo offline, carecer de mecanismos de memória multimodal de longo prazo ou lutar para alcançar raciocínio em tempo real e interação proativa sob entradas de fluxo contínuo. Essas deficiências tornaram-se um gargalo fundamental que os impede de sustentar a percepção, tomar decisões em tempo real e executar ações em ambientes do mundo real. Para aliviar esses problemas, propomos o StreamingClaw, uma estrutura de agente unificada para compreensão de vídeo em fluxo contínuo e inteligência incorporada. É também uma estrutura compatível com OpenClaw que suporta interação multimodal em fluxo contínuo em tempo real. O StreamingClaw integra cinco capacidades principais: (1) Suporta raciocínio em fluxo contínuo em tempo real. (2) Suporta o raciocínio sobre eventos futuros e a interação proativa sob a evolução online dos objetivos de interação. (3) Suporta armazenamento de longo prazo multimodal, evolução hierárquica e recuperação eficiente de memória compartilhada entre múltiplos agentes. (4) Suporta um circuito fechado de percepção-decisão-ação. Além de ferramentas e habilidades convencionais, também fornece ferramentas de fluxo contínuo e habilidades centradas em ação adaptadas para ambientes físicos do mundo real. (5) É compatível com a estrutura OpenClaw, permitindo aproveitar totalmente os recursos e o suporte da comunidade de código aberto. Com esses projetos, o StreamingClaw integra raciocínio online em tempo real, memória de longo prazo multimodal e interação proativa dentro de uma estrutura unificada. Além disso, ao traduzir decisões em ações executáveis, ele permite o controle direto do mundo físico, apoiando a implantação prática da interação incorporada.

Desencadeando o Raciocínio Espacial em Modelos de Linguagem Multimodais Grandes através do Raciocínio Guiado por Representação Textual
Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

Mar 24

ByJiacheng Hua, Yishu Yin, Yuhang Wu, Tai Wang, Yifei Huang, Miao Liu

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) existentes têm dificuldades com o raciocínio espacial 3D, pois não conseguem construir abstrações estruturadas do ambiente 3D representado em vídeos. Para preencher esta lacuna, inspirando-nos em teorias cognitivas do raciocínio espacial alocêntrico, investigamos como capacitar os MLLMs para modelar e raciocinar sobre representações espaciais baseadas em texto de vídeos. Especificamente, introduzimos a Representação Textual do Contexto Alocêntrico a partir de Vídeo Egocêntrico (TRACE), um método de *prompting* que induz os MLLMs a gerarem representações textuais de ambientes 3D como traços de raciocínio intermediários para uma resposta mais precisa a perguntas espaciais. O TRACE codifica meta-contexto, trajetórias da câmara e entidades objectuais detalhadas para suportar um raciocínio espacial estruturado sobre vídeos egocêntricos. Experiências extensivas no VSI-Bench e no OST-Bench demonstram que o TRACE produz melhorias notáveis e consistentes em relação a estratégias de *prompting* anteriores, numa diversidade de arquiteturas base de MLLMs, abrangendo diferentes escalas de parâmetros e esquemas de treino. Apresentamos ainda estudos de ablação para validar as nossas opções de conceção, juntamente com análises detalhadas que investigam os estrangulamentos do raciocínio espacial 3D nos MLLMs.

PLDR-LLMs Raciocinam no Ponto de Criticalidade Auto-Organizada
PLDR-LLMs Reason At Self-Organized Criticality

Mar 12

ByBurc Gokden

Demonstramos que os PLDR-LLMs pré-treinados no ponto de criticalidade auto-organizada exibem raciocínio durante a inferência. As características das saídas dedutivas do PLDR-LLM na criticalidade são semelhantes às transições de fase de segunda ordem. Na criticalidade, o comprimento de correlação diverge, e as saídas dedutivas atingem um estado estacionário metaestável. O comportamento de estado estacionário sugere que as saídas dedutivas aprendem representações equivalentes a funções de escala, classes de universalidade e grupos de renormalização a partir do conjunto de dados de treinamento, levando a capacidades de generalização e raciocínio no processo. Podemos então definir um parâmetro de ordem a partir das estatísticas globais dos parâmetros de saída dedutiva do modelo durante a inferência. As capacidades de raciocínio de um PLDR-LLM são melhores quando seu parâmetro de ordem está próximo de zero na criticalidade. Esta observação é corroborada pelos resultados dos *benchmarks* dos modelos treinados próximo à criticalidade e em sub-criticalidade. Nossos resultados fornecem uma explicação autocontida sobre como o raciocínio se manifesta em modelos de linguagem grandes, e a capacidade de raciocinar pode ser quantificada apenas a partir dos valores dos parâmetros globais do modelo das saídas dedutivas em estado estacionário, sem qualquer necessidade de avaliação de conjuntos de dados de *benchmark* selecionados por meio de saída indutiva para raciocínio e compreensão.

UniFunc3D: Fundamentação Espaço-Temporal Ativa Unificada para Segmentação de Funcionalidades em 3D
UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation

Mar 24

ByJiaying Lin, Dan Xu

A segmentação de funcionalidades em cenas 3D requer que um agente interprete instruções implícitas em linguagem natural transformando-as em máscaras precisas de elementos interativos de granularidade fina. Os métodos existentes dependem de pipelines fragmentados que sofrem de cegueira visual durante a análise inicial da tarefa. Observamos que esses métodos são limitados pela seleção de quadros em escala única, passiva e heurística. Apresentamos o UniFunc3D, uma estrutura unificada e livre de treinamento que trata o modelo de linguagem grande multimodal como um observador ativo. Ao consolidar o raciocínio semântico, temporal e espacial em uma única passagem direta, o UniFunc3D realiza raciocínio conjunto para fundamentar a decomposição de tarefas em evidência visual direta. Nossa abordagem introduz a ancoragem espaço-temporal ativa com uma estratégia do grosso para o fino. Isso permite que o modelo selecione quadros de vídeo corretos de forma adaptativa e se concentre em partes interativas de alto detalhe, preservando o contexto global necessário para a desambiguação. No SceneFun3D, o UniFunc3D alcança desempenho state-of-the-art, superando tanto métodos livres de treinamento quanto baseados em treinamento por uma grande margem, com uma melhoria relativa de 59,9% no mIoU, sem qualquer treinamento específico para a tarefa. O código será liberado em nossa página do projeto: https://jiaying.link/unifunc3d.