Artigos de pesquisa em IA selecionados diariamente com traduções
Uma narrativa predominante no pós-treinamento de LLMs sustenta que o ajuste fino supervisionado (SFT) memoriza, enquanto o aprendizado por reforço (RL) generaliza. Revisitamos essa afirmação para o SFT de raciocínio com supervisão de longa cadeia de pensamento (CoT) e descobrimos que a generalização entre domínios não está ausente, mas é condicional, moldada conjuntamente pela dinâmica de otimização, pelos dados de treinamento e pela capacidade do modelo base. Alguns fracassos relatados são artefatos de subotimização: o desempenho entre domínios primeiro se degrada antes de se recuperar e melhorar com o treinamento estendido (um padrão de queda e recuperação), portanto, checkpoints de treinamento curto podem subestimar a generalização. A qualidade e a estrutura dos dados são importantes: soluções de baixa qualidade prejudicam amplamente a generalização, enquanto rastros de CoT longos e verificados produzem ganhos consistentes entre domínios. A capacidade do modelo é essencial: modelos mais fortes internalizam padrões procedimentais transferíveis (por exemplo, retrocesso) mesmo a partir de um jogo aritmético simples, enquanto os mais fracos imitam a verbosidade superficial. No entanto, essa generalização é assimétrica: o raciocínio melhora enquanto a segurança se degrada, reformulando a questão de *se* o SFT de raciocínio generaliza para *sob quais condições* e *a que custo*.
Agentes de modelo de linguagem grande (LLM), como o OpenClaw, dependem de habilidades reutilizáveis para executar tarefas complexas, mas essas habilidades permanecem amplamente estáticas após a implantação. Como resultado, fluxos de trabalho similares, padrões de uso de ferramentas e modos de falha são redescobertos repetidamente entre os usuários, impedindo que o sistema melhore com a experiência. Embora as interações de diferentes usuários forneçam sinais complementares sobre quando uma habilidade funciona ou falha, os sistemas existentes carecem de um mecanismo para converter tais experiências heterogêneas em atualizações confiáveis das habilidades. Para resolver essas questões, apresentamos o SkillClaw, uma estrutura para evolução coletiva de habilidades em ecossistemas de agentes multiutilizador, que trata as interações entre usuários e ao longo do tempo como o sinal primário para melhorar as habilidades. O SkillClaw agrega continuamente trajetórias geradas durante o uso e as processa com um evolucionador autónomo, que identifica padrões comportamentais recorrentes e os traduz em atualizações do conjunto de habilidades, refinando as existentes ou estendendo-as com novas capacidades. As habilidades resultantes são mantidas num repositório partilhado e sincronizadas entre os usuários, permitindo que melhorias descobertas num contexto se propaguem por todo o sistema sem exigir esforço adicional dos usuários. Ao integrar a experiência multiutilizador em atualizações contínuas de habilidades, o SkillClaw permite a transferência de conhecimento entre usuários e a melhoria cumulativa de capacidades. Experimentos no WildClawBench mostram que, com interação e *feedback* limitados, ele melhora significativamente o desempenho do Qwen3-Max em cenários reais de agentes.
Os agentes de IA podem automatizar sua caixa de entrada, mas serão capazes de automatizar outros aspectos rotineiros da sua vida? Tarefas online cotidianas oferecem um campo de testes realista e ainda não solucionado para avaliar a próxima geração de agentes de IA. Para isso, apresentamos o ClawBench, uma estrutura de avaliação com 153 tarefas simples que as pessoas precisam realizar regularmente em suas vidas e trabalho, abrangendo 144 plataformas ativas em 15 categorias – desde completar compras e marcar compromissos até enviar candidaturas a empregos. Essas tarefas exigem capacidades além dos benchmarks existentes, como obter informações relevantes de documentos fornecidos pelo usuário, navegar por fluxos de trabalho de múltiplas etapas em diversas plataformas e operações com grande demanda de escrita, como preencher formulários detalhados corretamente. Diferente dos benchmarks existentes que avaliam agentes em ambientes offline com páginas estáticas, o ClawBench opera em sites de produção, preservando toda a complexidade, natureza dinâmica e desafios da interação real na web. Uma camada de intercepção leve captura e bloqueia apenas a requisição final de envio, garantindo avaliação segura sem efeitos colaterais no mundo real. Nossas avaliações de 7 modelos de ponta mostram que tanto modelos proprietários quanto de código aberto conseguem completar apenas uma pequena parte dessas tarefas. Por exemplo, o Claude Sonnet 4.6 atinge apenas 33,3%. O progresso no ClawBench nos aproxima de agentes de IA que possam funcionar como assistentes generalistas confiáveis.
Apresentamos a família HY-Embodied-0.5, uma série de modelos de base projetados especificamente para agentes corporificados no mundo real. Para preencher a lacuna entre os Modelos de Visão e Linguagem (VLMs) gerais e as demandas dos agentes corporificados, nossos modelos foram desenvolvidos para aprimorar as capacidades centrais exigidas pela inteligência corporificada: percepção visual espacial e temporal, juntamente com raciocínio corporificado avançado para previsão, interação e planejamento. A suíte HY-Embodied-0.5 compreende duas variantes principais: um modelo eficiente com 2 bilhões de parâmetros ativados, projetado para implantação em dispositivos de borda, e um modelo potente com 32 bilhões de parâmetros ativados, voltado para raciocínio complexo. Para suportar a percepção visual refinada, essencial para tarefas corporificadas, adotamos uma arquitetura de Mistura de Transformers (MoT) para permitir computação específica por modalidade. Ao incorporar tokens latentes, este projeto aprimora efetivamente a representação perceptual dos modelos. Para melhorar as capacidades de raciocínio, introduzimos um paradigma de pós-treinamento iterativo e auto-evolutivo. Além disso, empregamos destilação baseada em política (*on-policy distillation*) para transferir as capacidades avançadas do modelo grande para a variante menor, maximizando assim o potencial de desempenho do modelo compacto. Avaliações extensas em 22 benchmarks, abrangendo percepção visual, raciocínio espacial e compreensão corporificada, demonstram a eficácia da nossa abordagem. Nosso modelo MoT-2B supera modelos state-of-the-art de tamanho similar em 16 benchmarks, enquanto a variante de 32B alcança desempenho comparável a modelos de fronteira, como o Gemini 3.0 Pro. Em experimentos de controle robótico downstream, aproveitamos nossa base robusta de VLM para treinar um modelo eficaz de Visão-Linguagem-Ação (VLA), alcançando resultados convincentes em avaliações físicas do mundo real. O código e os modelos são de código aberto em https://github.com/Tencent-Hunyuan/HY-Embodied.
Os modelos de difusão texto-para-vídeo permitiram a síntese aberta de vídeos, mas frequentemente lutam para gerar o número correto de objetos especificados em um prompt. Apresentamos o NUMINA, uma estrutura de identificação e orientação que não requer treinamento para melhorar o alinhamento numérico. O NUMINA identifica inconsistências entre o prompt e o layout selecionando cabeças de auto-atenção e atenção cruzada discriminativas para derivar um layout latente contável. Em seguida, refina este layout de forma conservadora e modula a atenção cruzada para orientar a regeneração. No CountBench introduzido, o NUMINA melhora a precisão de contagem em até 7,4% no Wan2.1-1.3B, e em 4,9% e 5,5% nos modelos de 5B e 14B, respectivamente. Além disso, o alinhamento CLIP é melhorado enquanto mantém a consistência temporal. Estes resultados demonstram que a orientação estrutural complementa a busca por sementes e o aprimoramento de prompts, oferecendo um caminho prático para a difusão texto-para-vídeo com contagem precisa. O código está disponível em https://github.com/H-EmbodVis/NUMINA.
Neste artigo, apresentamos o MegaStyle, um pipeline novo e escalável de curadoria de dados que constrói um conjunto de dados de estilo consistente intra-estilo, diversificado inter-estilo e de alta qualidade. Alcançamos isso aproveitando a capacidade consistente de mapeamento de estilo texto-imagem dos atuais grandes modelos generativos, que podem gerar imagens no mesmo estilo a partir de uma descrição de estilo fornecida. Com base nesse fundamento, curamos uma galeria diversificada e equilibrada de *prompts* com 170 mil *prompts* de estilo e 400 mil *prompts* de conteúdo, e geramos um conjunto de dados de estilo em larga escala, o MegaStyle-1.4M, através de combinações de *prompts* de conteúdo e estilo. Com o MegaStyle-1.4M, propomos o aprendizado contrastivo supervisionado por estilo para ajustar um codificador de estilo, o MegaStyle-Encoder, para extrair representações expressivas e específicas de estilo, e também treinamos um modelo de transferência de estilo baseado em FLUX, o MegaStyle-FLUX. Experimentos extensivos demonstram a importância de manter a consistência intra-estilo, a diversidade inter-estilo e a alta qualidade para um conjunto de dados de estilo, bem como a eficácia do MegaStyle-1.4M proposto. Além disso, quando treinados no MegaStyle-1.4M, o MegaStyle-Encoder e o MegaStyle-FLUX fornecem uma medição confiável de similaridade de estilo e uma transferência de estilo generalizável, representando uma contribuição significativa para a comunidade de transferência de estilo. Mais resultados estão disponíveis em nosso site do projeto: https://jeoyal.github.io/MegaStyle/.
A performance, a externalização da intenção, emoção e personalidade através de comportamentos visuais, vocais e temporais, é o que torna uma personagem viva. Aprender tal performance a partir de vídeo é uma alternativa promissora aos tradicionais pipelines 3D. No entanto, os modelos de vídeo existentes lutam para alcançar conjuntamente alta expressividade, inferência em tempo real e estabilidade de identidade em longos horizontes temporais, uma tensão que denominamos de trilema da performance. A conversação é o cenário de performance mais abrangente, pois as personagens falam, ouvem, reagem e expressam emoções simultaneamente, mantendo a identidade ao longo do tempo. Para resolver isso, apresentamos o LPM 1.0 (Large Performance Model), focando na performance conversacional audiovisual *full-duplex* para uma única pessoa. Concretamente, construímos um conjunto de dados multimodal centrado no ser humano através de filtragem rigorosa, emparelhamento áudio-vídeo de fala-escuta, compreensão da performance e extração *multi-reference* com consciência de identidade; treinamos um *Diffusion Transformer* com 17B de parâmetros (Base LPM) para uma performance altamente controlável e consistente em identidade através de condicionamento multimodal; e o destilamos num gerador causal de *streaming* (Online LPM) para interação de baixa latência e duração infinita. Na inferência, dada uma imagem de personagem com referências conscientes da identidade, o LPM 1.0 gera vídeos de escuta a partir do áudio do utilizador e vídeos de fala a partir de áudio sintetizado, com *prompts* de texto para controlo de movimento, tudo a uma velocidade em tempo real com geração de identidade estável e duração infinita. O LPM 1.0 serve, assim, como um motor visual para agentes conversacionais, personagens de *live streaming* e NPCs de jogos. Para avaliar sistematicamente este cenário, propomos o LPM-Bench, o primeiro *benchmark* para performance interativa de personagens. O LPM 1.0 alcança resultados state-of-the-art em todas as dimensões avaliadas, mantendo a inferência em tempo real.
O Group Relative Policy Optimization (GRPO) emergiu como o objetivo de facto de Aprendizagem por Reforço (RL) que impulsiona os avanços recentes em Modelos de Linguagem Multimodais de Grande Escala. No entanto, estender este sucesso a modelos generalistas multimodais de código aberto permanece severamente limitado por dois desafios principais: a variância extrema nas topologias de recompensa entre diversas tarefas visuais e a dificuldade inerente de equilibrar a perceção de alto detalhe com capacidades de raciocínio de múltiplos passos. Para resolver estas questões, introduzimos o Gaussian GRPO (G²RPO), um novo objetivo de treino de RL que substitui a escala linear padrão por correspondência distribucional não linear. Ao forçar matematicamente a distribuição de vantagem de qualquer tarefa a convergir estritamente para uma distribuição normal padrão, N(0,1), o G²RPO garante teoricamente equidade de gradiente entre tarefas, mitiga vulnerabilidades a *outliers* de cauda pesada e oferece uma atualização simétrica para recompensas positivas e negativas. Aproveitando a estabilidade de treino melhorada fornecida pelo G²RPO, introduzimos dois mecanismos de modelação a nível de tarefa para equilibrar harmoniosamente a perceção e o raciocínio. Primeiro, a modelação do comprimento da resposta elicia dinamicamente cadeias de raciocínio estendidas para consultas complexas, enquanto aplica saídas diretas para reforçar o fundamento visual. Segundo, a modelação da entropia limita estritamente a zona de exploração do modelo, prevenindo eficazmente tanto o colapso como a explosão de entropia. Integrando estas metodologias, apresentamos o OpenVLThinkerV2, um modelo multimodal de propósito geral altamente robusto. Avaliações extensas em 18 *benchmarks* diversos demonstram o seu desempenho superior face a fortes modelos de código aberto e a modelos proprietários líderes de fronteira.
Apresentamos o DMax, um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes. Ele mitiga o acúmulo de erros na decodificação paralela, permitindo um paralelismo agressivo na decodificação enquanto preserva a qualidade da geração. Diferente dos dLLMs mascarados convencionais, que decodificam através de uma transição binária de máscara para token, o DMax reformula a decodificação como um autorrefinamento progressivo de *embeddings* de máscara para *embeddings* de token. O cerne de nossa abordagem é o Treinamento Uniforme Baseado em Política (*On-Policy Uniform Training*), uma nova estratégia de treinamento que unifica eficientemente dLLMs mascarados e uniformes, capacitando o modelo para recuperar tokens limpos tanto a partir de entradas mascaradas quanto de suas próprias previsões errôneas. Com base nesse fundamento, propomos ainda a Decodificação Paralela Suave (*Soft Parallel Decoding*). Representamos cada estado intermediário de decodificação como uma interpolação entre o *embedding* de token previsto e o *embedding* de máscara, permitindo uma autorevisão iterativa no espaço de *embeddings*. Extensivos experimentos em uma variedade de benchmarks demonstram a eficácia do DMax. Em comparação com o LLaMA-2.0-mini original, nosso método melhora o TPF no GSM8K de 2,04 para 5,47, mantendo a precisão. No MBPP, ele aumenta o TPF de 2,71 para 5,86, mantendo um desempenho comparável. Em duas GPUs H200, nosso modelo alcança uma média de 1.338 TPS com tamanho de lote 1. O código está disponível em: https://github.com/czg1225/DMax
Os agentes de modelos de linguagem de grande escala (LLM) estão cada vez menos sendo construídos pela alteração dos pesos do modelo e mais pela reorganização do ambiente de execução em torno deles. Capacidades que os sistemas anteriores esperavam que o modelo recuperasse internamente são agora externalizadas em armazenamentos de memória, habilidades reutilizáveis, protocolos de interação e no *harness* circundante que torna esses módulos confiáveis na prática. Este artigo revisa essa mudança através da lente da externalização. Baseando-nos no conceito de artefatos cognitivos, argumentamos que a infraestrutura do agente é importante não apenas porque adiciona componentes auxiliares, mas porque transforma cargas cognitivas complexas em formas que o modelo pode resolver com maior confiabilidade. Sob esta perspectiva, a memória externaliza o estado ao longo do tempo, as habilidades externalizam a expertise procedural, os protocolos externalizam a estrutura de interação e a engenharia do *harness* serve como a camada de unificação que os coordena em uma execução governada. Traçamos uma progressão histórica dos pesos para o contexto e depois para o *harness*, analisamos a memória, as habilidades e os protocolos como três formas distintas mas acopladas de externalização, e examinamos como elas interagem dentro de um sistema de agente maior. Discutimos ainda a relação de compromisso entre capacidade paramétrica e externalizada, identificamos direções emergentes, como *harnesses* de auto-evolução e infraestrutura de agente compartilhada, e debatemos desafios em aberto na avaliação, governança e na coevolução de longo prazo dos modelos com a infraestrutura externa. O resultado é uma estrutura de nível sistêmico para explicar por que o progresso prático dos agentes depende cada vez mais não apenas de modelos mais robustos, mas também de uma melhor infraestrutura cognitiva externa.
Agentes móveis personalizados que inferem preferências do usuário e calibram assistência proativa têm grande potencial como assistentes digitais do quotidiano, mas os benchmarks existentes não conseguem capturar o que isso exige. Trabalhos anteriores avaliam a recuperação de preferências a partir de históricos estáticos ou a previsão de intenções a partir de contextos fixos. Nenhum deles testa se um agente pode elicitar preferências em falta através da interação, nem se pode decidir quando intervir, solicitar consentimento ou permanecer silencioso num ambiente gráfico (GUI) ativo. Apresentamos o KnowU-Bench, um benchmark online para agentes móveis personalizados, construído sobre um ambiente de emulação Android reproduzível, abrangendo 42 tarefas gerais de GUI, 86 tarefas personalizadas e 64 tarefas proativas. Diferentemente de trabalhos anteriores que tratam as preferências do usuário como contexto estático, o KnowU-Bench oculta o perfil do usuário do agente e expõe apenas registos comportamentais, forçando uma inferência genuína de preferências em vez de uma simples consulta de contexto. Para suportar a elicitação de preferências em múltiplos turnos, ele instancia um simulador de usuário baseado em LLM e ancorado em perfis estruturados, permitindo diálogos realistas de clarificação e gestão proativa de consentimento. Para além da personalização, o KnowU-Bench fornece uma avaliação abrangente da cadeia de decisão proativa completa, incluindo execução fundamentada em GUI, negociação de consentimento e contenção pós-rejeição, avaliada através de um protocolo híbrido que combina verificação baseada em regras com pontuação por LLM-como-Juiz. As nossas experiências revelam uma degradação impressionante: agentes que se destacam na execução explícita de tarefas caem para abaixo de 50% de eficácia sob instruções vagas que exigem inferência de preferências do usuário ou calibração de intervenção, mesmo para modelos de ponta como o Claude Sonnet 4.6. Os principais estrangulamentos não são a navegação na GUI, mas a aquisição de preferências e a calibração da intervenção, expondo uma lacuna fundamental entre a operação competente da interface e uma assistência pessoal verdadeiramente confiável.
O advento de modelos multimodais agentivos capacitou sistemas a interagir ativamente com ambientes externos. No entanto, os agentes atuais padecem de um profundo déficit metacognitivo: eles lutam para arbitrar entre aproveitar o conhecimento interno e consultar utilitários externos. Consequentemente, frequentemente tornam-se vítimas de invocações cegas de ferramentas, recorrendo à execução reflexiva de ferramentas mesmo quando as consultas são resolvíveis a partir do contexto visual bruto. Este comportamento patológico precipita graves gargalos de latência e injeta ruído extrínseco que descarrila o raciocínio sólido. Os protocolos existentes de aprendizagem por reforço tentam mitigar isto através de uma recompensa escalarizada que penaliza o uso de ferramentas. No entanto, esta formulação acoplada cria um dilema de otimização irreconciliável: uma penalidade agressiva suprime o uso essencial de ferramentas, enquanto uma penalidade branda é inteiramente subsumida pela variância da recompensa de precisão durante a normalização da vantagem, tornando-a impotente contra o uso excessivo de ferramentas. Para transcender este gargalo, propomos o HDPO, uma estrutura que reformula a eficiência de ferramentas de um objetivo escalar concorrente para um estritamente condicional. Ao evitar a escalarização de recompensas, o HDPO mantém dois canais de otimização ortogonais: um canal de precisão que maximiza a correção da tarefa, e um canal de eficiência que impõe a economia de execução exclusivamente dentro de trajetórias precisas através de uma estimativa de vantagem condicional. Esta arquitetura desacoplada induz naturalmente um currículo cognitivo — forçando o agente a primeiro dominar a resolução da tarefa antes de refinar a sua autossuficiência. Avaliações extensivas demonstram que o nosso modelo resultante, Metis, reduz as invocações de ferramentas em ordens de magnitude enquanto simultaneamente eleva a precisão do raciocínio.
Agentes web – sistemas autônomos que navegam e executam tarefas na web em nome dos usuários – têm o potencial de transformar a forma como as pessoas interagem com o mundo digital. No entanto, os agentes web mais capazes atualmente dependem de modelos proprietários com dados e receitas de treinamento não divulgados, limitando a compreensão científica, a reprodutibilidade e o progresso impulsionado pela comunidade. Acreditamos que os agentes para a web aberta devem ser construídos abertamente. Para esse fim, introduzimos (1) MolmoWebMix, uma mistura grande e diversificada de demonstrações de tarefas em navegador e dados de percepção de GUI web, e (2) MolmoWeb, uma família de agentes web multimodais totalmente abertos. Especificamente, o MolmoWebMix combina mais de 100 mil trajetórias de tarefas sintéticas de múltiplos pipelines de geração complementares com mais de 30 mil demonstrações humanas, trajetórias de habilidades web atômicas e dados de percepção de GUI, incluindo a ancoragem de expressões referenciais e a resposta a perguntas baseadas em capturas de tela. Os agentes MolmoWeb operam como políticas de ação visuo-linguísticas condicionadas por instruções: dada uma instrução de tarefa e uma captura de tela de uma página web, eles preveem a próxima ação do navegador, sem exigir acesso a HTML, árvores de acessibilidade ou APIs especializadas. Disponíveis nos tamanhos 4B e 8B, em benchmarks de uso de navegador como WebVoyager, Online-Mind2Web e DeepShop, os agentes MolmoWeb alcançam resultados de última geração, superando modelos abertos apenas em pesos de escala similar, como Fara-7B, UI-Tars-1.5-7B e Holo1-7B. O MolmoWeb-8B também supera agentes baseados em marcas (SoM) construídos sobre modelos fechados de fronteira muito maiores, como o GPT-4o. Demonstramos ainda ganhos consistentes por meio de escalonamento no momento do teste via rollouts paralelos com seleção best-of-N, alcançando 94,7% e 60,5% de pass@4 (comparado a 78,2% e 35,3% de pass@1) no WebVoyager e no Online-Mind2Web, respectivamente. Liberaremos *checkpoints* do modelo, dados de treinamento, código e um *harness* de avaliação unificado para permitir a reprodutibilidade e acelerar a pesquisa aberta sobre agentes web.
A compreensão espacial é um pilar fundamental da inteligência de nível humano. No entanto, a pesquisa atual concentra-se predominantemente na produção de dados específicos de domínio, deixando um vazio crítico: a ausência de um mecanismo de código aberto e baseado em princípios, capaz de libertar todo o potencial dos dados espaciais de alta qualidade. Para colmatar esta lacuna, elucidamos os princípios de conceção de um sistema robusto de geração de dados e introduzimos o OpenSpatial – um motor de dados de código aberto, projetado para alta qualidade, escalabilidade extensiva, diversidade ampla de tarefas e eficiência otimizada. O OpenSpatial adota *bounding boxes* 3D como primitiva fundamental para construir uma hierarquia de dados abrangente em cinco tarefas fundamentais: Medição Espacial (ME), Relação Espacial (RE), Perceção de Câmara (PC), Consistência Multi-vista (CM) e Raciocínio Consciente da Cena (RCC). Aproveitando esta infraestrutura escalável, criámos o OpenSpatial-3M, um conjunto de dados em larga escala que compreende 3 milhões de amostras de alta fidelidade. Avaliações extensivas demonstram que modelos versáteis treinados no nosso conjunto de dados alcançam desempenho de ponta numa ampla gama de *benchmarks* de raciocínio espacial. Notablemente, o modelo de melhor desempenho exibe uma melhoria média substancial de 19 por cento, em termos relativos. Adicionalmente, fornecemos uma análise sistemática de como os atributos dos dados influenciam a perceção espacial. Ao disponibilizar em código aberto tanto o motor como o conjunto de dados à escala de 3 milhões, fornecemos uma base robusta para acelerar a pesquisa futura em inteligência espacial.
Para estender o paradigma de pós-treinamento por reforço a modelos omni-modais, com o objetivo de fortalecer simultaneamente a compreensão áudio-visual e o raciocínio colaborativo, propomos o OmniJigsaw, uma estrutura genérica de auto-supervisão baseada numa tarefa proxy de reordenação temporal. Centrado na reconstrução cronológica de *clips* áudio-visuais embaralhados, este paradigma orquestra estrategicamente sinais visuais e auditivos para compelir a integração multimodal através de três estratégias distintas: Integração Conjunta de Modalidades, Seleção de Modalidade a Nível de Amostra e Mascaramento de Modalidade a Nível de *Clip*. Reconhecendo que a eficácia de tais tarefas proxy está fundamentalmente ligada à qualidade do *puzzle*, concebemos um *pipeline* de filtragem de dados em dois estágios (do grosso para o fino), que facilita a adaptação eficiente do OmniJigsaw a dados omni-modais maciços e não anotados. A nossa análise revela um "fenómeno de atalho bimodal" na integração conjunta de modalidades e demonstra que o mascaramento de modalidade a nível de *clip* (mais fino) mitiga este problema, superando a seleção de modalidade a nível de amostra. Avaliações extensivas em 15 *benchmarks* mostram ganhos substanciais em raciocínio de vídeo, áudio e colaborativo, validando o OmniJigsaw como um paradigma escalável para aprendizagem omni-modal auto-supervisionada.
A utilização de competências tornou-se um componente central dos sistemas de agentes modernos e pode melhorar substancialmente a capacidade dos agentes para concluir tarefas complexas. Em ambientes do mundo real, onde os agentes devem monitorizar e interagir com inúmeras aplicações pessoais, navegadores web e outras interfaces de ambiente, as bibliotecas de competências podem escalar para milhares de competências reutilizáveis. A escalabilidade para conjuntos de competências maiores introduz dois desafios principais. Primeiro, carregar o conjunto completo de competências satura a janela de contexto, aumentando os custos de *tokens*, alucinações e latência. Neste artigo, apresentamos o Grafo de Competências (GoS), uma camada de recuperação estrutural em tempo de inferência para grandes bibliotecas de competências. O GoS constrói offline um grafo de competências executável a partir de pacotes de competências e, no momento da inferência, recupera um pacote de competências delimitado e com consciência de dependências através de sementeamento híbrido semântico-léxico, *PageRank* Personalizado com Pesos Reversos e hidratação com orçamento de contexto. No SkillsBench e no ALFWorld, o GoS melhora a recompensa média em 43,6% em relação à linha de base simples de carregamento total de competências, enquanto reduz os *tokens* de entrada em 37,8%, e generaliza-se em três famílias de modelos: Claude Sonnet, GPT-5.2 Codex e MiniMax. Estudos de ablação adicionais em bibliotecas de competências que variam de 200 a 2.000 competências demonstram ainda que o GoS supera consistentemente tanto o carregamento simples de competências quanto a recuperação vetorial simples no equilíbrio entre recompensa, eficiência de *tokens* e tempo de execução.
Dado uma pessoa e uma imagem de uma peça de roupa, o _virtual try-on_ (VTO) visa sintetizar uma imagem realista da pessoa usando a peça, preservando sua pose e identidade originais. Embora os métodos recentes de VTO se destaquem na visualização da aparência da roupa, eles ignoram em grande parte um aspeto crucial da experiência de experimentação: a precisão do caimento da roupa — por exemplo, retratar como uma camisa de tamanho extra-grande fica numa pessoa de tamanho extra-pequeno. Um obstáculo fundamental é a ausência de conjuntos de dados que forneçam informações precisas sobre o tamanho do corpo e da roupa, particularmente para casos de "mau caimento", onde as roupas são significativamente grandes ou pequenas demais. Consequentemente, os métodos atuais de VTO optam por gerar resultados bem ajustados, independentemente do tamanho da roupa ou da pessoa. Neste artigo, damos os primeiros passos para resolver este problema em aberto. Apresentamos o FIT (_Fit-Inclusive Try-on_), um conjunto de dados de VTO em larga escala que compreende mais de 1,13 milhões de triplos de imagens de experimentação, acompanhados por medições precisas do corpo e da roupa. Superamos os desafios da recolha de dados através de uma estratégia sintética escalável: (1) Geramos programaticamente roupas 3D usando o GarmentCode e as drapeamos através de simulação física para capturar o caimento realista da roupa. (2) Empregamos uma nova estrutura de retexturização para transformar renderizações sintéticas em imagens fotorrealistas, preservando estritamente a geometria. (3) Introduzimos a preservação da identidade da pessoa no nosso modelo de retexturização para gerar imagens pareadas de pessoas (a mesma pessoa, roupas diferentes) para treino supervisionado. Por fim, aproveitamos o nosso conjunto de dados FIT para treinar um modelo de base de VTO consciente do caimento. Os nossos dados e resultados estabelecem o novo estado da arte para o _virtual try-on_ consciente do caimento, além de oferecerem um benchmark robusto para pesquisas futuras. Disponibilizaremos todos os dados e código publicamente na nossa página do projeto: https://johannakarras.github.io/FIT.
Os LLMs de ponta conseguem navegar em sites complexos, mas seu custo e dependência de APIs de terceiros tornam a implantação local inviável. Apresentamos o conceito de Agente-como-Anotadores, uma estrutura que organiza a geração sintética de trajetórias para agentes web por analogia com funções humanas de anotação, substituindo o Designer de Tarefas, o Anotador e o Supervisor por componentes modulares de LLM. Utilizando o Gemini 3 Pro como professor, geramos 3.000 trajetórias em seis ambientes web e refinamos um estudante de 9 bilhões de parâmetros com aprendizado supervisionado puro nas 2.322 que passam no filtro de qualidade. O modelo resultante atinge 41,5% no WebArena, superando modelos proprietários como Claude 3.5 Sonnet (36,0%) e GPT-4o (31,5%) sob o mesmo protocolo de avaliação, e quase dobrando o melhor resultado anterior de código aberto (Go-Browse, 21,7%). As capacidades transferem-se para ambientes não vistos, com um ganho de 18,2 pontos percentuais no WorkArena L1 (uma plataforma empresarial nunca vista durante o treinamento) e melhorias consistentes em três benchmarks adicionais. Ablações confirmam que cada componente do pipeline contribui significativamente, sendo que a filtragem do Juiz, dicas de avaliação e rastros de raciocínio representam ganhos mensuráveis. Estes resultados demonstram que a síntese estruturada de trajetórias a partir de um único professor de ponta é suficiente para produzir agentes web competitivos e implantáveis localmente. Página do projeto: https://agent-as-annotators.github.io
Os modelos visão-linguagem-ação (VLA) têm avançado a manipulação robótica através de pré-treinamento em larga escala, mas a implantação no mundo real permanece desafiadora devido à observabilidade parcial e ao feedback atrasado. O aprendizado por reforço aborda isso através de funções de valor, que avaliam o progresso da tarefa e orientam a melhoria da política. No entanto, os modelos de valor existentes baseados em modelos de visão e linguagem (VLMs) lutam para capturar dinâmicas temporais, prejudicando a estimativa de valor confiável em tarefas de longo horizonte. Neste artigo, propomos ViVa, um modelo de valor video-generativo que reaproveita um gerador de vídeo pré-treinado para estimativa de valor. Tomando a observação atual e a propriocepção do robô como entrada, o ViVa prevê conjuntamente a propriocepção futura e um valor escalar para o estado atual. Ao alavancar os prévios espaço-temporais de um gerador de vídeo pré-treinado, nossa abordagem ancora a estimativa de valor na dinâmica antecipada da corporificação, indo além de instantâneos estáticos para acoplar intrinsecamente valor com previsão. Integrado ao RECAP, o ViVa oferece melhorias substanciais na montagem de caixas no mundo real. A análise qualitativa em todas as três tarefas confirma que o ViVa produz sinais de valor mais confiáveis, refletindo com precisão o progresso da tarefa. Ao aproveitar prévios espaço-temporais de corpora de vídeo, o ViVa também generaliza para novos objetos, destacando a promessa de modelos video-generativos para estimativa de valor.
A adaptação de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) para vídeos de longa duração é limitada pelas restrições de contexto. Fluxos visuais densos saturam o orçamento de tokens e exacerbam o fenômeno "lost-in-the-middle" (perdido-no-meio). Heurísticas existentes, como amostragem esparsa ou *pooling* uniforme, sacrificam cegamente a fidelidade ao descartar momentos decisivos e desperdiçar largura de banda em planos de fundo irrelevantes. Propomos o Tempo, uma estrutura eficiente e consciente da consulta que comprime vídeos longos para compreensão subsequente. O Tempo aproveita um Pequeno Modelo de Linguagem Visual (SVLM) como um compressor temporal local, transformando a redução de tokens num processo inicial de destilação multimodal para gerar representações compactas e alinhadas com a intenção numa única passagem direta. Para impor orçamentos rigorosos sem quebrar a causalidade, introduzimos a Alocação Adaptativa de Tokens (ATA). Explorando o *prior* de relevância *zero-shot* e a carga antecipada semântica do SVLM, a ATA atua como um roteador dinâmico O(1) sem necessidade de treino. Ela aloca largura de banda densa a segmentos críticos para a consulta, enquanto comprime redundâncias em âncoras temporais mínimas para manter a narrativa global. Experimentos extensivos mostram que nossa arquitetura de 6B atinge desempenho de última geração com compressão dinâmica agressiva (0.5-16 tokens/frame). No LVBench de extrema duração (4101s), o Tempo obtém 52.3 sob um rigoroso orçamento visual de 8K, superando o GPT-4o e o Gemini 1.5 Pro. Escalar para 2048 *frames* atinge 53.7. Crucialmente, o Tempo comprime vídeos de longa duração substancialmente abaixo dos limites teóricos, provando que a verdadeira compreensão de vídeos de formato longo depende de eficiência orientada pela intenção, e não de janelas de contexto greedily preenchidas.
A manipulação robótica com objetos deformáveis representa um regime de aprendizagem incorporada intensivo em dados, onde forma, contacto e topologia coevoluem de maneiras que superam em muito a variabilidade dos objetos rígidos. Embora a simulação prometa alívio face ao custo da aquisição de dados do mundo real, os *pipelines* predominantes de *sim-to-real* permanecem enraizados em abstrações de corpos rígidos, produzindo geometria desencontrada, dinâmicas de materiais moles frágeis e primitivas de movimento pouco adequadas para interação com tecidos. Defendemos que a simulação falha não por ser sintética, mas por ser desenraizada da realidade. Para resolver isto, introduzimos o SIM1, um motor de dados *real-to-sim-to-real* alinhado com a física que ancora a simulação no mundo físico. Dadas demonstrações limitadas, o sistema digitaliza cenas em gémeos digitais metricamente consistentes, calibra a dinâmica deformável através de modelação elástica e expande comportamentos via geração de trajetórias baseada em difusão com filtragem de qualidade. Este *pipeline* transforma observações esparsas em supervisão sintética escalada com fidelidade próxima da demonstração. Experiências mostram que políticas treinadas exclusivamente com dados sintéticos atingem paridade com linhas de base de dados reais numa razão de equivalência de 1:15, ao mesmo tempo que alcançam 90% de sucesso *zero-shot* e ganhos de 50% na generalização em implementação no mundo real. Estes resultados validam a simulação alinhada com a física como uma supervisão escalável para manipulação deformável e um caminho prático para a aprendizagem de políticas eficiente em dados.
A complexidade computacional quadrática dos mecanismos de atenção padrão representa um grave gargalo de escalabilidade para LLMs em cenários de contexto longo. Embora os mecanismos de atenção híbrida que combinam Atenção Plena (FA) e Atenção Esparsa (SA) ofereçam uma solução potencial, os métodos existentes geralmente dependem de razões de alocação estáticas que não conseguem acomodar as demandas variáveis de recuperação de diferentes tarefas. Além disso, a esparsidade dinâmica a nível de cabeças frequentemente introduz grave desequilíbrio de carga computacional e longas caudas de sincronização, que dificultam a aceleração por hardware durante a decodagem autoregressiva. Para preencher esta lacuna, introduzimos o Flux Attention, uma estrutura consciente do contexto que otimiza dinamicamente o cálculo de atenção a nível de camada. Ao integrar um Roteador de Camada leve em LLMs pré-treinados e congelados, o método proposto encaminha adaptativamente cada camada para FA ou SA com base no contexto de entrada. Este roteamento por camada preserva a recuperação de informação de alta fidelidade, enquanto garante acesso contíguo à memória, traduzindo reduções teóricas de computação em acelerações práticas de tempo de execução. Como uma abordagem eficiente em parâmetros, nossa estrutura requer apenas 12 horas de treinamento em 8 GPUs A800. Experimentos extensos em múltiplos benchmarks de contexto longo e raciocínio matemático demonstram que o Flux Attention alcança um equilíbrio superior entre desempenho e velocidade de inferência em comparação com os modelos de base, com melhorias de velocidade de até 2,8× e 2,0× nas fases de preenchimento e decodagem, respectivamente.
Os sistemas de banco de dados incorporam um número crescente de funções em seus núcleos (também conhecidas como funções nativas do banco de dados) para cenários como suporte a novas aplicações e migração de negócios. Este crescimento causa uma demanda urgente por síntese automática de funções nativas de banco de dados. Embora os avanços recentes na geração de código baseada em LLM (por exemplo, Claude Code) mostrem potencial, eles são muito genéricos para o desenvolvimento específico de bancos de dados. Eles frequentemente alucinam ou negligenciam contexto crítico porque a síntese de funções de banco de dados é inerentemente complexa e propensa a erros, onde sintetizar uma única função pode envolver registrar múltiplas unidades de função, vincular referências internas e implementar a lógica corretamente. Para isso, propomos o DBCooker, um sistema baseado em LLM para sintetizar automaticamente funções nativas de banco de dados. Ele consiste em três componentes. Primeiro, o módulo de caracterização de funções agrega declarações de múltiplas fontes, identifica unidades de função que requerem codificação especializada e rastreia dependências entre unidades. Segundo, projetamos operações para abordar os principais desafios de síntese: (1) um gerador de plano de codificação baseado em pseudocódigo que constrói esqueletos de implementação estruturados identificando elementos-chave como funções referenciadas reutilizáveis; (2) um modelo híbrido de preenchimento de lacunas guiado por prévias probabilísticas e consciência de componentes para integrar lógica central com rotinas reutilizáveis; e (3) validação progressiva de três níveis, incluindo verificação de sintaxe, conformidade com padrões e verificação semântica guiada por LLM. Finalmente, uma estratégia de orquestração adaptativa unifica estas operações com ferramentas existentes e as sequencia dinamicamente através do histórico de orquestração de funções similares. Resultados mostram que o DBCooker supera outros métodos em SQLite, PostgreSQL e DuckDB (34,55% maior precisão em média), e pode sintetizar novas funções ausentes no SQLite mais recente (v3.50).
O surgimento dos Grandes Modelos de Linguagem (LLMs) iluminou o potencial para um simulador de usuário de propósito geral. No entanto, os benchmarks existentes permanecem limitados a cenários isolados, espaços de ação restritos ou dados sintéticos, falhando em capturar a natureza holística do comportamento humano autêntico. Para preencher esta lacuna, introduzimos o OmniBehavior, o primeiro benchmark de simulação de usuário construído inteiramente a partir de dados do mundo real, integrando padrões comportamentais de longo prazo, cross-cenário e heterogêneos em uma estrutura unificada. Com base neste benchmark, fornecemos primeiro evidências empíricas de que conjuntos de dados anteriores com cenários isolados sofrem de visão em túnel, enquanto a tomada de decisão no mundo real depende de cadeias causais de longo prazo e entre cenários. Avaliações extensivas dos LLMs state-of-the-art revelam que os modelos atuais lutam para simular com precisão esses comportamentos complexos, com o desempenho estabilizando-se mesmo com a expansão das janelas de contexto. Crucialmente, uma comparação sistemática entre comportamentos simulados e autênticos revela um viés estrutural fundamental: os LLMs tendem a convergir para uma pessoa média positiva, exibindo hiperatividade, homogeneização de persona e um viés utópico. Isso resulta na perda de diferenças individuais e comportamentos de cauda longa, destacando direções críticas para futuras pesquisas de simulação de alta fidelidade.
Os modelos de base oferecem percepção robusta, mas geralmente são computacionalmente pesados demais para implantação, e sua adaptação normalmente requer anotações custosas. Introduzimos uma estrutura de destilação de conhecimento semissupervisionada (SSKD) que comprime modelos de base de visão (VFMs) pré-treinados em especialistas compactos usando dados limitados rotulados e abundantes não rotulados, e a instanciamos para segmentação de instância, onde rótulos por pixel são particularmente caros. A estrutura desdobra-se em três etapas: (1) adaptação de domínio do(s) VFM(s) via auto-treinamento com calibração contrastiva, (2) transferência de conhecimento por meio de uma perda multiobjetivo unificada, e (3) refinamento do estudante para mitigar viés residual de pseudo-rótulos. Central à nossa abordagem é uma perda contrastiva pixel a pixel consciente da instância, que funde pontuações de máscara e classe para extrair negativos informativos e impor margens claras entre instâncias. Ao manter este sinal contrastivo tanto na adaptação quanto na destilação, alinhamos os embeddings do professor e do estudante e aproveitamos mais efetivamente imagens não rotuladas. No Cityscapes e ADE20K, nosso estudante aproximadamente 11 vezes menor supera seu(s) professor(es) VFM de disparo zero em +11,9 e +8,6 AP, supera o(s) professor(es) adaptado(s) em +3,4 e +1,5 AP, e supera métodos state-of-the-art de SSKD em benchmarks.
Os modelos de difusão alcançaram progressos notáveis na geração de vídeos, mas sua controlabilidade permanece uma grande limitação. Fatores-chave de cena, como layout, iluminação e trajetória da câmera, frequentemente se encontram entrelaçados ou apenas fracamente modelados, restringindo sua aplicabilidade em domínios como cinematografia e produção virtual, onde o controle explícito da cena é essencial. Apresentamos o LiVER, uma estrutura baseada em difusão para geração de vídeo com controle de cena. Para isso, introduzimos uma nova estrutura que condiciona a síntese de vídeo a propriedades explícitas de cena 3D, apoiada por um novo conjunto de dados em larga escala com anotações densas de layout de objetos, iluminação e parâmetros de câmera. Nosso método desembaraça essas propriedades renderizando sinais de controle a partir de uma representação 3D unificada. Propomos um módulo de condicionamento leve e uma estratégia de treinamento progressivo para integrar esses sinais em um modelo de difusão de vídeo fundamental, garantindo convergência estável e alta fidelidade. Nossa estrutura permite uma ampla gama de aplicações, incluindo síntese de imagem para vídeo e vídeo para vídeo, onde a cena 3D subjacente é totalmente editável. Para melhorar ainda mais a usabilidade, desenvolvemos um agente de cena que traduz automaticamente instruções de alto nível do usuário nos sinais de controle 3D necessários. Experimentos mostram que o LiVER alcança um fotorrealismo e uma consistência temporal de última geração, permitindo um controle preciso e desacoplado sobre os fatores da cena, estabelecendo um novo padrão para a geração de vídeo controlável.
Investigamos se as capacidades adquiridas após o treinamento podem ser transferidas entre modelos sem necessidade de retreinamento, com foco na transferência entre diferentes escalas de modelos. Propomos a Hipótese da Chave-Mestra, que afirma que as capacidades do modelo correspondem a direções em um subespaço latente de baixa dimensão que induzem comportamentos específicos e são transferíveis entre modelos por meio de alinhamento linear. Com base nessa hipótese, introduzimos o UNLOCK, uma estrutura livre de treinamento e de rótulos que extrai uma direção de capacidade contrastando as ativações entre variantes da Fonte com e sem a capacidade, alinha-a com um modelo de Destino por meio de uma transformação linear de baixa classificação e aplica-a no momento da inferência para eliciar o comportamento. Experimentos com comportamentos de raciocínio, incluindo Cadeia de Pensamento (CoT) e raciocínio matemático, demonstram melhorias substanciais entre escalas de modelos sem treinamento. Por exemplo, transferir o raciocínio CoT do Qwen1.5-14B para o Qwen1.5-7B resulta em um ganho de precisão de 12,1% no conjunto MATH, e transferir uma direção de raciocínio matemático do Qwen3-4B-Base para o Qwen3-14B-Base melhora a precisão no AGIEval Math de 61,1% para 71,3%, superando os 67,8% alcançados pelo modelo de 14B pós-treinado. Nossa análise mostra que o sucesso da transferência depende das capacidades aprendidas durante o pré-treinamento e que nossa intervenção amplifica as capacidades latentes ao aguçar a distribuição de saída em direção a trajetórias de raciocínio bem-sucedidas.
Os modelos de raciocínio multimodal (MRMs) treinados com aprendizagem por reforço com recompensas verificáveis (RLVR) demonstram maior precisão em benchmarks de raciocínio visual. No entanto, observamos que os ganhos de precisão frequentemente ocorrem à custa da qualidade do raciocínio: os traços de Cadeia de Pensamento (CoT) gerados são frequentemente inconsistentes com a resposta final e pouco fundamentados na evidência visual. Estudamos sistematicamente este fenômeno em sete benchmarks desafiadores de raciocínio espacial do mundo real e descobrimos que ele afeta MRMs contemporâneos como ViGoRL-Spatial, TreeVGR, bem como nossos próprios modelos treinados com a Otimização de Política Relativa de Grupo (GRPO) padrão. Caracterizamos a qualidade do raciocínio CoT ao longo de dois eixos complementares: "consistência lógica" (a CoT implica a resposta final?) e "fundamentação visual" (cada etapa do raciocínio descreve com precisão objetos, atributos e relações espaciais na imagem?). Para resolver isso, propomos o Faithful GRPO (FGRPO), uma variante do GRPO que impõe a consistência e a fundamentação como restrições via subida dual Lagrangiana. O FGRPO incorpora restrições de consistência e fundamentação a nível de *batch* no cálculo da vantagem dentro de um grupo, ajustando adaptativamente a importância relativa das restrições durante a otimização. Avaliamos o FGRPO em backbones Qwen2.5-VL-7B e 3B em sete conjuntos de dados espaciais. Nossos resultados mostram que o FGRPO melhora substancialmente a qualidade do raciocínio, reduzindo a taxa de inconsistência de 24,5% para 1,7% e melhorando as pontuações de fundamentação visual em +13%. Ele também melhora a precisão da resposta final em relação ao GRPO simples, demonstrando que um raciocínio fidedigno permite respostas melhores.
Os recentes avanços na modelagem generativa de vídeo, impulsionados por conjuntos de dados em larga escala e arquiteturas poderosas, têm produzido um realismo visual notável. No entanto, evidências emergentes sugerem que simplesmente escalar os dados e o tamanho do modelo não confere a esses sistemas uma compreensão das leis físicas subjacentes que governam a dinâmica do mundo real. As abordagens existentes frequentemente falham em capturar ou impor essa consistência física, resultando em movimento e dinâmica irreais. Em nosso trabalho, investigamos se a integração da inferência de propriedades físicas latentes diretamente no processo de geração de vídeo pode dotar os modelos da capacidade de produzir vídeos fisicamente plausíveis. Para esse fim, propomos o Phantom, um modelo de Geração de Vídeo Infundido por Física que modela conjuntamente o conteúdo visual e a dinâmica física latente. Condicionado a quadros de vídeo observados e estados físicos inferidos, o Phantom prevê conjuntamente a dinâmica física latente e gera quadros de vídeo futuros. O Phantom aproveita uma representação de vídeo consciente da física que serve como uma incorporação abstrata, porém informativa, da física subjacente, facilitando a previsão conjunta da dinâmica física juntamente com o conteúdo do vídeo, sem exigir uma especificação explícita de um conjunto complexo de dinâmicas e propriedades físicas. Ao integrar a inferência da representação de vídeo consciente da física diretamente no processo de geração, o Phantom produz sequências de vídeo que são visualmente realistas e fisicamente consistentes. Resultados quantitativos e qualitativos em benchmarks padrão de geração de vídeo e conscientes da física demonstram que o Phantom não apenas supera os métodos existentes em termos de aderência à dinâmica física, mas também oferece uma fidelidade perceptual competitiva.
Embora os Modelos de Visão e Linguagem (VLMs) tenham alcançado progressos notáveis na compreensão visual estática, sua implantação em ambientes complexos de embodiamento 3D permanece severamente limitada. Os benchmarks existentes sofrem de quatro deficiências críticas: (1) tarefas de percepção passiva contornam as dinâmicas interativas; (2) ambientes 2D simplificados falham em avaliar a percepção de profundidade; (3) o vazamento de estado privilegiado ignora o processamento visual genuíno; e (4) a avaliação humana é proibitivamente cara e não escalável. Apresentamos o PokeGym, um benchmark visual de longo horizonte instanciado dentro de Pokemon Legends: Z-A, um jogo de RPG de mundo aberto 3D visualmente complexo. O PokeGym aplica um isolamento rigoroso a nível de código: os agentes operam exclusivamente em observações RGB brutas, enquanto um avaliador independente verifica o sucesso via varredura de memória, garantindo uma tomada de decisão baseada puramente na visão e uma avaliação automatizada e escalável. O benchmark compreende 30 tarefas (30-220 passos) abrangendo cenários de navegação, interação e mistos, com três granularidades de instrução (Guiado Visualmente, Guiado por Etapas, Apenas Objetivo) para desconstruir sistematicamente as capacidades de fundamentação visual, raciocínio semântico e exploração autónoma. Nossa avaliação revela uma limitação fundamental dos VLMs atuais: a recuperação de *deadlocks* físicos, em vez do planeamento de alto nível, constitui o principal gargalo, com os *deadlocks* mostrando uma forte correlação negativa com o sucesso da tarefa. Além disso, descobrimos uma divergência metacognitiva: modelos mais fracos sofrem predominantemente de *Deadlocks Inconscientes* (alheios ao aprisionamento), enquanto modelos avançados exibem *Deadlocks Conscientes* (reconhecem o aprisionamento, mas falham em recuperar). Essas descobertas destacam a necessidade de integrar intuição espacial explícita nas arquiteturas de VLM. O código e o benchmark estarão disponíveis no GitHub.
A detecção de anomalias zero-shot tem como objetivo detetar e localizar regiões anómalas numa imagem sem acesso a quaisquer imagens de treino do domínio. Embora as abordagens recentes aproveitem modelos visão-linguagem (VLM), como o CLIP, para transferir conhecimento de conceitos de alto nível, os métodos baseados puramente em modelos de base visuais (VFM), como o DINOv2, têm ficado atrás em desempenho. Argumentamos que esta lacuna decorre de dois problemas práticos: (i) diversidade limitada nos conjuntos de dados auxiliares de deteção de anomalias existentes e (ii) estratégias de adaptação de VFM excessivamente superficiais. Para enfrentar ambos os desafios, propomos o AnomalyVFM, uma estrutura geral e eficaz que transforma qualquer VFM pré-treinado num detetor de anomalias zero-shot robusto. A nossa abordagem combina um esquema robusto de geração de conjuntos de dados sintéticos em três estágios com um mecanismo de adaptação eficiente em parâmetros, utilizando adaptadores de características de baixo rank e uma perda de pixel ponderada por confiança. Em conjunto, estes componentes permitem que os VFM modernos superem substancialmente os métodos state-of-the-art atuais. Mais especificamente, com o RADIO como backbone, o AnomalyVFM alcança uma AUROC média a nível de imagem de 94,1% em 9 conjuntos de dados diversos, superando os métodos anteriores em significativos 3,3 pontos percentuais. Página do Projeto: https://maticfuc.github.io/anomaly_vfm/
A implantação de grandes modelos de linguagem (LLMs) em dispositivos de *edge* heterogéneos exige estruturas que otimizem conjuntamente a eficiência energética, a qualidade da inferência e a confiabilidade. A nossa versão anterior, QEIL v1 (Kumar & Jha, 2026), alcançou uma melhoria de 4,82x no IPW, mas dependia de fatores de eficiência estáticos, otimização gananciosa e seleção não verificada de candidatos. O QEIL v2 substitui todas as heurísticas estáticas por modelos fundamentados na física e adaptativos em tempo de execução. Introduzimos três métricas de dispositivo-carga de trabalho: DASI (utilização de computação derivada do modelo *roofline*), CPQ (pressão de memória da teoria de alocação) e Phi (rendimento térmico da física de fugas CMOS), formando uma equação de energia unificada com cada coeficiente rastreável à física dos semicondutores. Para otimização, o PGSAM (Recozimento Simulado Guiado por Pareto com Momento) minimiza simultaneamente a energia, a latência e a subutilização do dispositivo. No momento da inferência, a cascata de seleção EAC/ARDE com paragem antecipada CSVET fornece verificação progressiva entre amostras repetidas. Avaliado no WikiText-103, GSM8K e ARC-Challenge em sete famílias de modelos (125M-8B parâmetros, incluindo uma variante pré-quantizada), o QEIL v2 alcança 75,7% de pass@k a 63,8W (IPW=0,9749), uma melhoria de 2,86x em relação à inferência padrão. Quando aplicado a um Llama-3.1-8B de 4 bits, o encaminhamento fundamentado na física do QEIL v2 atinge IPW=1,024 a 54,8W — sendo o primeiro sistema de orquestração de *edge* a superar a marca de referência empírica IPW=1,0, com o ganho atribuível inteiramente à alocação de dispositivos adaptativa à carga de trabalho do QEIL v2 num modelo com requisitos de largura de banda de memória reduzidos. A energia total diminui 75,6% em comparação com o padrão, com uma redução de latência de 38,3%, zero *throttling* térmico e recuperação de falhas de 100% em todos os *benchmarks* e famílias de modelos.
Os modelos visão-linguagem (VLMs) alcançam um forte desempenho multimodal, mas a forma como o cálculo é organizado através de populações de neurónios permanece pouco compreendida. Neste trabalho, estudamos os VLMs através da lente da topologia neural, representando cada camada como um grafo de correlação intra-camada derivado de co-ativações neurónio-neurónio. Esta perspetiva permite-nos questionar se a estrutura ao nível da população é comportamentalmente significativa, como é que esta muda entre modalidades e profundidade, e se identifica componentes internos causalmente influentes sob intervenção. Mostramos que a topologia de correlação transporta um sinal comportamental recuperável; além disso, a estrutura cross-modal consolida-se progressivamente com a profundidade em torno de um conjunto compacto de neurónios centrais recorrentes, cuja perturbação direcionada altera substancialmente a saída do modelo. A topologia neural surge assim como uma escala intermédia significativa para a interpretabilidade dos VLMs: mais rica do que a atribuição local, mais tratável do que a recuperação completa do circuito, e empiricamente ligada ao comportamento multimodal. O código está publicamente disponível em https://github.com/he-h/vlm-graph-probing.
Trabalhos recentes têm explorado a otimização de pipelines de processamento de sinal de imagem (ISP) para várias tarefas através da composição de módulos predefinidos e da sua adaptação a objetivos específicos. No entanto, a otimização conjunta de sequências e parâmetros dos módulos continua a ser um desafio. As abordagens existentes baseiam-se em pesquisa de arquitetura neural (NAS) ou em aprendizagem por reforço (RL) passo a passo, mas a NAS sofre de uma incompatibilidade entre treino e inferência, enquanto a RL passo a passo leva a um treino instável e a uma elevada sobrecarga computacional devido à tomada de decisão faseada. Propomos o POS-ISP, um quadro de RL a nível de sequência que formula a otimização modular do ISP como um problema global de previsão de sequência. O nosso método prevê toda a sequência de módulos e os seus parâmetros numa única passagem direta e otimiza o pipeline usando uma recompensa de tarefa terminal, eliminando a necessidade de supervisão intermédia e execuções redundantes. Experiências em várias tarefas a jusante mostram que o POS-ISP melhora o desempenho da tarefa enquanto reduz o custo computacional, destacando a otimização a nível de sequência como um paradigma estável e eficiente para ISP consciente da tarefa. A página do projeto está disponível em https://w1jyun.github.io/POS-ISP.
Os modelos modernos de texto para imagem (T2I) geram visuais de alta fidelidade, mas permanecem indiferentes às preferências individuais do utilizador. Embora os modelos de recompensa existentes otimizem para o apelo humano "médio", eles não conseguem capturar a subjectividade inerente ao julgamento estético. Neste trabalho, introduzimos um novo conjunto de dados e uma estrutura preditiva, denominada PAMELA, concebida para modelar avaliações de imagem personalizadas. O nosso conjunto de dados compreende 70.000 classificações de 5.000 imagens diversas geradas por modelos de última geração (Flux 2 e Nano Banana). Cada imagem é avaliada por 15 utilizadores únicos, fornecendo uma distribuição rica de preferências subjectivas em domínios como arte, design, moda e fotografia cinematográfica. Aproveitando estes dados, propomos um modelo de recompensa personalizado treinado em conjunto com as nossas anotações de alta qualidade e subconjuntos existentes de avaliação estética. Demonstramos que o nosso modelo prevê o gosto individual com maior precisão do que a maioria dos métodos atuais de última geração prevê as preferências a nível populacional. Utilizando o nosso preditor personalizado, demonstramos como métodos simples de optimização de *prompts* podem ser usados para orientar as gerações para as preferências individuais do utilizador. Os nossos resultados destacam a importância da qualidade dos dados e da personalização para lidar com a subjectividade das preferências do utilizador. Disponibilizamos o nosso conjunto de dados e modelo para facilitar a investigação padronizada no alinhamento personalizado de T2I e na avaliação subjectiva da qualidade visual.
Avanços recentes em modelos visão-linguagem (VLMs) têm aprimorado a descrição de imagens para o património cultural. No entanto, a inferência de metadados culturais estruturados (por exemplo, criador, origem, período) a partir de entrada visual permanece pouco explorada. Apresentamos uma referência de avaliação multicultural e multicategoria para esta tarefa e avaliamos VLMs usando uma estrutura LLM-como-Juiz que mede o alinhamento semântico com anotações de referência. Para avaliar o raciocínio cultural, relatamos precisão de correspondência exata, correspondência parcial e a nível de atributo entre regiões culturais. Os resultados mostram que os modelos capturam sinais fragmentados e exibem variação substancial de desempenho entre culturas e tipos de metadados, levando a previsões inconsistentes e pouco fundamentadas. Estas descobertas destacam as limitações dos VLMs atuais na inferência de metadados culturais estruturados para além da perceção visual.
O aprendizado por reforço (RL) tornou-se uma abordagem eficaz para avançar as capacidades de raciocínio de modelos de linguagem de grande porte (LLMs) através da integração estratégica de motores de busca externos. No entanto, os agentes de busca baseados em RL atuais frequentemente dependem de um processo de exploração estocástica orientado por recompensas de resultado cuidadosamente elaboradas, resultando em trajetórias de raciocínio ineficientes e treinamento instável. Para resolver essas questões, propomos uma nova estrutura, a Experiência Hierárquica (HiExp), para melhorar o desempenho e a estabilidade do treinamento de agentes de busca. Especificamente, extraímos conhecimento empírico através de análise contrastiva e um mecanismo de agrupamento multinível, transformando trajetórias de raciocínio brutas em conhecimento de experiência hierárquica. Ao aproveitar o treinamento alinhado com a experiência, regularizamos efetivamente a exploração estocástica, evoluindo-a para um processo de busca estratégico e orientado pela experiência. Avaliações extensas em múltiplos benchmarks complexos de busca agentiva e raciocínio matemático demonstram que nossa abordagem não apenas alcança ganhos substanciais de desempenho, mas também exibe forte generalização cruzada entre tarefas e algoritmos.
Os benchmarks de memória existentes para agentes de LLM avaliam a recordação explícita de fatos, mas negligenciam a memória implícita, na qual a experiência se torna comportamento automatizado sem recuperação consciente. Esta lacuna é crítica: assistentes eficazes devem aplicar automaticamente procedimentos aprendidos ou evitar ações mal-sucedidas sem lembretes explícitos. Apresentamos o ImplicitMemBench, o primeiro benchmark sistemático a avaliar a memória implícita através de três construtos fundamentados na cognição, extraídos de relatos padrão da ciência cognitiva sobre memória não declarativa: Memória Procedimental (aquisição de habilidade única após interferência), *Priming* (viés orientado por tema através de pares de instâncias experimentais/controle) e Condicionamento Clássico (associações Estímulo Condicionado – Estímulo Incondicionado (EC–EI) que moldam as primeiras decisões). Nosso conjunto de 300 itens emprega um protocolo unificado de Aprendizagem/*Priming*-Interferência-Teste com pontuação na primeira tentativa. A avaliação de 17 modelos revela limitações severas: nenhum modelo excede 66% no geral, com os melhores desempenhos sendo DeepSeek-R1 (65,3%), Qwen3-32B (64,1%) e GPT-5 (63,0%) muito abaixo das *baselines* humanas. A análise descobre assimetrias dramáticas (inibição 17,6% vs. preferência 75,0%) e gargalos universais que exigem inovações arquitetônicas além do escalonamento de parâmetros. O ImplicitMemBench reformula a avaliação de "o que os agentes recordam" para "o que eles automaticamente executam".
Apresentamos o RewardFlow, uma estrutura livre de inversão que direciona modelos pré-treinados de difusão e *flow-matching* durante a inferência por meio de dinâmica de Langevin multi-recompensa. O RewardFlow unifica recompensas diferenciáveis complementares para alinhamento semântico, fidelidade perceptual, ancoragem localizada, consistência de objetos e preferência humana, e ainda introduz uma recompensa diferenciada baseada em VQA que fornece supervisão semântica refinada através de raciocínio linguagem-visão. Para coordenar esses objetivos heterogêneos, projetamos uma política adaptativa consciente do *prompt* que extrai primitivas semânticas da instrução, infere a intenção de edição e modula dinamicamente os pesos de recompensa e os tamanhos de passo ao longo da amostragem. Em diversos benchmarks de edição de imagem e geração composicional, o RewardFlow oferece fidelidade de edição e alinhamento composicional de última geração.
Os modelos supervisionados de visão de baixo nível dependem de perdas pixel a pixel contra referências pareadas, porém conjuntos de treinamento pareados exibem inconsistência fotométrica por par – ou seja, diferentes pares de imagens exigem mapeamentos distintos de brilho global, cor ou balanço de branco. Essa inconsistência surge através de transferência fotométrica intrínseca à tarefa (ex.: realce de baixa luminosidade) ou de variações não intencionais de aquisição (ex.: remoção de chuva), e em ambos os casos causa uma patologia de otimização. As perdas de reconstrução padrão alocam um orçamento de gradiente desproporcional para metas fotométricas conflitantes por par, prejudicando a restauração de conteúdo. Neste artigo, investigamos esse problema e provamos que, sob decomposição por mínimos quadrados, os componentes fotométrico e estrutural do resíduo predição-alvo são ortogonais, e que o componente fotométrico espacialmente denso domina a energia do gradiente. Motivados por essa análise, propomos a Perda de Alinhamento Fotométrico (PAL). Este objetivo de supervisão flexível desconta discrepâncias fotométricas perturbadoras via alinhamento afim de cores de forma fechada, preservando a supervisão relevante para restauração, exigindo apenas estatísticas de covariância e uma pequena inversão de matriz com sobrecarga insignificante. Em 6 tarefas, 16 conjuntos de dados e 16 arquiteturas, a PAL melhora consistentemente as métricas e a generalização. A implementação está no apêndice.
A estimativa de profundidade autossupervisionada com visão de 360° permite uma percepção 3D densa e de baixo custo com um campo de visão completo a partir de múltiplas imagens com sobreposição mínima. No entanto, a maioria dos métodos existentes sofre com estimativas de profundidade inconsistentes entre as imagens sobrepostas. Para superar esta limitação, propomos um novo método guiado por geometria para *rigs* de multicâmaras calibradas e sincronizadas no tempo, que prevê profundidade métrica densa. Nossa abordagem visa duas fontes principais de inconsistência: o campo receptivo limitado nas regiões de borda da estimativa de profundidade de imagem única e a dificuldade de correspondência de *correspondences*. Mitigamos estes dois problemas estendendo o campo receptivo através das vistas e restringindo a atenção cruzada a uma pequena vizinhança. Para tal, estabelecemos as relações de vizinhança entre as imagens mapeando as posições dos *features* específicos de cada imagem num cilindro compartilhado. Com base nas posições cilíndricas, aplicamos um mecanismo explícito de atenção espacial, com ponderação não aprendida, que agrega *features* entre imagens de acordo com as suas distâncias no cilindro. Os *features* modulados são então decodificados num mapa de profundidade para cada vista. Avaliado nos conjuntos de dados DDAD e nuScenes, o nosso método melhora tanto a consistência da profundidade entre vistas como a precisão geral da profundidade em comparação com as abordagens state-of-the-art. O código está disponível em https://abualhanud.github.io/CylinderDepthPage.