Artigos de pesquisa em IA selecionados diariamente com traduções
Os agentes de GUI operam aplicativos por meio de suas interfaces visuais, em vez de APIs programáticas, interagindo com softwares arbitrários através de toques, deslizes e pressionamentos de tecla, alcançando uma longa cauda de aplicativos inacessíveis a agentes baseados em CLI. No entanto, o progresso nesta área é mais limitado pela ausência de uma infraestrutura coerente de pilha completa do que pela capacidade de modelagem: o treinamento online de RL sofre com instabilidade do ambiente e pipelines fechados, protocolos de avaliação divergem silenciosamente entre estudos, e agentes treinados raramente alcançam usuários reais em dispositivos reais. Apresentamos ClawGUI, um framework de código aberto que aborda essas três lacunas em um único conjunto. ClawGUI-RL fornece a primeira infraestrutura de RL para agentes de GUI com suporte validado para ambientes virtuais paralelos e dispositivos físicos reais, integrando GiGPO com um Process Reward Model para supervisão densa em nível de etapa. ClawGUI-Eval impõe um pipeline de avaliação totalmente padronizado em 6 benchmarks e 11+ modelos, alcançando 95,8% de reprodução contra baselines oficiais. ClawGUI-Agent leva agentes treinados para Android, HarmonyOS e iOS através de 12+ plataformas de chat com controle híbrido CLI-GUI e memória personalizada persistente. Treinado de ponta a ponta neste pipeline, ClawGUI-2B alcança 17,1% de Taxa de Sucesso no MobileWorld GUI-Only, superando a baseline MAI-UI-2B de mesma escala em 6,0%.
O RLVR (Reinforcement Learning from Verbal Feedback) melhora o raciocínio em grandes modelos de linguagem, mas a sua eficácia é frequentemente limitada pela severa esparsidade de recompensas em problemas difíceis. Métodos recentes de RL baseados em dicas mitigam a esparsidade através da injeção de soluções parciais ou templates abstratos; no entanto, eles geralmente dimensionam a orientação adicionando mais *tokens*, o que introduz redundância, inconsistência e sobrecarga adicional de treinamento. Propomos o KnowRL (*Knowledge-Guided Reinforcement Learning*), um *framework* de treinamento por RL que trata o projeto de dicas como um problema de orientação mínima suficiente. Durante o treinamento por RL, o KnowRL decompõe a orientação em pontos de conhecimento atômicos (KPs, do inglês *Knowledge Points*) e usa a Busca por Subconjuntos Restritos (CSS, do inglês *Constrained Subset Search*) para construir subconjuntos compactos e cientes da interação para o treinamento. Identificamos ainda um paradoxo da interação de poda – a remoção de um KP pode ajudar, enquanto a remoção de múltiplos desses KPs pode prejudicar – e otimizamos explicitamente a curadoria robusta de subconjuntos sob esta estrutura de dependência. Treinamos o KnowRL-Nemotron-1.5B a partir do OpenMath-Nemotron-1.5B. Em oito *benchmarks* de raciocínio na escala de 1.5B, o KnowRL-Nemotron-1.5B supera consistentemente as fortes linhas de base de RL e de métodos com dicas. Sem as dicas de KP na inferência, o KnowRL-Nemotron-1.5B atinge uma precisão média de 70.08, superando já o Nemotron-1.5B em +9.63 pontos; com KPs selecionados, o desempenho melhora para 74.16, estabelecendo um novo estado da arte nesta escala. O modelo, os dados de treinamento curados e o código estão publicamente disponíveis em https://github.com/Hasuer/KnowRL.
A destilação on-policy (OPD) tornou-se uma técnica central no pós-treinamento de grandes modelos de linguagem, embora sua dinâmica de treinamento permaneça pouco compreendida. Este artigo fornece uma investigação sistemática da dinâmica e dos mecanismos da OPD. Primeiro, identificamos que duas condições governam se a OPD tem sucesso ou falha: (i) o aluno e o professor devem compartilhar padrões de pensamento compatíveis; e (ii) mesmo com padrões de pensamento consistentes e pontuações mais altas, o professor deve oferecer capacidades genuinamente novas além daquelas que o aluno viu durante o treinamento. Validamos essas descobertas por meio da destilação reversa weak-to-strong, mostrando que professores de 1,5B e 7B da mesma família são indistinguíveis do ponto de vista distribucional da perspectiva do aluno. Investigando o mecanismo em nível de token, demonstramos que a OPD bem-sucedida é caracterizada por um alinhamento progressivo em tokens de alta probabilidade nos estados visitados pelo aluno, um pequeno conjunto compartilhado de tokens que concentra a maior parte da massa de probabilidade (97%-99%). Propomos ainda duas estratégias práticas para recuperar a OPD quando ela falha: inicialização a frio off-policy e seleção de prompts alinhada ao professor. Por fim, mostramos que o aparente almoço grátis da OPD – a recompensa densa em nível de token – tem um custo, levantando a questão de se a OPD pode ser dimensionada para destilações de longo horizonte.
A pesquisa em IA autónoma avançou rapidamente, mas a engenharia de investigação em ML de longo horizonte permanece difícil: os agentes devem sustentar progresso coerente através da compreensão de tarefas, configuração de ambiente, implementação, experimentação e depuração ao longo de horas ou dias. Apresentamos o AiScientist, um sistema para engenharia autónoma de longo horizonte em investigação de ML construído sobre um princípio simples: um forte desempenço de longo horizonte requer tanto orquestração estruturada quanto continuidade durável de estado. Para este fim, o AiScientist combina orquestração hierárquica com um espaço de trabalho File-as-Bus com permissões delimitadas: um Orchestrador de alto nível mantém controlo a nível de fase através de resumos concisos e um mapa do espaço de trabalho, enquanto agentes especializados reaterram-se repetidamente em artefactos duráveis, como análises, planos, código e evidências experimentais, em vez de dependerem principalmente de transferências conversacionais, produzindo controlo fino sobre estado espesso. Em dois benchmarks complementares, o AiScientist melhora a pontuação do PaperBench em 10,54 pontos em média face à melhor linha de base correspondente e atinge 81,82% Any Medal no MLE-Bench Lite. Estudos de ablação mostram ainda que o protocolo File-as-Bus é um impulsionador chave do desempenho, reduzindo o PaperBench em 6,41 pontos e o MLE-Bench Lite em 31,82 pontos quando removido. Estes resultados sugerem que a engenharia de investigação em ML de longo horizonte é um problema de sistemas de coordenação de trabalho especializado sobre estado de projeto durável, em vez de um problema puramente de raciocínio local.
Os recentes avanços na geração de vídeo permitem um novo paradigma para a criação de cenas 3D: gerar vídeos controlados por câmera que simulam percursos por uma cena e, em seguida, elevá-los a 3D por meio de técnicas de reconstrução *feed-forward*. Esta abordagem de reconstrução generativa combina a fidelidade visual e a capacidade criativa dos modelos de vídeo com saídas 3D prontas para renderização e simulação em tempo real. A escalabilidade para ambientes grandes e complexos exige a geração de vídeo 3D-consistente em trajetórias longas de câmera, com grandes mudanças de ponto de vista e revisita de locais, um cenário no qual os modelos de vídeo atuais se degradam rapidamente. Os métodos existentes para geração de longo horizonte são fundamentalmente limitados por duas formas de degradação: esquecimento espacial e desvio temporal. À medida que a exploração prossegue, as regiões previamente observadas ficam fora do contexto temporal do modelo, forçando-o a alucinar estruturas quando são revisitadas. Entretanto, a geração autorregressiva acumula pequenos erros de síntese ao longo do tempo, distorcendo gradualmente a aparência e a geometria da cena. Apresentamos o Lyra 2.0, uma estrutura para gerar mundos 3D persistentes e exploráveis em escala. Para resolver o esquecimento espacial, mantemos a geometria 3D por quadro e a usamos apenas para o roteamento de informações – recuperando quadros passados relevantes e estabelecendo correspondências densas com os pontos de vista-alvo – enquanto dependemos do *prior* generativo para a síntese de aparência. Para abordar o desvio temporal, treinamos com histórias auto-aumentadas que expõem o modelo às suas próprias saídas degradadas, ensinando-o a corrigir o desvio em vez de propagá-lo. Juntas, estas técnicas permitem trajetórias de vídeo substancialmente mais longas e 3D-consistentes, que utilizamos para ajustar modelos de reconstrução *feed-forward* que recuperam de forma confiável cenas 3D de alta qualidade.
O surgimento de agentes autónomos de interface gráfica (GUI) desencadeou contramedidas adversárias por parte das plataformas digitais. No entanto, a investigação existente prioriza a utilidade e a robustez em detrimento da dimensão crítica da anti-detecção. Argumentamos que, para os agentes sobreviverem em ecossistemas centrados no ser humano, devem desenvolver capacidades de Humanização. Introduzimos o "Teste de Turing no Ecrã", modelando formalmente a interação como um problema de otimização MinMax entre um detetor e um agente que visa minimizar a divergência comportamental. De seguida, recolhemos um novo conjunto de dados de alta fidelidade sobre a dinâmica de toque em dispositivos móveis e conduzimos uma análise que demonstra que agentes baseados em LMM básicos são facilmente detetáveis devido à sua cinemática artificial. Consequentemente, estabelecemos o *Agent Humanization Benchmark* (AHB) e métricas de deteção para quantificar o equilíbrio entre imitabilidade e utilidade. Por fim, propomos métodos que vão desde a adição de ruído heurístico até à correspondência comportamental baseada em dados, demonstrando que os agentes podem alcançar alta imitabilidade, teórica e empiricamente, sem sacrificar o desempenho. Este trabalho muda o paradigma de *se um agente pode* realizar uma tarefa para *como a realiza* dentro de um ecossistema centrado no ser humano, lançando as bases para uma coexistência harmoniosa em ambientes digitais adversários.
O Proximal Policy Optimization (PPO) é fundamental para o alinhamento de Grandes Modelos de Linguagem (LLMs) em tarefas de raciocínio com recompensas verificáveis. No entanto, o PPO padrão a nível de *token* enfrenta dificuldades neste contexto devido à instabilidade da atribuição de crédito temporal em horizontes longos de Cadeia de Pensamento (CoT) e ao custo proibitivo de memória do modelo de valor. Embora alternativas sem crítico, como o GRPO, mitiguem esses problemas, elas incorrem em uma sobrecarga computacional significativa por exigirem múltiplas amostras para estimativa da linha de base, limitando severamente a taxa de processamento no treinamento. Neste artigo, introduzimos o PPO a Nível de Sequência (SPPO), um algoritmo escalável que harmoniza a eficiência amostral do PPO com a estabilidade de atualizações baseadas em resultados. O SPPO reformula o processo de raciocínio como um Problema de Bandit Contextual a Nível de Sequência, empregando uma função de valor escalar desacoplada para derivar sinais de vantagem de baixa variância sem a necessidade de amostragem múltipla. Experimentos extensos em benchmarks matemáticos demonstram que o SPPO supera significativamente o PPO padrão e iguala o desempenho de métodos baseados em grupo, que são computacionalmente intensivos, oferecendo uma estrutura eficiente em recursos para o alinhamento de LLMs de raciocínio.
Descrevemos o pré-treinamento, pós-treinamento e quantização do Nemotron 3 Super, um modelo híbrido Mamba-Attention Mixture-of-Experts com 120 bilhões de parâmetros (12 bilhões ativos). O Nemotron 3 Super é o primeiro modelo da família Nemotron 3 a 1) ser pré-treinado em NVFP4, 2) utilizar o LatentMoE, uma nova arquitetura Mixture-of-Experts que otimiza tanto a precisão por FLOP quanto a precisão por parâmetro, e 3) incluir camadas MTP para aceleração da inferência por meio de decodificação especulativa nativa. Pré-treinamos o Nemotron 3 Super em 25 trilhões de tokens, seguido por pós-treinamento usando ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). O modelo final suporta até 1 milhão de tokens de contexto e alcança precisão comparável em benchmarks comuns, ao mesmo tempo que atinge um throughput de inferência até 2,2x e 7,5x maior em comparação com o GPT-OSS-120B e o Qwen3.5-122B, respectivamente. Os conjuntos de dados do Nemotron 3 Super, juntamente com os checkpoints base, pós-treinados e quantizados, são de código aberto no HuggingFace.
A avaliação precisa é central para o ecossistema de modelos de linguagem de grande porte (LLM), orientando a seleção de modelos e a adoção subsequente em diversos casos de uso. Na prática, no entanto, a avaliação de saídas generativas geralmente depende de métodos léxicos rígidos para extrair e avaliar respostas, o que pode confundir a verdadeira capacidade de resolução de problemas de um modelo com sua conformidade com diretrizes de formatação predefinidas. Embora abordagens recentes de "LLM-como-Juiz" mitiguem esse problema ao avaliar a correção semântica em vez da conformidade estrutural estrita, elas também introduzem uma sobrecarga computacional substancial, tornando a avaliação dispendiosa. Neste trabalho, investigamos primeiro sistematicamente as limitações da avaliação léxica por meio de um estudo empírico em larga escala abrangendo 36 modelos e 15 tarefas subsequentes, demonstrando que tais métodos correlacionam-se pouco com os julgamentos humanos. Para superar essa limitação, introduzimos o "BERT-como-Juiz", uma abordagem baseada em *encoder* para avaliar a correção de respostas em configurações generativas baseadas em referência, robusta a variações na formulação da saída e que requer apenas um treinamento leve em triplas de pergunta-candidato-referência anotadas sinteticamente. Mostramos que ele supera consistentemente a linha de base léxica enquanto iguala o desempenho de juízes baseados em LLMs muito maiores, oferecendo um equilíbrio atraente entre os dois e permitindo uma avaliação confiável e escalável. Por fim, por meio de experimentação extensiva, fornecemos insights detalhados sobre o desempenho do BERT-como-Juiz para oferecer orientação prática aos profissionais e disponibilizamos todos os artefatos do projeto para promover a adoção subsequente.
Os agentes de uso computacional (CUAs) já conseguem concluir tarefas complexas de forma autónoma em ambientes digitais reais, mas, quando enganados, também podem ser usados para automatizar ações prejudiciais de forma programática. As avaliações de segurança existentes visam maioritariamente ameaças explícitas, como uso indevido e injeção de instruções, mas negligenciam um cenário subtil ainda que crítico, em que as instruções do utilizador são totalmente benignas e o dano surge do contexto da tarefa ou do resultado da execução. Apresentamos o OS-BLIND, um benchmark que avalia CUAs sob condições de ataque não intencionais, compreendendo 300 tarefas elaboradas manualmente em 12 categorias, 8 aplicações e 2 clusters de ameaças: ameaças incorporadas no ambiente e danos iniciados pelo agente. A nossa avaliação em modelos de fronteira e estruturas agentivas revela que a maioria dos CUAs excede 90% de taxa de sucesso de ataque (ASR), e até o Claude 4.5 Sonnet, alinhado com segurança, atinge 73,0% de ASR. Mais interessante ainda, esta vulnerabilidade torna-se ainda mais grave, com a ASR a subir de 73,0% para 92,7% quando o Claude 4.5 Sonnet é implementado em sistemas multiagente. A nossa análise mostra ainda que as defesas de segurança existentes oferecem proteção limitada quando as instruções do utilizador são benignas. O alinhamento de segurança ativa-se principalmente nos primeiros passos e raramente se reativa durante a execução subsequente. Em sistemas multiagente, as subtarefas decompostas obscurecem a intenção prejudicial perante o modelo, fazendo com que os modelos alinhados com segurança falhem. Disponibilizaremos o nosso OS-BLIND para incentivar a comunidade de investigação a investigar e resolver mais aprofundadamente estes desafios de segurança.
Os modelos de linguagem de grande escala recentes mudaram a geração de SVG da otimização por renderização diferenciável para a síntese autoregressiva de programas. No entanto, as abordagens existentes ainda dependem da tokenização genérica a nível de byte, herdada do processamento de linguagem natural, que reflete mal a estrutura geométrica dos gráficos vetoriais. As coordenadas numéricas são fragmentadas em símbolos discretos, destruindo relações espaciais e introduzindo severa redundância de tokens, frequentemente levando à alucinação de coordenadas e à geração ineficiente de sequências longas. Para enfrentar esses desafios, propomos o HiVG, uma estrutura hierárquica de tokenização de SVG adaptada para a geração autoregressiva de gráficos vetoriais. O HiVG decompõe strings SVG brutas em tokens atômicos estruturados e comprime ainda mais grupos de comandos executáveis e parâmetros em tokens de segmento com restrições geométricas, melhorando substancialmente a eficiência da sequência enquanto preserva a validade sintática. Para mitigar ainda mais o desalinhamento espacial, introduzimos uma estratégia de inicialização Hierárquica de Média-Ruído (HMN) que injeta sinais de ordenação numérica e *priors* semânticos nos novos *embeddings* de tokens. Combinado com um paradigma de treinamento curricular que aumenta progressivamente a complexidade do programa, o HiVG permite uma aprendizagem mais estável de programas SVG executáveis. Experimentos extensivos em tarefas de texto-para-SVG e imagem-para-SVG demonstram uma fidelidade de geração, consistência espacial e eficiência de sequência melhoradas em comparação com esquemas de tokenização convencionais. O nosso código está publicamente disponível em https://github.com/ximinng/HiVG.
Os agentes de busca profunda multimodal demonstraram grande potencial na resolução de tarefas complexas através da recolha iterativa de evidências textuais e visuais. No entanto, a gestão da informação heterogénea e dos elevados custos em *tokens* associados a entradas multimodais em horizontes temporais longos continua a ser um desafio crítico, uma vez que os métodos existentes sofrem frequentemente de explosão de contexto ou perda de sinais visuais cruciais. Para resolver esta questão, propomos uma nova estrutura de busca profunda multimodal de longo horizonte, denominada LMM-Searcher, centrada num mecanismo de representação visual baseado em ficheiros. Ao descarregar os recursos visuais para um sistema de ficheiros externo e mapeá-los para identificadores textuais leves (UIDs), a nossa abordagem mitiga a sobrecarga de contexto, preservando simultaneamente a informação multimodal para acesso futuro. Dotamos o agente com uma ferramenta personalizada de busca de imagens (*fetch-image*), permitindo uma estratégia progressiva de carregamento visual sob demanda para perceção ativa. Adicionalmente, introduzimos um *pipeline* de síntese de dados concebido para gerar consultas que exigem raciocínio multi-salto complexo e cross-modal. Utilizando este *pipeline*, destilamos 12.000 trajetórias de alta qualidade para afinar o modelo Qwen3-VL-Thinking-30A3B, transformando-o num agente especializado de busca profunda multimodal. Experiências extensas em quatro *benchmarks* demonstram que o nosso método escala com sucesso para horizontes de busca de 100 turnos, alcançando um desempenho de ponta entre modelos de código aberto em *benchmarks* desafiantes de longo horizonte como o MM-BrowseComp e o MMSearch-Plus, exibindo também uma forte generalização entre diferentes modelos base. O nosso código será disponibilizado em https://github.com/RUCAIBox/LMM-Searcher.
Os agentes de modelos de linguagem de grande escala recebem instruções de múltiplas fontes - mensagens do sistema, comandos do usuário, saídas de ferramentas e outros - cada uma carregando diferentes níveis de confiança e autoridade. Quando estas instruções entram em conflito, os modelos devem seguir de forma confiável a instrução de maior privilégio para manterem-se seguros e eficazes. O paradigma dominante, a hierarquia de instruções (HI), pressupõe um conjunto fixo e reduzido de níveis de privilégio (tipicamente menos de cinco) definidos por rótulos de função rígidos (ex.: sistema > utilizador). Esta abordagem é inadequada para ambientes agentes do mundo real, onde conflitos podem surgir entre um número muito maior de fontes e contextos. Neste trabalho, propomos a Hierarquia de Instruções de Múltiplos Níveis (ManyIH), um paradigma para resolver conflitos de instruções entre instruções com um número arbitrário de níveis de privilégio. Apresentamos o ManyIH-Bench, o primeiro benchmark para ManyIH. O ManyIH-Bench exige que os modelos naveguem até 12 níveis de instruções conflituosas com privilégios variados, compreendendo 853 tarefas agentes (427 de programação e 426 de seguimento de instruções). O ManyIH-Bench combina restrições desenvolvidas por LLMs e validadas por humanos para criar casos de teste realistas e difíceis, abrangendo 46 agentes do mundo real. Nossos experimentos mostram que mesmo os modelos de fronteira atuais têm desempenho fraco (~40% de precisão) quando a escala de conflitos de instruções aumenta. Este trabalho sublinha a necessidade urgente de métodos que visem explicitamente a resolução escalável e de granularidade fina de conflitos de instruções em ambientes agentes.
A formação de agentes de IA corporificada depende criticamente da fidelidade visual dos ambientes de simulação e da capacidade de modelar humanos dinâmicos. Os simuladores atuais baseiam-se na rasterização baseada em malhas com realismo visual limitado, e o seu suporte para avatares humanos dinâmicos, quando disponível, está restrito a representações de malhas, dificultando a generalização dos agentes para cenários do mundo real povoados por humanos. Apresentamos o Habitat-GS, um simulador de IA corporificada centrado na navegação, estendido a partir do Habitat-Sim, que integra a renderização de cenas por *Splatting* de Gaussianas 3D e avatares gaussianos controláveis, mantendo total compatibilidade com o ecossistema Habitat. O nosso sistema implementa um renderizador 3DGS para renderização fotorrealista em tempo real e suporta a importação escalável de recursos 3DGS de diversas fontes. Para a modelação dinâmica de humanos, introduzimos um módulo de avatar gaussiano que permite que cada avatar sirva simultaneamente como uma entidade visual fotorrealista e um obstáculo de navegação eficaz, permitindo que os agentes aprendam comportamentos conscientes da presença humana em ambientes realistas. Experiências em navegação por objetivo de ponto demonstram que os agentes treinados em cenas 3DGS alcançam uma generalização mais robusta entre domínios, sendo o treino em domínios mistos a estratégia mais eficaz. Avaliações sobre navegação consciente de avatares confirmam ainda que os avatares gaussianos permitem uma navegação eficaz e consciente da presença humana. Por fim, os benchmarks de desempenho validam a escalabilidade do sistema perante diferentes complexidades de cena e números de avatares.
Embora os modelos de difusão dominem o campo da geração visual, eles são computacionalmente ineficientes, aplicando um esforço computacional uniforme independentemente da complexidade. Em contraste, os modelos autoregressivos (AR) são inerentemente conscientes da complexidade, como evidenciado por suas verossimilhanças variáveis, mas são frequentemente limitados pela tokenização discreta com perdas e pelo acúmulo de erros. Neste trabalho, introduzimos as Redes de Refinamento Generativo (GRN), um paradigma de síntese visual de próxima geração para abordar essas questões. Em sua essência, a GRN resolve o gargalo da tokenização discreta por meio de uma Quantização Binária Hierárquica (HBQ) teoricamente quase sem perdas, alcançando uma qualidade de reconstrução comparável a contrapartes contínuas. Construída sobre o espaço latente da HBQ, a GRN atualiza fundamentalmente a geração AR com um mecanismo de refinamento global que aperfeiçoa e corrige progressivamente as obras – como um artista humano pintando. Além disso, a GRN integra uma estratégia de amostragem guiada por entropia, permitindo geração adaptativa de passos e consciente da complexidade sem comprometer a qualidade visual. No benchmark ImageNet, a GRN estabelece novos recordes em reconstrução de imagem (0.56 rFID) e geração de imagem condicionada por classe (1.81 gFID). Também dimensionamos a GRN para geração texto-para-imagem e texto-para-vídeo mais desafiadoras, entregando desempenho superior em escala equivalente. Disponibilizamos todos os modelos e códigos para promover pesquisas futuras sobre a GRN.
Os modelos de difusão são frequentemente introduzidos a partir de múltiplas perspectivas, como VAEs, correspondência de *score* ou correspondência de fluxo, acompanhados por uma matemática densa e tecnicamente exigente que pode ser de difícil compreensão para iniciantes. Uma questão clássica é: como o processo reverso inverte o processo direto para gerar dados a partir de ruído puro? Este artigo organiza sistematicamente o modelo de difusão a partir de uma nova perspectiva de Langevin, oferecendo uma resposta mais simples, clara e intuitiva. Também abordamos as seguintes questões: como os modelos de difusão baseados em EDOs e EDEs podem ser unificados em um único *framework*? Por que os modelos de difusão são teoricamente superiores aos VAEs comuns? Por que a correspondência de fluxo não é fundamentalmente mais simples que a remoção de ruído ou correspondência de *score*, mas equivalente sob máxima verossimilhança? Demonstramos que a perspectiva de Langevin oferece respostas claras e diretas a essas questões, conectando as interpretações existentes dos modelos de difusão, mostrando como diferentes formulações podem ser convertidas umas nas outras dentro de um *framework* comum, e oferecendo valor pedagógico tanto para aprendizes quanto para pesquisadores experientes que buscam uma intuição mais profunda.
A busca por uma síntese eficiente de texto para imagem tem direcionado o campo para a amostragem em uma única etapa, no entanto, os métodos existentes ainda enfrentam um compromisso triplo entre fidelidade, velocidade de inferência e eficiência de treinamento. Abordagens que dependem de discriminadores externos podem melhorar o desempenho em uma etapa, mas frequentemente introduzem instabilidade no treinamento, alta sobrecarga de memória GPU e convergência lenta, o que complica o dimensionamento e o ajuste eficiente de parâmetros. Em contraste, objetivos de destilação e consistência baseados em regressão são mais fáceis de otimizar, mas normalmente perdem detalhes finos quando restritos a uma única etapa. Apresentamos o APEX, desenvolvido com base em um insight teórico fundamental: sinais de correção adversarial podem ser extraídos endogenousmente de um modelo de fluxo através do deslocamento de condição. O uso de uma transformação cria um ramo de condição deslocada cujo campo de velocidade atua como um estimador independente da distribuição de geração atual do modelo, produzindo um gradiente que é comprovadamente alinhado com GAN, substituindo os termos dependentes de amostra do discriminador que causam o desaparecimento do gradiente. Este design livre de discriminador preserva a arquitetura, tornando o APEX uma estrutura plug-and-play compatível com ajustes baseados em parâmetros completos e LoRA. Empiricamente, nosso modelo de 0,6B supera o FLUX-Schnell 12B (20 vezes mais parâmetros) em qualidade de uma etapa. Com ajuste LoRA no Qwen-Image 20B, o APEX atinge uma pontuação GenEval de 0,89 em NFE=1 em 6 horas, superando o professor original de 50 etapas (0,87) e proporcionando uma aceleração de inferência de 15,33 vezes. O código está disponível em https://github.com/LINs-lab/APEX.
Embora a escassez de dados de ação explícitos limite os modelos Visão-Linguagem-Ação (VLA), os vídeos de ações humanas oferecem uma fonte de dados escalável, ainda que não rotulada. Um desafio crítico na utilização de grandes conjuntos de dados de vídeos humanos reside na transformação de sinais visuais em representações independentes de ontologia, conhecidas como ações latentes. No entanto, a capacidade da representação de ação latente para derivar controle robusto a partir de observações visuais ainda não foi rigorosamente avaliada. Apresentamos o Benchmark de Representação de Ação Latente (LARY), uma estrutura unificada para avaliar representações de ação latente tanto em ações semânticas de alto nível (o que fazer) quanto em controle robótico de baixo nível (como fazer). O conjunto de dados meticulosamente curado abrange mais de um milhão de vídeos (1.000 horas) abrangendo 151 categorias de ação, juntamente com 620 mil pares de imagens e 595 mil trajetórias de movimento em diversas embodiments e ambientes. Nossos experimentos revelam dois insights cruciais: (i) Modelos visuais de base gerais, treinados sem qualquer supervisão de ação, superam consistentemente modelos especializados de ação latente corporificada. (ii) O espaço visual baseado em latentes está fundamentalmente mais alinhado ao espaço de ação física do que o espaço baseado em pixels. Esses resultados sugerem que as representações visuais gerais inerentemente codificam conhecimento relevante para ação para o controle físico, e que a abstração em nível semântico serve como um caminho fundamentalmente mais eficaz da visão para a ação do que a reconstrução em nível de pixel.
Reconstructing 3D representations from 2D inputs is a fundamental task in computer vision and graphics, serving as a cornerstone for understanding and interacting with the physical world. While traditional methods achieve high fidelity, they are limited by slow per-scene optimization or category-specific training, which hinders their practical deployment and scalability. Hence, generalizable feed-forward 3D reconstruction has witnessed rapid development in recent years. By learning a model that maps images directly to 3D representations in a single forward pass, these methods enable efficient reconstruction and robust cross-scene generalization. Our survey is motivated by a critical observation: despite the diverse geometric output representations, ranging from implicit fields to explicit primitives, existing feed-forward approaches share similar high-level architectural patterns, such as image feature extraction backbones, multi-view information fusion mechanisms, and geometry-aware design principles. Consequently, we abstract away from these representation differences and instead focus on model design, proposing a novel taxonomy centered on model design strategies that are agnostic to the output format. Our proposed taxonomy organizes the research directions into five key problems that drive recent research development: feature enhancement, geometry awareness, model efficiency, augmentation strategies and temporal-aware models. To support this taxonomy with empirical grounding and standardized evaluation, we further comprehensively review related benchmarks and datasets, and extensively discuss and categorize real-world applications based on feed-forward 3D models. Finally, we outline future directions to address open challenges such as scalability, evaluation standards, and world modeling.
A destilação on-policy (OPD) emergiu como um paradigma eficiente de pós-treinamento para modelos de linguagem grandes. No entanto, a OPD padrão requer um servidor de inferência do professor ativo durante todo o treinamento, resultando em uma sobrecarga substancial de infraestrutura. Neste trabalho, investigamos se a destilação on-policy pode ser realizada offline. Uma abordagem natural é pré-calcular as log-probabilidades do professor uma vez sobre as rollouts de SFT e reutilizá-las durante o treinamento. Na prática, porém, esta variante offline falha em igualar de forma confiável o desempenho da OPD padrão. Para entender esta discrepância, identificamos uma condição previamente negligenciada que é crítica para qualquer pipeline de OPD, a qual denominamos consistência do professor. Esta condição requer que o mesmo modelo professor seja usado tanto para o ajuste fino supervisionado (SFT) quanto para a OPD. Mostramos que violar a consistência do professor introduz um viés de gradiente irredutível, fazendo com que tanto a OPD offline quanto a online convirjam para um ponto fixo subótimo, independentemente da duração do treinamento. Com base nessa percepção, propomos a Lightning OPD, uma estrutura de destilação on-policy offline que impõe a consistência do professor pré-calculando as log-probabilidades do professor sobre as rollouts de SFT. Este projeto elimina completamente a necessidade de um servidor professor ativo. Mostramos ainda que, sob consistência do professor, a Lightning OPD compartilha o mesmo ótimo que a OPD padrão, com discrepância de gradiente limitada e um efeito de regularização implícita que ajuda a evitar o desvio da política. Experimentos extensos em raciocínio matemático e geração de código demonstram que a Lightning OPD alcança desempenho de última geração com eficiência significativamente melhorada. Partindo de um modelo Qwen3-8B-Base inicializado com SFT, a Lightning OPD atinge 69,9% na AIME 2024 em apenas 30 horas de GPU, alcançando uma aceleração de 4,0x em relação à OPD padrão e reduzindo substancialmente a barreira de entrada para a pesquisa acadêmica sobre o pós-treinamento de LLMs.
Apresentamos um modelo discriminativo de recompensa multimodal que avalia todas as respostas candidatas em uma única passagem direta. Os modelos discriminativos de recompensa convencionais avaliam cada resposta de forma independente, exigindo múltiplas passagens diretas, uma para cada resposta potencial. Nossa abordagem concatena múltiplas respostas com tokens separadores e aplica entropia cruzada sobre suas pontuações escalares, permitindo raciocínio comparativo direto e aprendizado eficiente de preferências de N vias. O design de múltiplas respostas também proporciona uma aceleração de tempo de execução de até N vezes e uma redução de FLOPs em relação à pontuação convencional de resposta única. Para permitir a avaliação de recompensa de N vias além dos benchmarks pareados existentes, construímos dois novos benchmarks: (1) O MR²Bench-Image contém rankings anotados por humanos sobre respostas de 8 modelos diversos; (2) O MR²Bench-Video é um benchmark de recompensa em larga escala baseado em vídeo, derivado de 94 mil julgamentos pareados humanos coletados por crowdsourcing sobre questionamento e resposta com vídeo, abrangendo 19 modelos, com ruído reduzido via ensemble de grafos de preferência. Ambos os benchmarks fornecem variantes de avaliação com 4 respostas, amostradas a partir dos rankings completos. Construído sobre uma backbone de visão e linguagem de 4B com ajuste fino por LoRA e um cabeçalho de valor MLP leve, nosso modelo alcança resultados state-of-the-art em seis benchmarks de recompensa multimodal, incluindo MR²Bench-Image, MR²Bench-Video e outros quatro benchmarks existentes. Nosso modelo supera os modelos de recompensa generativos e discriminativos maiores existentes. Demonstramos ainda que nosso modelo de recompensa, quando usado em aprendizado por reforço com GRPO, produz modelos de política aprimorados que mantêm o desempenho em benchmarks multimodais padrão, enquanto melhoram substancialmente a qualidade da geração de texto livre, superando uma linha de base de modelo discriminativo de recompensa (RM) de resposta única por uma grande margem tanto na estabilidade do treinamento quanto na qualidade da geração de texto livre.
Os seres humanos utilizam a introspecção para avaliar a sua própria compreensão através de estados internos privados, inacessíveis a observadores externos. Investigamos se os grandes modelos de linguagem possuem um conhecimento privilegiado semelhante sobre a correção de respostas, uma informação indisponível através da observação externa. Treinamos classificadores de correção com base em representações de perguntas derivadas tanto dos estados internos de um modelo como de modelos externos, testando se as autorrepresentações conferem uma vantagem de desempenho. Na avaliação padrão, não encontramos qualquer vantagem: as sondagens internas ("self-probes") têm um desempenho comparável às sondagens de modelos pares. A nossa hipótese é que isto se deve ao elevado consenso entre modelos sobre a correção das respostas. Para isolar um genuíno conhecimento privilegiado, avaliamos subconjuntos de discordância, onde os modelos produzem previsões conflituosas. Aqui, descobrimos um conhecimento privilegiado específico do domínio: as autorrepresentações superam consistentemente as representações de pares em tarefas de conhecimento factual, mas não mostram vantagem em raciocínio matemático. Localizamos ainda esta assimetria de domínio através das camadas do modelo, constatando que a vantagem factual emerge progressivamente a partir das camadas iniciais e intermédias, consistente com a recuperação de memória específica do modelo, enquanto o raciocínio matemático não mostra uma vantagem consistente em qualquer profundidade.
Vision-Language Models (VLMs) excel on many multimodal reasoning benchmarks, but these evaluations often do not require an exhaustive readout of the image and can therefore obscure failures in faithfully capturing all visual details. We introduce Grid2Matrix (G2M), a controlled benchmark in which a model is shown a color grid and a color-to-number mapping, and must output the corresponding matrix. By varying grid size and the number of colors, G2M provides a simple way to increase visual complexity while minimizing semantic confounds. We find that VLMs exhibit a sharp early collapse in zero-shot end-to-end evaluation, failing on surprisingly small grids rather than degrading gradually as the task becomes denser. We probe the visual encoders of VLMs from two representative families and find that they preserve substantially more of the grid information than the corresponding end-to-end outputs. This suggests that the failure is not explained by visual encoding alone, but also reflects a gap between what remains recoverable from visual features and what is ultimately expressed in language. We term this gap Digital Agnosia. Further analyses show that these errors are highly structured and depend strongly on how grid cells overlap with visual patch boundaries. We also find that common strategies such as model scaling and multimodal alignment do not fully eliminate this failure mode. We expect G2M to serve as a useful testbed for understanding where and how VLMs lose fine visual details, and for evaluating tasks where missing even small visual details can matter, such as tables, charts, forms, and GUIs.
Avaliamos como os rastros internos de raciocínio, que denominamos fluxos de pensamento, afetam a compreensão de cenas em vídeo em modelos de visão e linguagem. Utilizando quatro configurações do Gemini 2.5 Flash e Flash Lite da Google em cenas extraídas de 100 horas de vídeo, formulamos três perguntas: pensar mais leva a melhores resultados, onde os ganhos se estabilizam e sobre o que estes modelos realmente pensam? Introduzimos três métricas de avaliação. A *Conteudismo* mede quanto do fluxo de pensamento é conteúdo útil da cena versus metacomentário. A *Cobertura Pensamento-Final* mede a fidelidade com que o fluxo de pensamento é traduzido na saída final. A *Análise de Entidade Dominante* identifica em quais sujeitos, ações e cenários o modelo se concentra. O GPT-5 atua como um juiz independente. Constatamos que os ganhos de qualidade com raciocínio adicional atingem um platô rapidamente, com a maior parte da melhoria ocorrendo nos primeiras centenas de *tokens*. O Flash Lite oferece o melhor equilíbrio entre qualidade e uso de *tokens*. Orçamentos de raciocínio restritos levam o modelo a adicionar conteúdo na saída final sobre o qual nunca raciocinou, uma forma de alucinação na etapa de compressão. Apesar de serem modelos de categorias diferentes, o Flash e o Flash Lite produzem fluxos de pensamento semelhantes, embora difiram no estilo: o Flash discute seu processo de raciocínio, enquanto o Lite foca em descrever a cena.
A descodificação especulativa acelera os modelos de linguagem autoregressivos utilizando um modelo leve (drafter) para propor múltiplos tokens futuros, que são depois verificados em paralelo pelo modelo alvo. O DFlash demonstra que um drafter baseado em difusão de blocos pode gerar um bloco de rascunho completo numa única passagem direta e alcançar um desempenho de última geração na descodificação especulativa, superando drafters autoregressivos robustos como o EAGLE-3. No entanto, a versão padrão do DFlash (Vanilla DFlash) ainda verifica apenas uma única trajetória de rascunho por ciclo, o que pode limitar o seu comprimento de aceitação. Apresentamos o DDTree (Diffusion Draft Tree), um método que constrói uma árvore de rascunho diretamente a partir das distribuições por posição de um drafter de difusão de blocos. Com um orçamento fixo de nós, o DDTree utiliza um simples algoritmo de heap de melhor-primero para selecionar as continuações com maior probabilidade de corresponderem ao modelo alvo, de acordo com um substituto definido pela saída do modelo de rascunho. A árvore resultante é verificada de forma eficiente numa única passagem direta do modelo alvo, utilizando uma máscara de atenção apenas para ancestrais. Como o DDTree é construído sobre o DFlash, um modelo de rascunho líder para descodificação especulativa, estes ganhos posicionam o DDTree entre as abordagens mais avançadas para a descodificação especulativa.
Os grandes modelos de linguagem (LLMs) frequentemente demonstram forte desempenho de segurança em idiomas de alta disponibilidade de recursos, mas exibem vulnerabilidades severas quando interrogados em idiomas de baixa disponibilidade de recursos. Atribuímos essa lacuna a um descompasso entre a capacidade de compreensão semântica agnóstica ao idioma e o alinhamento de segurança dominado pelo idioma, que é tendencioso para línguas de alta disponibilidade de recursos. Consistente com esta hipótese, identificamos empiricamente o gargalo semântico nos LLMs, uma camada intermediária na qual a geometria das representações do modelo é governada principalmente pelo conteúdo semântico compartilhado, e não pela identidade do idioma. Com base nesta observação, propomos o Alinhamento Semântico Agnóstico ao Idioma (LASA), que ancora o alinhamento de segurança diretamente nos gargalos semânticos. Experimentos mostram que o LASA melhora substancialmente a segurança em todos os idiomas: a taxa média de sucesso de ataques (ASR) cai de 24,7% para 2,8% no LLaMA-3.1-8B-Instruct e permanece em torno de 3-4% nos modelos Qwen2.5 e Qwen3 Instruct (7B-32B). Em conjunto, nossa análise e método oferecem uma perspectiva em nível de representação sobre a segurança dos LLMs, sugerindo que o alinhamento de segurança requer ancorar a compreensão de segurança não no texto superficial, mas no espaço semântico agnóstico ao idioma do modelo.
As arquiteturas tradicionais de profundidade fixa escalam a qualidade aumentando os FLOPS de treinamento, tipicamente através de maior parametrização, à custa de uma maior pegada de memória ou de dados. Uma alternativa potencial são as arquiteturas em loop, que, em vez disso, aumentam os FLOPS enviando ativações através de um bloco de camadas em um ciclo. Embora promissoras, as metodologias existentes para treinar arquiteturas em loop podem ser instáveis, sofrendo com explosão de resíduos e picos de perda. Nós abordamos esses desafios reformulando o looping como um sistema dinâmico não linear e variante no tempo sobre o fluxo residual. Através de uma aproximação linear deste sistema, descobrimos que a instabilidade ocorre nas arquiteturas em loop existentes como resultado de grandes normas espectrais nos seus parâmetros de injeção. Para resolver esses problemas de instabilidade, propomos o Parcae, uma nova arquitetura em loop estável que restringe a norma espectral dos parâmetros de injeção via discretização de uma parametrização diagonal negativa. Como resultado, o Parcae alcança até 6,3% menos perplexidade de validação em comparação com modelos anteriores em loop de larga escala. Usando nossa arquitetura em loop estável, investigamos as propriedades de escalonamento do looping como um meio para melhorar a qualidade aumentando os FLOPS no treinamento e no tempo de teste. Para o treinamento, derivamos leis de potência previsíveis para dimensionar os FLOPS mantendo a contagem de parâmetros fixa. Nossas leis de escalonamento iniciais sugerem que o looping e os dados devem ser aumentados em conjunto, dado um orçamento fixo de FLOPS. No tempo de teste, descobrimos que o Parcae pode usar o looping para escalar o cálculo, seguindo um decaimento exponencial saturante e previsível. Quando escalado para 1,3 bilhão de parâmetros, descobrimos que o Parcae melhora a qualidade CORE e Core-Extended em 2,99 e 1,18 pontos quando comparado com bases fortes de Transformer sob um orçamento fixo de parâmetros e dados, alcançando uma qualidade relativa de até 87,5% de um Transformer com o dobro do tamanho.
A reconhecimento óptica de caracteres (OCR) avançou rapidamente com o surgimento de modelos de visão e linguagem, mas a avaliação permaneceu concentrada em um pequeno grupo de escritas de recursos altos e médios. Apresentamos o GlotOCR Bench, um benchmark abrangente que avalia a generalização do OCR em mais de 100 escritas Unicode. Nosso benchmark compreende variantes de imagem limpas e degradadas renderizadas a partir de textos reais multilingues. As imagens são renderizadas usando fontes do repositório Google Fonts, formatadas com HarfBuzz e rasterizadas com FreeType, suportando escritas LTR e RTL. Amostras das imagens renderizadas foram revisadas manualmente para verificar a renderização correta em todas as escritas. Avaliamos uma ampla suíte de modelos de visão e linguagem de código aberto e proprietários e descobrimos que a maioria tem bom desempenho em menos de dez escritas, e mesmo os modelos de fronteira mais fortes falham em generalizar para além de trinta escritas. O desempenho acompanha amplamente a cobertura de pré-treinamento a nível de escrita, sugerindo que os sistemas atuais de OCR dependem tanto do pré-treinamento do modelo de linguagem quanto do reconhecimento visual. Modelos confrontados com escritas desconhecidas ou produzem ruído aleatório ou alucinam caracteres de escritas semelhantes que já conhecem. Disponibilizamos o benchmark e o *pipeline* para reproducibilidade. Código do *Pipeline*: https://github.com/cisnlp/glotocr-bench, Benchmark: https://hf.co/datasets/cis-lmu/glotocr-bench.
Os tokenizadores visuais mapeiam pixels brutos de alta dimensão em uma representação compactada para modelagem subsequente. Além da compressão, os tokenizadores determinam quais informações são preservadas e como são organizadas. Uma abordagem padrão de fato para tokenização de vídeos é representar um vídeo como uma grade espaço-temporal 3D de tokens, cada um capturando a informação local correspondente no sinal original. Isso exige que o modelo subsequente que consome os tokens, por exemplo, um modelo de texto para vídeo, aprenda a prever todos os detalhes de baixo nível "pixel a pixel", independentemente da complexidade inerente do vídeo, levando a uma alta complexidade de aprendizado. Apresentamos o VideoFlexTok, que representa vídeos com uma sequência de comprimento variável de tokens estruturados de maneira hierárquica (do geral para o específico) – onde os primeiros tokens (emergencialmente) capturam informações abstratas, como semântica e movimento, e os tokens posteriores adicionam detalhes refinados. O decodificador de fluxo generativo permite reconstruções realistas de vídeo a partir de qualquer quantidade de tokens. Essa estrutura de representação permite adaptar a quantidade de tokens de acordo com as necessidades subsequentes e codificar vídeos mais longos do que as linhas de base com o mesmo orçamento. Avaliamos o VideoFlexTok em tarefas generativas de classe-para-vídeo e texto-para-vídeo e mostramos que ele leva a um treinamento mais eficiente em comparação com tokens de grade 3D, por exemplo, alcançando qualidade de geração comparável (gFVD e Pontuação ViCLIP) com um modelo 5 vezes menor (1,1B vs 5,2B). Por fim, demonstramos como o VideoFlexTok pode permitir a geração de vídeos longos sem custo computacional proibitivo, treinando um modelo de texto-para-vídeo em vídeos de 10 segundos e 81 quadros com apenas 672 tokens, 8 vezes menos do que um tokenizador de grade 3D comparável.
Spec-driven development (SDD) with AI coding agents provides a structured workflow, but agents often remain "context blind" in large, evolving repositories, leading to hallucinated APIs and architectural violations. We present Spec Kit Agents, a multi-agent SDD pipeline (with PM and developer roles) that adds phase-level, context-grounding hooks. Read-only probing hooks ground each stage (Specify, Plan, Tasks, Implement) in repository evidence, while validation hooks check intermediate artifacts against the environment. We evaluate 128 runs covering 32 features across five repositories. Context-grounding hooks improve judged quality by +0.15 on a 1-5 composite LLM-as-judge score (+3.0 percent of the full score; Wilcoxon signed-rank, p < 0.05) while maintaining 99.7-100 percent repository-level test compatibility. We further evaluate the framework on SWE-bench Lite, where augmentation hooks improve baseline by 1.7 percent, achieving 58.2 percent Pass@1.
Pokémon Red é um JRPG de longo horizonte com recompensas esparsas, observabilidade parcial e mecânicas de controle peculiares que o tornam um benchmark desafiador para aprendizado por reforço. Embora trabalhos recentes tenham demonstrado que agentes PPO podem vencer os dois primeiros ginásios usando forte modelagem de recompensas e observações projetadas, o treinamento permanece frágil na prática, com agentes frequentemente degenerando em loops de ação, spam de menus ou vagueamento improdutivo. Neste artigo, apresentamos o PokeRL, um sistema modular que treina agentes de aprendizado por reforço profundo para completar tarefas iniciais em Pokémon Red, incluindo sair da casa do jogador, explorar a cidade de Pallet para alcançar a grama alta e vencer a primeira batalha contra o rival. Nossas principais contribuições são um wrapper de ambiente com consciência de loops em torno do emulador PyBoy com mascaramento de mapa, um mecanismo multicamadas anti-loop e anti-spam, e um projeto de recompensa hierárquica e densa. Argumentamos que sistemas práticos como o PokeRL, que modelam explicitamente modos de falha como loops e spam, são um passo intermediário necessário entre benchmarks simples e agentes completos campeões da Liga Pokémon. O código está disponível em https://github.com/reddheeraj/PokemonRL.
Robôs humanoides prometem assistência de uso geral, mas a loco-manipulação de humanoides no mundo real continua desafiadora, pois requer estabilidade corporal total, mãos hábeis e percepção consciente do contato sob mudanças frequentes de contato. Neste trabalho, estudamos a loco-manipulação hábil e rica em contato de humanoides. Primeiro, desenvolvemos um controlador de corpo inteiro baseado em RL que fornece execução estável do tronco e da parte inferior do corpo durante manipulações complexas. Com base neste controlador, desenvolvemos um sistema de coleta de dados de humanoide de corpo inteiro que combina teleoperação baseada em VR com mapeamento de movimento de humano-para-humanoide, permitindo a coleta eficiente de demonstrações do mundo real. Em seguida, propomos o Humanoid Transformer with Touch Dreaming (HTD), um Transformer codificador-decodificador multimodal que modela o toque como uma modalidade central, juntamente com visão multi-view e propriocepção. O HTD é treinado em um único estágio com clonagem comportamental aumentada por "touch dreaming": além de prever chunks de ação, a política prevê forças futuras nas juntas das mãos e latentes táteis futuros, incentivando o tronco Transformer compartilhado a aprender representações conscientes do contato para interação hábil. Em cinco tarefas ricas em contato – Insert-T, Organização de Livros, Dobragem de Toalha, Remoção de Areia de Gato e Servir Chá – o HTD alcança uma melhoria relativa de 90,9% na taxa média de sucesso sobre a baseline mais forte. Resultados de ablação mostram ainda que a previsão tátil no espaço latente é mais eficaz do que a previsão tátil bruta, resultando em um ganho relativo de 30% na taxa de sucesso. Estes resultados demonstram que combinar execução robusta de corpo inteiro, coleta escalável de dados de humanoides e aprendizado preditivo centrado no toque permite uma manipulação de humanoide versátil e de alta destreza no mundo real. Página do projeto: humanoid-touch-dream.github.io.
Os modelos de difusão latente para super-resolução de imagens médicas herdam universalmente autoencoders variacionais projetados para fotografias naturais. Demonstramos que esta escolha padrão, e não a arquitetura de difusão, é a principal restrição à qualidade da reconstrução. Num experimento controlado que manteve todos os outros componentes do *pipeline* fixos, substituir o VAE genérico do Stable Diffusion pelo MedVAE, um autoencoder específico de domínio pré-treinado em mais de 1,6 milhões de imagens médicas, resultou numa melhoria de +2,91 a +3,29 dB no PSNR em ressonância magnética de joelho, ressonância magnética cerebral e radiografia de tórax (n = 1.820; d de Cohen = 1,37 a 1,86, todos p < 10^{-20}, teste de postos sinalizados de Wilcoxon). A decomposição wavelet localiza a vantagem nas bandas de frequência espacial mais finas que codificam a estrutura fina anatomicamente relevante. Ablações realizadas em cronogramas de inferência, objetivos de predição e arquiteturas generativas confirmam que a diferença é estável dentro de ± 0,15 dB, enquanto as taxas de alucinação permanecem comparáveis entre os métodos (h de Cohen < 0,02 em todos os conjuntos de dados), estabelecendo que a fidelidade de reconstrução e a alucinação generativa são governadas por componentes independentes do *pipeline*. Estes resultados fornecem um critério prático de triagem: a qualidade de reconstrução do autoencoder, mensurável sem treino de difusão, prevê o desempenho de super-resolução a jusante (R² = 0,67), sugerindo que a seleção de VAEs específicos de domínio deve preceder a busca por arquiteturas de difusão. O código e os pesos do modelo treinado estão publicamente disponíveis em https://github.com/sebasmos/latent-sr.
Abordamos o problema da localização tátil, cujo objetivo é identificar regiões de imagem que compartilham as mesmas propriedades materiais de uma entrada tátil. Os métodos visuo-táteis existentes dependem de alinhamento global e, portanto, falham em capturar as correspondências locais de alta granularidade necessárias para esta tarefa. O desafio é amplificado pelos conjuntos de dados existentes, que contêm predominantemente imagens de close-up com baixa diversidade. Propomos um modelo que aprende o alinhamento visuo-tátil local por meio de interações densas de características cross-modais, produzindo mapas de saliência tátil para segmentação de materiais condicionada ao toque. Para superar as limitações dos conjuntos de dados, introduzimos: (i) imagens de cenas com múltiplos materiais em ambientes não controlados que expandem a diversidade visual, e (ii) uma estratégia de emparelhamento por diversidade material que alinha cada amostra tátil com imagens visualmente variadas, mas tactilemente consistentes, melhorando a localização contextual e a robustez a sinais fracos. Também construímos dois novos conjuntos de dados de segmentação de materiais com base tátil para avaliação quantitativa. Experimentos em benchmarks novos e existentes mostram que nossa abordagem supera substancialmente os métodos visuo-táteis anteriores em localização tátil.
Os grandes modelos visuo-linguísticos (VLMs) frequentemente dependem de pré-concepções semânticas familiares, mas as avaliações existentes não separam claramente as falhas de percepção das falhas de mapeamento de regras. Estudamos este comportamento como fixação semântica: a preservação de uma interpretação padrão mesmo quando a instrução especifica um mapeamento alternativo igualmente válido. Para isolar este efeito, introduzimos o VLM-Fix, um benchmark controlado com quatro jogos de estratégia abstratos que avalia estados finais idênticos do tabuleiro sob formulações de regras padrão e inversas emparelhadas. Em 14 VLMs abertos e fechados, a precisão favorece consistentemente as regras padrão, revelando uma lacuna robusta de fixação semântica. Intervenções nas instruções corroboram este mecanismo: instruções com pseudónimos neutros reduzem substancialmente a lacuna das regras inversas, enquanto pseudónimos semanticamente carregados a reabrem. O pós-treinamento está fortemente alinhado com as regras: treinar numa regra melhora a transferência para a mesma regra, mas prejudica a transferência para a regra oposta, enquanto o treino conjunto de regras melhora a transferência mais ampla. Para testar a validade externa além dos jogos sintéticos, avaliamos intervenções análogas de "desfamiliarização" no VLMBias e observamos o mesmo padrão qualitativo. Finalmente, o direcionamento de ativações em camadas tardias recupera parcialmente o desempenho degradado, indicando que os erros de fixação semântica são, pelo menos em parte, editáveis nas representações tardias. Página do projeto, código e conjunto de dados disponíveis em https://maveryn.github.io/vlm-fix/.
Os modelos de linguagem de grande escala são cada vez mais utilizados como agentes em simulações sociais, econômicas e políticas. Uma suposição comum é que uma capacidade de raciocínio mais forte deve melhorar a fidelidade da simulação. Argumentamos que esta suposição pode falhar quando o objetivo não é resolver um problema estratégico, mas sim amostrar comportamentos plausíveis e limitadamente racionais. Nesses contextos, modelos com raciocínio aprimorado podem tornar-se melhores solucionadores de problemas e piores simuladores: podem otimizar excessivamente ações estrategicamente dominantes, colapsar comportamentos terminais orientados para o compromisso e, por vezes, exibir um padrão de diversidade sem fidelidade, no qual a variação local sobrevive sem fidelidade a nível de resultados. Estudamos este desajuste entre solucionador e amostrador em três ambientes de negociação multiagente adaptados de trabalhos de simulação anteriores: um cenário de limites comerciais com autoridade fragmentada e ambígua, um cenário de limites comerciais com oposição unificada e ambígua, e um caso novo de domínio sobre restrição de rede na gestão de emergências elétricas. Comparamos três condições de reflexão – sem reflexão, reflexão limitada e raciocínio nativo – em duas famílias principais de modelos e, em seguida, estendemos o mesmo protocolo para execuções diretas na OpenAI com GPT-4.1 e GPT-5.2. Em todos os três experimentos, a reflexão limitada produz trajetórias substancialmente mais diversificadas e orientadas para o compromisso do que a ausência de reflexão ou o raciocínio nativo. Na extensão direta com a OpenAI, o GPT-5.2 com raciocínio nativo termina em decisões de autoridade em 45 de 45 execuções nos três experimentos, enquanto o GPT-5.2 com reflexão limitada recupera resultados de compromisso em todos os ambientes. A contribuição não é uma afirmação de que o raciocínio é geralmente prejudicial. É um alerta metodológico: a capacidade do modelo e a fidelidade da simulação são objetivos distintos, e a simulação comportamental deve qualificar os modelos como amostradores, e não apenas como solucionadores.
A competência espacial é a qualidade de manter uma representação interna consistente de um ambiente e utilizá-la para inferir estrutura discreta e planear ações sob restrições. As avaliações espaciais predominantes para modelos de grande escala limitam-se a sondar primitivas isoladas através de transformações 3D ou de resposta a perguntas visuais. Apresentamos o *Spatial Competence Benchmark* (SCBench), abrangendo três grupos hierárquicos de capacidades cujas tarefas requerem saídas executáveis verificadas por verificadores determinísticos ou avaliadores baseados em simulador. No SCBench, três modelos de vanguarda exibem uma precisão monotonicamente decrescente à medida que se sobe na escada de capacidades. Uma análise abrangente dos limites de *tokens* de saída mostra que os ganhos de precisão concentram-se em orçamentos baixos e saturam rapidamente, e as falhas são dominadas por geometria localmente plausível que viola restrições globais. Disponibilizamos os geradores de tarefas, verificadores e ferramentas de visualização.
A renderização em tempo real de pontos de vista livres requer um equilíbrio entre a redundância de múltiplas câmeras e as restrições de latência de aplicações interativas. Abordamos este desafio combinando geometria leve com aprendizado e propomos o 3DTV, uma rede *feedforward* para interpolação em tempo real de vistas esparsas. Uma seleção de triplas baseada em Delaunay garante a cobertura angular para cada vista de destino. Com base nisso, introduzimos um módulo de profundidade consciente da pose que estima uma pirâmide de profundidade do grosso ao refinado, permitindo uma reprojeção eficiente de características e uma mesclagem consciente da oclusão. Diferente de métodos que requerem otimização específica da cena, o 3DTV opera de forma *feedforward* sem necessidade de novo treinamento, tornando-o prático para RA/RV, telepresença e aplicações interativas. Nossos experimentos em conjuntos de dados de vídeo multi-vista desafiadores demonstram que o 3DTV alcança consistentemente um forte equilíbrio entre qualidade e eficiência, superando as linhas de base recentes para geração de novas vistas em tempo real. Crucialmente, o 3DTV evita *proxies* explícitos, permitindo uma renderização robusta em diversas cenas. Isso o torna uma solução prática para transmissão multi-vista de baixa latência e renderização interativa. Página do Projeto: https://stefanmschulz.github.io/3DTV_webpage/
À medida que os modelos de linguagem de grande escala (LLMs) são cada vez mais implantados como agentes autónomos, compreender como o comportamento estratégico emerge em ambientes multiagente tornou-se um desafio importante no alinhamento. Adotamos uma postura empírica neutra e construímos um ambiente controlado no qual o comportamento estratégico pode ser observado e medido diretamente. Introduzimos uma simulação em larga escala com múltiplos agentes num modelo simplificado da cidade de Nova Iorque, onde agentes orientados por LLMs interagem sob incentivos opostos. Os agentes Azuis visam alcançar os seus destinos de forma eficiente, enquanto os agentes Vermelhos tentam desviá-los para rotas com alta densidade de *billboards*, usando linguagem persuasiva para maximizar a receita publicitária. Identidades ocultas tornam a navegação socialmente mediada, forçando os agentes a decidir quando confiar ou enganar. Estudamos a aprendizagem de políticas através de um *pipeline* de simulação iterativa que atualiza as políticas dos agentes ao longo de rondas repetidas de interação usando a Otimização de Kahneman-Tversky (KTO). Os agentes Azuis são otimizados para reduzir a exposição a *billboards*, preservando a eficiência de navegação, enquanto os agentes Vermelhos se adaptam para explorar as fraquezas remanescentes. Ao longo das iterações, a melhor política Azul melhora a taxa de sucesso da tarefa de 46,0% para 57,3%, embora a suscetibilidade permaneça elevada em 70,7%. Políticas posteriores exibem uma cooperação seletiva mais forte, preservando a eficiência da trajetória. No entanto, persiste um *trade-off* entre segurança e utilidade: políticas que resistem melhor à manipulação adversária não maximizam simultaneamente a conclusão da tarefa. Globalmente, os nossos resultados mostram que os agentes baseados em LLMs podem exibir um comportamento estratégico limitado, incluindo confiança e deceção seletivas, permanecendo altamente vulneráveis à persuasão adversária.
Os Grandes Modelos de Áudio-Linguagem (ALMs) demonstraram recentemente capacidades notáveis na compreensão holística de áudio, mas ainda permanecem pouco confiáveis para a localização temporal, ou seja, a tarefa de identificar exatamente quando um evento ocorre dentro de um áudio de longa duração. Esta limitação decorre de dois fatores: dados de treinamento dominados por supervisão a nível de clipe, que carecem de carimbos de data/hora precisos, e benchmarks que não simulam cenários do mundo real, onde eventos curtos são obscurecidos por sons de fundo densos. Neste artigo, apresentamos o SpotSound, um modelo de linguagem de áudio projetado para localizar eventos sonoros. O SpotSound incorpora um novo objetivo de treinamento, especificamente concebido para suprimir carimbos de data/hora alucinados para eventos ausentes da entrada. Adicionalmente, apresentamos o SpotSound-Bench, um benchmark desafiador de localização temporal onde os eventos-alvo ocupam menos de ~10% de cada clipe, criando uma avaliação rigorosa do tipo "agulha no palheiro". Experimentos demonstram que o SpotSound alcança resultados state-of-the-art em benchmarks de localização temporal, mantendo simultaneamente um desempenho robusto em diversas tarefas gerais de áudio-linguagem. O código, os modelos e o benchmark são disponibilizados em https://loiesun.github.io/spotsound/.