Artigos de pesquisa em IA selecionados diariamente com traduções
Agentes modernos de mundo aberto, como o OpenClaw, exibem capacidades poderosas de execução em múltiplos ambientes, mas introduzem novas e amplas fontes de risco de segurança. Simultaneamente, modelos avançados de inteligência artificial de fronteira reduzem drasticamente as barreiras para ataques, tornando os atuais arcabouços de alinhamento de agentes inadequados para implantação no mundo real. Para enfrentar essas ameaças emergentes, propomos um arcabouço leve e escalável de alinhamento de segurança para agentes. Especificamente, atualizamos a taxonomia de segurança de agentes para acomodar riscos emergentes dos cenários de execução do Codex e do OpenClaw. Construímos ainda um motor de dados orientado por taxonomia com purificação por função de influência para treinar variantes leves do AgentDoG 1.5 (0,8B, 2B, 4B e 8B parâmetros) utilizando apenas cerca de mil amostras, alcançando desempenho comparável a modelos líderes de código fechado (por exemplo, GPT-5.4). Com base no AgentDoG 1.5, construímos um ambiente altamente eficiente de treinamento SFT e RL para segurança de agentes, que reduz o custo de implantação em ambientes no nível Docker em duas ordens de grandeza. Finalmente, implantamos o AgentDoG 1.5 como um guardrail online livre de treinamento para moderação de segurança em tempo real. Resultados experimentais extensivos indicam que o AgentDoG 1.5 alcança desempenho de ponta em cenários interativos de agentes diversos e complexos. Todos os modelos e conjuntos de dados são disponibilizados abertamente.
A inteligência incorporada é frequentemente estudada por meio de modelos especializados para tarefas individuais, como manipulação ou navegação, resultando em capacidades fragmentadas e generalização limitada entre tarefas, ambientes e corporificações robóticas. Neste trabalho, investigamos se problemas heterogêneos de tomada de decisão incorporada podem ser unificados em um único modelo visão-linguagem-ação. Apresentamos o Qwen-VLA, um modelo fundamental incorporado unificado que estende a pilha de modelagem visão-linguagem do Qwen, desde percepção, compreensão e raciocínio até geração contínua de ações e trajetórias, por meio de um decodificador de ação baseado em DiT. O Qwen-VLA é treinado com uma receita de pré-treinamento conjunto em larga escala sobre diversas fontes de dados, incluindo trajetórias de manipulação robótica, demonstrações egocêntricas humanas, dados de simulação sintética, dados de navegação visão-linguagem, supervisão centrada em trajetórias e dados auxiliares de visão-linguagem. Para suportar múltiplas plataformas robóticas, introduzimos o condicionamento de prompt ciente da incorporação, no qual descrições textuais específicas do robô especificam a corporificação atual e a convenção de controle. Adicionalmente, transformamos manipulação, navegação e predição de trajetórias em uma estrutura unificada de predição de ações e trajetórias, permitindo ancoragem visual transferível, raciocínio espacial e geração contínua de ações entre morfologias robóticas, famílias de tarefas e ambientes. Experimentos em benchmarks centrados em manipulação, navegação e trajetórias mostram desempenho multitarefa consistente e generalização fora da distribuição sob variações no layout da cena, fundo, iluminação, configuração de objetos e corporificação robótica. O Qwen-VLA-Instruct alcança 97,9% no LIBERO, 73,7% no Simpler-WidowX, 86,1%/87,2% no RoboTwin-Easy/Hard, 69,0% OSR no R2R, 59,6% SR no RxR, 76,9% de sucesso OOD médio em experimentos ALOHA do mundo real e 26,6% de sucesso zero-shot na manipulação dinâmica DOMINO.
As necessidades de informação do mundo real exigem acesso a fontes de conhecimento estruturalmente diversas, desde texto não estruturado e tabelas relacionais até grafos de conhecimento e grafos de propriedades. No entanto, os recuperadores existentes operam sobre uma fonte de cada vez, sob uma linguagem de consulta fixa, deixando o panorama mais amplo do conhecimento disponível fragmentado por interfaces incompatíveis. Uma tentativa natural de unificação colapsaria essas fontes em um espaço compartilhado, mas isso elimina as vantagens estruturais (como esquemas, ontologias, operadores composicionais) que conferem a cada fonte seu poder expressivo. Portanto, a recuperação eficaz sobre conhecimentos diversos não exige homogeneização, mas sim uma camada abrangente que atenda cada fonte em seus próprios termos. Para alcançar isso, apresentamos o OmniRetrieval, uma estrutura que recebe qualquer consulta em linguagem natural, identifica as fontes de conhecimento adequadas e despacha consultas nativas da fonte para seus motores de execução nativos. Em um benchmark abrangente que abrange 13 conjuntos de dados e 309 bases de conhecimento distintas sobre fontes textuais, relacionais e estruturadas em grafos, o OmniRetrieval supera as bases de referência de fonte única, demonstrando que pode servir como uma interface de uso geral para fontes heterogêneas, ao mesmo tempo que preserva as distinções estruturais que tornam cada fonte valiosa.
A edição personalizada de imagens visa equipar modelos de difusão pré-treinados com efeitos visuais específicos utilizando dados pareados limitados, tipicamente por meio da Adaptação de Baixa Classificação (LoRA). À medida que o número de efeitos desejados aumenta, armazenar e carregar dinamicamente diversos LoRAs de efeito eleva significativamente o custo de implantação. Além disso, os pipelines atuais geralmente em cascata esses LoRAs de efeito com módulos de aceleração para geração rápida, o que desencadeia interferência severa de parâmetros, resultando em sangramento de conceitos e degradação de estilo. Propomos o CollectionLoRA, uma estrutura de destilação on-policy com múltiplos professores, capaz de destilar os conceitos de até 50 LoRAs de efeito diferentes, juntamente com capacidades de geração em poucos passos, em um único LoRA. Isso resolve fundamentalmente o problema de interferência de características e reduz significativamente os custos de implantação. Especificamente, o método introduz (i) um mecanismo de Roteamento Probabilístico de Fluxo Duplo que permite ao modelo alternar aleatoriamente entre fontes de dados durante o treinamento, melhorando efetivamente sua generalização em cenários não vistos; (ii) uma estratégia de Estimulação Ortogonal Assimétrica para alcançar o isolamento de conceitos dentro do espaço de prompts; (iii) um Objetivo de Destilação Grosseira a Fina para mitigar a lacuna de distribuição entre os modelos professor e aluno. Avaliações extensas mostram que o CollectionLoRA destila todos os efeitos personalizados e a geração em poucos passos em um único LoRA, reduzindo o custo de implantação enquanto alcança fidelidade de conceito comparável ou superior à dos modelos professores treinados de forma independente.
Modelos fundamentais recentes de difusão de vídeo alcançaram progresso notável na geração de vídeos de alta qualidade, no entanto, transformá-los em modelos de mundo de vídeo interativos em tempo real continua sendo desafiador. Modelos de mundo interativos exigem rollout controlável, causal e de baixa latência, o que na prática demanda um pipeline completo que abrange construção de dados, ajuste fino controlável, treinamento autoregressivo, destilação de poucas etapas e inferência em streaming. Neste trabalho, apresentamos o minWM, um framework full-stack de código aberto para construir modelos de mundo de vídeo interativos em tempo real. O minWM fornece um pipeline ponta a ponta que converte modelos fundamentais de vídeo T2V/TI2V bidirecionais existentes em modelos de mundo autoregressivos de poucas etapas controláveis por câmera. Especificamente, o minWM primeiro ajusta finamente um modelo de difusão de vídeo bidirecional com controle de câmera e, em seguida, aplica o pipeline Causal Forcing / Causal Forcing++, incluindo treinamento de difusão AR, destilação de ODE causal ou consistência causal e DMD assimétrico, para destilá-lo em um gerador autoregressivo de poucas etapas para rollout de baixa latência. O framework é modular e extensível a arquiteturas: o instanciamos em backbones abertos representativos, incluindo Wan2.1-T2V-1.3B e HY1.5-TI2V-8B, cobrindo tanto injeção de condição baseada em atenção cruzada quanto arquiteturas estilo MMDiT. O minWM também suporta a adaptação de modelos de mundo de vídeo existentes, como o HY-WorldPlay, a novas distribuições de dados, receitas de treinamento e metas de latência. Além de disponibilizar scripts executáveis, checkpoints, documentação e código de inferência, fornecemos ablações práticas sobre qualidade da trajetória da câmera, etapas de treinamento de controlabilidade e requisitos mínimos de tamanho de lote. Esperamos que o minWM sirva como uma receita reproduzível e extensível para construir e adaptar modelos de mundo de vídeo interativos em tempo real. Página do Projeto: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
À medida que os modelos de difusão de vídeo (VDMs) avançam em direção a modelos de mundo, surge uma questão fundamental: eles realmente compreendem a causalidade, ou apenas se sobreajustam a padrões temporais estatísticos? Os benchmarks existentes baseiam-se majoritariamente em dados sintéticos, limitando a generalização para o mundo real devido à lacuna sim-para-real. Apresentamos o YoCausal, um benchmark de dois níveis inspirado no paradigma da Violação de Expectativa (VoE) das ciências cognitivas. Ao reverter temporalmente vídeos reais com custo zero como amostras contrafactuais naturais, o YoCausal estabelece um protocolo de avaliação arbitrariamente extensível. O Nível 1 introduz o Índice de Surpresa Reversa (RSI), quantificando a percepção da seta do tempo por meio da perda de desruído. O Nível 2 introduz o Índice de Cognição de Causalidade (CCI), que utiliza um VLM para estratificar conjuntos de dados em subconjuntos causais e não causais, separando o raciocínio causal genuíno do viés temporal. A avaliação de 13 VDMs de última geração revela que perceber a seta do tempo não implica compreender causalidade, e persiste uma lacuna significativa em relação à cognição causal de nível humano.
Os modelos de geração de imagens evoluíram da síntese de pixels condicionada por texto para agentes multimodais dotados de compreensão visual e capacidade de invocação de ferramentas. No entanto, os agentes existentes permanecem à mercê de modelos de imagem de caixa preta subjacentes. Seu fluxo de trabalho fica preso em um ciclo repetitivo de reescrita de prompts para refinamento da geração, sem qualquer mecanismo para manipular diretamente a tela. Em essência, o potencial dos LLMs de servirem como um verdadeiro "pincel" para a construção visual precisa permanece amplamente inexplorado. Neste artigo, propomos o GenClaw, um paradigma de geração de imagens agentivo orientado por código que capacita o agente a criar como um artista humano: primeiro conceituando, depois esboçando e, finalmente, colorindo. Especificamente, o agente primeiro constrói o conhecimento conceitual e o contexto por meio de busca e raciocínio. Em seguida, utiliza código (por exemplo, SVG, HTML, Three.js) para renderizar esboços visuais executáveis. Por fim, emprega um modelo de geração de imagens para complementar texturas, materiais e fotorrealismo. Nesse fluxo de trabalho, o código serve como uma tela intermediária controlável que une o raciocínio linguístico e a síntese de pixels, integrando perfeitamente a lógica programática com a expressividade visual dos modelos generativos. Ao transformar a geração de imagens de um paradigma de caixa preta em um processo em etapas análogo à criação humana autêntica, o GenClaw oferece um passo em direção a sistemas de geração visual altamente controláveis e interpretáveis.
Modelos de linguagem de grande escala para vídeo (Video-LLMs) demonstraram capacidades robustas em tarefas de compreensão de vídeo. No entanto, sua implementação prática ainda é prejudicada pela ineficiência introduzida pelo processamento de uma quantidade massiva de tokens visuais. Embora abordagens recentes atinjam taxas de retenção de tokens extremamente baixas, mantendo precisão comparável às linhas de base com tokens completos, a maioria delas realiza compressão apenas nos estágios finais do pré-preenchimento, deixando a eficiência do codificador visual sem otimização. Neste artigo, primeiramente mostramos que a codificação visual contribui com uma grande parcela do tempo até o primeiro token (TTFT). Portanto, em vez de comprimir tokens visuais apenas após o codificador visual, realizar a compressão dentro do próprio codificador ainda deixa espaço substancial para exploração. Com base nessa percepção, propomos o EarlyTom, uma estrutura de compressão de tokens sem treinamento que realiza compressão precoce de tokens visuais dentro do codificador visual, permitindo uma redução significativamente maior do TTFT e maior taxa de transferência. Além disso, introduzimos uma estratégia de seleção de tokens espaciais desacoplada que melhora a eficácia geral da compressão. O EarlyTom reduz o TTFT em até 2,65 vezes e os FLOPs em até 61% em uma única GPU NVIDIA A100 para o modelo LLaVA-OneVision-7B, mantendo precisão comparável à linha de base com tokens completos. Essas melhorias aumentam substancialmente a praticidade da implantação de Video-LLMs em cenários de produção do mundo real.
Modelos de Linguagem de Grande Porte (LLMs) precisam aprender continuamente e atualizar conhecimentos para permanecerem eficazes em ambientes reais dinâmicos. Embora a Adaptação de Baixo Posto (LoRA) seja amplamente utilizada para tais atualizações de memória, estudos existentes baseiam-se principalmente em avaliações qualitativas a jusante, deixando os limites quantitativos de capacidade e a dinâmica subjacente da memória paramétrica exata em grande parte inexplorados. Para preencher essa lacuna, empregamos a LoRA como uma sonda controlada de capacidade de memória no espaço latente para quantificar sistematicamente a memória paramétrica exata. Introduzimos a Lei de Memória Paramétrica, uma lei de potência robusta que relaciona a redução de perda ΔL a parâmetros efetivos e comprimento de sequência. No nível do token, uma análise refinada revela uma transição de fase determinística, demonstrando que uma probabilidade de predição p > 0,5 constitui condição suficiente para recuperação literal sob decodificação gulosa. Impulsionados por esses insights, apresentamos o MemFT, uma estratégia de otimização guiada por limiar que redistribui dinamicamente o orçamento de treinamento para tokens abaixo do limiar. Avaliações empíricas demonstram que o MemFT pode aprimorar a fidelidade e a eficiência da memória. O código será disponibilizado em https://github.com/zjunlp/ParametricMemoryLaw.
O controle baseado em ativações orienta modelos de linguagem de grande porte (LLMs) ao intervir em suas representações internas durante a inferência, e emergiu como um paradigma eficaz para controlar comportamentos como persona e estilo. No entanto, os métodos existentes frequentemente dependem de direções de orientação fixas ou módulos de intervenção específicos para cada tarefa, o que dificulta sua adaptação a conceitos refinados e restrições composicionais. Propomos o UniSteer, um modelo de correspondência de fluxo de ativação guiado por texto que aprende uma distribuição condicional sobre ativações de fluxo residual a partir de condições em linguagem natural. Em vez de ajustar uma intervenção separada para cada comportamento alvo, o UniSteer aprende um campo de velocidade condicional universal no espaço de ativação. No momento da inferência, o UniSteer realiza a inversão de fluxo ao transportar parcialmente uma ativação de origem em direção a um estado latente e regenerá-la sob uma condição textual alvo antes de injetá-la de volta no LLM congelado. O mesmo modelo condicional suporta classificação no espaço de ativação ao selecionar o rótulo textual com a menor energia de reconstrução. Experimentos em três LLMs alvo mostram que o UniSteer fornece uma interface unificada em controle comportamental, orientação de veracidade, orientação de conceitos refinados, seguimento de instruções com múltiplas restrições e classificação no espaço de ativação.
Modelos de visão-linguagem (VLMs) alcançam desempenho robusto em benchmarks de raciocínio espacial, embora permaneça incerto se isso reflete uma compreensão 3D estruturada ou dependência de atalhos estatísticos em imagens naturais. Apresentamos uma estrutura de análise a nível de representação que constrói pares contrastivos mínimos para medir como os eixos espaciais são organizados e desembaraçados dentro dos embeddings dos VLMs. Nossa análise em múltiplas famílias de modelos revela um consistente emaranhamento vertical-distância: os modelos confundem a posição vertical da imagem com a distância, espelhando o viés de perspectiva das fotografias naturais. Esse viés produz uma lacuna significativa de acurácia entre exemplos consistentes com a perspectiva e exemplos contra-heurísticos, e se intensifica sob escalonamento de dados mesmo enquanto a acurácia geral do benchmark melhora. Além disso, mostramos que modelos com pontuações semelhantes em benchmarks podem exibir representações internas diferentes, e que essas diferenças preveem acurácia e robustez em diversos benchmarks de raciocínio espacial. Para isolar esse viés de distorções no conjunto de avaliação, apresentamos o SpatialTunnel, um benchmark sintético projetado para expor vieses de atalho espacial ao remover correlações comuns presentes em imagens naturais. Experimentos confirmam que o emaranhamento é intrínseco ao modelo, e que modelos com eixos espaciais bem separados exibem maior robustez, sugerindo que representações espaciais bem estruturadas levam a um raciocínio espacial mais confiável em diversos benchmarks. Código e benchmark estão disponíveis na página do projeto: https://cheolhong0916.github.io/whyfarlooksup.github.io/.
A geração conjunta de áudio-vídeo visa sintetizar conteúdo visual-acústico temporalmente sincronizado e semanticamente coerente. No entanto, os métodos open-source existentes baseiam-se principalmente em arquiteturas de torre dupla com alinhamento posterior ou em designs trimodais totalmente unificados que misturam contexto textual, áudio e vídeo em um espaço compartilhado. O primeiro enfraquece a coevolução refinada de áudio-vídeo, enquanto o segundo acopla o condicionamento semântico à sincronização de baixo nível. Para superar essas limitações, propomos NAVA, um framework de Alinhamento Nativo Audiovisual para geração conjunta de áudio-vídeo. O NAVA é baseado em alinhamento nativo audiovisual condicionado ao contexto: primeiro estabelece a correspondência áudio-vídeo em um espaço de interação dedicado e, em seguida, utiliza o contexto externo para condicionar o processo conjunto de denoising. Especificamente, o NAVA é instanciado com uma arquitetura MMDiT Alinhar-depois-Fundir, que transita do alinhamento áudio-vídeo consciente da modalidade para o denoising conjunto compartilhado entre modalidades. Além disso, introduzimos o Condicionamento de Timbre no Contexto para associar pistas de timbre de referência a segmentos de fala correspondentes, viabilizando o timbre de fala controlável. Experimentos no Verse-Bench e Seed-TTS, juntamente com um estudo de usuário, demonstram que o NAVA alcança qualidade de vídeo superior, sincronização audiovisual precisa, qualidade de áudio competitiva e controlabilidade de timbre de referência mais forte usando apenas 6,3 bilhões de parâmetros.
Modelos de Visão e Linguagem (MVLs) alcançaram progressos substanciais em uma ampla gama de tarefas de compreensão e raciocínio, impulsionados por treinamento em larga escala com pares imagem-texto visando a fusão multimodal. Idealmente, substituir uma pergunta textual por sua contraparte em imagem renderizada não deveria afetar o desempenho do modelo. Na prática, no entanto, essa substituição de modalidade induz uma degradação drástica no desempenho. Atribuímos essa questão de "sensibilidade ao suporte" a um viés inerente nos corpora de treinamento atuais. Em conjuntos de dados prevalentes, como descrição de imagens, VQA, OCR e dados intercalados da web, texto e imagens são tipicamente organizados em papéis distintos e assimétricos, com o texto servindo como consultas linguísticas e as imagens como referências visuais. Esse viés nos dados leva os MVLs a exibirem preferências distintas pela aquisição de informações entre diferentes modalidades. Consequentemente, os MVLs falham em alinhar representações de conteúdo semanticamente equivalente entre suportes textuais e visuais, tornando o raciocínio do modelo frágil sob substituição de modalidade. Para abordar isso, propomos a Substituição Local de Modalidade (LoMo), um paradigma de curadoria de dados leve e independente de arquitetura, projetado para fornecer supervisão para a invariância representacional entre modalidades para suportes de texto e imagem semanticamente equivalentes. O LoMo alcança isso reformulando prompts de modalidade única em sequências multimodais perfeitamente intercaladas. Ele seleciona dinamicamente trechos de texto alvo e os recria como imagens renderizadas, preservando assim a mesma semântica entre os suportes "texto, visual, texto". Experimentos extensivos em 13 benchmarks multimodais diversos demonstram que o LoMo melhora significativamente o raciocínio multimodal geral e proporciona uma fusão cross-modal mais profunda. Especificamente, ele oferece ganhos consistentes em modelos fundamentais, melhorando o SFT padrão em 2,67 pontos no LLaVA-OneVision-1.5-8B e 2,82 pontos no Qwen3.5-9B.
O pós-treinamento por aprendizado por reforço (RL) tem se mostrado eficaz para melhorar o raciocínio em grandes modelos de linguagem (LLMs). No entanto, houve pouca exploração do problema de contaminação de dados no pós-treinamento por RL, potencialmente comprometendo a generalização e a confiabilidade da avaliação do próprio processo de treinamento. Os métodos de detecção existentes baseiam-se principalmente em sinais de nível de saída, como verossimilhança ou entropia, que se tornam não confiáveis para modelos treinados com RL, uma vez que o RL molda o comportamento por meio de recompensas em nível de trajetória, e não de verossimilhanças de tokens. Propomos LaRA, uma estrutura de análise de representação em nível de camada para detectar contaminação em LLMs pós-treinados por RL. LaRA introduz três métricas complementares, medindo sensibilidade a perturbações, colapso direcional e rigidez de representação local sob perturbações controladas. Descobrimos que a contaminação produz desvios geométricos progressivos entre as camadas, incluindo sensibilidade amplificada a perturbações, colapso direcional mais forte e rigidez local aumentada. Com base em nossas descobertas, também desenvolvemos um protocolo de detecção de contaminação que agrega desvios no nível de representação entre camadas e métricas. Experimentos em modelos de raciocínio treinados com RL mostram que nosso protocolo supera as linhas de base existentes em nível de saída para detecção de contaminação.
Equipar modelos de linguagem de grande escala com habilidades explícitas emergiu como um paradigma promissor para capacitar agentes autônomos a resolver tarefas complexas. As habilidades dos agentes podem ser inerentemente divididas em habilidades gerais, para transferência cognitiva ampla, e habilidades específicas de tarefa, para execução dinâmica. No entanto, os métodos existentes de aprendizado por reforço (RL) baseado em habilidades tipicamente impõem uma escolha rígida entre externalização completa, que acarreta custo de contexto proibitivo, e internalização completa, que arrisca overfitting e conflitos de conhecimento. Para abordar esse dilema, propomos Skill0.5, uma nova estrutura de RL agentiva que diferencia explicitamente os tratamentos de habilidades, combinando internalização de habilidades gerais com utilização de habilidades específicas de tarefa. Impulsionado por um roteador dinâmico e consciente de dificuldade, o Skill0.5 distribui tarefas em níveis distintos de maestria para aplicar estratégias de otimização personalizadas: ele internaliza habilidades gerais via destilação privilegiada para construir uma base cognitiva para tarefas difíceis, enquanto utiliza sondagem diagnóstica em tarefas fáceis para penalizar atalhos e impor a utilização de habilidades específicas. Experimentos no ALFWorld e no WebShop demonstram que o Skill0.5 supera tanto as linhas de base de RL baseadas em memória quanto as baseadas em habilidades, resultando em melhorias de desempenho em cenários dentro e fora da distribuição.
Explicar por que recuperadores densos atribuem altas pontuações de relevância continua sendo desafiador, pois as decisões de recuperação são tomadas por meio de embeddings de alta dimensionalidade e opacos. Explicações existentes frequentemente focam em sinais superficiais, como correspondências lexicais, alinhamentos de tokens ou justificativas textuais post-hoc, oferecendo assim um entendimento limitado sobre os fatores latentes que moldam o comportamento da recuperação densa no nível dos embeddings. Propomos o Xetrieval, uma estrutura mecanicista no nível de embeddings para explicar a recuperação densa. O Xetrieval introduz primeiro um internalizador de raciocínio leve que aproxima o raciocínio de Cadeia de Pensamento diretamente no espaço de embeddings com uma única passagem forward, enriquecendo os embeddings de sentenças com informações orientadas ao raciocínio, evitando ao mesmo tempo a geração autoregressiva custosa. Em seguida, ele decompõe esses embeddings enriquecidos com raciocínio em características esparsas e interpretáveis por humanos, cada uma associada a uma descrição coerente em linguagem natural. Ao agregar sobreposições de características esparsas em múltiplas visões do lado do documento, o Xetrieval fornece explicações no nível das características para decisões individuais de recuperação. Experimentos em diversos recuperadores e benchmarks mostram que o Xetrieval revela características interpretáveis e coerentes, produz efeitos de intervenção mais fortes no nível de pares e suporta a orientação de características no nível de tarefa. A página do projeto e o código-fonte estão disponíveis em https://hihiczx.github.io/Xetrieval.
Interações de longo horizonte exigem que modelos de linguagem gerenciem informações acumuladas: quando atualizar seu estado, quando preservá-lo e o que ignorar. Estudamos esse desafio como Gerenciamento de Crenças Contextuais (CBM): manter um estado de crença previsto alinhado com evidências formais, isolando ruídos irrelevantes à tarefa. Para tornar o CBM mensurável, introduzimos o BeliefTrack, um benchmark de mundo fechado que abrange Descoberta de Regras e Diagnóstico de Circuitos, onde um espaço de crença finito e verificadores simbólicos permitem avaliação exata em nível de turno. O BeliefTrack diagnostica três falhas: Falha de Permanência, Falha de Atualização e Falha de Isolamento. Em vários LLMs, modelos vanilla apresentam falhas severas de CBM, enquanto prompts explícitos de rastreamento de crenças oferecem ganhos limitados. Em contraste, o aprendizado por reforço com recompensas de estado de crença reduz as taxas de falha em média 70,9%. Investigações adicionais revelam dinâmicas latentes do estado de crença por trás dessas falhas, e o direcionamento em nível de representação reduz as taxas de falha em 46,1% nas duas tarefas\footnote{O código estará disponível em breve em https://github.com/zjunlp/CBM.}.
Modelos de difusão alcançam síntese de imagem de estado da arte, com suas trajetórias generativas apresentando fundamentalmente um viés espectral, resolvendo estruturas globais de baixa frequência no início e detalhes finos de alta frequência posteriormente. Solucionadores convencionais de equações diferenciais estocásticas (EDEs) não levam em conta essa dinâmica, injetando ingenuamente ruído branco uniforme ao longo de todo o processo e utilizando mal o orçamento finito de energia. Neste trabalho, estabelecemos um arcabouço matemático que reconsidera a inferência por EDE como uma transferência de energia direcionada e desacoplada em frequência. Aproveitando esse arcabouço, introduzimos a Amostragem por Ruído Colorido (CNS), um novo solucionador estocástico sem treinamento. Em vez de injetar ruído branco uniforme, a CNS utiliza um cronograma dinâmico dependente do passo temporal e da frequência, que aloca de forma mais eficiente a energia injetada em direção a bandas de frequência estruturalmente não resolvidas. Ao explorar ativamente o viés espectral inerente do modelo, a CNS orienta sistematicamente a distribuição gerada em direção à variedade de dados verdadeira. Extensos experimentos demonstram que a CNS supera significativamente as linhas de base padrão de ODE e EDE como uma substituição estritamente plug-and-play do amostrador em tempo de inferência em diversas arquiteturas (SiT, JiT, FLUX). Em comparação com a amostragem padrão no ImageNet-256, a CNS atinge reduções substanciais de FID não guiado, melhorando de 8,26 para 6,27 no SiT-XL/2, de 32,39 para 26,69 no JiT-B/16 e de 11,88 para 8,31 no JiT-H/16, ao mesmo tempo que produz melhorias consistentes de FID relativo com Orientação Sem Classificador. A página do projeto está disponível em https://hadardavidson.github.io/CNS/.
Os recuperadores densos apresentam viés posicional, favorecendo documentos cuja informação relevante à consulta aparece próximo ao início e degradando o desempenho de recuperação quando a informação aparece posteriormente. Embora trabalhos anteriores sobre viés posicional em recuperadores densos tenham se concentrado principalmente em explicações arquiteturais, estudamos como a distribuição posicional das evidências nos dados de treinamento afeta a direção do viés no nível de recuperação. Para testar isso, construímos conjuntos de treinamento sintéticos direcionados por posição nos quais as evidências relevantes à consulta aparecem no início, meio ou fim dos documentos, e realizamos ajuste fino de oito modelos pré-treinados arquitetonicamente diversos sob distribuições de treinamento enviesadas por posição e balanceadas. No nível de ranqueamento, observamos um padrão direcional forte entre os modelos examinados: distribuições de treinamento enviesadas favorecem evidências nas posições correspondentes. O treinamento balanceado por posição reduz a sensibilidade posicional em 57–87% em benchmarks cientes de posição, com desempenho médio de recuperação competitivo em nosso ambiente controlado. Análises em nível de representação sugerem ainda que o ajuste fino frequentemente remodela as preferências posicionais aprendidas, embora tendências arquiteturais pré-existentes ou específicas do pré-treinamento persistam em alguns modelos. Esses resultados identificam a distribuição posicional do treinamento como um fator controlável importante no viés posicional em nível de recuperação e sugerem a curadoria balanceada de dados como uma estratégia prática de mitigação.
Apresentamos o CausaLab, um ambiente escalável para avaliar a descoberta causal interativa por agentes LLM. Diferentemente de avaliações anteriores, o CausaLab avalia tanto se um agente consegue resolver um problema utilizando evidências causais quanto se sua resposta está fundamentada em um mecanismo causal recuperado de forma fiel. Cada episódio coloca um agente em um laboratório sintético: ele recebe registros de medições anteriores, intervém em um cristal manipulador e prevê a frequência de ressonância de um cristal reator separado, governado pelo mesmo mecanismo. O processo oculto de geração de dados é um modelo causal estrutural (SCM) amostrado aleatoriamente, de modo que o sucesso exige recuperar tanto um grafo causal quanto equações estruturais, e não recorrer a conhecimento prévio. Experimentos mostram uma lacuna persistente entre predição e recuperação do mecanismo: no cenário puramente observacional com 6 nós, o GPT-5.2-high atinge 92% de acurácia na tarefa, mas apenas 0,471 de F₁ para todas as arestas. Estratégias mistas de observação e intervenção melhoram a fidelidade estrutural, enquanto a intervenção pura permanece difícil mesmo para agentes fortes. Identificamos a parada prematura como uma fraqueza importante e mostramos que a verificação de consistência a mitiga. Portanto, o CausaLab separa o sucesso preditivo da compreensão causal e expõe os limites dos atuais agentes LLM como raciocinadores causais experimentais.
Agentes baseados em modelos de linguagem de grande escala (LLM) demonstraram fortes capacidades no uso de ferramentas externas para resolver tarefas complexas. No entanto, as avaliações existentes frequentemente negligenciam a dimensão temporal do uso de ferramentas, especialmente o impacto da latência de resposta das ferramentas, e geralmente se limitam a configurações de tarefa única. Em aplicações do mundo real, múltiplas tarefas frequentemente precisam ser executadas concorrentemente, e a eficiência geral depende de se um agente consegue utilizar o tempo ocioso enquanto aguarda respostas das ferramentas. Nós nos referimos a essa capacidade como chamada assíncrona de ferramentas. Para avaliá-la, propomos o AsyncTool, um benchmark para avaliar agentes baseados em LLM em ambientes interativos de multitarefas com feedback atrasado de ferramentas. O AsyncTool apresenta múltiplas tarefas heterogêneas simultaneamente e simula a latência realista de resposta de ferramentas durante a execução. Utilizando uma estratégia híbrida de evolução de dados, construímos um conjunto de dados diverso de multitarefas assíncronas que abrange múltiplos cenários e padrões de uso de ferramentas. Avaliamos modelos nos níveis de passo, subtarefa e tarefa, e introduzimos métricas orientadas à eficiência para medir a coordenação de tarefas e a eficiência de conclusão. Experimentos extensivos mostram que o feedback atrasado de ferramentas representa desafios substanciais para os agentes atuais e leva a uma clara degradação de desempenho. Modelos que coordenam melhor a alternância de tarefas, o rastreamento de dependências e a manutenção de estado alcançam desempenho mais forte no AsyncTool. Nossa análise identifica modos de falha chave dos agentes atuais que usam ferramentas e fornece insights práticos para projetar sistemas futuros com capacidades mais fortes de raciocínio temporal e coordenação.
O espaço de design da inferência de IA agêntica abrange dois extremos: modelos de linguagem de grande porte (LLMs) de fronteira, normalmente hospedados na nuvem e que oferecem desempenho robusto em uma ampla gama de tarefas a um custo substancialmente elevado, e modelos de linguagem pequenos (SLMs) mais eficientes em termos de custo, que são adequados para inferência no dispositivo. Sistemas multiagentes (MAS) híbridos que combinam modelos de dispositivo e de nuvem oferecem um promissor meio-termo, mas também introduzem um espaço de design complexo e pouco compreendido, no qual a precisão das tarefas, o custo monetário e o consumo de energia na borda estão fortemente acoplados; na ausência de princípios gerais de design, os componentes híbridos, embora não sejam a escolha mais prevalente, são tipicamente introduzidos por meio de decisões ad hoc adaptadas a domínios específicos. Neste trabalho, examinamos esse espaço de design de forma mais sistemática. Adaptamos duas arquiteturas representativas de MAS para suportar inferência híbrida e estudamos como escolhas individuais de design deslocam o ponto operacional ao longo da fronteira de Pareto de potência, custo e desempenho. Nossos achados pintam um quadro matizado do design de MAS híbridos: embora os SLMs possam se beneficiar efetivamente da assistência dos LLMs, a arquitetura ideal é altamente dependente da tarefa, e um maior poder computacional em nível de fronteira não se traduz consistentemente em melhor desempenho.
Modelos de Linguagem de Grande Escala (LLMs) avançaram agentes autônomos desde a busca profunda, que recupera respostas factuais concisas, até a pesquisa aprofundada, que sintetiza evidências dispersas em relatórios longos. No entanto, a pesquisa multimodal profunda verificável continua desafiadora devido à síntese aberta sem verdade fundamental determinística e à necessidade de intercalar argumentos textuais com evidências visuais. Propomos Ptah, um arcabouço multiagente para geração de relatórios intercalados. Ptah orquestra o ciclo de vida desde a consulta do usuário até o relatório web renderizado, passando pelas etapas de planejamento, pesquisa e escrita, onde agentes especializados constroem planos com consciência visual, coletam evidências fundamentadas em alegações, mantêm imagens alinhadas às fontes em uma Memória de Trabalho Visual e compõem relatórios por meio do uso declarativo de ferramentas multimodais. Um agente verificador atua como função de aceitação do arcabouço, impondo fundamentação factual, fidelidade de citação e consistência entre modalidades ao longo do fluxo de trabalho. Apresentamos ainda PtahEval, um protocolo de avaliação que complementa benchmarks existentes com avaliações em nível de imagem e de apresentação. Experimentos em benchmarks de pesquisa aprofundada mostram que Ptah produz relatórios multimodais mais confiáveis, visualmente informativos e utilizáveis para humanos do que linhas de base fortes.
Avanços recentes em agentes de GUI móvel demonstram forte potencial para automatizar tarefas em dispositivos móveis, mas a maioria dos sistemas eficazes ainda depende de grandes modelos de visão-linguagem para compreensão de capturas de tela e planejamento de longo horizonte. Agentes de GUI pequenos, que podem ser implantados diretamente em dispositivos móveis, são mais atrativos para uso prático, oferecendo menor custo de inferência e melhor proteção de informações sensíveis no dispositivo. No entanto, devido à capacidade limitada do modelo, tais agentes leves permanecem pouco confiáveis ao planejar e executar tarefas de GUI ponta a ponta apenas a partir de capturas de tela. Propomos a Exploração de Comportamento Orientada ao Conhecimento (UI-KOBE), uma estrutura que aprimora agentes leves de GUI móvel com conhecimento de grafo reutilizável específico do aplicativo. O UI-KOBE primeiro explora autonomamente um aplicativo móvel e constrói um grafo de conhecimento do aplicativo, onde nós representam estados distintos da interface do usuário (UI) e arestas representam transições executáveis. Em tempo de execução, um agente leve de GUI utiliza o grafo como orientação externa: dada uma tarefa do usuário e a captura de tela atual, ele identifica o nó atual do grafo e seleciona entre ações de autoloop, transições vizinhas, conclusão da tarefa ou ações livres de fallback associadas àquele nó. Ao apoiar decisões em tempo de execução com orientação do grafo específico do aplicativo, o UI-KOBE reduz a carga do planejamento de GUI ponta a ponta e ajuda modelos leves a executar tarefas de GUI móvel de forma mais eficaz, oferecendo um passo prático em direção a agentes de GUI no dispositivo eficientes, interpretáveis e conscientes da privacidade.
Dominar ambientes de terminal exige agentes de linguagem capazes de planejamento em múltiplas etapas, execução baseada em feedback e adaptação dinâmica de estados. No entanto, o treinamento desses agentes atualmente enfrenta um gargalo devido à dependência de repositórios externos extraídos, o que limita a diversidade de domínios, a controlabilidade dos ambientes e o direcionamento de déficits específicos de capacidade. Apresentamos o LiteCoder-Terminal-Gen, um pipeline de síntese sem dependências externas que gera automaticamente ambientes de treinamento de terminal executáveis e verificáveis diretamente a partir de especificações de domínio. Utilizando essa estrutura, construímos dois recursos em larga escala: o LiteCoder-Terminal-SFT, composto por 11.255 trajetórias especializadas em 10 domínios, e o LiteCoder-Terminal-RL, com 602 ambientes verificáveis para otimização de preferências em nível de trajetória. O ajuste fino supervisionado de modelos da família Qwen em nosso conjunto de dados SFT produz agentes que superam significativamente suas contrapartes base. Notavelmente, nossa variante de 32B alcança 29,06%, 18,54% e 34,00% de pass@1 no Terminal Bench 1.0, 2.0 e Pro, respectivamente. Além disso, a aplicação da Otimização Direta de Preferências em Múltiplas Rodadas (DMPO) em nossos ambientes RL resulta em ganhos adicionais de desempenho. Esses resultados demonstram sistematicamente que ambientes executáveis totalmente sintéticos oferecem um sinal de supervisão escalável e verificável para dominar fluxos de trabalho complexos e reais de linha de comando.
Abordamos a tarefa de gerar Interação Humano-Objeto (HOI) 4D fisicamente precisa e visualmente fiel. Dado um humano 3D estático e um objeto alvo representados como Splats Gaussianos 3D (3DGS), nosso objetivo é sintetizar cenas dinâmicas nas quais o humano interage ativamente com o objeto por meio de ações, como socar ou chutar, de acordo com um texto de entrada fornecido. Para isso, introduzimos o PhyGenHOI, uma nova estrutura que acopla movimento humano generativo a uma simulação física explícita do objeto. Modelamos o humano como um agente semântico orientado por um Modelo de Difusão de Movimento (MDM) e o objeto como um agente físico simulado via Método de Pontos Materiais (MPM), utilizando Gaussianos 3D como uma representação unificada e diferenciável. Supervisionamos sua interação por meio de três mecanismos acoplados: (1) uma Perda de Atração Janelada que sincroniza temporalmente o movimento generativo para interceptar o objeto; (2) uma etapa de Re-simulação Orientada por Contato que desencadeia transferência de momento fisicamente consistente no impacto; e (3) um objetivo de SDS de Vídeo Mascarado que injeta prioridades baseadas em vídeo para melhorar a fidelidade do contato. Experimentos mostram que o PhyGenHOI gera HOI 4D fisicamente consistente em diversas ações, humanos e objetos, superando as linhas de base. Página do projeto e vídeos: https://omerbenishu.github.io/PhyGenHOI/
O rápido crescimento no número de submissões em conferências de aprendizado de máquina sobrecarregou o sistema de revisão por pares e intensificou o interesse em revisores automatizados baseados em LLM. No entanto, ainda se sabe pouco sobre o quão bons esses sistemas realmente são, especialmente em comparação com revisores humanos para identificar lacunas científicas. Neste trabalho, apresentamos o PRISM (Peer Review Intelligence via Structured Multi-dimensional Assessment), uma estrutura de benchmarking que avalia a qualidade da revisão em quatro dimensões: Profundidade da Análise, Avaliação de Novidade, Identificação de Falhas e Priorização de Questões Principais, e Construtividade Multidimensional. Diferentemente da maioria das avaliações existentes, baseadas em métricas superficiais como ROUGE e BLEU, ou no prompting irrestrito de LLM como juiz, que confunde fluência com rigor, o PRISM fundamenta cada dimensão em mineração de argumentos, verificação aumentada por recuperação e pontuação baseada em consenso. Aplicamos o PRISM para avaliar cinco sistemas líderes de revisão automatizada e revisores humanos em um corpus estratificado de revisões do ICLR, ICML e NeurIPS. Os resultados revelam que LLMs podem igualar ou superar revisores humanos em dimensões individuais: profundidade de análise comparável, verificação de novidade mais forte e priorização de críticas altamente precisa. No entanto, nenhum sistema único consegue consistentemente igualar o desempenho equilibrado da linha de base humana em todas as dimensões simultaneamente. Cada um exibe um perfil de especialização distinto, com pontos cegos característicos — modos de falha que as métricas agregadas ignoram completamente. A implicação é que os revisores LLM são mais bem compreendidos como suplementos direcionados à revisão humana, eficazes dentro de dimensões específicas, mas não confiáveis como substitutos autônomos. Nossa demonstração e principais resultados podem ser encontrados em https://khanhthanhdev.github.io/prism-page/.
A modelagem de recompensa pontual oferece sinais críticos para o pós-treinamento de LLMs, mas enfrenta dificuldades com a pontuação absoluta em contextos subjetivos e não verificáveis. Métodos baseados em rubricas lidam com essa questão ao decompor a avaliação em critérios explícitos, porém as abordagens existentes tipicamente dependem de LLMs de fronteira e sofrem com empates causados pela agregação booleana rígida. Apresentamos o RUBRIC-ARROW, uma estrutura alternada que treina conjuntamente um gerador de rubricas e um juiz condicionado por rubricas, cuja etapa de RL utiliza apenas dados de preferência pareados. Nosso método acopla uma regra de pontuação baseada em probabilidade que reduz empates com recompensas baseadas em preferência específicas de fase e um esquema alternado GRPO que, juntos, treinam o avaliador pontual. Experimentos extensivos mostram que o RUBRIC-ARROW alcança precisão competitiva na modelagem de recompensa e produz ganhos consistentes para o pós-treinamento de políticas downstream.
A manipulação robótica depende criticamente de uma percepção que preserve os aspectos relevantes para a ação de uma cena. No entanto, a maioria dos pipelines de aprendizado robótico é construída sobre codificadores visuais pré-treinados para reconhecimento estático ou alinhamento visão-linguagem, deixando a compreensão do movimento para políticas downstream. Apresentamos o DynaFLIP, uma estrutura de pré-treinamento multimodal consciente da dinâmica que desloca a compreensão do movimento para upstream, na percepção. Construímos tripletos de imagem-linguagem-fluxo 3D a partir de vídeos heterogêneos de humanos e robôs, e usamos esses tripletos como supervisão durante o treinamento para moldar um codificador puramente baseado em imagem. Nossa ideia central é incentivar que as três modalidades ocupem um pequeno volume de simplex no espaço hiperesférico compartilhado — um volume de simplex menor indicando um alinhamento mais forte. Para evitar a ambiguidade geométrica e o colapso trivial da minimização ingênua de volume, combinamos a minimização do volume do simplex com um regularizador cosseno e um objetivo contrastivo. Nossas análises mostram que o DynaFLIP se concentra em regiões relevantes para o controle, cruciais para a manipulação. As representações conscientes da dinâmica resultantes servem como backbones visuais reutilizáveis e superam consistentemente as linhas de base em diversas políticas downstream, incluindo VLAs. Validamos isso em diversas configurações simuladas e do mundo real, com ganhos de até +22,5% em cenários fora da distribuição. Nossos resultados sugerem que a generalização de robôs melhora quando as representações visuais são treinadas para codificar não apenas o que está presente, mas como o mundo muda sob ação.
A aplicação de aprendizado por reforço para melhorar a precisão factual em respostas a perguntas com uso intensivo de conhecimento enfrenta um dilema no design de recompensa. Recompensas no nível da resposta fornecem apenas uma supervisão grosseira e não conseguem distinguir afirmações corretas de incorretas dentro de um traçado de raciocínio. Alternativas no nível da sentença oferecem um feedback mais granular, mas geralmente dependem de verificadores NLI, juízes LLM ou pipelines de verificação de conhecimento que são caros para implantar na escala do RL e frequentemente não confiáveis para fatos sobre entidades raras, onde sinais de recompensa precisos são especialmente importantes. Propomos o CorVer (Corpus Verify), uma recompensa de processo leve e pronta para plug-in, que substitui verificadores neurais por um sinal baseado em corpus derivado de estatísticas de co-ocorrência da Wikipédia. O CorVer atribui crédito no nível da sentença e o mapeia para vantagens no nível do token por meio de um alinhamento simples, exigindo apenas um extrator de 0,5B e uma única consulta ao corpus por sentença. Em 30 células (modelo, benchmark) abrangendo seis modelos ajustados por instrução (3B a 14B) e cinco benchmarks de QA, o CorVer melhora em relação à linha de base bruta para todas as células, com um ganho médio de +4,1 pp no TriviaQA. Ele também supera quatro linhas de base de verificador neural em 18 de 20 células sob suas configurações viáveis, enquanto treina 4,8 a 8,4 vezes mais rápido.
Apresentamos o ChildVox, um novo benchmark para caracterizar os diversos sinais acústicos através dos quais as crianças se comunicam. Especificamente, o ChildVox acompanha a trajetória completa do desenvolvimento desde o nascimento até a idade escolar, abrangendo sons fisiológicos, vocalizações não linguísticas, sílabas canônicas e linguagem falada. O ChildVox integra mais de 20 sub-tarefas em 17 conjuntos de dados de áudio e fala centrados em crianças, permitindo comparação sistemática entre corpora e entre domínios. Avaliamos uma gama representativa de modelos fundamentais de áudio e fala, incluindo modelos auto-supervisionados, orientados para ASR e grandes modelos de áudio e linguagem, em tarefas como classificação de sons fisiológicos, modelagem de vocalizações e sílabas canônicas, e avaliação e reconhecimento da qualidade da fala. Os resultados do benchmark mostram que o ChildVox fornece um conjunto de modelos de alto desempenho no reconhecimento de uma ampla gama de sinais acústicos de crianças, apoiando aplicações downstream como a caracterização dos níveis de linguagem infantil e o acompanhamento da produção da fala com a idade.
Os modelos de linguagem multimodal de grande escala estão cada vez mais sendo implantados como agentes de longo horizonte, nos quais a memória precisa fazer mais do que recordar: deve rastrear um mundo em evolução, revisar o que se tornou obsoleto e trazer à tona as evidências certas no momento da decisão. Os benchmarks existentes medem a recordação sobre diálogos estáticos, colapsam a memória em uma única acurácia ao final da tarefa e reduzem observações visuais a legendas, deixando-nos incapazes de localizar falhas na escrita, manutenção, recuperação ou uso. O surgimento de mecanismos de agente que gerenciam sua própria memória acentua essa lacuna, uma vez que não temos uma maneira fundamentada de comparar pipelines projetados manualmente com alternativas autogerenciáveis. Para preencher essas lacunas, formulamos a memória do agente multimodal como um Loop de Interação Ação-Mundo com um ciclo de vida observável de quatro estágios, e o instanciamos no WorldMemArena: 400 tarefas multimodais de múltiplas sessões que abrangem Evolução Contínua (estados pessoais e de tarefas em evolução) e Execução Agêntica (memória a partir de observações reais, ações e feedback), anotadas com pontos de memória dourados, atualizações, distratores e cadeias de evidências para diagnóstico em nível de estágio. Isso possibilita a primeira comparação direta entre agentes de memória de contexto longo, projetados manualmente (RAG e sistemas de memória externa) e baseados em harness. Os resultados mostram que: (1) melhor escrita e armazenamento de memória não garantem melhor desempenho; (2) a memória multimodal ainda luta para usar plenamente as evidências visuais; (3) os sistemas são instáveis entre domínios e se degradam em trajetórias agênticas realistas; e (4) a memória baseada em harness é mais flexível, mas permanece cara e menos confiável.
A Programação-de-Pensamento (PoT) de uma única tentativa gera um programa Python que imprime um plano de ações primitivas; uma única ação inválida invalida silenciosamente a trajetória. Apresentamos o RePoT (PoT Recuperável): uma repetição verificada determinística que percorre o plano no ambiente até sua primeira transição inválida e, em seguida, realiza uma chamada ao LLM que retoma a partir do prefixo verificado. O RePoT custa no máximo uma chamada extra ao LLM nos ~14% dos problemas em que o PoT falha. O RePoT supera o PoT em +3 a +11 pontos percentuais em quatro configurações de modelo fechado no PuzzleZoo-775 e atinge um pico de 96,9% contra 86,3% no gpt-5.4-mini-medium; contra a linha de base de repetição do PoT com orçamento equivalente, o RePoT vence de forma decisiva no Gemini (+3,8 pp, IC 95% [+2,2;+5,4]), fica dentro do ruído amostral no GPT-medium e no Claude, e perde no GPT-mini — um padrão de escalonamento de capacidade que começamos a abordar com o RePoT Adaptativo, um despachante baseado em regras que direciona entre reparo de sufixo e uma repetição nova do PoT com base no comprimento do prefixo verificado (preliminar). Reproduzimos os resultados no PlanBench Blocksworld (+1,1 a +11,4 pp) e em quatro modelos de pesos abertos (+3,3 a +20,0 pp em três dos quatro). No Derail-550, nosso referencial de recuperação controlada, toda condição com acesso a informações de ponto de verificação atinge >=30% no GPT-medium e >=70% no Gemini, contra <=3,1% para feedback apenas de erro — mostrando que a informação de ponto de verificação, e não a cauda específica do prefixo verificado, é o sinal de recuperação essencial.
Modelos maiores aprendem tarefas que modelos menores não aprendem. O que impulsiona esse fenômeno? Desenvolvemos um argumento fenomenológico simples de que a escala de lei de potência já sugere que um modelo maior será capaz de aprender uma parte da distribuição de dados que um modelo menor não consegue aprender, mesmo com dados de treinamento infinitos. Para validar essa afirmação e identificar suas causas, estudamos os efeitos da escala do modelo em um cenário sintético composto por uma mistura de tarefas que apresentam curvas de escala monotônicas. Os resultados apontam para uma competição induzida pelos dados por recursos (neurônios). Especificamente, modelos menores alocam seus neurônios para tarefas de alta frequência ou baixa complexidade, e assim aprendem soluções que têm desempenho ruim em tarefas raras e complexas. Além disso, isso ocorre mesmo quando existem soluções capazes de expressar a tarefa desejada. Em seguida, avaliamos como um modelo maior contorna esse gargalo centrado nos dados, descobrindo que isso se deve a um mecanismo de interferência reduzida: modelos maiores podem alocar recursos suficientes para tarefas comuns de modo que as atualizações de gradiente para essas tarefas se tornam fracas, o que significa que elas não sobrescrevem características de tarefas raras à medida que estas se acumulam lentamente. Por fim, para validar ainda mais essas afirmações, pré-treinamos modelos OLMo (de 4M a 4B parâmetros) em tarefas novas de frequência e complexidade variadas. Os resultados refletem aqueles de nossos experimentos com dados sintéticos: apenas os modelos OLMo maiores aprendem as tarefas infrequentes e complexas, e esses modelos maiores incorporam mais características das tarefas em suas representações e apresentam menos interferência de gradiente entre tarefas. Em suma, oferecemos uma explicação centrada nos dados de por que modelos maiores aprendem tarefas que modelos menores não conseguem. Isso ajuda a explicar por que modelos maiores são melhores na prática e pode informar questões práticas sobre dimensionamento de modelos e misturas de dados de treinamento.
Abordagens baseadas em dados revolucionaram a visão 3D, permitindo que transformers reconstruam e gerem objetos 3D estáticos de forma eficaz. No entanto, gerar dinâmicas 4D simulativas — deformações temporais realistas de objetos estáticos sob diversas condições físicas — continua sendo desafiador e frequentemente ad hoc, apesar de sua importância na construção de modelos abrangentes do mundo 3D. A maioria dos métodos existentes assume um modelo físico predefinido e utiliza identificação de sistemas para estimar parâmetros, restringindo esses métodos a categorias específicas e conjuntos de dados de pequena escala. Propomos que essas restrições podem ser superadas aprendendo uma parametrização de estado cinemático baseada em dados para sistemas físicos centrados no objeto. Especificamente, aprendemos tanto um espaço latente representando todos os estados possíveis do objeto quanto um decodificador que mapeia qualquer latente amostrado para uma forma plausivelmente deformada do objeto. Referimo-nos a essa parametrização como Cinemática Neural de Objetos (NeuROK) e treinamos um modelo codificador-decodificador baseado em transformers em um conjunto de dados 4D de larga escala cuidadosamente curado. Essa formulação e o modelo aprendido simplificam significativamente a geração de dinâmicas simulativas, uma vez que precisamos considerar apenas a dinâmica dentro de um espaço latente de baixa dimensão sob a perspectiva da mecânica lagrangiana na física clássica. Demonstramos a eficácia e generalidade dessa estrutura de simulação neural em diversos tipos de objetos dinâmicos, mostrando claras vantagens sobre trabalhos anteriores. Página do projeto: https://chen-geng.com/neurok
Modelos de difusão de vídeo autorregressivos geram vídeo em streaming produzindo quadros sequencialmente, condicionando cada bloco ao conteúdo gerado anteriormente. Esses modelos estão estruturalmente ancorados ao primeiro quadro: sua representação chave-valor ocupa uma posição privilegiada no cache de atenção e serve como referência primária da cena ao longo da geração. Como a posição mais limpa e livre de erros no cache, essa âncora atrai atenção desproporcional, suprimindo a dinâmica do vídeo e fixando a composição da cena ao ponto de vista inicial, mesmo enquanto a cena evolui naturalmente. O resultado é um vídeo temporalmente raso, no qual movimento, deslocamento de câmera e progressão da cena são atenuados em favor de uma consistência estática. Para lidar com isso, substituímos a âncora estática por um estado adaptativo, um latente oculto que o modelo remove ruído juntamente com o conteúdo a cada bloco, mas nunca renderiza. Em vez de referenciar um primeiro quadro congelado, o modelo gera sua própria âncora de cena a cada etapa, atendendo tanto ao estado anterior quanto ao conteúdo atual, produzindo uma referência que evolui com o conteúdo gerado. Diferentemente da geração de vídeo padrão, que codifica uma noção absoluta de tempo, nossa formulação trata o tempo como relativo: cada etapa de geração vê a mesma estrutura posicional, independentemente de quão longe a geração progrediu, e a transição de estado é idêntica em cada bloco. Juntas, essas propriedades introduzem uma recorrência no processo de geração, onde a remoção de ruído serve como função de transição, e o cache KV atua como portador, sem exigir módulo externo. Experimentos demonstram que o estado adaptativo melhora substancialmente a dinâmica do vídeo, possibilitando movimento mais rico e progressão natural da cena nos vídeos gerados.
A geração natural permite que Modelos de Linguagem de Grande Escala (LLMs) produzam respostas de forma livre com raciocínio rico, mas a falta de estrutura torna os resultados difíceis de verificar. Por outro lado, a decodificação restrita garante formatos padronizados, mas pode inadvertidamente limitar as capacidades de raciocínio ao impor restrições muito cedo no processo de geração. Propomos uma abordagem híbrida, denominada In-Writing, que combina raciocínio livre e geração estruturada em uma única chamada. O modelo primeiro realiza raciocínio sem restrições e só aplica decodificação estruturada após a geração de um token gatilho, separando explicitamente o raciocínio da formatação. Estabelecemos que nossas estratégias de token gatilho são capazes de erradicar praticamente o disparo prematuro, um modo de falha no qual a decodificação restrita interrompe o raciocínio em andamento. Avaliações em diversos conjuntos de dados abrangendo tarefas de classificação e raciocínio demonstram que nossa abordagem supera o estado da arte, alcançando ganhos de precisão de até 27% em relação à geração natural. Nosso código está disponível em: https://github.com/Nokia-Bell-Labs/InWriting.
A qualidade narrativa de um vídeo determina fundamentalmente seu valor perceptivo. Embora os métodos existentes de geração de vídeo possam produzir conteúdo visualmente atraente, eles dependem predominantemente de sinais de condicionamento esparsos, como prompts de texto ou primeiro/último quadro, o que limita o controle preciso sobre a estrutura narrativa e o ritmo temporal. Neste artigo, propomos o SmartDirector, uma estrutura que aprimora a capacidade narrativa de modelos de geração de vídeo por meio de múltiplos quadros-chave. O SmartDirector suporta cenários flexíveis de geração, incluindo geração de tomada única, síntese narrativa de múltiplas tomadas e extensão de vídeo. A estrutura opera em duas etapas: Director-Gen gera um vídeo de baixa resolução condicionado aos quadros-chave fornecidos, e Director-SR refina a saída explorando quadros-chave de alta resolução como âncoras semânticas para recuperar detalhes refinados. Para permitir um treinamento robusto com múltiplos quadros-chave, construímos um pipeline de dados que seleciona sequências de tomada única e múltiplas tomadas a partir de filmes. Experimentos extensivos demonstram que o SmartDirector supera substancialmente as abordagens de estado da arte existentes. Disponibilizaremos o código para facilitar pesquisas futuras.
A previsão ciente de oclusão continua sendo um desafio crítico na condução autônoma devido à incerteza inerente das regiões não observadas. Abordagens existentes ou superestimam o risco com base em estados alcançáveis ou têm dificuldade em prever trajetórias precisas sob alta incerteza de oclusão. Para superar essas limitações, propomos uma estrutura unificada de modelagem e aprendizado de mapa de risco para ambientes parcialmente observáveis. Nosso método integra o risco de fluxo de tráfego e o risco de colisão por meio de modelagem espaço-temporal, permitindo uma avaliação refinada dos perigos induzidos por oclusão. Para abordar a escassez de cenários envolvendo interações ocluídas, introduzimos uma estrutura de geração de cenários baseada em difusão que produz cenários realistas, porém adversariais. Integramos a modelagem e o aprendizado de um mapa de risco unificado em uma estrutura que suporta planejamento ciente de risco sob observabilidade parcial. Experimentos no Waymo Open Motion Dataset mostram que nosso método supera significativamente a linha de base estado-da-arte ciente de oclusão, melhorando o tempo mínimo até a colisão em 0,78 vezes e o tempo médio até a colisão em 1,67 vezes. A estrutura proposta oferece uma solução abrangente e prática para planejamento ciente de risco em ambientes parcialmente observáveis.
Características de modelos fundamentais de visão autossupervisionados e modelos de difusão texto-imagem têm se mostrado eficazes para a estimativa de correspondência semântica. No entanto, como essas características são aprendidas principalmente a partir de objetivos de imagem 2D, elas carecem de consciência 3D explícita e frequentemente confundem lados simétricos de objetos, partes repetidas e estruturas visualmente semelhantes que são distintas em 3D. Apresentamos uma estrutura de pós-treinamento consciente de 3D que vai além das características fundamentais 2D disponíveis ao incorporar priores de modelos fundamentais 3D. Dada uma imagem, nosso método utiliza SAM3D para estimar a geometria e a pose do objeto, e refina a pose por meio de otimização de renderização e comparação. Subsequentemente, renderizamos descritores PartField a partir da geometria reconstruída no plano da imagem com base na pose estimada do objeto. Os mapas de características resultantes, conscientes da geometria, complementam as características do DINO e do Stable Diffusion, enquanto distâncias geodésicas nas formas reconstruídas permitem a filtragem confiável de correspondências candidatas. Usamos as correspondências filtradas como supervisão para treinar um adaptador leve sobre o DINO e o Stable Diffusion para correspondência semântica. Em contraste com abordagens anteriores de pós-treinamento que exigem anotações de pose e dependem de geometria esférica grosseira, nosso método obtém automaticamente uma estrutura 3D específica da instância e a utiliza para guiar o aprendizado de correspondências. Experimentos mostram que nossa abordagem melhora a correspondência semântica em relação aos métodos anteriores, ao mesmo tempo que reduz a supervisão geométrica manual. O código e o modelo podem ser encontrados em https://github.com/GenIntel/3D-SC.
Avanços recentes em agentes web multimodais frequentemente dependem do aumento da computação em tempo de inferência, incluindo busca de rollout, passagens de verificador, descoberta offline de habilidades e pilhas de modelos especialistas. Isso levanta uma questão central: um agente web pode se tornar mais eficiente à medida que acumula experiência, em vez de mais caro? Primeiramente, analisamos trajetórias do VisualWebArena e identificamos três fontes recorrentes de ineficiência: loops de repetição de ações, custos ocultos de descoberta e baixo reuso de cache de prompts. Em seguida, apresentamos o PANDO, um framework de destilação online de habilidades com rollout único que mantém uma Biblioteca de Habilidades estruturada e combina reflexão de progresso, rebaixamento de habilidades baseado em confiança, roteamento hierárquico, compressão visual e prompting ciente de cache. No conjunto completo das 910 tarefas do VisualWebArena, o PANDO alcança uma taxa de sucesso de 58,3%, superando o SGV (54,0%) e nossa reprodução do WALT (45,2%), enquanto utiliza 58% menos tokens que o SGV e 61% menos tokens que o WALT, sem qualquer orçamento de descoberta pré-avaliação. Uma ablação com 300 tarefas mostra ainda que regras e rotinas fornecem a maior parte dos ganhos de sucesso, enquanto roteamento, compressão e prompting ciente de cache convertem a biblioteca de habilidades maior em menor custo marginal de tokens. Por fim, introduzimos três métricas de eficiência em nível de trajetória — Taxa de Repetição de Ações, Razão de Sobrecarga de Passos e Utilização de Cache de Prompts — para tornar a eficiência visível além do sucesso terminal.
A inferência de LLM de horizonte longo transforma o cache chave-valor (KV) no principal consumidor de memória da GPU e torna a atenção por token cada vez mais cara. Muitas políticas comuns de remoção usam janelas estáticas de recência ou atenção histórica, deixando sem uso um sinal computado a cada etapa de decodificação: a incerteza atual do modelo. Apresentamos o CONF-KV, um gerenciador de cache KV que converte a distribuição do próximo token em uma pontuação de confiança escalar e a utiliza para escolher o orçamento do cache por etapa, retendo mais contexto quando o modelo está incerto e podando agressivamente quando está confiante. Dentro de cada orçamento, os tokens são classificados por um composto de massa de atenção acumulada e recência, enquanto uma janela recente protegida preserva a coerência local. Combinamos a política com atenção softmax online em blocos, armazenamento misto FP16/INT8 e uma variante de orçamento piramidal por camada. Em quatro famílias de modelos e comprimentos gerados de até 4K, o CONF-KV mantém-se próximo da pegada de uma janela deslizante fixa de 512 tokens, enquanto permanece dentro de 1,5 a 2,1 pontos de perplexidade do KV completo. No teste Needle-in-a-Haystack com até 32K tokens, o CONF-KV atinge 91,4% de precisão de recuperação contra 53,8% para janelas deslizantes e 80,6% para H2O; em 75 tarefas do VisualWebArena, ele retém 95,3% do sucesso do KV completo com 2,8 vezes menos pico de memória.
Modelos de linguagem de grande escala (LLMs) tornaram-se cada vez mais capazes de seguir instruções e realizar raciocínios complexos, tornando o *prompting* uma interface flexível para adaptar modelos sem atualizar parâmetros. No entanto, o design de *prompts* continua trabalhoso e altamente sensível à formatação, à redação e à ordem das instruções, motivando métodos automatizados de otimização de *prompts* que reduzem o esforço manual e preservam a flexibilidade em tempo de inferência. Contudo, os métodos existentes frequentemente buscam sobre candidatos a *prompts* ou usam *pipelines* fixos de crítica e refinamento conduzidos por exemplos individuais ou pequenos lotes, limitando sua capacidade de capturar padrões sistemáticos de erro e realizar edições direcionadas baseadas no histórico de falhas. Propomos o Ajuste Reflexivo de *Prompts* (RPT), uma estrutura que utiliza chamadas de função de LLMs para simular o fluxo de trabalho iterativo de engenheiros humanos de *prompts*. Um otimizador LLM chama uma função de diagnóstico que avalia o modelo alvo em todo um conjunto de otimização, resume modos de falha recorrentes e retorna um relatório diagnóstico estruturado. O otimizador utiliza esse relatório, juntamente com uma memória acumulada de relatórios anteriores, para revisar o *prompt* na iteração seguinte. O RPT também suporta otimização ciente da confiança, empregando sinais de calibração no *feedback* diagnóstico e na seleção final do *prompt*. Em três tarefas de raciocínio, o RPT melhora os *prompts* iniciais em até 12,9 pontos, mantém-se competitivo com o estado da arte e melhora a calibração da confiança. Nossas análises mostram que o RPT é especialmente eficaz em raciocínio multi-hop e matemático, produzindo revisões direcionadas de *prompts* que se alinham com os padrões de falha diagnosticados e levam a ganhos no desempenho da tarefa e na calibração.
Modelos de Linguagem de Grande Escala (LLMs) tornaram-se o paradigma central em inteligência artificial, mas a primitiva computacional central da atenção permaneceu estruturalmente inalterada. A Atenção Linear Local (LLA) é um mecanismo de atenção derivado da estatística não paramétrica no arcabouço de regressão em tempo de teste. Em contraste com pesquisas anteriores sobre variantes eficientes de atenção, a LLA atualiza a estimativa constante local da atenção softmax para uma estimativa linear local, proporcionando compensações viés-variância comprovadamente superiores para memória associativa. No entanto, a LLA não foi escalada no pré-treinamento de LLMs devido a problemas de estabilidade computacional e numérica. Apresentamos Parallax, uma Atenção Linear Local parametrizada que é escalável para LLMs. Parallax elimina o solucionador numérico da LLA e aprende um projetor adicional semelhante a uma query que sonda a covariância KV. Posicionamos Parallax dentro de uma família de mecanismos de atenção conectados pela largura de banda, pela construção da sonda e pela estrutura afim. Propomos um algoritmo ciente de hardware que aumenta a intensidade aritmética em relação ao FlashAttention, deslocando a atenção para um regime mais limitado por computação. Nosso kernel de decodificação protótipo iguala ou supera o FlashAttention 2/3 em diversos tamanhos de lote e comprimentos de contexto. Pré-treinamos Parallax nas escalas de 0,6B e 1,7B e encontramos melhorias consistentes de perplexidade ao longo do pré-treinamento, com ganhos que se transferem para benchmarks downstream. A vantagem persiste sob controles pareados tanto por parâmetros quanto por computação, demonstrando uma melhoria de Pareto. Realizamos ablações cuidadosas de pré-treinamento e identificamos um fenômeno novo pelo qual o Muon desbloqueia a capacidade do Parallax. Até onde sabemos, esta é a primeira demonstração empírica de um forte codesign entre arquitetura e otimizador para mecanismos de atenção na literatura de pesquisa de arquitetura.
O Aprendizado por Reforço com Feedback Humano (RLHF) é o método padrão para alinhar Modelos de Linguagem de Grande Escala (LLMs) às preferências humanas. Neste trabalho, introduzimos a adulteração de alinhamento, uma vulnerabilidade potencial em que o LLM em processo de alinhamento influencia o conjunto de dados de preferências, fazendo com que o RLHF amplifique comportamentos indesejados. Isso decorre de limitações centrais do RLHF: (1) os conjuntos de dados de preferências são construídos a partir das próprias saídas do LLM, permitindo que ele os influencie, e (2) comparações pareadas apenas indicam qual resposta é melhor, e não o porquê. Essas limitações podem ser exploradas para causar adulteração de alinhamento. Por exemplo, se um LLM gera respostas tendenciosas com maior qualidade, os anotadores as preferirão com base na qualidade. No entanto, os rótulos de preferência não distinguem qualidade de viés, e o modelo de recompensa herda essa limitação. Otimizar tais recompensas por meio de aprendizado por reforço ou amostragem Best-of-N pode amplificar vieses desalinhados. Nossos experimentos demonstram a amplificação em diversos vieses: desde viés de palavras-chave até propaganda (ex.: sexismo), promoção de marcas e busca instrumental de objetivos. A mitigação continua desafiadora, pois as técnicas existentes para RLHF robusto não conseguem resolver completamente a adulteração de alinhamento sem sacrificar a qualidade das respostas. Essas descobertas revelam vulnerabilidades estruturais do RLHF atual e enfatizam a necessidade de prevenir essa vulnerabilidade. Página do projeto: https://alignment-tampering.github.io/
A recuperação de ferramentas em grandes catálogos de API é um gargalo central para agentes de LLM: as consultas dos usuários chegam em linguagem coloquial, frequentemente subespecificada, enquanto o catálogo utiliza vocabulário técnico de API que nenhum codificador fixo consegue preencher por conta própria. As duas abordagens de treinamento dominantes, ajuste fino contrastivo do codificador e expansão de consulta no estilo HyDE com um LLM congelado, abordam esse problema de extremos opostos e falham em direções complementares: o codificador ajustado por fine-tuning se destaca quando a forma superficial da consulta já corresponde ao catálogo, mas colapsa quando não corresponde, enquanto o HyDE zero-shot é mais robusto a consultas subespecificadas, mas gera descrições hipotéticas alheias ao catálogo que degradam a recuperação quando as consultas são bem formadas. Apresentamos o CoHyDE, um procedimento iterativo que treina o codificador denso e o reescritor de LLM como um único sistema co-evolutivo: o codificador é retreinado com InfoNCE em descrições hipotéticas no estilo do catálogo produzidas pelo reescritor, e o reescritor é alinhado por preferência via DPO com base nas pontuações de recuperação do codificador, com ambos os lados pré-inicializados no catálogo de ferramentas antes do início do loop. Em um subconjunto de ~10 mil ferramentas do catálogo ToolBench, três rodadas do CoHyDE superam a linha de base de componente único mais forte em +2,5 p.p. de NDCG@5 em consultas padrão e +6,3 p.p. em consultas vagas retidas, com ganhos de até +8 p.p. no nível de vagueza mais difícil. Ablações confirmam que o co-treinamento é o ingrediente chave: usar qualquer um dos componentes isoladamente não consegue igualar o CoHyDE tanto em consultas bem formadas quanto em consultas vagas, com perdas de até -8 p.p. em consultas vagas.
Mostramos que adaptadores LoRA, o formato de distribuição dominante para LLMs afinados, podem ser adulterados de forma confiável por meio de envenenamento dos dados de treinamento, preservando o desempenho da tarefa base. Em um classificador de injeção de prompt Qwen 2.5 1.5B, uma pequena fração de exemplos envenenados leva a saturação de uma backdoor que preserva a acurácia limpa. A backdoor resultante generaliza no nível dos traços dos tokens, e não no nível do padrão estrutural: um modelo treinado em uma referência RFC ativa com qualquer referência RFC, mas não transfere para citações estruturalmente idênticas de ISO, OWASP, CWE ou NIST. Essa assimetria favorece o atacante, já que um defensor não pode sondar por "citações estruturadas" de forma genérica. Caracterizamos o ataque em diferentes escalas e famílias de modelo base, rank LoRA e string de gatilho, e avaliamos duas rotas de detecção complementares em uma coorte de adaptadores com múltiplas sementes. Um detector comportamental construído a partir de duas estatísticas de bateria de sondagem, outlier_gap e mean_attack_rate, separa perfeitamente os adaptadores envenenados dos limpos quando a bateria cobre a vizinhança do token do gatilho, e com alta revocação e zero falsos positivos quando não cobre. Uma estatística ao nível dos pesos, o desvio padrão entre módulos das normas de Frobenius normalizadas por dimensão, também separa a coorte perfeitamente sem executar o modelo. Combinadas, as duas rotas são robustas à composição da sonda. O patching causal localiza a backdoor no bloco MLP das camadas intermediárias a finais, com down_proj como a causa mais forte entre as projeções individuais. Replicações em diferentes escalas, famílias e ranks mostram que o detector comportamental transfere sem reajuste, enquanto o detector ao nível dos pesos está vinculado à calibração do modelo base. O ataque escala monotonicamente com o rank, e o token âncora do gatilho escolhido é dependente tanto do gatilho quanto do modelo base. A detecção comportamental é o resultado operacionalmente portável para a varredura da cadeia de suprimentos de adaptadores.
Modelos Visão-Linguagem (MVLs) frequentemente enfrentam dificuldades com raciocínio espacial 3D robusto. Métodos predominantes que dependem de ajuste fino em conjuntos de dados de resposta a perguntas visuais (VQA) 3D podem superajustar vieses específicos do conjunto de dados, enquanto a integração de codificadores visuais 3D especializados é frequentemente inflexível e trabalhosa. Neste artigo, argumentamos que a compreensão espacial genuína deve emergir do aprendizado de prioris geométricas fundamentais, e não apenas da supervisão de VQA de alto nível. Propomos o GASP (Geometric-Aware Spatial Priors), uma estrutura que injeta essas prioris diretamente nas camadas do transformador do LLM. O GASP emprega uma pequena cabeça de correspondência, aplicada como um sinal de supervisão profunda em todas as camadas, e é treinado com um objetivo duplo que utiliza geometria de ground-truth de cenas de vídeo em grande escala: uma perda contrastiva em correspondências de pontos de ground-truth impõe invariância de visão 2D, enquanto uma supervisão de consistência de profundidade resolve ambiguidades geométricas 3D. Nossa análise primeiro fornece um diagnóstico mostrando que a precisão de correspondência interna de MVLs padrão é muito baixa (frequentemente abaixo de 5%). Em seguida, demonstramos que nosso treinamento melhora substancialmente esse comportamento, elevando a correspondência máxima por camada para mais de 70% e mantendo mais de 85% de robustez temporal, enquanto as linhas de base permanecem abaixo de 5%. Essas melhorias internas se traduzem em ganhos significativos em benchmarks espaciais downstream, incluindo +18,2% no All-Angles Bench e +29,0% no VSI-Bench, tudo sem treinamento em qualquer dado de VQA 3D. Nossos achados indicam que aprender a partir de prioris geométricas fundamentais é um caminho promissor e generalizável para MVLs com raciocínio espacial 3D mais confiável.
Estudamos a auto-pesquisa em dois níveis para cooperação: um agente AI de loop externo que redesenha autonomamente o pipeline de loop interno de um sistema de síntese de políticas baseado em LLM para Dilemas Sociais Sequenciais (SSDs) multiagente. Um agente pesquisador R (executado como um agente de codificação) lê o código-fonte do loop interno, edita prompts de sistema, funções de feedback, bibliotecas auxiliares e lógica de iteração, executa avaliações e decide o que manter, seguindo o paradigma de auto-pesquisa. Em dois jogos (Cleanup e Gathering), dois LLMs sintetizadores de políticas e dois objetivos de bem-estar (eficiência utilitarista e maximin rawlsiano), o pesquisador supera consistentemente as linhas de base projetadas manualmente, reduz significativamente a variância entre execuções e supera a otimização baseada apenas em prompts. Os pipelines descobertos são dependentes do objetivo: apenas sob maximin o pesquisador insere um mecanismo explícito de equidade nos pipelines sintetizadores, uma classe de mecanismo ausente tanto em seu próprio prompt de sistema agnóstico ao objetivo quanto em todos os pipelines otimizados para eficiência. Isso sustenta uma leitura de design de informação na qual o pesquisador escolhe o que revelar ao sintetizador racional limitado em função do objetivo de bem-estar. Código em https://github.com/vicgalle/autoresearch-social-dilemmas.
Apresentamos o OmniInteract, um benchmark de streaming para modelos de linguagem grandes omnimodais em tempo real, avaliados por meio de inferência online nativa sobre fluxos audiovisuais. Diferentemente da compreensão de vídeo offline ou de QA de streaming com prompts de texto, o OmniInteract preserva o fluxo audiovisual original e exige que os modelos o processem online, sem acesso ao conteúdo futuro. Consultas do usuário e sons ambiente estão embutidos na trilha de áudio, exigindo que os modelos detectem gatilhos multimodais, decidam quando responder e respondam enquanto o fluxo se desenrola. O OmniInteract contém 250 vídeos com 1.430 slots de resposta temporalmente fundamentados: 1.062 slots 1Q1A em cenários de tempo real, proativos e aninhados, e 368 slots 1QnA para monitoramento contínuo de tarefas e orientação passo a passo. Cada slot inclui um gatilho, uma janela de resposta e uma resposta alvo. Avaliamos a correção da resposta, o tempo, as saídas inválidas, o tratamento de interrupções e a continuidade do contexto usando o F1 de Qualidade-Temporalidade com Consciência de Interação (IA-QTF1), o Conjunto de Diagnóstico de Interrupção e a Pontuação de Conclusão de Cadeia Aninhada. Experimentos mostram que os modelos atuais permanecem fracos na interação por streaming, com o melhor IA-QTF1 geral atingindo apenas 0,368 e o melhor IA-QTF1 para 1QnA apenas 0,052. Um estudo adicional sobre raciocínio matemático em configurações full-duplex mostra que a capacidade offline não se transfere necessariamente para a interação online. O código e os conjuntos de dados serão disponibilizados publicamente em https://github.com/Lucky-Lance/OmniInteract.
A geração de avatares de cabeça 3D Gaussianos de alta fidelidade é fundamental para aplicações como RA/RV, telepresença e humanos digitais. Métodos existentes dependem de conjuntos de dados multivista, capturas 3D ou síntese intermediária de vistas 2D. Em contraste, aprendemos modelos de cabeça 3D condicionais e incondicionais apenas a partir de imagens 2D amostradas aleatoriamente, sem usar dados multivista, supervisão 3D ou geração intermediária de vistas. Apresentamos o MVCHead, um modelo de espaço de estados de disparo único que impõe consistência multivista (MVC) diretamente na representação 3D, ao mesmo tempo que regride Gaussianos 3D sob essas restrições. Em seu núcleo, propomos um bloco de Espaço de Estados Hierárquico (HiSS) que refina progressivamente os Gaussianos do grosso para o fino, capturando dependências de longo alcance. Em cada bloco HiSS, modificamos a varredura unidirecional padrão do Mamba com a proposta Varredura de Estado Bidirecional Hierárquica (HiBiSS), que alinha a recorrência com os eixos ao longo dos quais as inconsistências multivista são mais fortes. Finalmente, projetamos um Crítico Multivista SE(3) que julga se um conjunto de autorrenderizações provém de uma única configuração 3D subjacente, recompensando o alinhamento de pixels entre vistas sem observar pares multivista reais. O MVCHead atinge qualidade perceptiva de ponta, supera métodos anteriores tanto em consistência de textura quanto geométrica, e mantém consistência de forma comparável. Para demonstrar escalabilidade, disponibilizamos o FaceGS-10K, o primeiro conjunto de dados em grande escala de ativos de cabeça Gaussianos 3D prontos para uso, para treinamento e avaliação de modelos de cabeça 3D. Página do projeto e código: https://humansensinglab.github.io/MVCHead/
Globalização e multiculturalismo continuam a produzir variedades de fala cada vez mais diversas. No entanto, os atuais sistemas de diálogo falado frequentemente falham em dialetos e sotaques sub-representados, identificando erroneamente o idioma de entrada e causando falhas em cascata em tarefas de diálogo a jusante. Lidar com essa variação dialetal sob restrições de baixos recursos continua sendo um desafio em aberto, pois o ajuste fino padrão é computacionalmente caro e propenso a sobreajuste em dados de fala de alta dimensionalidade. Propomos a Detecção de Idioma Convexa (CLD), uma nova estrutura que integra técnicas de otimização convexa com fundamentação teórica no pipeline de sistemas de diálogo falado. Nosso método é implementado de forma eficiente por meio do Método dos Multiplicadores de Direção Alternada (ADMM) multi-GPU em JAX, fornecendo assim garantias de otimalidade global e treinamento rápido em tempo polinomial. Teoricamente, provamos que nosso objetivo convexo induz estabilidade de margem certificada e oferecemos garantias contra perturbações de características. Empiricamente, demonstramos eficiência amostral e robustez à variação dialetal de entrada, alcançando 97-98% de precisão em regimes desafiadores de baixos recursos. Nosso pacote de código aberto está disponível em https://pypi.org/project/jaxcld/
Modelos de difusão discretos são frequentemente treinados por meio da predição de dados limpos, mas a predição pode ser usada de diferentes maneiras para definir a dinâmica reversa. Em Modelos de Difusão Mascarados (MDM), essas escolhas coincidem em grande parte, enquanto em Modelos de Difusão Uniformes (UDM) elas não coincidem. Mostramos que a parametrização de ponte plug-in padrão para UDM não é otimizada pelo posterior de remoção de ruído, mas sim por um posterior leave-one-out que prediz cada token limpo sem utilizar sua própria observação ruidosa. Isso identifica uma incompatibilidade entre o ELBO plug-in e o objetivo usual de entropia cruzada para remoção de ruído. Caracterizamos o alvo leave-one-out e derivamos conversões exatas entre o removedor de ruído, o posterior leave-one-out e o score. Essas conversões nos permitem separar a parametrização e o objetivo de treinamento. Nossos resultados também levam a melhorias na inferência sem qualquer treinamento adicional por meio de um amostrador preditor-corretor informado e uma amostragem com temperatura melhorada baseada no preditor leave-one-out. Introduzimos ainda uma reformulação de estado absorvente da difusão uniforme que preserva a lei conjunta da UDM enquanto a decompõe em operações de amostragem semelhantes à difusão mascarada, com posteriores de remoção de ruído mais simples, desmascaramento de arrasto e um mecanismo natural de remascaramento. Em modelagem de linguagem, parametrizações leave-one-out melhoram consistentemente a geração da UDM, enquanto a construção absorvente iguala ou supera a difusão mascarada. Esses resultados sugerem que a lacuna empírica entre difusão mascarada e uniforme é menos impulsionada pela escolha das marginais em si do que pela parametrização e pelo design de amostragem. O código e os modelos podem ser encontrados em https://github.com/samsongourevitch/rev_udm.
A criação de efeitos animais com qualidade cinematográfica exige a modelagem precisa da dinâmica de músculos e pelo, um processo que permanece tanto trabalhoso quanto computacionalmente caro nos fluxos de produção tradicionais. Embora modelos generativos de difusão tenham demonstrado potencial em diversos fluxos de trabalho artísticos, sua capacidade para simulação animal de alta fidelidade permanece em grande parte inexplorada. Apresentamos o MoZoo, um solucionador generativo de dinâmica que contorna o refinamento convencional para sintetizar vídeos animais de alta fidelidade a partir de malhas grossas sob orientação multimodal. Propomos o RoPE Ciente de Papéis (RAR-RoPE), que emprega um remapeamento de índices baseado em papéis para sincronizar o alinhamento do movimento, ao mesmo tempo que desacopla as informações de referência por meio de deslocamentos temporais fixos. Complementando isso, a Atenção Assimétrica Desacoplada particiona a sequência latente para impor um fluxo de informação unidirecional, prevenindo efetivamente a interferência de características e melhorando a eficiência computacional. Para lidar com a escassez de dados de treinamento de alta qualidade, introduzimos o MoZoo-Data, uma pipeline sintético-para-real que utiliza um motor de renderização e uma abordagem de mapeamento inverso para construir um conjunto de dados em larga escala de sequências pareadas. Além disso, estabelecemos o MoZooBench, um benchmark abrangente com 120 pares de malha-vídeo. Resultados experimentais demonstram que o MoZoo alcança simulação de pelo de alta fidelidade em diversos esqueletos e layouts animais, preservando consistência temporal e estrutural superior.
Grandes modelos de linguagem (LLMs) exibem viés político sistemático em uma variedade de contextos sensíveis. Constatamos que LLMs lidam de forma assimétrica com tópicos correspondentes de lados políticos opostos. Referimo-nos a esse fenômeno como viés político encoberto e identificamos 7 categorias de técnicas por meio das quais ele opera. Propomos duas métricas para o viés encoberto: Consistência de Sentimento mede a simetria na retórica e no enquadramento entre prompts políticos pareados; Consistência de Utilidade mede a simetria na profundidade e no engajamento. Para reduzir ambos os tipos de viés encoberto, introduzimos o Treinamento de Consistência Política (PCT), um método de treinamento por RL com dois paradigmas complementares: Treinamento de Consistência de Sentimento e Treinamento de Consistência de Utilidade. Mostramos que o PCT preserva a utilidade geral, reduz substancialmente o viés político encoberto e se generaliza para benchmarks não vistos. Disponibilizamos nosso trabalho em https://political-manipulation.ai.
Avanços recentes em Modelos de Visão-Linguagem (VLMs) têm alcançado desempenho impressionante em diversas tarefas, no entanto, estudos anteriores relatam desempenho insatisfatório ao aplicar grandes modelos de linguagem ou multimodais na detecção de padrões anômalos em dados sequenciais. Os benchmarks públicos de detecção de anomalias geralmente fornecem anotações intervalares, mas não justificativas em linguagem natural, dificultando o ajuste fino de VLMs para produzir decisões fundamentadas e interpretáveis. Para preencher essa lacuna, construímos o VisAnomBench, um benchmark curado baseado em conjuntos de dados públicos de séries temporais e aumentado com explicações de anomalias de alta qualidade selecionadas a partir de múltiplos VLMs de grande porte, utilizando recompensas granulares e específicas para a tarefa. Por meio do ajuste fino neste benchmark, desenvolvemos o VisAnomReasoner, um VLM eficiente em parâmetros para detecção de anomalias em séries temporais. Resultados experimentais no VisAnomBench mostram que o VisAnomReasoner alcança localização de anomalias mais precisa e supera consistentemente todas as linhas de base, com melhorias de pelo menos 21,23 e 23,87 pontos percentuais em precisão e F1, respectivamente. Experimentos adicionais no benchmark TSB-AD-U demonstram forte generalização entre benchmarks, com o VisAnomReasoner melhorando a precisão e o F1 em 9,57 e 13,39 pontos percentuais, respectivamente.
Este trabalho apresenta o ViGeo, um modelo fundacional feed-forward para recuperar geometria espacialmente densa e temporalmente consistente a partir de sequências de vídeo. Construído sobre uma arquitetura transformer pura, sem modificações arquiteturais específicas para a tarefa, o ViGeo suporta inferência em streaming, em sequência completa e em vídeos longos dentro de um modelo unificado. A principal inovação é a atenção por agrupamento dinâmico, que expõe o modelo a contextos temporais bidirecionais e causais durante o treinamento e permite que ele adapte seu padrão de atenção no momento do teste sem a necessidade de retreinamento. Para melhorar a qualidade da supervisão, introduzimos ainda um framework de refinamento de dados baseado em completação. Esse framework treina um professor de completação de profundidade de vídeo que se condiciona a anotações esparsas e ruidosas e explora o contexto de vídeo/multi-visão para produzir alvos de treinamento densos, temporalmente coerentes e geometricamente confiáveis. Além de mapas de profundidade e de pontos, o ViGeo também prevê normais de superfície dentro do mesmo framework. Treinado exclusivamente em conjuntos de dados públicos, o ViGeo alcança desempenho de estado da arte em estimativa de profundidade online, offline e para vídeos longos, estimativa de normais de superfície e estimativa de mapas de pontos de vídeo.
Um gargalo central para agentes de uso de telefone é que ambientes controláveis e reproduzíveis que abrangem comportamentos móveis reais são difíceis de construir em escala. Os benchmarks existentes para agentes móveis fizeram progressos importantes na avaliação, mas não oferecem, por si só, uma forma escalável de construir muitos ambientes de uso de telefone. Apresentamos o PhoneWorld, um pipeline reutilizável que converte trajetórias reais de GUI e capturas de tela em ambientes controláveis de uso de telefone, tarefas executáveis, verificadores automáticos e rollouts de treinamento. Em vez de construir manualmente um benchmark móvel por vez, o PhoneWorld utiliza trajetórias reais para recuperar quais telas são relevantes, como as telas se conectam, quais interações devem alterar o estado do ambiente e quais objetivos do usuário admitem verificação automática. A partir desses sinais, ele constrói aplicativos Android simulados executáveis, apoiados por conteúdo de aplicativo somente leitura e estado mutável, e então deriva tarefas executáveis, verificadores baseados em regras e rollouts de treinamento a partir dos mesmos ambientes. Em sua instanciação atual, o PhoneWorld abrange 34 aplicativos em 16 domínios, cobrindo comportamentos móveis comuns do consumidor, como busca, navegação, compras, reservas, mídia e interação social. Sob um orçamento fixo de treinamento, substituir 10 mil passos de um corpus auxiliar do AndroidWorld em uma linha de base baseada no AndroidWorld por supervisão ampla do PhoneWorld melhora todos os quatro benchmarks de avaliação simultaneamente, elevando o HYMobileBench em 17,7 pontos, o AndroidControl em 6,0 pontos, o AndroidWorld em 14,7 pontos e o PhoneWorld em 52,5 pontos. Em seguida, estudamos duas questões adicionais de escalabilidade: aumentar a quantidade de supervisão do PhoneWorld melhora fortemente o desempenho no PhoneWorld e, sob um orçamento fixo do PhoneWorld, expandir a cobertura de aplicativos gera ganhos ainda maiores. No geral, o PhoneWorld desloca o foco de construir um benchmark móvel por vez para escalar a oferta dos próprios ambientes de uso de telefone.
Golpes em smartphones são cada vez mais prevalentes e tipicamente se manifestam como processos multiestágio e entre aplicativos, com intenções que emergem gradualmente. Assim, uma intervenção eficaz requer antecipar os golpes antes que a intenção se torne explícita. Isso é inerentemente desafiador, pois as decisões devem se basear em trajetórias parciais com evidências distribuídas temporalmente. Neste artigo, propomos o ORACLE (Online Reasoning for Anticipating Cross-temporal Latent thrEats), o primeiro arcabouço agentivo para antecipação precoce de golpes a partir de trajetórias de uso de aplicativos em fluxo contínuo. Para apoiar esse cenário, curamos um benchmark real de horizonte longo composto por trajetórias de uso de aplicativos em fluxo contínuo, cobrindo 12 tipos de golpes, abrangendo períodos estendidos (média de 15 dias), envolvendo diversos aplicativos (95 apps) e intercalando comportamentos normais e fraudulentos. Para lidar com evidências fragmentadas, introduzimos um gerenciador de contexto autoevolutivo que consolida adaptativamente interações centradas em entidades ao longo do tempo, permitindo uma reconstrução mais eficaz de evidências transtemporais a partir de observações parciais. Para aumentar a sensibilidade a sinais latentes em estágios iniciais, propomos um esquema de autodestilação on-policy no qual um modelo professor, condicionado a reflexões e pistas antigolpe resumidas por habilidades, supervisiona um modelo aluno sem acesso a tais reflexões. Esse esquema, portanto, destila conhecimento informado por evidências e melhora o reconhecimento de padrões emergentes de fraude a partir de trajetórias parciais. Experimentos mostram que o ORACLE melhora consistentemente a antecipação precoce de golpes, gerando alertas oportunos e reduzindo falsos alarmes em cenários realistas de fluxo contínuo.