Artigos de pesquisa em IA selecionados diariamente com traduções
As figuras científicas estão entre os meios mais eficazes de comunicar ideias complexas de pesquisa, mas produzir ilustrações com qualidade para publicação continua a ser uma das partes mais trabalhosas da preparação de artigos. Os sistemas automatizados existentes visam cada um um único tipo de figura com entrada apenas de texto, deixando sem abordar a diversidade de tipos e condições que os pesquisadores realmente utilizam; suas saídas raster, além disso, não podem ser revisadas localmente. Como as figuras científicas são composições estruturadas de componentes semânticos discretos, os erros localizados que os geradores produzem em tais layouts exigem não uma espinha dorsal mais forte, mas um arcabouço. Materializamos este arcabouço em dois sistemas complementares: Crafter, um arcabouço multiagente para geração de figuras que generaliza entre tipos de figuras e condições de entrada sem alterações arquitetônicas, e CraftEditor, que aplica o mesmo padrão para converter saídas raster em SVGs editáveis. Além disso, apresentamos o CraftBench, um benchmark abrangendo três tipos de figuras e quatro condições de entrada com anotação de qualidade humana. Experimentos mostram que Crafter supera substancialmente tanto geradores autônomos quanto a linha de base agentiva no PaperBanana-Bench e no CraftBench, com ablações confirmando a contribuição independente de cada componente; CraftEditor converte fielmente saídas em SVGs editáveis que superam todas as linhas de base. Nosso código e benchmark estão disponíveis em https://github.com/HaozheZhao/Crafter.
O ajuste fino eficiente em parâmetros (PEFT) é geralmente tratado como uma alternativa mais barata ao ajuste fino completo. Estudamos um papel mais amplo: pequenos adaptadores treináveis como estado local persistente sobre modelos de base compartilhados e robustos. Nesse enquadramento, o modelo base fornece competência compartilhada, enquanto os adaptadores carregam comportamentos específicos da instância, como preferências, habilidades, hábitos de ferramentas e atualizações semelhantes à memória. Organizamos o problema em torno de três eixos de escalabilidade: Aumento de Escala (Scale Up), onde prioridades compartilhadas mais fortes tornam pequenas atualizações locais mais úteis; Redução de Escala (Scale Down), onde estudamos quão pequenos os adaptadores podem ser enquanto permanecem confiáveis; e Expansão de Escala (Scale Out), onde muitas instâncias adaptadas persistentes coexistem. O MinT fornece um exemplo de infraestrutura para gerenciar identidade, revisão, proveniência, avaliação e residência de serviço do adaptador. Em conjunto, os resultados sugerem que o PEFT pode ser um substrato compacto para modelos pessoais persistentes, em vez de apenas um substituto econômico para o ajuste fino completo.
À medida que as capacidades dos agentes avançam, benchmarks existentes, como o τ²-Bench, estão se tornando cada vez mais saturados. No entanto, construir novas tarefas de benchmark continua complexo, custoso e trabalhoso. Além disso, a abordagem padrão, na qual os cenários são primeiro escritos em linguagem natural e depois mapeados para sequências de ferramentas, captura apenas um subconjunto restrito dos padrões de uso de ferramentas que os agentes executam. Neste artigo, abordamos esses problemas invertendo o processo de construção de tarefas. Propomos o TASTE: Síntese de Tarefas a partir da Evolução de Sequências de Ferramentas, um método automático que gera tarefas desafiadoras com cobertura mais ampla de uso de ferramentas. O TASTE utiliza um modelo adaptativo de n-gramas contrastivos treinado em sinais de validade julgados por LLMs. Isso permite amostrar sequências válidas de ferramentas que cobrem uma vasta gama de combinações de ferramentas. O TASTE então seleciona sequências representativas do conjunto via clusterização, instancia-as em tarefas completas de benchmark e as refina por meio de evolução iterativa de dificuldade. Usando o TASTE, construímos o τ^c-Bench, uma extensão desafiadora para os três domínios do τ²-Bench. Avaliamos 11 pares de agente/LLM usuário e descobrimos que modelos que quase saturam o τ²-Bench sofrem quedas severas de desempenho em nossas tarefas (por exemplo, Gemini-3-Flash cai de 0,82–0,94 para 0,28–0,61). Além de aumentar a dificuldade, nossas tarefas geradas mais que dobram o número de combinações únicas de ferramentas que os agentes precisam executar. Nossos resultados sugerem que pontuações altas em benchmarks existentes frequentemente refletem saturação, e não uma capacidade robusta de resolução de tarefas. Ao automatizar a geração de benchmarks difíceis e de alta cobertura, o TASTE possibilita uma avaliação contínua e escalável de agentes futuros.
As avaliações de modelos de fronteira estão se deslocando de capacidades fundamentais (como seguir instruções e raciocínio) para capacidades composicionais e agentivas, mas benchmarks agentivos coreanos ainda são escassos. Apresentamos o K-BrowseComp, um benchmark de agente de navegação na web contextualizado ao ambiente coreano, composto por 400 problemas. O subconjunto K-BrowseComp-Verified, com 300 problemas, foi manualmente construído e validado por falantes nativos de coreano. Nesse subconjunto, LLMs de fronteira, incluindo GPT-5.5, DeepSeek-V4-Pro e GLM-5.1, alcançam apenas 30,00–45,67%, uma queda substancial em relação ao BrowseComp, enquanto LLMs coreanos lançados por meio do programa Korea's Proprietary AI Foundation Model obtêm apenas 0,00–10,33%. Construímos ainda uma divisão sintética de 100 problemas usando exemplares few-shot difíceis e geração direcionada a modos de falha, a fim de explorar a assimetria entre resolver e criar problemas de navegação na web. Na divisão sintética de diagnóstico filtrada adversarialmente, o modelo mais forte atinge apenas 26,00%, e reportamos essa divisão separadamente como um teste de estresse direcionado. Disponibilizamos publicamente nossos dados e código.
Agentes de busca são frequentemente treinados como políticas sobre transcrições crescentes: o modelo deve decidir como buscar enquanto também se lembra do que viu, quais evidências são úteis, quais restrições permanecem em aberto e quais alegações foram efetivamente verificadas. Argumentamos que essa formulação coloca excesso de gerenciamento de estado rotineiro dentro da política: o aprendizado por reforço é forçado a otimizar tanto decisões semânticas de busca quanto a contabilidade recuperável que o ambiente pode manter de forma mais confiável. Apresentamos o Harness-1, um agente de busca (subagente de recuperação) de 20B treinado com aprendizado por reforço dentro de uma estrutura de busca com estado (harness). A estrutura mantém uma memória de trabalho no lado do ambiente, incluindo um conjunto de candidatos, um conjunto selecionado com marcação de importância, links de evidência compactos, registros de verificação, observações comprimidas e deduplicadas, e renderização de contexto consciente de orçamento. A política retém as decisões semânticas: o que buscar, quais documentos manter ou descartar, o que verificar e quando parar. Em oito benchmarks de recuperação abrangendo web, finanças, patentes e QA multi-salto, o Harness-1 alcança 0,730 de recall selecionado médio, superando o próximo subagente de busca aberta mais forte em +11,4 pontos e mantendo-se competitivo com agentes de busca de modelos de fronteira muito maiores. Seus ganhos são especialmente fortes em benchmarks de transferência não vistos, sugerindo que o aprendizado por reforço sobre estados de busca explícitos pode produzir comportamentos de recuperação que generalizam além dos domínios de treinamento. Nosso código está disponível em https://github.com/pat-jj/harness-1.
A decodificação especulativa acelera a inferência de modelos de linguagem de grande escala ao combinar um modelo alvo com um modelo rascunho leve, cujos tokens propostos são verificados em paralelo. Uma maneira comum de construir modelos rascunho, como EAGLE3 ou DFlash, é o ajuste fino supervisionado (SFT) em trajetórias geradas pelo alvo. No entanto, observamos que o SFT atinge rapidamente um platô: o comprimento de aceitação do modelo rascunho em dados de teste para de melhorar. A razão é uma incompatibilidade entre offline e inferência: no SFT, o rascunho aprende a partir de trajetórias fixas geradas pelo alvo, enquanto durante a decodificação especulativa ele é avaliado em blocos propostos sob sua própria política. Isso motiva a destilação on-policy (OPD), onde o modelo alvo supervisiona o rascunho em estados induzidos pelo rascunho. No entanto, a OPD continua difícil para modelos rascunho, pois eles não conseguem gerar sequências completas de forma confiável e independente, enquanto a geração assistida pelo alvo faz com que as sequências coletadas sigam a distribuição alvo, eliminando assim o sinal on-policy. Portanto, propomos o Draft-OPD, que utiliza a geração assistida pelo alvo para continuações estáveis e reproduz o rascunho a partir das posições de erro expostas pela verificação. Isso permite que o rascunho aprenda com o feedback do alvo tanto em propostas aceitas quanto rejeitadas, concentrando o treinamento nos erros induzidos pelo rascunho que limitam a aceitação especulativa. Experimentos mostram que o Draft-OPD alcança mais de 5 vezes de aceleração sem perdas para modelos de pensamento em diversas tarefas, melhorando em 23% e 13% em relação ao EAGLE-3 e ao DFlash, respectivamente.
A decodificação especulativa acelera a inferência de LLMs ao gerar múltiplos tokens candidatos e verificá-los em paralelo com o modelo alvo. No entanto, sua aceleração prática é limitada pelo compromisso entre a qualidade dos rascunhos e o custo de sua geração: rascunhadores autorregressivos modelam dependências causais entre tokens candidatos, mas incorrem em sobrecarga sequencial, enquanto rascunhadores paralelos reduzem o custo de geração, mas enfraquecem a modelagem de dependências intra-bloco. Neste artigo, propomos o Domino, uma estrutura de decodificação especulativa que desacopla a modelagem de dependências causais da execução autorregressiva cara. O Domino primeiro usa uma espinha dorsal paralela de rascunho para produzir distribuições preliminares de rascunho para todo o bloco e, em seguida, aplica uma cabeça Domino leve para refiná-las com informações causais dependentes do prefixo. Para estabilizar a codificação causal forçada pelo professor, introduzimos adicionalmente um currículo de treinamento ancorado na base que primeiro fortalece a espinha dorsal paralela e, gradualmente, desloca a otimização em direção à distribuição final corrigida causalmente. Experimentos com modelos Qwen3 mostram que o Domino atinge até 5,49× de aceleração ponta a ponta sob o backend Transformers e até 5,8× de aceleração na taxa de transferência sob o serviço SGLang.
Marcação d'água insere assinaturas estatísticas em texto gerado por IA para detecção e atribuição. Revelamos uma vulnerabilidade fundamental: quando os usuários acessam múltiplos modelos (realidade atual), as marcações d'água falham trivialmente. Marcações d'água perturbam as distribuições de saída em relação à original e, em mercados competitivos, essas perturbações são tipicamente independentes entre provedores. Provamos teoricamente que a média das distribuições de probabilidade de saída recupera a distribuição não marcada com um termo de erro de até segunda ordem. Empiricamente, simplesmente calcular a média de 3 a 5 modelos cancela essas perturbações. Apresentamos o WASH (Watermark Attenuation via Statistical Hybridisation – Atenuação de Marcação d'Água via Hibridização Estatística), que resolve desafios práticos na geração de ensembles: desalinhamento de vocabulário e diferenças de tokenização entre modelos heterogêneos. Experimentos abrangendo seis esquemas de marcação d'água e três LLMs mostram que a média entre 3 modelos reduz os escores z de detecção de 5–300 para abaixo de 2 (abaixo do limiar de detecção de 4) e a TPR a 5% de FPR para abaixo de 50%, ao mesmo tempo que melhora a qualidade em 27,5% e é executado 6 vezes mais rápido que a melhor linha de base na geração de sequências longas. Nossos resultados sugerem que a detecção robusta de texto por IA via marcação d'água exige aceitar essa vulnerabilidade fundamental ou uma coordenação sem precedentes entre provedores de modelos.
A predição padrão do próximo token (NTP) supervisiona modelos de linguagem unicamente por meio de rótulos discretos no espaço de logits de saída. Argumentamos que essa supervisão esparsa de um vetor one-hot deixa o espaço de representação latente sub-condicionado, permitindo que estados ocultos derivem para configurações degeneradas e anisotrópicas que podem limitar a generalização. Para lidar com esse problema, propomos a Predição do Próximo Token Implícito (NITP), que complementa a predição discreta com supervisão densa contínua diretamente no espaço de representação. O NITP treina o modelo para prever o conteúdo semântico implícito do próximo token, utilizando representações de camadas superficiais do próprio modelo como alvos autossupervisionados estáveis. Fornecemos análise teórica mostrando que o NITP regulariza a paisagem de otimização ao mitigar graus de liberdade sub-condicionados e incentivar uma geometria de representação compacta e estruturada. Empiricamente, em modelos densos e MoE variando de 0,5B a 9B parâmetros, o NITP melhora consistentemente o desempenho downstream com custo computacional negligenciável. Em um modelo MoE de 9B, o NITP alcança uma melhoria absoluta de 5,7% no MMLU-Pro, junto com ganhos de 6,4% no C3 e 4,3% no CommonsenseQA, com aproximadamente 2% adicionais de FLOPs de treinamento e nenhum custo adicional de inferência. Nossa implementação está disponível em https://github.com/aHapBean/NITP.
O recente paradigma "Raciocínio com Vídeo" utiliza Modelos de Geração de Vídeo (VGMs) para gerar trajetórias visuais temporalmente coerentes com o objetivo de completar tarefas de raciocínio. Embora os VGMs de última geração se destaquem na qualidade visual, eles frequentemente têm dificuldade em compreender e seguir regras específicas das tarefas, levando a falhas lógicas em diversos cenários de raciocínio. Esforços existentes tentam utilizar Modelos de Visão e Linguagem (VLMs) como pré-resolvedores de problemas para produzir ou refinar orientações textuais para o VGM. No entanto, descrições textuais não conseguem capturar detalhes espaço-temporais intrincados, e os VGMs frequentemente têm dificuldade em executar fielmente instruções detalhadas ou de cauda longa, mesmo com um plano válido. Embora os VLMs tenham dificuldade como resolvedores, eles possuem fortes capacidades de percepção para avaliar a satisfação de restrições de processo e a realização do objetivo final. Aproveitando essa vantagem, introduzimos uma mudança de paradigma que transiciona o papel dos VLMs para "professores". Especificamente, um professor VLM extrai regras específicas da tarefa para formular recompensas diferenciáveis, guiando um Raciocinador VGM por meio de otimização online em tempo de teste de um módulo LoRA leve. Essa estratégia permite otimização adaptativa em tempo de teste e estende as capacidades de raciocínio para além dos limites intrínsecos do VGM. Avaliações em benchmarks de raciocínio de vídeo simbólico (VBVR-Bench) e de propósito geral (RULER-Bench) mostram que o método proposto produz um ganho médio de desempenho de 16,7 pontos, superando o paradigma VLM-como-Resolvedor (+0,4 pontos) e o escalonamento Best-of-N (+2,2 pontos) por uma margem considerável, a um custo de tempo de teste comparável. Essas descobertas revelam que integrar VLMs como professores em tempo de teste oferece um paradigma promissor para alcançar raciocínio de vídeo generalizável. Página do Projeto: https://VLM-as-Teacher.github.io/
Embora a compreensão de streaming de vídeo tenha feito avanços significativos, aplicações do mundo real, como transmissão esportiva ao vivo, direção autônoma e colaboração em múltiplas telas, demandam inerentemente interações contínuas e com múltiplos fluxos. No entanto, os benchmarks existentes estão confinados a paradigmas de fluxo único, deixando uma lacuna crítica na avaliação do raciocínio online entre fluxos. Para preencher essa lacuna, apresentamos o X-Stream, o primeiro benchmark dedicado à compreensão de streaming multifluxo. Composto por 4.220 pares de perguntas e respostas rigorosamente selecionados em 932 vídeos, o X-Stream avalia 11 subtarefas em cenários de múltiplas janelas, múltiplas visualizações e múltiplos dispositivos. Crucialmente, nosso conjunto de dados é construído usando um novo pipeline de dupla verificação que evita a dependência excessiva de um único fluxo. Além disso, pioneirizamos a conceituação de modelos de linguagem de grande escala multimodais (MLLMs) como multiplexadores ingênuos, avaliando sistematicamente seu desempenho através da lente da Teoria de Multiplexação de Sinais. Nossos extensos experimentos de inferência online revelam uma realidade nítida: MLLMs de ponta têm dificuldades significativas com fluxos concorrentes, alcançando apenas cerca de 50% de pontuação e exibindo baixa capacidade proativa. Por fim, o X-Stream expõe o trade-off dos esquemas atuais de multiplexação, fornecendo tanto um protocolo de avaliação prático quanto orientação empírica para agentes multifluxo de próxima geração.
A difusão de vídeo causal com longas sequências convergiu para um cache KV de janela deslizante de tamanho fixo, com avanços recentes inovando dentro desse layout ao alterar quais tokens ocupam a janela ou como suas posições são codificadas. O próprio layout KV por cabeça, um contribuinte dominante para a memória e latência de streaming, permaneceu praticamente inalterado. Neste artigo, apresentamos o primeiro estudo da Atenção Latente Multi-Cabeça (MLA) em difusão de vídeo. O VideoMLA substitui chaves e valores por cabeça por um latente de conteúdo de posto baixo compartilhado e uma chave posicional 3D-RoPE desacoplada compartilhada, reduzindo a memória KV por token em 92,7% em cada camada em cache. Investigamos ainda por que o MLA tem sucesso na difusão de vídeo, embora a suposição espectral frequentemente usada para motivá-lo em modelos de linguagem não se sustente: a atenção de vídeo pré-treinada não é de posto baixo, com posto efetivo de 99% de energia muito acima de qualquer dimensão latente prática. O VideoMLA mantém a qualidade em taxas de compressão onde a aproximação espectral direta preveria grande erro de reconstrução. Mostramos que o gargalo do MLA, e não o espectro pré-treinado, determina o posto efetivo: tanto a inicialização espectral quanto a aleatória ocupam quase todo o orçamento de posto desde a inicialização, e o treinamento preserva esse orçamento enquanto se adapta dentro dele. No VBench, o VideoMLA iguala as linhas de base de difusão de vídeo em streaming de curto horizonte, alcança a melhor pontuação geral em horizontes longos entre os métodos avaliados e melhora a vazão em 1,23x em um único B200.
Os agentes baseados em modelos de linguagem de grande porte (LLM) dependem cada vez mais de habilidades externas reutilizáveis para resolver tarefas interativas de longo horizonte. Os pipelines existentes de adaptação de habilidades livres de treinamento geralmente atualizam habilidades a partir de trajetórias completas ou feedback em nível de sessão, o que torna a atribuição de falhas grosseira e frequentemente produz revisões instáveis ou excessivamente amplas. Propomos o SkillAdaptor, uma estrutura livre de treinamento para adaptação de habilidades em nível de passo com atribuição explícita de falhas, que pode ser integrada a sistemas de agentes da classe OpenClaw. Dada uma trajetória com falha, o SkillAdaptor identifica o primeiro passo de falha acionável, associa a responsabilidade a habilidades candidatas e aplica atualizações direcionadas sob verificações explícitas de aceitação, mantendo a estrutura principal congelada. Avaliamos no WebShop, PinchBench e Claw-Eval com Kimi-K2.5, GLM-5 e GPT-5.2. O SkillAdaptor supera as linhas de base sem habilidades e com adaptação de habilidades em todos os três conjuntos de testes, com as maiores melhorias em métrica única de +1,5 pontos no PinchBench Avg Score%, +1,8 no Claw-Eval Avg Score e +1,7 na taxa de sucesso do WebShop. Esses resultados indicam que a atribuição em nível de passo suporta uma manutenção de habilidades livre de treinamento mais estável e auditável. O código será disponibilizado em https://github.com/zjunlp/SkillAdaptor.
Os humanos podem reproduzir o ponto de vista especificado por uma imagem alvo através de movimento ativo da cabeça e do corpo; no entanto, a inteligência espacial em modelos fundamentais tem sido amplamente estudada como compreensão passiva de observações pré-coletadas. Apresentamos a Reprodução de Ponto de Vista Alvo (TVR) — uma tarefa ativa onde um agente ajusta seu ponto de vista em um ambiente 3D até que sua observação corresponda a uma imagem alvo dada — e o TVRBench, um benchmark de simulação interna abrangendo escala de cena e riqueza visual da vista alvo. O TVR está longe de ser resolvido: na divisão de avaliação, os modelos mais fortes de código aberto e fechado alcançam apenas 7,8% e 12,0% de sucesso. Uma análise detalhada identifica dois gargalos consistentes: modelos prontos para uso têm dificuldade com histórico visual de múltiplas etapas, e o desempenho cai drasticamente quando a reprodução do ponto de vista requer translação do corpo em vez de rotação no lugar, expondo uma lacuna no mapeamento de discrepâncias espaciais para movimento incorporado. Para estudar a redução dessa lacuna, construímos um framework unificado de pós-treinamento do TVR que abrange SFT de trajetória especialista, CoT-SFT supervisionado por raciocínio, GRPO de turno único offline e GRPO de múltiplos turnos *on-policy* a partir de simulações ao vivo. SFT de ação visual fornece o principal ganho, elevando um modelo de código aberto de 9B para 50,8% de sucesso; GRPO de múltiplos turnos fornece refinamento direcionado para múltiplas salas e atinge 51,4% no geral, enquanto a supervisão CoT e o GRPO de turno único degradam o desempenho em malha fechada. Esses resultados estabelecem o TVRBench como um ambiente de teste para medir e treinar modelos fundamentais que percebem e agem ativamente em ambientes 3D. Nosso código, dados e modelos estão disponíveis em https://github.com/aim-uofa/TVRBench.
A inteligência espacial requer representações visuais que capturem tanto objetos semânticos quanto a estrutura geométrica do mundo físico. Para apoiar isso, dois grandes esquemas de pré-treinamento são hoje amplamente utilizados como backbones fundamentais: Modelos Visão-Linguagem (MVLs), que usam supervisão de linguagem para alinhar observações visuais com conceitos semânticos, e Modelos de Geração de Vídeo (MGVs), que aprendem a partir de mundos visuais em evolução temporal. No entanto, ainda não está claro qual esquema de pré-treinamento fornece um substrato de representação mais adequado para a inteligência espacial. Neste artigo, apresentamos o primeiro estudo sistemático de sondagem de características congeladas de MVLs e MGVs em três eixos representativos da inteligência espacial: rotulagem semântica, agrupamento de instâncias e predição de geometria 3D. Utilizando uma sonda leve, nossa estrutura permite uma comparação controlada de quais informações já estão codificadas em representações congeladas provenientes das duas famílias de modelos. Os resultados experimentais revelam uma clara complementaridade: MVLs são mais fortes em rotulagem semântica e agrupamento de instâncias, enquanto MGVs fornecem sinais mais acessíveis para geometria densa e movimento de câmera. Além disso, uma fusão ingênua dos dois já produz uma representação que se destaca tanto em geometria quanto em semântica, sugerindo um caminho promissor para construir backbones de inteligência espacial mais robustos por meio da integração eficaz de características de ambas as famílias de modelos. Nosso código está disponível em https://github.com/om-ai-lab/Probing-VLM-VGM.
Agentes de busca de longo horizonte acumulam grandes quantidades de conteúdo recuperado ao longo de muitas chamadas de ferramentas, tornando a eficiência do orçamento de contexto cada vez mais importante. Uma intervenção mínima é mascarar observações obsoletas do contexto à medida que a trajetória progride, mas ainda não está claro quando essa forma de gerenciamento de contexto ajuda e por quê. Estudamos o mascaramento de observações por meio de uma varredura sistemática sobre vários backbones de agentes (de 4B a 284B parâmetros) e três recuperadores em benchmarks de busca agentiva offline e na web ao vivo. Descobrimos que o ganho de precisão do mascaramento segue uma forma de U invertido assimétrica quando plotado contra a precisão do modelo sem gerenciamento de contexto: um platô sob recuperadores fracos, um pico quando um recuperador forte encontra um modelo de capacidade média e um colapso abrupto quando o modelo está saturado. Esse padrão reflete a interação entre a revocação do recuperador e a capacidade de filtragem implícita do modelo, em vez de qualquer fator isoladamente. Mecanicamente, o mascaramento implementa uma troca de tokens por turnos: ele remove observações nas quais o modelo deixou amplamente de prestar atenção e páginas que o agente raramente reabre. Os turnos adicionados ajudam quando convertem falhas em sucessos, mas falham quando o mascaramento remove evidências que o modelo teria usado de outra forma. Portanto, reformulamos o gerenciamento de contexto como uma intervenção dependente de regime e fornecemos uma perspectiva holística para analisar o uso de contexto em busca agentiva profunda. Disponibilizamos nosso arcabouço e trajetórias aqui (https://github.com/i-DeepSearch/observation-masking) para apoiar pesquisas futuras.
Quando um modelo de linguagem de grande escala submetido a aprendizagem por reforço comete uma etapa de raciocínio incorreta no início de uma trajetória, os algoritmos padrão o obrigam a continuar gerando até o horizonte máximo, gastando computação em tokens que nunca recebem recompensa positiva e poluindo as estimativas de vantagem com ruído pós-falha. Propomos ESPO (Proximal Policy Optimization com Parada Antecipada), que detecta falhas na trajetória em tempo real e encerra as rolagens (rollouts) precocemente. A cada etapa de geração, o ESPO calcula um arrependimento substituto usando apenas os logits já computados durante a amostragem e interrompe a geração quando o arrependimento cumulativo suavizado excede significativamente seus valores estimados. Trajetórias truncadas são tratadas como estados de falha absorventes com uma recompensa terminal, concentrando erros negativos de diferença temporal (TD) próximos à etapa de falha detectada, sem exigir qualquer modelo de recompensa adicional ou anotação humana. No DeepSeek-R1-Distill-Qwen-7B treinado para raciocínio matemático, o ESPO supera o PPO no AIME 2024 (46,28% vs. 45,25%), no AMC 2023 (85,83% vs. 82,94%) e no MATH-500 (87,42% vs. 85,43%), economizando mais de 20% dos tokens de rolagem cumulativamente.
Fluxos de trabalho de LLM multiagente roteiam inferência por meio de papéis especializados para aumentar a precisão da tarefa final, mas o treinamento conjunto desses papéis com aprendizado por reforço é instável de maneiras pouco compreendidas. Estudamos quando o treinamento RL ponta a ponta de fluxos de trabalho de LLM multiagente melhora em relação aos seus modelos base, comparando o treinamento de Política Compartilhada, onde todos os papéis atualizam uma política, com o treinamento de Política Isolada, onde cada papel tem seus próprios parâmetros. Nossa matriz experimental abrange fluxos de trabalho Eval-Opt, Voting e Orch-Workers, tarefas de matemática e código, e três escalas de modelo (0,6B, 1,7B, 4B). Descobrimos que o RL multiagente geralmente melhora em relação aos modelos base, mas os ganhos dependem conjuntamente do fluxo de trabalho, da tarefa e da escala, não apenas do compartilhamento de políticas. A Política Isolada tende a atingir maior precisão de pico, mas com mais frequência cai de um penhasco terminal de precisão, enquanto o treinamento de Política Compartilhada não elimina falhas; ele redistribui as falhas em padrões qualitativamente diferentes. Em seguida, explicamos o mais forte desses padrões por meio de dinâmicas de gradiente no nível do papel induzidas pela topologia do fluxo de trabalho e pelo roteamento de políticas: sob Política Isolada, agentes paralelos do mesmo papel em prompts compartilhados amplificam os gradientes por papel e impulsionam a degradação terminal em fluxos de trabalho Voting e Orch-Workers; sob Política Compartilhada, a massa de gradiente assimétrica por etapa faz com que a política compartilhada seja capturada pelo papel dominante, produzindo assinaturas de falha diferentes por tarefa e fluxo de trabalho. Juntos, o mapa empírico e seus mecanismos subjacentes mostram que o compartilhamento de políticas roteia a pressão de treinamento por meio de canais diferentes, em vez de oferecer estabilidade uniforme, tornando-o uma escolha de projeto com tradeoffs condicionais ao fluxo de trabalho e à tarefa.
O Protocolo de Contexto de Modelo (MCP) emergiu como um padrão transformador para conectar grandes modelos de linguagem (LLMs) a fontes de dados e ferramentas externas, e tem sido rapidamente adotado em aplicações pessoais e plataformas de desenvolvimento. No entanto, os benchmarks existentes focam predominantemente em ferramentas genéricas de busca de informações e não capturam os desafios práticos impostos por aplicações sociais pessoais, onde as ferramentas interagem com contas individuais ou bancos de dados locais. Para preencher essa lacuna crítica, introduzimos o MCP-Persona, o primeiro benchmark especificamente projetado para avaliar o desempenho de agentes em ferramentas MCP personalizadas do mundo real. O MCP-Persona abrange um conjunto diversificado de aplicações amplamente utilizadas, desde plataformas de mídia social como Reddit e Xiaohongshu (Rednote) até suítes de colaboração empresarial como Lark (Feishu) e Slack. Nossos extensos experimentos com vários agentes de estado da arte (SOTA) demonstram suas dificuldades significativas com o uso de ferramentas personalizadas, destacando assim o papel crucial do benchmark em identificar e abordar essas limitações. O MCP-Persona está disponível publicamente em https://github.com/wwh0411/MCP-Persona.
A auto-atenção densa é o gargalo computacional e de qualidade da inferência de difusão de vídeos longos: o custo cresce quadraticamente com o comprimento da sequência e, além do horizonte de treinamento, o modelo converge para uma saída quase estática, ou seja, um vídeo repetitivo "congelado". As abordagens de ponta são muito caras, por exemplo, requerem retreinamento, ou não conseguem atender aos objetivos de desempenho e qualidade de forma escalável. Para isso, apresentamos a Atenção Esparsa de Vídeo Longo (do inglês, *Long Video Sparse Attention*, LVSA), uma atenção bloco-esparsa independente de modelo e sem necessidade de treinamento para transformadores de difusão de vídeo, que combina um padrão de janela estruturado com âncoras globais rotativas, eliminando assim o viés de grade fixa que causa artefatos temporais de longo alcance. A LVSA, combinada com um kernel FlashInfer, reduz o custo computacional em até 3,17x no Wan 2.1 1.3B em um horizonte 6x, 2,98x no Wan 2.1 14B em um horizonte 6x e 3,33x no HunyuanVideo 1.5 em um horizonte 1,5x, em comparação com a atenção densa. Além de reduzir o custo computacional, a LVSA permite a geração do HunyuanVideo 1.5 em um horizonte 2x, o que, de outra forma, extrapolaria a memória em uma única GPU. Ademais, a LVSA proporciona acelerações de até 2,41x em comparação com o RIFLEx e 3,27x em comparação com o UltraViCo no Wan 2.1 1.3B. Para demonstrar a aplicabilidade em diversas plataformas, aplicamos a LVSA em NPUs e obtivemos acelerações de até 2,71x no Wan 2.2 A14B e 3,24x no Wan 2.1 1.3B em comparação com a atenção densa. Para avaliar a qualidade de forma justa, apresentamos o VQeval, uma ferramenta que pontua adequadamente falhas de vídeo repetitivas (*loopy*), as quais, em contrapartida, são recompensadas em avaliadores de ponta como o VBench-Long. A LVSA é neutra em termos de qualidade para geração no comprimento do horizonte de treinamento e positiva em termos de qualidade para comprimentos estendidos.
Em ambientes abertos, a exploração é fundamental para agentes autônomos, mas os agentes atuais baseados em modelos de linguagem têm dificuldade com isso. Uma exploração eficaz requer memória, porém reter históricos brutos de interação é computacionalmente caro ao longo de trajetórias longas. Embora a memória latente ofereça uma solução para comprimir históricos de interação, seu treinamento carece de sinais de supervisão confiáveis. Apresentamos o Joint Agent Memory and Exploration Learning (JAMEL), uma estrutura que treina conjuntamente a memória do agente e a política de exploração por meio de interação orientada por novidade. Observamos que memória e exploração formam um ciclo mutuamente dependente: a exploração sustentada requer memória para distinguir comportamentos esgotados dos não vistos, enquanto a interação em busca de novidade fornece a supervisão necessária para tornar a memória útil para explorações futuras. Ao utilizar sinais de novidade determinísticos e persistentes, como cobertura de código no domínio de GUI, fornecemos supervisão natural e sem anotação para o módulo de memória. Avaliações empíricas demonstram que o \ours generaliza com sucesso para ambientes não vistos. Sua capacidade de exploração supera as linhas de base de pesos abertos e rivaliza com a profundidade de exploração de um modelo de código fechado, ao mesmo tempo que reduz o consumo de tokens. Nosso código e modelo estão disponíveis como código aberto em https://github.com/MobileLLM/JAMEL.
A difusão de vídeo autorregressivo (AR) permite a síntese de duração variável, mas a geração de horizontes longos frequentemente sofre com erros acumulados e desvio de identidade. Para eficiência, métodos existentes comumente adotam atenção de janela deslizante durante a geração. Isso cria uma trajetória de geração irreversível: uma vez que a janela ativa acumula erros de aparência, as gerações subsequentes só podem condicionar-se a essa trajetória degradada e desviar-se ainda mais. Abordamos essa limitação formulando a geração de vídeos longos como um problema de geração aumentada por recuperação (RAG). Em vez de depender apenas da janela recente, tratamos os latentes gerados anteriormente como um histórico dinâmico e pesquisável. Propomos o LongLive-RAG, uma estrutura de recuperação geral para geração de vídeo AR. Em cada novo bloco, o LongLive-RAG usa uma incorporação de consulta para recuperar latentes históricos relevantes. Essa etapa leve de recuperação adiciona apenas uma pequena sobrecarga em relação à geração e permite que o gerador se condicione a contexto não local, em vez de apenas à janela recente. Para tornar a recuperação mais discriminativa, introduzimos a Perda de Delta Temporal da Janela, que suprime a similaridade local redundante e incentiva as incorporações a capturar mudanças temporais significativas. Juntos, esses componentes ajudam a reduzir o acúmulo de erros causado pela atenção de janela deslizante. Experimentos em múltiplos backbones AR e comprimentos de geração mostram melhoria na qualidade de vídeos longos e a melhor classificação média no VBench-Long. Até onde sabemos, entre os métodos abertos de geração de vídeo longo AR, o LongLive-RAG é o primeiro a formular o histórico latente autogerado como memória de recuperação endereçável por conteúdo. O código está disponível em https://github.com/qixinhu11/LongLive-RAG.
Decodificar o conteúdo visual de sinais de fMRI registrados enquanto uma pessoa visualiza imagens, e especificamente responder a perguntas sobre as imagens vistas, é um desafio de longa data. Embora avanços significativos tenham sido alcançados nos últimos anos na resposta visual a perguntas (VQA) a partir de fMRI, o desempenho ainda é limitado. Além disso, embora modelos recentes consigam fazer previsões cada vez mais precisas, eles raramente foram utilizados como ferramentas para compreender a estrutura das representações visuais no cérebro. Apresentamos o Brain-IT-VQA, uma estrutura para resposta visual a perguntas a partir de fMRI. Baseando-se no Brain Interaction Transformer (Brain-IT), nosso método decodifica tokens de linguagem a partir da atividade cerebral e os integra a um modelo de linguagem para responder a perguntas visuais. Nosso modelo supera substancialmente abordagens anteriores de legendagem e VQA baseadas em fMRI. Introduzimos ainda o NSD-VQA, um novo conjunto de dados e referência para resposta visual a perguntas a partir de fMRI. Diferentemente dos conjuntos de dados existentes de VQA imagem-fMRI, que geralmente fornecem apenas algumas perguntas amplas e fracamente controladas por imagem, o NSD-VQA oferece, em média, 20 pares pergunta-resposta por imagem em 20 categorias de perguntas controladas que desagregam múltiplos níveis de compreensão visual. Isso possibilita uma avaliação mais confiável e interpretável, apesar dos dados limitados de teste de fMRI. Em conjunto, o Brain-IT-VQA e o NSD-VQA fornecem tanto uma estrutura preditiva robusta quanto uma ferramenta para estudar representações cerebrais. Utilizando essa referência, quantificamos quais formas de informação visual e semântica podem ser decodificadas de forma confiável a partir de respostas de fMRI a imagens naturais. Analisamos ainda as contribuições de diferentes regiões cerebrais entre os tipos de perguntas.
Geração conjunta de áudio e vídeo em streaming em tempo real para animação de personagens requer que um gerador fale a transcrição solicitada, mantenha a identidade visual entre segmentos e opere dentro de um orçamento estrito de reprodução. Esses requisitos são difíceis de satisfazer simultaneamente: a geração autoregressiva segmento a segmento pode acumular desalinhamento entre transcrição e áudio e deriva visual, enquanto a destilação de poucos passos necessária para baixa latência frequentemente degrada a diversidade espacial e a qualidade temporal. Apresentamos o StreamChar, um framework de streaming que separa a orquestração de longo horizonte do denoising de áudio e vídeo em janela curta. Um orquestrador baseado em LLM utiliza a transcrição e o contexto histórico para produzir condições de áudio alinhadas aos quadros, e um DiT conjunto de áudio e vídeo realiza denoising bidirecional local com condicionamento de referência e quadro de movimento. Para implantação eficiente, utilizamos um pipeline de destilação em dois estágios que primeiro comprime o amostrador e depois ajusta finamente o aluno sob execuções de segmentos online. Um ponteiro ciente do progresso alinha transcrições parciais com áudio gerado durante o treinamento de rollout, e uma memória de segmento âncora fornece uma âncora visual persistente para reduzir a deriva de longo horizonte. Experimentos em protocolos de clipe curto e longo horizonte mostram que o StreamChar opera em tempo real em uma única GPU H100 e oferece um trade-off favorável em nível de sistema entre fidelidade da transcrição, sincronização audiovisual, qualidade visual e estabilidade de streaming em comparação com baselines conjuntos e orientados por áudio recentes.
Agentes LLM cada vez mais recuperam habilidades externamente curadas—instruções processuais recuperadas no momento da decisão—para melhorar o desempenho em tarefas interativas de horizonte longo. Bibliotecas de habilidades existentes são tipicamente tratadas como agnósticas em relação ao modelo, reutilizando as mesmas formulações de habilidades em diferentes backbones com capacidades e comportamentos substancialmente distintos. No entanto, nossos experimentos controlados em múltiplas escalas de modelo mostram que a eficácia das habilidades é fortemente dependente do modelo: uma habilidade que beneficia um backbone pode prejudicar outro. Motivados por essa observação, propomos o MASA (Model-Aware Skill Alignment), uma estrutura que adapta habilidades a cada backbone alvo sem modificar os pesos do agente. O MASA opera em dois estágios: (1) um pipeline hierárquico de evolução de habilidades que reescreve iterativamente habilidades gerais e específicas de tarefas usando hill climbing e busca em árvore orientada por UCB, guiado por feedback do ambiente e perfis de capacidade do modelo; e (2) um reescritor de habilidades leve e condicionado ao modelo, treinado em trajetórias de evolução para reproduzir a adaptação em uma única passagem direta. Experimentos em três ambientes interativos e quatro backbones mostram que o MASA atinge consistentemente o melhor desempenho geral, com ganhos de até 25,8 pontos sobre a linha de base mais forte. O reescritor aprendido ainda generaliza para tarefas e ambientes não vistos sem busca adicional, superando consistentemente um LLM professor muito maior a uma fração do custo de inferência.
Construir agentes visuais web capazes requer raciocínio de longo horizonte, fundamentação precisa e interação robusta com sites dinâmicos do mundo real. Apesar do rápido progresso, os sistemas mais fortes permanecem amplamente proprietários, enquanto os agentes abertos ainda dependem fortemente de pós-treinamento supervisionado sobre grandes coleções de trajetórias web curadas. Essa dependência cria um gargalo de escalabilidade significativo: demonstrações de alta qualidade são caras de coletar, e conjuntos de dados estáticos oferecem cobertura limitada da web aberta diversa e em constante mudança. Embora o RL online tenha se mostrado promissor para agentes baseados em texto, seu potencial para treinar agentes visuais web diretamente em sites ao vivo permanece amplamente inexplorado. Neste artigo, apresentamos o OpenWebRL, uma estrutura aberta para treinar agentes visuais web com RL online multiturno em sites reais. O OpenWebRL abrange todo o pipeline de treinamento, incluindo infraestrutura escalável de navegador ao vivo, inicialização supervisionada, gerenciamento de contexto multimodal, avaliação de sucesso em nível de trajetória e otimização eficiente de políticas multiturno. Utilizando essa estrutura, treinamos o OpenWebRL-4B, que estabelece um novo estado da arte de código aberto em benchmarks web ao vivo desafiadores. Com apenas 0,4 mil trajetórias de inicialização e 2,2 mil tarefas de treinamento RL abertas, o OpenWebRL-4B atinge 67,0% de sucesso no Online-Mind2Web e 64,0% no DeepShop, superando agentes abertos anteriores de escala similar ou maior e mantendo-se competitivo com sistemas proprietários, incluindo OpenAI CUA e Gemini CUA. Além do forte desempenho em benchmarks, estudamos sistematicamente as principais escolhas de design que tornam o RL online eficaz para agentes visuais web e analisamos como o RL melhora o raciocínio agentivo. No geral, nosso trabalho oferece um caminho prático para construir agentes web abertos mais capazes, reproduzíveis e econômicos. Disponibilizaremos nossos dados de treinamento, modelos e código para apoiar pesquisas futuras.
A Decodificação Especulativa (Speculative Decoding, SD) acelera a inferência de LLMs com baixa concorrência por meio de um paradigma de rascunho e verificação. No entanto, os métodos convencionais geralmente dependem da predição de múltiplos tokens, o que introduz dificuldade crescente de predição e latência de elaboração serial. Para resolver esses problemas, propomos a Decodificação Especulativa em Pipeline (Speculative Pipeline Decoding, SPD), uma estrutura inovadora que desbloqueia o verdadeiro potencial do paralelismo de pipeline. Ao particionar o LLM alvo em n estágios de pipeline, o SPD permite que o LLM processe n tokens em paralelo para acelerar a decodificação. Para preencher continuamente o pipeline na decodificação de sequência única, um módulo de especulação agrega características intermediárias em diferentes profundidades de pipeline para prever o próximo token, executando estritamente em paralelo com a etapa de pipeline do modelo alvo, a fim de obter dificuldade limitada, taxas de aceitação mais altas e bolhas de latência zero. Nossos experimentos demonstram que o SPD atinge um ganho de velocidade teórico significativamente maior em comparação com as linhas de base convencionais, oferecendo uma solução altamente escalável para a aceleração da decodificação de LLMs. Nosso código está disponível em https://github.com/yuyijiong/speculative_pipeline_decoding.
A aprendizagem por reforço (RL) melhora agentes baseados em modelos de linguagem de grande porte (LLMs) ao ensinar quais ações geram altas recompensas, mas fornece pouca supervisão sobre o que essas ações causam no ambiente. A modelagem de mundo (WM) pode preencher essa lacuna, porém abordagens existentes frequentemente exigem simuladores separados, etapas adicionais de treinamento ou computação extra durante a inferência. Observamos que os rollouts de RL on-policy já contêm o sinal necessário: cada transição emparelha uma ação com a observação resultante subsequente. Com base nessa observação, propomos PaW, uma estrutura de co-treinamento de política e modelagem de mundo que adiciona supervisão auxiliar de WM à mesma política durante a RL, sem alterar o paradigma de inferência. Para tornar a supervisão auxiliar de WM informativa e estável, o PaW introduz três componentes: seleção de dados de WM baseada em entropia de ação, perda de WM tolerante a ruído e balanceamento adaptativo de perda baseado em recompensa. Experimentos em três conjuntos de tarefas agentivas mostram melhorias consistentes em relação a fortes linhas de base de RL em diferentes modelos e algoritmos de RL. Esses resultados sugerem que rollouts padrão de RL são uma fonte prática de supervisão de WM para o treinamento de agentes linguísticos.
A compreensão de affordances conecta a percepção visual à ação física, servindo como uma interface explicável para a manipulação robótica em ambientes reais abertos e não estruturados. No entanto, construir um modelo fundamental de affordances que não apenas entenda onde e como a interação deve ocorrer, mas também generalize entre diversos ambientes, objetos e tarefas, continua sendo um desafio de pesquisa de longa data. Métodos existentes geralmente abordam apenas parte desse desafio, seja localizando regiões relevantes para a tarefa sem especificar movimentos executáveis, seja prevendo movimentos com escalabilidade limitada. Neste artigo, apresentamos o *ourmodel*, um passo em direção a um modelo fundamental de affordances para compreensão de funcionalidades. A partir de uma única observação RGB-D e uma descrição de tarefa em linguagem, o *ourmodel* prevê uma máscara funcional condicionada à tarefa (onde interagir) e uma curva de movimento 3D pós-contato (como interagir). Para apoiar a generalização em mundo aberto, construímos um pipeline de dados padronizado em larga escala que converte dados heterogêneos de robôs, humanos, simulações e escaneamentos do mundo real em um esquema compartilhado de affordances com linguagem, máscaras e rótulos de movimento 3D centrados no objeto. Avaliamos o *ourmodel* em três aspectos: para segmentação de affordances, o *ourmodel* supera todas as linhas de base com grande margem em 8 conjuntos de teste de 4 benchmarks, melhorando a média gIoU/cIoU em +23,9/+26,3; para previsão de pontos de contato, ele prevê pontos substancialmente mais precisos, com um ganho de taxa de acerto de 12,7–61,3% sobre a melhor linha de base; e para movimento 3D, alcança o melhor desempenho em todos os três conjuntos de teste. O *ourmodel* pode ser implantado para manipulação robótica em mundo real sem ajuste fino para a corporeidade do robô ou uso de heurísticas específicas de tarefa, demonstrando a capacidade de se adaptar a tarefas de affordances em mundo aberto. Página do projeto: https://www.zhaoningwang.com/AFUN
Habilidades reutilizáveis são um mecanismo chave para expandir as capacidades de agentes, permitindo-lhes acumular experiência e resolver tarefas cada vez mais complexas. No entanto, a maioria dos métodos existentes de aprendizado de habilidades armazena experiência reutilizável exclusivamente como ativos textuais, como instruções, traços de raciocínio ou trajetórias resumidas. Argumentamos que esse paradigma exclusivamente textual cria um gargalo fundamental para tarefas centradas em visão, onde o conhecimento reutilizável frequentemente depende de layout espacial, ancoramento visual, aparência refinada e mudanças de estado localizadas. Para superar essa limitação, propomos \NAME, um paradigma de habilidade multimodal que combina lógica textual declarativa com suporte visual explícito. Distinguimos três formas reutilizáveis: priores estáticos para convenções espaciais estáveis, priores dinâmicos para memória de trabalho visual in situ, e habilidades visuais intercaladas que vinculam etapas textuais ordenadas aos quadros de origem, capturas de tela ou regiões de página que as justificam. Em vez de apenas descrever o que fazer, as habilidades visuais também codificam onde olhar, como inspecionar e como verificar resultados visuais. Para escalar a construção de habilidades visuais, introduzimos \SYSTEM, um sistema automático que converte experiência do agente em habilidades multimodais reutilizáveis, preservando raciocínio textual, referências espaciais, limites visuais e padrões de interação das trajetórias das tarefas. Experimentos em GUI e outras tarefas centradas em visão mostram que habilidades visuais superam consistentemente habilidades exclusivamente textuais, particularmente quando o sucesso requer correspondência espacial, evidência visual e interação ciente do estado. Esses resultados sustentam nossa posição central: habilidades reutilizáveis de agentes devem ir além do texto e se tornar ativos multimodais para futuros agentes multimodais.
Modelos de Visão-Linguagem (VLMs) demonstram forte compreensão visual e estão cada vez mais empregados em sistemas de IA incorporada, onde a percepção confiável sob condições reais é essencial. No entanto, os referenciais existentes avaliam VLMs utilizando imagens limpas ou perturbações isoladas, em vez de tensões causadas pela formação de cenas físicas. Esse projeto apresenta duas limitações: abrange apenas um subconjunto restrito de tensões visuais cotidianas, e algumas perturbações raramente aparecem em cenas incorporadas realistas. Essa lacuna levanta uma questão fundamental: como definir estresse visual de forma fundamentada que capture os diversos fatores encontrados em ambientes físicos? Para abordar essa questão, formulamos a percepção visual a partir de uma perspectiva de gráficos inversos e introduzimos o RoboStressBench, um referencial para avaliar a robustez de VLMs ao estresse visual físico em cenas incorporadas. Inspirado pela equação de renderização física, o RoboStressBench decompõe o estresse visual em quatro dimensões fisicamente fundamentadas: Material (M), Ponto de Vista (V), Iluminação (L) e Geometria (G). Esse projeto permite que o RoboStressBench cubra uma ampla gama de estresses visuais em ambientes do mundo real, ao mesmo tempo que possibilita uma análise controlada de seus efeitos sobre capacidades dos VLMs, como reconhecimento visual, raciocínio e planejamento. Por meio de avaliações abrangentes de VLMs de última geração, identificamos modos de falha específicos a cada estresse e revelamos que diferentes fatores físicos degradam diferentes capacidades incorporadas, frequentemente obscurecidas pela precisão agregada. Introduzimos ainda um solucionador agentivo consciente de estresse que detecta estressores visuais e invoca habilidades de edição visual antes do raciocínio, melhorando a robustez em cenários de alto estresse. No geral, o RoboStressBench fornece um referencial de avaliação fundamentado para diagnosticar e melhorar a percepção de VLMs sob estresse físico do mundo real, apoiando o desenvolvimento de sistemas de IA incorporada mais confiáveis.
Grandes Modelos de Visão-Linguagem (GMVLs) mapeiam entradas visuais em sequências densas de tokens, impondo um gargalo computacional quadrático para inferência. A compressão elástica de tokens visuais aborda esse problema treinando um único modelo que pode operar com múltiplos orçamentos de tokens visuais. No entanto, as abordagens existentes enfrentam dificuldades sob compressão agressiva. A compressão apenas espacial, como no pooling aninhado, comporta-se como um filtro passa-baixas imperfeito e induz aliasing espectral que obscurece detalhes finos. A compressão apenas de consulta, como na reamostragem de consultas aninhada, substitui tokens alinhados à grade explícita por sumários não locais e degrada substancialmente a ancoragem espacial. Para resolver esse conflito representacional, apresentamos o PARCEL (Reamostragem Ancorada em Pool com Consultas Elásticas Condicionadas para Compreensão Eficiente de Visão-Linguagem), uma arquitetura de tokenização visual que particiona dinamicamente o trabalho de extração de características. O PARCEL estabelece tokens de pool espaciais como âncoras de layout de baixa frequência e condiciona tokens de consulta elásticos a essas âncoras por meio da Reamostragem de Consultas Condicionada ao Pool. Isso incentiva os tokens de consulta a focar em características visuais complementares, em vez de mapeamento espacial redundante. Avaliações extensivas em 27 benchmarks mostram que o PARCEL melhora a fronteira de Pareto de desempenho-eficiência, superando consistentemente as linhas de base matrioshka existentes em diferentes orçamentos de tokens visuais, preservando ao mesmo tempo o paradigma "treine uma vez, implante em qualquer lugar".
Modelos de linguagem grandes multimodais (MLLMs) demonstram capacidades robustas em percepção, raciocínio e geração de ações. No entanto, sua capacidade de sustentar exploração em mundos abertos dinâmicos ainda não está clara. Benchmarks incorporados e baseados em jogos existentes frequentemente comprimem a interação em tarefas de horizonte curto ou misturam o sucesso com mecânicas de jogo específicas do domínio. Neste artigo, apresentamos o benchmark MineExplorer para avaliar as capacidades de exploração em mundo aberto de agentes MLLM no Minecraft. Primeiro, filtramos tarefas atômicas cujas soluções dependem fortemente de conhecimento específico do Minecraft para melhor refletir o raciocínio geral em mundo aberto. Em seguida, organizamos o benchmark em torno de uma formulação de capacidade no estilo ReAct e compomos tarefas atômicas em tarefas implícitas de múltiplos saltos. Para construir instâncias confiáveis, o MineExplorer utiliza um fluxo de trabalho de síntese multiagente que projeta conjuntamente gráficos de tarefas, cenários em sandbox e avaliadores de marcos baseados em regras. A avaliação humana mostra que o fluxo de trabalho de síntese multiagente produz instâncias significativamente mais confiáveis do que uma linha de base de agente único. Experimentos com agentes MLLM avançados mostram que a exploração em mundo aberto continua desafiadora, pois modelos robustos lidam com muitas tarefas de salto único, mas degradam-se acentuadamente quando pré-requisitos ocultos precisam ser coordenados ao longo de trajetórias mais longas. Análises adicionais revelam que a dificuldade da tarefa acompanha a conclusão do agente, e modelos maiores ou modos de raciocínio não se traduzem consistentemente em melhor desempenho. Código e conjunto de dados estão disponíveis em https://github.com/Jometeorie/MineExplorer.
Modelos de visão-linguagem-ação (VLA) são construídos sobre a premissa de que a compreensão semântica proveniente de backbones de linguagem ou visão-linguagem pré-treinados deve guiar a predição de ações robóticas. No entanto, o ajuste fino robótico é otimizado como imitação sobre distribuições de ações específicas da tarefa, e muitas avaliações podem ser resolvidas por meio de atalhos visuais ou de instrução-ação. Apresentamos o RoboSemanticBench (RSB), um benchmark incorporado para diagnosticar a fundamentação semântica na predição de ações: se modelos VLA pós-treinados conseguem usar a semântica complexa de instruções para selecionar e manipular o alvo físico correto. Em cada episódio, um robô recebe uma pergunta de múltipla escolha de matemática ou conhecimento geral, observa blocos de respostas candidatas e deve agarrar o bloco correspondente à resposta correta. O RSB abrange aritmética controlada, compreensão matemática de nível escolar básico e compreensão de senso comum ou factual em suítes de quatro e dez escolhas. Através de modelos VLA representativos, descobrimos que muitas políticas aprendem a agarrar blocos candidatos, mas selecionam o bloco semanticamente correto em taxas próximas ao aleatório ou abaixo dele, após controlar pelo sucesso da ação de agarrar, revelando uma lacuna persistente entre a competência semântica no nível do backbone e a predição de ações.
Selecionar a melhor resposta a partir de múltiplas amostras de um modelo pequeno usando um avaliador mais forte é uma estratégia simples em tempo de inferência, mas falha quando o modelo pequeno já se comprometeu com caminhos de raciocínio incorretos. A busca guiada por PRM evita isso ao pontuar continuações candidatas durante a geração, mas requer um modelo de recompensa treinado com rótulos no nível de etapa. Propomos a Geração Guiada por Nível de Bloco, uma alternativa sem treinamento que utiliza um modelo de linguagem grande disponível como avaliador de processo. A cada passo, um modelo pequeno amostra k blocos candidatos de comprimento fixo, enquanto o modelo maior pontua os candidatos usando verossimilhanças sem gerar nenhum texto. O bloco selecionado é comprometido antes do próximo passo, direcionando a geração antes que erros possam se propagar. Instanciamos este arcabouço com duas regras de seleção: Seleção Guiada por Verossimilhança (SGV), que seleciona o bloco com a maior log-probabilidade normalizada por comprimento do modelo grande, e Seleção Guiada por Contraste (SGC), que subtrai a log-probabilidade do modelo pequeno para favorecer blocos onde a preferência do modelo grande diverge da do modelo pequeno. Mostramos que pontuar passos de raciocínio de comprimento variável com verossimilhanças de modelos grandes é não confiável devido a um viés sistemático de comprimento que persiste mesmo após a normalização por comprimento, e que blocos de comprimento fixo evitam essa confusão. Em GSM8K, MATH, Minerva Math, AMC23 e AIME24 com Qwen2.5-1.5B guiado por Qwen2.5-32B e Llama-3.2-1B guiado por Llama-3.1-70B, a SGC supera a votação majoritária em até 28 pp e, sob orçamentos de orientação equivalentes, iguala ou supera a busca guiada por Qwen2.5-Math-PRM-72B na maioria dos benchmarks sem treinamento de modelo de recompensa. Com Qwen2.5-7B guiado por Qwen2.5-72B, a SGC atinge 81,8% no MATH e 63,6% no Minerva Math com k=16, superando a votação majoritária em 4–6 pp. Finalmente, a Geração Guiada por Nível de Bloco produz traços de raciocínio substancialmente mais curtos do que a busca guiada por PRM.
Hoje, os agentes de uso de computador (CUAs) são majoritariamente implantados como agentes seriais únicos. Essa configuração é subótima para tarefas complexas de horizonte longo, que se beneficiam da decomposição de tarefas, execução paralela e replanejamento consistente com base em novas informações. Neste artigo, argumentamos que devemos avançar em direção à avaliação e construção de sistemas multiagente de uso de computador (MACU). Esses sistemas, que enfatizam o planejamento e a execução paralela, aliviam muitas das limitações dos CUAs de agente único. Propomos uma configuração multiagente geral na qual um modelo gerente decompõe tarefas de uso de computador em um grafo acíclico dirigido (DAG), codificando dependências e metas relevantes para os subagentes. A cada iteração, o gerente despacha subagentes CUA paralelos para executar nós na fronteira pronta do DAG e revisa continuamente o DAG (adicionando, cancelando ou reescrevendo nós) à medida que novas descobertas chegam dos subagentes. Esse design trata o ambiente parcialmente observável do uso de computador como um desafio de primeira classe: informações que agentes downstream podem não conseguir reobservar são retidas e passadas adiante por meio do gerente e da estrutura do DAG. Demonstramos que o MACU melhora consistentemente bases fortes de agente único em 3,4–25,5% nos benchmarks de desktop (OSWorld) e navegação web (Online-Mind2Web, WebTailBench, Odysseys), exibe um escalonamento em tempo de teste mais favorável e resolve tarefas complexas de horizonte longo nas quais CUAs de agente único travam. No Odysseys, um benchmark de navegação web de horizonte longo, o MACU melhora o tempo médio real de conclusão de tarefas em aproximadamente 1,5 vezes, demonstrando sua eficácia em acelerar pipelines de CUA tradicionalmente lentos. Nossos achados destacam que a coordenação multiagente é um eixo promissor para escalar agentes de uso de computador a fim de trabalharem por mais tempo e de forma mais produtiva. Disponibilizamos todo o código e visualizações interativas em https://jykoh.com/multi-agent-computer-use.
Medir a compreensão de objetos estruturados em modelos de base de visão continua sendo desafiador devido a protocolos de avaliação inconsistentes e à supervisão limitada em nível de partes. A correspondência semântica (CS) avalia essa capacidade testando se partes de objetos podem ser associadas entre instâncias e categorias, sob grandes variações de aparência, ponto de vista e geometria. Para possibilitar uma avaliação sistemática de CS, apresentamos o SOCO, um novo benchmark para Correspondência Semântica de Objetos que introduz uma taxonomia de tipos de correspondência e fornece anotações de pontos-chave consistentes e funcionalmente significativas em 100 categorias e mais de 1 milhão de pares de correspondência. Além disso, o SOCO inclui descrições textuais dos pontos-chave, permitindo a avaliação de grandes modelos de visão e linguagem (LVLMs) e sua compreensão refinada em nível de partes. Experimentos abrangentes revelam que (i) backbones de modelos de base de visão codificam forte estrutura semântica, mas transferem mal as correspondências entre categorias relacionadas e capturam apenas parcialmente a posição das partes dos objetos; (ii) os LVLMs são mais robustos na localização de partes baseada em texto do que na correspondência entre imagens por referência visual, expondo uma lacuna entre a localização fundamentada em linguagem e a correspondência visual refinada; e (iii) o desempenho em correspondência prediz o desempenho em tarefas densas subsequentes — incluindo segmentação, rastreamento, estimativa de pose 3D e detecção 3D — de forma mais forte do que a classificação do ImageNet. Em conjunto, esses resultados posicionam o SOCO como um benchmark para a qualidade de representação estruturada em nível de partes em modelos de base de visão e multimodais.
A desaprendizagem de modelos de linguagem de grande porte (LLMs) emergiu como um mecanismo pós-hoc crucial para proteção de privacidade e segurança de IA, no entanto, auditar se o conhecimento alvo foi verdadeiramente apagado permanece desafiador. As métricas existentes de nível de saída falham em detectar quando esse conhecimento permanece recuperável a partir de representações internas. Estudos recentes de caixa branca revelam esse conhecimento residual, mas frequentemente dependem de treinamento auxiliar ou adaptações específicas de conjunto de dados, não deixando uma métrica generalizável. Para abordar essas limitações, propomos o Unlearning Depth Score (UDS), uma métrica que quantifica a profundidade mecanicista da desaprendizagem via patching de ativação. O UDS primeiro identifica camadas que codificam o conhecimento alvo usando um modelo de retenção de linha de base, em seguida mede o quanto dele é apagado no modelo desaprendido em uma escala de 0 a 1. Em uma meta-avaliação com 20 métricas em 150 modelos desaprendidos abrangendo 8 métodos, o UDS alcança a maior fidelidade e robustez, confirmando nossa abordagem causal como a mais confiável para avaliação de desaprendizagem. Estudos de caso revelam ainda que métricas de caixa branca podem discordar no nível de camada e que a profundidade de apagamento varia entre exemplos. Fornecemos diretrizes para integrar o UDS em estruturas de benchmarking existentes e simplificar o pipeline de avaliação. Código e dados estão disponíveis em https://github.com/gnueaj/unlearning-depth-score.
Compreender imagens de gráficos e tabelas é essencial para aplicar modelos de visão-linguagem (VLMs) à compreensão de documentos no mundo real. Embora os benchmarks em inglês tenham avançado rapidamente, equivalentes em outros idiomas permanecem escassos, deixando incerto se esse progresso se generaliza entre línguas. Um obstáculo fundamental é a dificuldade de coletar imagens realistas e diversas de gráficos e tabelas em outros idiomas em grande escala. Para enfrentar isso, aproveitamos os white papers governamentais como uma fonte escalável para a construção de benchmarks além do inglês, pois eles contêm gráficos e tabelas naturalmente ocorrentes em diversos formatos e domínios, sendo livremente acessíveis em muitos países. Como primeira instanciação, apresentamos o HakushoBench, um desafiador benchmark de VQA (Visual Question Answering) para gráficos e tabelas em japonês, construído a partir de 33 white papers governamentais. O HakushoBench contém 2.053 imagens abrangendo mais de 10 tipos de imagem, com pares de perguntas e respostas anotados manualmente, projetados para avaliar a compreensão profunda e holística de gráficos e tabelas, em vez de apenas pistas visuais locais. Experimentos com uma ampla gama de VLMs demonstram que o HakushoBench continua desafiador para modelos de pesos abertos: o melhor modelo de pesos abertos alcança apenas 58,6% de precisão, e uma diferença de 34,9 pontos percentuais entre modelos de pesos abertos e proprietários destaca a necessidade substancial de melhorias na compreensão complexa de gráficos e tabelas. Disponibilizamos nosso conjunto de dados e código.
A verdadeira inteligência de vídeo exige mais do que reconhecer o que é visível: requer raciocinar sobre por que os eventos se desenrolam, prever o que mudaria sob diferentes condições e decidir o que fazer a seguir. Referimo-nos a essa progressão, da percepção através do raciocínio causal e simulação até o planejamento estratégico, como Inteligência de Vídeo Estratégica (SVI, na sigla em inglês). Nenhum padrão de referência existente avalia essa pilha de capacidades: vídeos do mundo real carecem de ground truth verificável para perguntas causais e estratégicas, enquanto ambientes sintéticos sacrificam a complexidade dos sistemas multiagentes reais. Para preencher essa lacuna, apresentamos o SVI-Bench, um benchmark de grande escala que utiliza esportes coletivos como um micromundo dinâmico, combinando a complexidade da interação multiagente do mundo real (10 a 22 agentes tomando decisões coordenadas sob pressão adversária) com a verificabilidade de regras explícitas e resultados definitivos. O SVI-Bench compreende aproximadamente 35 mil horas de vídeo transmitido, 15 milhões de ações anotadas, 15 mil horas de comentários de especialistas, 23 mil relatórios de jogos e 103 mil registros estatísticos estruturados em basquete, futebol e hóquei, todos construídos por meio de um mecanismo de dados que transforma dados brutos de jogos em um corpus denso e com referências cruzadas. Organizamos a avaliação em 9 tarefas distribuídas em uma hierarquia progressiva de quatro pilares: Compreensão Dinâmica de Cena, Raciocínio Causal, Simulação Estratégica e Síntese Agencial. Ao avaliar bases de referência multimodais e agenciais robustas, encontramos um precipício de capacidade: os modelos têm desempenho competente em tarefas perceptivas, alcançando aproximadamente 73% em perguntas e respostas de ações refinadas, mas degradam-se acentuadamente em cada nível cognitivo sucessivo. As tarefas agenciais mostraram-se as mais difíceis: o modelo mais forte atinge apenas 5% de precisão quando precisa reunir e integrar evidências de forma autônoma em um corpus de 1,8 milhão de clipes.
A busca agentiva exige que agentes de linguagem explorem múltiplas fontes e respondam a perguntas complexas de obtenção de informação. Ampliar a computação em tempo de teste é uma abordagem promissora para aprimorar esses agentes, mas as estratégias atuais podem falhar, pois respostas corretas são frequentemente esparsas e a seleção baseada em pontuação depende da calibragem do modelo. Propomos o FineVerify, uma estrutura de autoverificação de granularidade fina que decompõe cada pergunta em subquestões verificáveis, verifica candidatos amostrados em relação a cada subquestão e seleciona o candidato com a maior pontuação agregada. Essa estrutura por verificação transforma a seleção em julgamentos locais mais simples e produz pontuações sob os mesmos critérios explícitos. Em quatro referenciais de busca agentiva e dois modelos, o FineVerify supera consistentemente as linhas de base padrão de escalonamento. Com apenas quatro trajetórias amostradas, ele melhora o GPT-5-mini em 8,2 pontos de acurácia e o Gemini-3-flash em 5,6% em média. Com 12 amostras, o FineVerify permite que o GPT-5-mini supere o GPT-5 de fronteira no BrowseComp-Plus. Além da acurácia, o FineVerify produz traços de verificação interpretáveis que auxiliam na auditoria de erros nos referenciais, sugerindo aplicações mais amplas para inspeção de sistemas de busca agentiva. Código e dados estão disponíveis em https://github.com/XuZhao0/fineverify.
Sistemas de IA Física estão cada vez mais mapeando observações multimodais, instruções em linguagem natural e representações aprendidas do mundo em ações com consequências físicas. Modelos fundacionais de robótica, modelos visão-linguagem-ação e sistemas autônomos baseados em modelos do mundo podem condicionar decisões que movimentam veículos, robôs, drones e máquinas industriais. Essa transição expõe um problema de segurança que não é totalmente capturado pela moderação tradicional de conteúdo de IA nem pela segurança robótica clássica: um modelo de caixa preta pode emitir uma ação com consequências físicas aparentando ser confiante, plausível e semanticamente alinhada. A falha resultante pode ser silenciosa, originando-se de deriva de sensor, oclusão, erro de estimação de estado, mudança de distribuição, affordances alucinados ou suposições físicas inválidas, antes que os controladores de hardware a jusante detectem uma violação. Entre modelos fundacionais incorporados, modelos do mundo, simulação robótica, benchmarks de segurança incorporada, controle seguro, garantia em tempo de execução, estimação de incerteza, verificação e avaliação de guardrails, as capacidades dos modelos e os mecanismos de segurança avançaram ao longo de trilhas técnicas amplamente separadas. Uma lacuna recorrente sintetizada aqui é que nenhum fluxo individual pesquisado nesta revisão fornece um limite completo de autorização em tempo de execução entre modelos de IA Física de caixa preta e a execução física. A análise resultante desenvolve uma formulação de problema delimitada, uma definição de falha silenciosa de ação física, uma taxonomia de funções de guardrail em tempo de execução e requisitos de avaliação para comparar guardrails como mecanismos de garantia de IA Física.
O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma técnica central para o pós-treinamento de Modelos de Linguagem de Grande Escala (LLMs). Embora a otimização de política seja impulsionada por todos os tokens amostrados sob uma recompensa escalar globalmente transmitida, os comportamentos heterogêneos de política exibidos ao longo das trajetórias são amplamente negligenciados, sem diferenciação. Trabalhos existentes abordam isso por meio da alocação de crédito, incluindo reatribuição de vantagem em nível de token e otimização seletiva de tokens; no entanto, os critérios de alocação permanecem essencialmente estagnados ao longo do treinamento, limitando a evolução resiliente da política. Neste trabalho, argumentamos que *quando* os sinais de aprendizado são programados pode ser tão importante quanto *onde* eles são alocados entre os tokens, e introduzimos a dimensão temporal, que agenda os critérios de alocação de crédito ao longo da otimização RLVR. Descobrimos que priorizar tokens específicos enfatizados com comportamentos de política particulares, e atenuar gradualmente em direção à otimização geral, leva a uma dinâmica de aprendizado mais estável e eficiente. Além disso, mostramos que percentis simples de trajetória fornecem uma perspectiva natural para distinguir comportamentos de política e funcionam de forma eficaz com o agendamento temporal. Nossa análise revela que a otimização padrão sacrifica substancialmente a entropia da política ao acomodar simultaneamente comportamentos heterogêneos, enquanto o agendamento temporal produz uma dinâmica de evolução da política mais saudável. Experimentos em benchmarks de raciocínio matemático e geral demonstram melhorias consistentes, sugerindo que o agendamento temporal constitui uma dimensão de otimização promissora.
Embeddings de frases são um componente fundamental para busca semântica, agrupamento, classificação e geração aumentada por recuperação. Este artigo apresenta o embeddingmagibu-200m, um modelo de embedding de frases focado em turco que produz vetores normalizados por L2 com 768 dimensões e suporta uma janela de contexto de 8.192 tokens, superando em muito o limite de 512 tokens dos codificadores turcos anteriores baseados em BERT. Em vez de um pré-treinamento completo, é introduzido um pipeline eficiente de adaptação em três estágios: (1) construir um tokenizador multilíngue otimizado para turco com um vocabulário de 131.072 tokens, podando tokens redundantes do vocabulário do modelo professor e incorporando tokens multilíngues via análise de frequência em um corpus de 40 idiomas; (2) clonar um modelo de embedding professor, preservando os pesos do backbone do transformer e inicializando uma tabela de embeddings compatível para o novo vocabulário via mapeamento de tokens por composição de médias; e (3) realizar destilação de embeddings offline a partir de vetores pré-computados do professor, utilizando um objetivo de similaridade cosseno sobre um corpus equilibrado da Wikipédia em 40 idiomas. O modelo aluno resultante possui aproximadamente 200 milhões de parâmetros e é treinado em cerca de quatro horas em uma única GPU, evitando inferência online do professor durante o treinamento, a um custo total de 5 a 20 dólares. Empiricamente, são obtidas correlações de Pearson/Spearman de 77,55%/77,45% no STSbTR, superando o modelo professor de 300 milhões de parâmetros (73,84%/72,92%). No TR-MTEB (26 tarefas), é alcançada uma pontuação média de 63,9% (7º lugar entre 26 modelos), proporcionando uma relação custo-qualidade competitiva com 33% menos parâmetros que o professor. Para facilitar a reprodutibilidade e o uso downstream, todos os artefatos são disponibilizados, incluindo pesos do modelo, arquivos do tokenizador, conjuntos de dados de embeddings pré-computados e ferramentas de clonagem e destilação de código aberto.
A modelagem 3D procedural por meio de código está emergindo como um paradigma versátil, oferecendo ativos determinísticos, prontos para motor gráfico e editáveis com precisão, características que os geradores neurais 3D inerentemente não possuem. No entanto, a criação de tal conteúdo procedural exige profunda expertise em APIs de software 3D, design paramétrico e raciocínio geométrico em nível de código. Neste artigo, propomos o 3DCodeBench, um benchmark sistemático para avaliar agentes de modelo de visão-linguagem (VLM) para geração procedural 3D em softwares de modelagem 3D. Especificamente, o 3DCodeBench avalia a eficácia com que 12 VLMs avançados podem atuar como modeladores procedurais 3D, traduzindo referências de texto e imagem em código procedural para software de modelagem 3D. Reconhecendo que métricas automatizadas podem não capturar totalmente a qualidade perceptual de formas 3D, construímos o 3DCodeArena, uma plataforma de ranqueamento baseada em preferências humanas pareadas sobre as saídas 3D geradas. A partir de avaliações e resultados extensivos, observamos que: (1) As falhas decorrem principalmente de incompatibilidades de API, enquanto as renderizações bem-sucedidas ainda sofrem com componentes geométricos 3D desconectados ou flutuantes. (2) O escalonamento em tempo de teste, como maiores orçamentos de pensamento e refinamento em múltiplas interações, melhora o desempenho geral. Nossos achados destacam uma necessidade crítica de dados de codificação procedural de alta qualidade para avançar VLMs comerciais. Além disso, a modelagem procedural 3D eficaz requer um ambiente de execução robusto que forneça feedback de alta fidelidade para refinamento iterativo. Disponibilizamos o 3DCodeBench, incluindo o conjunto de dados curado em larga escala de prompts multimodais (texto/imagem), código procedural, trios de objetos 3D, protocolo de avaliação e a plataforma pública 3DCodeArena como um kit de ferramentas fundamental para explorar modeladores procedurais 3D baseados em VLM.
À medida que aplicações do mundo real exigem cada vez mais o processamento de entradas com mais de 100 mil tokens, a lacuna entre o comprimento do contexto e a eficiência da inferência tornou-se um gargalo crítico. A compressão de contexto oferece uma maneira de reduzir os custos de prefill enquanto preserva a precisão da tarefa. No entanto, os métodos existentes baseados em atenção e sem treinamento deixam lacunas substanciais em tarefas exigentes de contexto longo, como raciocínio sobre código. Apresentamos o LongAttnComp, uma adaptação para contexto longo do AttnComp que ajusta finamente uma camada leve de pontuação de atenção cruzada e introduz chunking em nível de token, um algoritmo top-p com orçamento de tokens, reordenação posicional e um analisador de consultas agnóstico de formato. Projetamos ainda uma receita de ajuste fino em dois estágios para o compressor: o Estágio 1 constrói uma base geral de recuperação a partir de dados no estilo NIAH, e o Estágio 2 a expande com dados de múltiplos saltos (multi-hop) e raciocínio para uma cobertura mais ampla de tarefas de contexto longo. No InfiniteBench Code-Debug, o LongAttnComp iguala ou excede a precisão do contexto completo, supera substancialmente as linhas de base sem treinamento e transfere-se entre quatro modelos alvo de três famílias. No LongBench v2, a receita de dois estágios reduz amplamente a lacuna do Estágio 1 em raciocínio com múltiplos documentos, preservando o desempenho no Code-Debug.
Este artigo aborda o desafio de integrar malhas 3D como uma modalidade nativa em Modelos de Linguagem Grandes e Multimodais (MLLMs). Modelos de reconstrução grandes baseados em difusão dissociam a compreensão semântica do raciocínio geométrico, operando como reconstrutores sem estado condicionados a priores densos de pixel 2D. Métodos recentes baseados em MLLMs tratam a modalidade 3D como uma saída externa, em vez de um componente nativo da sequência multimodal, realizando adaptações incrementais sem uma análise sistemática de como as variedades geométricas se alinham com os espaços de características dos MLLMs. Apresentamos o EVA01, uma estrutura unificada que expande o limite de modalidade dos MLLMs para incorporar nativamente a compreensão, geração e edição sensível ao contexto de malhas 3D. Construído sobre uma arquitetura de Mistura de Transformers (MoT), o EVA01 dissocia o modelo em um Especialista em Compreensão pré-treinado (E_{und}) e um Especialista em Geração estruturalmente espelhado (E_{gen}), acoplados por meio de autoatenção global compartilhada com roteamento de modalidade rígido. Este design alinha o espaço latente semântico da espinha dorsal do MLLM com a variedade geométrica, permitindo a transferência direta de priores multimodais sem representações 2D intermediárias. Os resultados mostram que o EVA01 alcança fidelidade de geração nativa texto-para-3D de última geração e desbloqueia edição geométrica robusta em contexto longo e de múltiplas rodadas com preservação de identidade, uma capacidade fundamentalmente inacessível para pipelines de reconstrução sem estado. Nossas descobertas oferecem ainda insights arquiteturais para integrar modelos fundamentais 2D com tarefas 3D, informando o design de sistemas multimodais nativos em 3D. Página do Projeto: https://www.seeles.ai/research/pages/EVA01
Pesquisadores acadêmicos precisam de métodos eficientes e confiáveis para coletar informações de alta qualidade de fontes confiáveis, mas as ferramentas modernas para pesquisa assistida por IA ainda sofrem da tendência dos Modelos de Linguagem de Grande Escala (LLMs) de produzir saídas factualmente imprecisas ou sem sentido, comumente chamadas de alucinações. Aplicamos o sistema de resposta a perguntas extrativo VerbatimRAG a artigos de pesquisa da ACL Anthology, mapeando diretamente consultas de usuários para trechos textuais literais em documentos recuperados. Contribuímos com um novo conjunto de dados de referência para a tarefa de mapear consultas de usuários para trechos textuais relevantes em artigos de pesquisa, e o utilizamos para treinar e avaliar uma variedade de modelos extrativos. A anotação humana é realizada por pesquisadores de PLN e baseia-se em consultas sintéticas de usuários geradas por meio de um pipeline personalizado fundamentado na metodologia ScIRGen, combinadas com trechos de artigos de pesquisa recuperados pelo VerbatimRAG. Nesse benchmark, um classificador de tokens ModernBERT de 150M de parâmetros treinado com supervisão silver do nosso pipeline alcança o melhor F1 a nível de palavra (53,6), superando o extrator LLM mais forte avaliado (48,7).
O SwiGLU tornou-se uma ativação com portão padrão nos MLPs modernos de Transformers, mas sua nitidez de portão — a suavidade e seletividade da função de portão — é tipicamente fixa durante o treinamento. Neste trabalho, propomos o SwiGLU Ciente da Confiança (κ-SwiGLU), uma variante do SwiGLU para modelos de Mistura de Especialistas (MoE) que ajusta a nitidez do portão do especialista de acordo com a confiança do roteamento em nível de token. Especificamente, o κ-SwiGLU parametriza o coeficiente de nitidez do portão SiLU como uma função aprendível do logit do roteador, permitindo que cada unidade de portão do especialista interpole entre um portão suave e amplamente ativo e um portão nítido e seletivo. Avaliamos o κ-SwiGLU no conjunto de dados FineWeb-Edu em modelos Transformer MoE variando de 8 a 28 camadas. Nessas configurações, o κ-SwiGLU melhora o desempenho médio do CORE, adicionando parâmetros desprezíveis e incorrendo apenas em uma pequena sobrecarga computacional, demonstrando que a nitidez de portão ciente da confiança é um mecanismo promissor para melhorar MLPs MoE. O código está disponível em https://github.com/askerlee/kappa-swiglu.
Agentes de Pesquisa Profunda têm demonstrado forte capacidade na recuperação de informações em múltiplas etapas, no raciocínio e na geração de relatórios longos, mas os benchmarks e sistemas existentes permanecem predominantemente centrados em texto, com avaliação limitada sobre se os elementos visuais são confiáveis factualmente e bem alinhados com a análise circundante. Para preencher essa lacuna, apresentamos o TVIR (Geração de Relatórios Intercalados Texto-Visuais), que inclui o TVIR-Bench, um benchmark composto por 100 tarefas de pesquisa profunda multimodal curadas por especialistas, que exigem elementos visuais para atender a subobjetivos analíticos específicos, e o TVIR-Agent, um framework hierárquico multiagente que serve como uma linha de base forte para a construção de esboços, recuperação de imagens, geração de gráficos com fontes rastreáveis e composição de relatórios por meio de escrita sequencial consciente do contexto. Desenvolvemos ainda um framework de avaliação de dupla via que combina Avaliação Textual e Avaliação Visual. Experimentos em nove sistemas de pesquisa profunda mostram que o TVIR-Agent alcança um desempenho geral robusto, ressaltando a importância do design multimodal explícito e da avaliação para a geração de relatórios baseada em evidências.
Para fornecer assistência eficaz no mundo real, agentes de IA precisam de uma Teoria da Mente (ToM) robusta: inferir estados mentais humanos a partir de seu comportamento. Apesar dos avanços recentes, vários desafios fundamentais persistem, incluindo (1) inferência online com atualizações robustas de incerteza sobre múltiplas hipóteses; (2) raciocínio eficiente adequado para assistência em tempo real; e (3) a falta de anotações de estado mental de referência em domínios do mundo real. Abordamos esses desafios apresentando o MindZero, uma estrutura de aprendizado por reforço autossupervisionado que treina modelos de linguagem grandes multimodais (MLLMs) para raciocínio mental online eficiente e robusto. Durante o treinamento, o modelo é recompensado por gerar hipóteses de estado mental que maximizam a verossimilhança das ações observadas, estimada por um planejador, de forma similar ao raciocínio de ToM baseado em modelo. Esse método elimina, portanto, a necessidade de anotações explícitas de estado mental. Após o treinamento, o MindZero internaliza o raciocínio baseado em modelo em uma inferência rápida de passagem única. Avaliamos o MindZero em comparação com linhas de base em tarefas desafiadoras de raciocínio mental e assistência de IA nos domínios de mundo grade e doméstico. Descobrimos que apenas LLMs são insuficientes; métodos baseados em modelo melhoram a precisão, mas são lentos, custosos e limitados pela capacidade do MLLM base. Em contraste, o MindZero aprimora a capacidade intrínseca de ToM dos MLLMs e supera significativamente os métodos baseados em modelo tanto em precisão quanto em eficiência, demonstrando que o raciocínio mental pode ser efetivamente aprendido como uma habilidade autossupervisionada.
Apesar do rápido progresso dos modelos de texto para imagem (T2I), a geração de imagens que reflitam com precisão prompts composicionais complexos (abrangendo ligações de atributos, relações entre objetos e contagem) ainda permanece desafiadora. Para abordar isso, propomos o BiDPO, uma estrutura para aprimorar a capacidade dos modelos T2I na geração composicional de texto para imagem. Iniciamos apresentando um pipeline cuidadosamente projetado para construir um conjunto de dados de preferência em larga escala, o BiComp, com controle de qualidade rigoroso. Em seguida, estendemos o Diffusion DPO para otimizar conjuntamente as preferências de imagem e texto, o que se mostrou extremamente eficaz em melhorar a capacidade dos modelos de seguir prompts textuais complexos na geração. Para aprimorar ainda mais os modelos quanto ao alinhamento refinado, empregamos um método de orientação em nível de região para focar em regiões relevantes para conceitos composicionais. Resultados experimentais demonstram que nosso BiDPO melhora substancialmente a fidelidade composicional, superando consistentemente métodos anteriores em múltiplos benchmarks. Nossa abordagem destaca o potencial do ajuste fino baseado em preferência para tarefas complexas de texto para imagem, oferecendo uma alternativa flexível e escalável às técnicas existentes.
Modelos mundiais de vídeo (MMs) têm demonstrado potencial para avaliação e melhoria de políticas ao imaginar observações futuras realistas condicionadas a ações do robô-ego. Embora MMs possam modelar distribuições sobre futuros, a avaliação e melhoria de políticas geralmente dependem de imaginações nominais, que podem perder resultados de alto impacto das ações do robô, a menos que um número proibitivo de amostras seja obtido. Para possibilitar uma avaliação e melhoria robustas de políticas sobre imaginações de MMs, propomos o StressDream, que direciona as imaginações para resultados de alto impacto e plausíveis, especificados no momento da inferência, otimizando o ruído inicial de MMs baseados em difusão. No entanto, otimizar ruídos de alta dimensão é desafiador: a otimização deve raciocinar sobre eventos-alvo matizados e dependentes da cena em vídeos gerados, evitando ruídos fora da distribuição (OOD) que produzem imaginações implausíveis. Abordamos isso com dois objetivos complementares: um objetivo semântico com um Modelo de Visão e Linguagem que fornece gradientes informativos ao raciocinar sobre o vídeo gerado, e um objetivo de plausibilidade que impede que o ruído otimizado se desvie da distribuição. Com modelos mundiais de vídeo de última geração para direção autônoma e manipulação robótica, mostramos que o StressDream direciona efetivamente as imaginações para resultados de alto impacto e plausíveis, especificados por texto no momento da inferência, como falhas de tarefas, possibilitando uma avaliação e melhoria robustas de políticas ao identificar ações cujos futuros plausíveis incluem resultados indesejáveis. Resultados em vídeo estão disponíveis em https://junwon.me/StressDream/.
Apresentamos uma forma funcional (a que nos referimos como Lei de Escala Neural Unificada (UNSL)) que modela e extrapola com precisão os comportamentos de escala de redes neurais profundas à medida que múltiplas dimensões variam simultaneamente (ou seja, como a métrica de avaliação de interesse varia ao se variar simultaneamente o número de parâmetros do modelo, o tamanho do conjunto de dados de treinamento, o número de passos de treinamento, o número de passos de inferência, a quantidade de computação e vários hiperparâmetros) para diversas arquiteturas e para cada uma das várias tarefas dentro de um conjunto variado de tarefas upstream e downstream. Este conjunto inclui visão, linguagem, matemática e aprendizado por reforço em larga escala. Quando comparada a outras formas funcionais para escala neural, esta forma funcional produz extrapolações do comportamento de escala que são consideravelmente mais precisas neste conjunto.
Sistemas de IA Física Preditiva geram rollouts de estado, blocos de ação e planos latentes, porém um baixo erro quadrático médio (RMSE) não implica que uma proposta específica seja fisicamente executável. Formulamos a admissibilidade física como uma interface de previsão-controle: antes da execução, uma proposta decodificada é tratada como dinâmica candidata e avaliada utilizando condições cinemáticas, dinâmicas e de horizonte direto-para-composto. A aprovação não é um certificado de sucesso da tarefa; a rejeição identifica a violação do envelope físico especificado e fornece uma razão em nível de componente. No Hugging Face LeRobot PushT, a falsificação controlada mostra que o RMSE de previsão de um passo e os resíduos de dinâmica padronizados atingem área sob a curva característica de operação do receptor (AUC) 0,982 e 0,972, condições exclusivamente cinemáticas atingem AUC 0,592, e o portão completo atinge AUC 0,957 com atribuição em nível de condição. Em experimentos de intervenção baseados em replay, filtros baseados em resíduos e o portão completo de admissibilidade física previnem 87%-89% das propostas inválidas, preservando o progresso médio próximo a 0,998.
Modelos de linguagem de grande escala resolvem problemas complexos gerando longas cadeias de tokens de raciocínio explícito. Embora eficaz, essa abordagem torna o raciocínio caro, sensível ao comprimento e restrito à linguagem natural (discreta). Embora o raciocínio latente ofereça uma alternativa contínua, determinar estruturas úteis para estados latentes intermediários continua sendo um desafio em aberto. Neste artigo, formulamos o raciocínio latente como um problema de aproximação geométrica de caminhos no espaço de embeddings de tokens pré-treinados do modelo. Introduzimos o Raciocínio Latente Geométrico (GLR), que utiliza uma cabeça de transição leve para prever atualizações iterativas de direção no espaço de embeddings. Usando trilhas textuais de cadeia de pensamento como âncoras, o GLR aprende a aproximar trajetórias de raciocínio discretas, ao mesmo tempo que permite desvios contínuos dos embeddings exatos de tokens. Avaliações em benchmarks de raciocínio matemático usando modelos Qwen3 revelam um fenômeno emergente: o raciocínio latente geométrico induz gerações substancialmente mais curtas sem um objetivo explícito de comprimento. Ao substituir o raciocínio explícito inicial por etapas latentes contínuas, os modelos frequentemente alcançam respostas corretas usando um número substancialmente menor de etapas de geração totais. Esses achados sugerem que trajetórias contínuas atuam como estados intermediários de raciocínio compactos, expondo um novo trade-off entre orçamento computacional latente, comprimento da saída e precisão.
Gráficos são um meio primário para transmitir informações quantitativas e relacionais, no entanto, avaliar sistematicamente modelos de interpretação de gráficos continua sendo difícil. Os benchmarks existentes focam em tipos restritos de gráficos e deixam estruturas diagramáticas, como fluxogramas e mapas mentais, em grande parte não abordadas, enquanto os modelos produzem saídas em formatos incompatíveis, e os conjuntos de dados raramente incluem as imagens impressas ou desenhadas à mão encontradas na prática. Para abordar essas questões, apresentamos o ChartArena, um benchmark bilíngue abrangente que cobre oito famílias de gráficos, abrangendo tanto gráficos numéricos quanto estruturas diagramáticas, cada um avaliado em três cenários visuais: renderizações digitais, fotos impressas e fotos desenhadas à mão. O conjunto de dados é construído por meio de um pipeline de anotação colaborativa humano-agente com verificação humana em múltiplas etapas para garantir a confiabilidade das anotações. Para permitir uma comparação justa entre modelos, projetamos ainda um protocolo de avaliação independente de formato que mapeia saídas heterogêneas em dois espaços semânticos canônicos: uma visão de triplas normalizada e uma visão de grafo direcionado, e os pontua com métricas sensíveis à estrutura. Por meio de uma avaliação extensa de 26 MLLMs líderes, observamos três achados consistentes: (i) modelos proprietários de ponta como o Gemini 3.1 Pro lideram no geral, mas os sistemas de código aberto mais fortes estão rapidamente fechando a lacuna; (ii) modelos de interpretação de documentos lidam razoavelmente com gráficos numéricos, mas ficam muito atrás em estruturas diagramáticas; e (iii) interpretadores especializados de gráficos permanecem limitados a famílias restritas de gráficos. Em todos os modelos, gráficos de radar e cenários desenhados à mão permanecem especialmente desafiadores. Esses achados mostram que o ChartArena expõe lacunas claras de capacidade e fornece uma base unificada para o progresso futuro. O ChartArena está disponível publicamente em https://github.com/pspdada/ChartArena.
Gráficos inversos é um problema antigo e altamente subdeterminado que busca reconstruir imagens como cenas 3D editáveis que possam ser renderizadas, reiluminadas e manipuladas. Neste trabalho, investigamos se modelos de visão-linguagem (VLMs) pré-treinados podem realizar gráficos inversos executáveis diretamente a partir de uma única imagem, reconstruindo uma cena como um programa Blender editável, sem depender de modelos fundamentais 2D ou 3D especializados, renderização diferenciável ou supervisão multivista. Apresentamos o Staged Executable Inverse Graphics (SEIG), uma estrutura agentiva que reconstrói uma cena 3D a partir de uma única imagem, refinando progressivamente os fatores da cena — incluindo geometria, materiais, composição e iluminação — diretamente no espaço de código executável do Blender. Avaliamos nossa estrutura em diversas cenas usando uma variedade de métricas de reconstrução que abrangem fidelidade em nível de pixel, perceptiva e semântica. Nossos experimentos mostram que a reconstrução em etapas melhora substancialmente a fidelidade da reconstrução, destacando a importância da decomposição de tarefas para gráficos inversos executáveis com VLMs de propósito geral. Por fim, demonstramos várias aplicações downstream possibilitadas pelas cenas Blender editáveis reconstruídas.
Descrevemos uma biblioteca de finanças matemáticas construída no assistente de prova Lean 4, sobre o Mathlib e o pacote BrownianMotion. Ela é ampla: mais de duzentos teoremas livres de 'sorry' em onze áreas, desde os fundamentos da teoria da medida do cálculo estocástico em tempo contínuo até a precificação de derivativos, passando pela teoria aplicada de risco, portfólio e renda fixa, e, até onde sabemos, o desenvolvimento verificado por máquina mais abrangente de finanças matemáticas até o momento. A abrangência é o contexto, não o foco. Dois aspectos a tornam mais do que um catálogo. Ela adentra a teoria contínua o suficiente para construir a integral de Itô L² como uma isometria linear limitada e para derivar, em vez de assumir, a medida de precificação neutra ao risco. E audita sua própria fidelidade: todo resultado é classificado pela forma como sua declaração em Lean se relaciona com a matemática que afirma, e um mecanismo de verificação imposto pela compilação fixa os axiomas que cada prova realmente utiliza, de modo que o leitor possa ver precisamente o que foi provado e o que foi provado apenas sob hipóteses adicionais. Concluímos com uma constatação sincera: uma base formal sobre as finanças matemáticas clássicas produz uma unificação certificada de resultados conhecidos, em vez de uma nova teoria financeira. A contribuição é, portanto, metodológica e infraestrutural: fundamentos verificados reutilizáveis para finanças matemáticas, juntamente com a auditoria de fidelidade.
Apresentamos uma nova formulação para simulação sem malha e de ordem reduzida de objetos hiperelásticos deformáveis. Trabalhos existentes em simulação elastodinâmica de ordem reduzida representam a geometria de entrada por malhas, que podem ser difíceis de obter devido aos desafios na digitalização e triangularização de formas complexas, ou por campos neurais que exigem otimização por forma. Propomos adotar uma representação baseada no Método de Partículas com Kernel Reprodutivo (RKPM), que permite a construção de pesos de skinning de ordem reduzida por meio da resolução de um sistema de autovalores generalizado sobre a matriz Hessiana da energia elástica. Demonstramos que essa formulação não apenas leva a uma aceleração de 40 vezes no treinamento em comparação com a otimização por forma de campos neurais, mas também atinge menor erro de simulação quando avaliada em relação aos resultados convergidos do método dos elementos finitos. Apresentamos nossos resultados de simulação em uma ampla variedade de objetos em diferentes representações, incluindo malhas e splats gaussianos, bem como a aplicação do nosso método na tarefa subsequente de simulação robótica.
O bitexto multilíngue em larga escala frequentemente apresenta dois problemas distintos: pares de frases não paralelos e traduções de baixa qualidade. Decompomos a avaliação baseada em modelo para tais dados em dois componentes independentes: avaliação de paralelismo com incorporações multilíngues e estimativa de qualidade (QE) sem referência. Para o paralelismo, avaliamos quatro modelos de incorporação nas tarefas de recuperação do FLORES-200 e BOUQuET, abrangendo 6.654 direções fonte–alvo em nosso inventário de pares de idiomas alvo. Para QE, avaliamos nove avaliadores sem referência em traduções profissionais do FLORES-200 em 41.412 direções fonte–alvo ordenadas. Os resultados mostram que nenhum modelo é universalmente confiável em todas as direções de tradução. Conjuntos ingênuos de QE diluem sinais fortes dos modelos, enquanto a cobertura documentada do idioma alvo está fortemente associada a pontuações mais altas de QE. No geral, esses resultados sugerem que a avaliação de dados paralelos multilíngues é melhor abordada como um problema de roteamento e calibração ciente da direção, onde não se espera que uma única métrica universal seja suficiente para todos os idiomas.
Modelos de raciocínio são avaliados em benchmarks de turno único, mas implantados em diálogos multi-turno, onde os usuários contestam respostas corretas. Sob pressão adversarial sustentada, encontramos um modo de falha anteriormente não documentado: a cadeia de pensamento permanece factualmente correta do primeiro ao último turno, enquanto a resposta emitida se torna incorreta. Chamamos isso de capitulação infiel (CI) e a isolamos com uma estrutura latente versus comportamental 2x2, que tanto as métricas de taxa de inversão quanto os testes de fidelidade de turno único deixam de capturar. Em três conjuntos de dados (MT-Consistency, MMLU-Pro, GSM8K), a taxa de correção latente no ponto de inversão comportamental se agrupa perto de 50% no modo de pensar e cai para 11-15% no modo sem_pensar – evidência causal pareada dentro do modelo de que o raciocínio cria essa lacuna. Entre modelos, o efeito acompanha o canal de raciocínio (alto no Qwen3-32B e GPT-OSS-20B, baixo no inline-CoT Gemma-4-31B-it). Um avaliador independente GPT-4o corrobora 86% das marcações de CI; um teste a nível de token mostra que o argmax do slot de resposta está correto em 84% das células de CI; e uma defesa ingênua baseada em rastreamento sai pela culatra. Disponibilizamos todas as trajetórias, rastros e marcações do avaliador.
Um sistema de geração aumentada por recuperação (RAG) implantado sobre um corpus institucional de múltiplos autores pode dar uma resposta diferente para a mesma pergunta, dependendo de qual fonte ele recupera — um modo de falha que o paradigma dominante de resposta única de ouro não consegue diagnosticar. Argumentamos que a dependência de fonte é um eixo faltante da avaliação em PLN, e que auditá-la significa deslocar a unidade de avaliação da correção da resposta para a relação entre fontes. Tornamos isso concreto na educação de pacientes transplantados, onde fontes institucionais demonstravelmente discordam, liberando três artefatos: TransplantQA, um referencial de perguntas reais de pacientes, cada uma respondida fundamentando a geração em múltiplos manuais institucionais como fontes candidatas; HERO-QA, uma estratégia de recuperação hierárquica que fundamenta e audita cada resposta; e um avaliador de saída estruturada que pontua relações entre fontes em uma taxonomia validada de 5 rótulos. Em escala, uma recuperação melhor revela muito mais discordância do que estimativas anteriores sugeriam — subestimando sua prevalência, não sua intensidade. O arcabouço é agnóstico em relação ao domínio e se transfere para RAG jurídico e educacional: medir a dependência de fonte é uma responsabilidade para o PLN multi-fonte implantado em geral.
Avaliações geradas por LLM para artigos científicos estão ganhando considerável força e estão até sendo testadas oficialmente por grandes conferências. Temos que assumir que não apenas revisores estão usando assistência de LLM, mas também que autores usam LLMs para revisar seus artigos antes da submissão. Neste trabalho, realizamos experimentos empíricos em artigos do ACL Rolling Review (ARR) de 2025 para avaliar revisões de LLM tanto da perspectiva do autor quanto do revisor. Primeiro, identificamos um alinhamento limitado das revisões de LLM com as revisões humanas. No melhor cenário, o alinhamento é razoável. No entanto, também descobrimos que o alinhamento entre LLM e humanos varia substancialmente entre prompts e modelos. Finalmente, investigamos o cenário em que o autor utiliza um fluxo de trabalho iterativo de rascunho e revisão para melhorar a submissão de acordo com a revisão do LLM. Descobrimos que essa "manipulação" das revisões de LLM pode ser eficaz em cenários específicos, levando a um aumento estatisticamente significativo das pontuações gerais em até 35% dos artigos. Publicamos nosso código: https://github.com/uhh-hcds/reviewarcade.
Os sistemas de IA são falíveis, e os humanos podem cometer erros ao decidir se devem confiar na IA em detrimento do seu próprio julgamento. Assim, melhorar a colaboração humano-IA requer compreender quando, porquê e como os humanos decidem confiar na IA. Estudamos duas decisões de confiança distintas: a escolha de delegação — decidir quando deixar a IA agir autonomamente sem conhecer o seu resultado, e a escolha de adoção — avaliar as sugestões da IA e decidir como utilizá-las. Ambos os padrões de confiança dissociados moldam a colaboração, mas trabalhos anteriores raramente os estudam em conjunto em cenários realistas com os mesmos utilizadores. Abordamos esta lacuna estudando equipas colaborativas humano-IA que competem num jogo de perguntas e respostas, no qual os humanos podem escolher quando e como trabalhar com agentes de IA para vencer. Os nossos 24 jogos emparelham 23 especialistas humanos com 16 agentes de IA, capturando 387 decisões de delegação e 1440 de adoção. Embora a colaboração humano-IA tenha um desempenho superior ao da IA ou dos humanos isoladamente, os humanos tomam decisões de colaboração subótimas, tanto subconfiando em sugestões corretas da IA (3,9% de oportunidades perdidas) como superconfiando quando a IA os induz em erro (1,7%). Ambas as partes contribuem com respostas erradas: a confiança reportada do modelo aproxima-se do acaso quando humanos e IA discordam, enquanto o viés de confirmação impulsiona uma maior subconfiança (64,5%) quando uma sugestão da IA coincide com a resposta inicial incorreta do humano. Para superar esta lacuna, recomendamos confiança calibrada, explicações baseadas em evidências e mecanismos que ajudem os utilizadores a refinar a confiança.
Neste artigo, o treinamento de uma rede neural é identificado, exatamente, como uma busca por problemas de valor inicial de Hamilton–Jacobi: cada passo de gradiente seleciona os dados iniciais de uma equação de Hamilton–Jacobi viscosa cujo propagador de Hopf–Cole melhor se ajusta às observações; na inferência, a entrada é o ponto espacial no qual essa solução é avaliada e a condição inicial já está codificada nos pesos. A correspondência é exata para camadas log-sum-exp e estrutural para arquiteturas mais amplas: redes residuais, transformadores e arquiteturas recorrentes (RNNs, LSTMs, SSMs) cada uma discretiza a mesma classe de equações de Hamilton–Jacobi, com Hamiltoniano e viscosidade dependentes da arquitetura. Um único parâmetro de deformação varepsilon unifica todas as quatro perspectivas (rede, álgebra tropical, EDP viscosa, otimização convexa) em um diagrama comutativo fechado sob condições de Lipschitz. As consequências quantitativas incluem: a taxa de generalização ótima minimax O(n^{-1/(d+2)}) para t fixo; robustez adversarial controlada por varepsilon; retropropagação como a equação de coestado do sistema Hamiltoniano para redes residuais (Princípio do Máximo de Pontryagin); expoentes de escala consistentes com a dimensão intrínseca dos dados via quadratura de EDP; e uma função de influência de forma fechada O(N) (pesos de atribuição softmax π_j) cuja paisagem de entropia sofre bifurcações de dobra à medida que varepsilon aumenta, cada uma fundindo bacias de atribuição.
A evolução diacrônica do latim para as línguas românicas envolveu uma reestruturação do sistema de gênero gramatical, passando de uma configuração tripartida (masculino, feminino, neutro) para uma bipartida (masculino, feminino) na maioria das línguas românicas. Neste trabalho, introduzimos um framework de aprendizado profundo interpretável para investigar esse fenômeno tanto no nível lexical quanto no contextual. Primeiramente, mostramos que as estratégias convencionais de tokenização não são suficientemente robustas para esse contexto histórico de poucos recursos, e que nosso tokenizador proposto melhora o desempenho em relação a essas referências. No nível lexical, avaliamos a contribuição das características morfológicas para a predição de gênero. No nível contextual, quantificamos as contribuições de diferentes categorias de classes gramaticais para a predição de gênero gramatical. Em conjunto, essas análises caracterizam a distribuição da informação de gênero entre o lema e seu contexto sentencial. Disponibilizamos publicamente nosso código, conjuntos de dados e resultados em https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}.
O escalonamento dos Modelos de Linguagem de Grande Porte (LLMs) impulsionou ganhos significativos de desempenho, mas criou desafios substanciais na eficiência de inferência. Embora as arquiteturas de Mistura de Especialistas (MoEs) abordem isso ao desacoplar o tamanho do modelo do custo de inferência, treinar MoEs do zero é frequentemente instável e computacionalmente intensivo. A conversão de modelos densos pré-treinados em MoEs esparsas surgiu como uma solução alternativa; no entanto, os métodos existentes geralmente dependem de agrupamento heurístico de neurônios ou divisão aleatória para particionar a Rede Feed-Forward (FFN) em especialistas. Neste trabalho, propomos o DOT-MoE, uma nova estrutura que formula a decomposição de camadas densas como um problema de Transporte Ótimo Diferenciável (DOT). Em vez de heurísticas estáticas, modelamos a atribuição de neurônios como um problema de transporte balanceado, utilizando iterações diferenciáveis de Sinkhorn-Knopp para impor restrições estritas de capacidade dos especialistas. Além disso, utilizamos Estimadores Straight-Through (STE) para aprender conjuntamente a atribuição discreta de neurônios a especialistas e a política de roteamento de tokens para especialistas de ponta a ponta. Extensos experimentos em múltiplas arquiteturas e benchmarks demonstram que o DOT-MoE supera significativamente as linhas de base de poda estruturada, agrupamento heurístico e divisão aleatória, mantendo 90% do desempenho do modelo denso original enquanto reduz os parâmetros ativos em 50%.
Aprender uma representação compartilhada entre texto falado e gesto é central para a recuperação, síntese e compreensão de gestos co-fala, mas continua sendo desafiador para gestos semanticamente significativos, cuja intenção comunicativa não é capturada apenas pelo movimento. O alinhamento contrastivo direto entre transcrições e embeddings contínuos de movimento frequentemente superenfatiza a cinemática de baixo nível e perde o conteúdo simbólico dos gestos semânticos. Propomos âncoras semânticas de movimento, abstrações em linguagem natural do gesto que capturam a forma física e a intenção comunicativa. Nosso método discretiza gestos 3D em primitivas de movimento corpo-mão, verbaliza-as em descrições estruturadas e as ancora na transcrição para fornecer supervisão contrastiva auxiliar. No BEAT2, nosso método melhora o R@1 de texto para gesto em 8,2% em relação a uma linha de base direta de texto-movimento e supera abordagens anteriores de recuperação nas direções de recuperação de texto para gesto e gesto para texto. Além das métricas agregadas de recuperação, a supervisão por âncoras semânticas de movimento ajuda a recuperar gestos semanticamente significativos para a consulta falada, em vez de recorrer a padrões genéricos de movimento. Um estudo de geração de gestos aumentada por recuperação mostrou que os usuários preferiram significativamente os gestos recuperados pela nossa abordagem em comparação com uma linha de base de geração aumentada por recuperação, demonstrando que a recuperação semanticamente fundamentada se traduz em gestos que transmitem melhor a intenção comunicativa na geração subsequente.
A anotação humana é o fundamento empírico de grande parte da pesquisa em PLN, desde a construção de conjuntos de dados até a avaliação de modelos, mas os artigos frequentemente deixam obscuro quem produziu as anotações e como o processo de anotação foi controlado. Apresentamos a primeira auditoria em larga escala, no nível de tarefa, da documentação de anotação humana nos principais veículos de PLN, investigando quais detalhes da anotação são documentados, quais estão ausentes e como a documentação varia ao longo do tempo, tópico, veículo e uso pretendido do julgamento humano. Introduzimos uma taxonomia unificada de práticas de documentação de anotação e validamos um pipeline de extração assistido por LLM contra o Annotated-gold, um padrão ouro adjudicado por humanos composto por 41 artigos e 72 tarefas de anotação, onde o melhor modelo atinge concordância comparável à humana com os rótulos adjudicados, com alfa de Krippendorff de 0,606 contra 0,585 para concordância humano-humano. Utilizando esse pipeline, construímos o Annotated-llm, um conjunto de dados que abrange artigos dos veículos da ACL de 2018 a 2025, com 2.667 tarefas de anotação extraídas de 1.603 artigos, e descobrimos que os artigos frequentemente relatam detalhes operacionais, como estratégias de recrutamento, expertise dos anotadores e volume de anotação, mas omitem frequentemente detalhes necessários para avaliar a validade da anotação, incluindo treinamento, proficiência linguística, compensação, dados sociodemográficos, adjudicação e valores de concordância, especialmente em estudos de avaliação de modelos. Nossos resultados mostram que a documentação de anotação em PLN melhorou ao longo do tempo, mas permanece desigual, e estabelecem uma estrutura escalável e recomendações mínimas de documentação para tornar a anotação humana mais confiável, reproduzível e interpretável.
A manipulação robótica requer modelos que gerem ações executáveis enquanto antecipam e avaliam suas consequências futuras antes da execução física. Apresentamos o τ_0-World Model (τ_0-WM), um modelo mundial de vídeo-ação unificado que integra aprendizado de políticas, predição de vídeo e avaliação de ações em um único arcabouço preditivo do futuro. Construído sobre um backbone de difusão de vídeo compartilhado, o τ_0-WM oferece duas interfaces complementares. Primeiro, um modelo de vídeo-ação prevê conjuntamente latentes visuais futuros e pedaços contínuos de ação a partir de observações multivisão, instruções em linguagem natural e estado do robô. Segundo, um simulador de vídeo condicionado à ação executa pedaços de ação candidatos em futuros multivisão e prediz pontuações densas de progresso da tarefa. O modelo é treinado em aproximadamente 27.300 horas de teleoperação real de robôs, interação no estilo UMI, vídeos humanos egocêntricos e trajetórias de execução ou falha, utilizando máscaras de supervisão específicas de modalidade. No tempo de inferência, o τ_0-WM usa computação em tempo de teste para amostrar candidatos a ação, classificá-los por consistência de re-denoising e invocar retificação baseada em simulador para candidatos de baixa qualidade. Em tarefas desafiadoras de manipulação robótica de longo horizonte e granularidade fina, o τ_0-WM apresenta desempenho superior em comparação com outras baselines relevantes.
A pesquisa sobre detecção de texto gerado por IA apresentou diversas abordagens para distinguir prosa humana de artificial, algumas das quais alcançando alto desempenho dentro da distribuição. No entanto, a aplicabilidade no mundo real estagnou porque seus resultados não estão alinhados às necessidades dos usuários, como professores, que recebem uma pontuação numérica sem qualquer explicação associada. Abordamos esse problema com uma nova arquitetura, TELL, que incorpora explicabilidade desde a concepção. Embora nosso sistema ainda ofereça uma pontuação numérica como outros detectores para fins de comparabilidade, o TELL adota uma abordagem fundamentalmente diferente, na qual buscamos mostrar ao usuário as "pistas" pelas quais o modelo acredita que um texto seja escrito por IA ou humano, capacitando o usuário a decidir quem escreveu um texto usando seu próprio julgamento e compreensão do contexto da escrita e de seu suposto autor. Treinamos o TELL em um conjunto de dados SFT personalizado com anotações de autoria específicas ao domínio, e refinamos ainda mais o sistema usando GRPO com aprendizagem curricular para melhorar o desempenho. Alcançamos desempenho competitivo com detectores de última geração (AUROC 0,927), ao mesmo tempo que fornecemos nativamente anotações que explicam a base da decisão do detector. Avaliamos ainda a qualidade de nossas explicações usando um conjunto de dados de anotações humanas e relatamos uma alta taxa de vitória (média de 72,3%) em concretude, falseabilidade, coerência, plausibilidade e fundamentação das anotações, permitindo que os usuários pensem criticamente e decidam por si mesmos. Assim, nosso trabalho reformula o problema da detecção de texto gerado por IA sob uma perspectiva centrada no ser humano e abre caminho para uma nova família de detectores focados em explicabilidade nativa.