Artigos de pesquisa em IA selecionados diariamente com traduções
Métodos de interpretabilidade têm ganhado atenção significativa recentemente, especialmente no contexto de grandes modelos de linguagem, permitindo insights sobre representações linguísticas, detecção de erros e comportamentos do modelo, como alucinações e repetições. No entanto, essas técnicas ainda são pouco exploradas no reconhecimento automático de fala (ASR), apesar de seu potencial para avançar tanto o desempenho quanto a interpretabilidade dos sistemas ASR. Neste trabalho, adaptamos e aplicamos sistematicamente métodos de interpretabilidade estabelecidos, como o logit lens, sondagem linear e patching de ativação, para examinar como a informação acústica e semântica evolui através das camadas em sistemas ASR. Nossos experimentos revelam dinâmicas internas previamente desconhecidas, incluindo interações específicas entre codificador e decodificador responsáveis por alucinações de repetição e vieses semânticos codificados profundamente dentro das representações acústicas. Esses insights demonstram os benefícios de estender e aplicar técnicas de interpretabilidade ao reconhecimento de fala, abrindo direções promissoras para pesquisas futuras sobre a melhoria da transparência e robustez dos modelos.
Modelos Visão-Linguagem (VLMs) frequentemente sofrem com alucinações visuais, dizendo coisas que não estão realmente na imagem, e atalhos linguísticos, onde eles ignoram a parte visual e dependem apenas de prioridades textuais. Esses problemas surgem porque a maioria dos métodos de pós-treinamento para VLMs se baseia em correspondência simples de respostas verificáveis e supervisiona apenas as saídas finais, deixando o raciocínio visual intermediário sem orientação explícita. Como resultado, os VLMs recebem sinais visuais esparsos e frequentemente aprendem a priorizar o raciocínio baseado em linguagem em vez da percepção visual. Para mitigar isso, alguns métodos existentes adicionam supervisão visual usando anotações humanas ou rótulos destilados de modelos externos grandes. No entanto, as anotações humanas são trabalhosas e custosas, e como os sinais externos não podem se adaptar à política em evolução, eles causam mudanças distribucionais que podem levar a manipulação de recompensas. Neste artigo, introduzimos o Vision-SR1, um método de auto-recompensa que melhora o raciocínio visual sem depender de supervisões visuais externas por meio de aprendizado por reforço. O Vision-SR1 decompõe o raciocínio do VLM em dois estágios: percepção visual e raciocínio linguístico. O modelo é primeiro solicitado a produzir percepções visuais autossuficientes que são suficientes para responder à questão sem se referir de volta à imagem de entrada. Para validar essa autossuficiência, o mesmo modelo VLM é então re-solicitado a realizar raciocínio linguístico usando apenas a percepção gerada como entrada para calcular a recompensa. Essa auto-recompensa é combinada com a supervisão nas saídas finais, fornecendo um sinal de treinamento equilibrado que fortalece tanto a percepção visual quanto o raciocínio linguístico. Nossos experimentos demonstram que o Vision-SR1 melhora o raciocínio visual, mitiga alucinações visuais e reduz a dependência de atalhos linguísticos em diversas tarefas visão-linguagem.
Agentes autônomos para Interfaces Gráficas de Usuário (GUIs) enfrentam desafios significativos em domínios especializados, como computação científica, onde tanto o planejamento de longo prazo quanto a execução precisa são necessários. As abordagens existentes sofrem com uma troca: agentes generalistas se destacam no planejamento, mas têm desempenho ruim na execução, enquanto agentes especializados demonstram a fraqueza oposta. Estruturas composicionais recentes tentam preencher essa lacuna ao combinar um planejador e um executor, mas elas são tipicamente estáticas e não treináveis, o que impede a adaptação com base na experiência. Essa é uma limitação crítica, dada a escassez de dados de alta qualidade em domínios científicos. Para abordar essas limitações, introduzimos o CODA, uma nova estrutura composicional treinável que integra um planejador generalista (Cérebro) com um executor especialista (Cerebelo), treinados por meio de um pipeline dedicado em duas etapas. Na primeira etapa, Especialização, aplicamos uma abordagem GRPO desacoplada para treinar um planejador especialista para cada aplicação científica individualmente, iniciando a partir de um pequeno conjunto de trajetórias de tarefas. Na segunda etapa, Generalização, agregamos todas as trajetórias bem-sucedidas dos especialistas para construir um conjunto de dados consolidado, que é então usado para o ajuste fino supervisionado do planejador final. Isso equipa o CODA com execução robusta e generalização entre domínios. Avaliado em quatro aplicações desafiadoras do benchmark ScienceBoard, o CODA supera significativamente as abordagens de base e estabelece um novo estado da arte entre modelos de código aberto.
Trabalhos recentes demonstraram que a Cadeia de Pensamento (Chain-of-Thought, CoT) frequentemente gera ganhos limitados para problemas de raciocínio suave, como raciocínio analítico e de senso comum. Além disso, a CoT pode não ser fiel ao raciocínio real de um modelo. Investigamos a dinâmica e a fidelidade da CoT em tarefas de raciocínio suave em modelos ajustados por instrução, modelos de raciocínio e modelos destilados para raciocínio. Nossas descobertas revelam diferenças em como esses modelos dependem da CoT e mostram que a influência e a fidelidade da CoT nem sempre estão alinhadas.
Os modelos Visão-Linguagem-Ação (VLA) adaptam grandes arquiteturas de visão e linguagem para mapear imagens e instruções em ações robóticas. No entanto, os decodificadores VLA predominantes ou geram ações de forma autoregressiva em uma ordem fixa da esquerda para a direita ou anexam cabeças de difusão contínua ou de correspondência de fluxo fora da arquitetura principal, exigindo treinamento especializado e amostragem iterativa que dificultam uma arquitetura unificada e escalável. Apresentamos o Discrete Diffusion VLA, uma política de transformador único que modela segmentos de ação discretizados com difusão discreta e é treinada com o mesmo objetivo de entropia cruzada que a arquitetura VLM. O design mantém o paradigma de refinamento progressivo da difusão, permanecendo nativamente compatível com a interface de tokens discretos dos VLMs. Nosso método alcança uma ordem de decodificação adaptativa que resolve elementos de ação mais fáceis antes dos mais difíceis e usa remascaramento secundário para revisitar previsões incertas ao longo das rodadas de refinamento, o que melhora a consistência e permite correção robusta de erros. Este decodificador unificado preserva os pré-treinados de visão e linguagem, suporta decodificação paralela, quebra o gargalo autoregressivo e reduz o número de avaliações de função. O Discrete Diffusion VLA alcança 96,3% de taxa média de sucesso no LIBERO, 71,2% de correspondência visual no SimplerEnv Fractal e 49,3% no geral no SimplerEnv Bridge, superando tanto as abordagens autoregressivas quanto as de difusão contínua. Esses resultados indicam que o decodificador de ação com difusão discreta suporta modelagem precisa de ações e treinamento consistente, estabelecendo as bases para escalar VLA para modelos e conjuntos de dados maiores.
Recentemente, a geração de vídeos de humanos digitais interativos tem atraído ampla atenção e alcançado progressos notáveis. No entanto, a construção de um sistema prático que possa interagir com diversos sinais de entrada em tempo real continua sendo um desafio para os métodos existentes, que frequentemente enfrentam alta latência, custo computacional elevado e controlabilidade limitada. Neste trabalho, introduzimos um framework de geração de vídeos autoregressivo que permite controle multimodal interativo e extrapolação de baixa latência de forma contínua. Com modificações mínimas em um modelo de linguagem de grande escala (LLM) padrão, nosso framework aceita codificações de condições multimodais, incluindo áudio, pose e texto, e gera representações espacial e semanticamente coerentes para guiar o processo de remoção de ruído de um cabeçalho de difusão. Para suportar isso, construímos um grande conjunto de dados de diálogo de aproximadamente 20.000 horas a partir de múltiplas fontes, fornecendo cenários conversacionais ricos para treinamento. Além disso, introduzimos um autoencoder de compressão profunda com uma taxa de redução de até 64 vezes, que efetivamente alivia o fardo de inferência de longo horizonte do modelo autoregressivo. Experimentos extensivos em conversas duplex, síntese humana multilíngue e modelo de mundo interativo destacam as vantagens da nossa abordagem em termos de baixa latência, alta eficiência e controlabilidade multimodal de granularidade fina.
Modelos de linguagem de difusão (DLMs, na sigla em inglês) surgiram recentemente como uma alternativa às abordagens autoregressivas, oferecendo geração paralela de sequências e ordens flexíveis de tokens. No entanto, sua inferência permanece mais lenta do que a dos modelos autoregressivos, principalmente devido ao custo da atenção bidirecional e ao grande número de etapas de refinamento necessárias para obter saídas de alta qualidade. Neste trabalho, destacamos e aproveitamos uma propriedade negligenciada dos DLMs: a convergência precoce de respostas. Em muitos casos, a resposta correta pode ser identificada internamente na metade das etapas antes do passo final de decodificação, tanto em esquemas semi-autoregressivos quanto em remascaramento aleatório. Por exemplo, no GSM8K e no MMLU, até 97% e 99% das instâncias, respectivamente, podem ser decodificadas corretamente usando apenas metade das etapas de refinamento. Com base nessa observação, introduzimos o Prophet, um paradigma de decodificação rápida sem necessidade de treinamento que permite a decodificação com comprometimento precoce. Especificamente, o Prophet decide dinamicamente se deve continuar o refinamento ou "ir com tudo" (ou seja, decodificar todos os tokens restantes em uma única etapa), usando a diferença de confiança entre os dois principais candidatos de predição como critério. Ele se integra perfeitamente às implementações existentes de DLMs, incorre em sobrecarga insignificante e não requer treinamento adicional. Avaliações empíricas do LLaDA-8B e do Dream-7B em várias tarefas mostram que o Prophet reduz o número de etapas de decodificação em até 3,4 vezes, mantendo alta qualidade de geração. Esses resultados reformulam a decodificação de DLMs como um problema de quando parar a amostragem e demonstram que a convergência precoce da decodificação fornece um mecanismo simples, porém poderoso, para acelerar a inferência de DLMs, complementando as técnicas existentes de aceleração. Nosso código está publicamente disponível em https://github.com/pixeli99/Prophet.
A Previsão de Múltiplos Tokens (MTP) foi proposta como um objetivo auxiliar para melhorar a previsão do próximo token (NTP) no treinamento de modelos de linguagem, mas apresenta melhorias inconsistentes, com desempenho inferior em benchmarks padrão de NLP. Argumentamos que a previsão exata de tokens futuros do MTP é muito difícil como uma função de perda auxiliar. Em vez disso, propomos a Previsão de Ordenação de Tokens (TOP), que treina modelos para ordenar tokens futuros por sua proximidade usando uma função de perda de aprendizado para ranqueamento. O TOP requer apenas uma camada adicional de desembutimento em comparação com as múltiplas camadas de transformadores do MTP. Pré-treinamos modelos de 340M, 1,8B e 7B de parâmetros usando os objetivos NTP, MTP e TOP. Os resultados em oito benchmarks padrão de NLP mostram que o TOP supera tanto o NTP quanto o MTP, mesmo em escala. Nosso código está disponível em https://github.com/zaydzuhri/token-order-prediction.
Avanços recentes na geração de texto para áudio (TTA) têm se destacado na síntese de clipes de áudio curtos, mas enfrentam dificuldades com áudios narrativos de longa duração, que exigem coerência temporal e raciocínio composicional. Para preencher essa lacuna, propomos o AudioStory, um framework unificado que integra modelos de linguagem de grande escala (LLMs) com sistemas TTA para gerar narrativas de áudio estruturadas e de longa duração. O AudioStory possui fortes capacidades de geração de raciocínio orientado por instruções. Ele emprega LLMs para decompor consultas narrativas complexas em sub-tarefas ordenadas temporalmente com pistas contextuais, permitindo transições de cena coerentes e consistência no tom emocional. O AudioStory apresenta duas características atraentes: (1) Mecanismo de ponte desacoplado: O AudioStory separa a colaboração entre LLM e difusor em dois componentes especializados, ou seja, uma consulta de ponte para alinhamento semântico intra-evento e uma consulta residual para preservação da coerência inter-evento. (2) Treinamento de ponta a ponta: Ao unificar a compreensão de instruções e a geração de áudio em um único framework de ponta a ponta, o AudioStory elimina a necessidade de pipelines de treinamento modular, ao mesmo tempo em que aumenta a sinergia entre os componentes. Além disso, estabelecemos um benchmark AudioStory-10K, abrangendo diversos domínios, como paisagens sonoras animadas e narrativas de sons naturais. Experimentos extensivos mostram a superioridade do AudioStory tanto na geração de áudio único quanto na geração de áudio narrativo, superando as linhas de base TTA anteriores tanto na capacidade de seguir instruções quanto na fidelidade do áudio. Nosso código está disponível em https://github.com/TencentARC/AudioStory.
À medida que os modelos passam a utilizar estratégias de raciocínio em múltiplas etapas para resolver problemas complexos, supervisionar a validade lógica desses passos intermediários tornou-se um desafio crítico de pesquisa. Os modelos de recompensa de processo abordam isso fornecendo feedback passo a passo, mas as abordagens atuais apresentam duas grandes limitações: geralmente funcionam como classificadores sem fornecer explicações, e sua dependência de ajuste fino supervisionado com conjuntos de dados estáticos limita a generalização. Inspirados por avanços recentes, reformulamos a modelagem de recompensa passo a passo de uma tarefa de classificação para uma tarefa de raciocínio em si. Assim, propomos um juiz generativo que raciocina sobre as etapas de raciocínio do modelo de política (ou seja, meta-raciocina), gerando tokens de pensamento antes de emitir um veredito final. Nosso modelo, StepWiser, é treinado por aprendizado por reforço usando resultados relativos de execuções. Demonstramos que ele oferece (i) maior precisão de julgamento em etapas intermediárias do que os métodos existentes; (ii) pode ser usado para melhorar o modelo de política durante o treinamento; e (iii) melhora a busca durante a inferência.
O progresso na FotoPletismografia Remota (rPPG) é limitado por questões críticas dos conjuntos de dados públicos disponíveis: tamanho reduzido, preocupações com privacidade em vídeos faciais e falta de diversidade nas condições. Este artigo apresenta um novo conjunto de dados abrangente e em larga escala de vídeos multiview para rPPG e estimativa de biomarcadores de saúde. Nosso conjunto de dados compreende 3600 gravações de vídeo sincronizadas de 600 indivíduos, capturadas em condições variadas (repouso e pós-exercício) usando múltiplas câmeras de consumo em diferentes ângulos. Para permitir a análise multimodal dos estados fisiológicos, cada gravação é acompanhada por um sinal PPG de 100 Hz e métricas de saúde estendidas, como eletrocardiograma, pressão arterial, biomarcadores, temperatura, saturação de oxigênio, taxa respiratória e nível de estresse. Utilizando esses dados, treinamos um modelo eficiente de rPPG e comparamos sua qualidade com abordagens existentes em cenários de conjunto de dados cruzados. A liberação pública do nosso conjunto de dados e modelo deve acelerar significativamente o progresso no desenvolvimento de assistentes médicos baseados em IA.
Os smartphones trazem conveniência significativa aos usuários, mas também permitem que os dispositivos registrem extensivamente diversos tipos de informações pessoais. Os agentes de smartphones existentes, impulsionados por Modelos de Linguagem Multimodal de Grande Escala (MLLMs), alcançaram desempenho notável na automação de diferentes tarefas. No entanto, como custo, esses agentes recebem acesso substancial a informações pessoais sensíveis dos usuários durante essa operação. Para obter uma compreensão profunda da conscientização sobre privacidade desses agentes, apresentamos o primeiro benchmark em larga escala, abrangendo 7.138 cenários, até onde sabemos. Além disso, para o contexto de privacidade nos cenários, anotamos seu tipo (por exemplo, Credenciais de Conta), nível de sensibilidade e localização. Em seguida, avaliamos cuidadosamente sete agentes de smartphone mainstream disponíveis. Nossos resultados demonstram que quase todos os agentes avaliados apresentam uma conscientização sobre privacidade (RA) insatisfatória, com desempenho permanecendo abaixo de 60% mesmo com dicas explícitas. No geral, os agentes de código fechado mostram melhor capacidade de privacidade do que os de código aberto, e o Gemini 2.0-flash alcança o melhor desempenho, atingindo uma RA de 67%. Também descobrimos que a capacidade de detecção de privacidade dos agentes está altamente relacionada ao nível de sensibilidade do cenário, ou seja, o cenário com um nível de sensibilidade mais alto é tipicamente mais identificável. Esperamos que as descobertas iluminem a comunidade de pesquisa para repensar o equilíbrio desequilibrado entre utilidade e privacidade em relação aos agentes de smartphone. Nosso código e benchmark estão disponíveis em https://zhixin-l.github.io/SAPA-Bench.
A geração de movimento é essencial para animar personagens virtuais e agentes corporificados. Embora métodos recentes baseados em texto tenham feito avanços significativos, eles frequentemente enfrentam dificuldades para alcançar um alinhamento preciso entre descrições linguísticas e semântica de movimento, além das ineficiências de inferência lenta e em múltiplas etapas. Para abordar essas questões, introduzimos o TMR++ Aligned Preference Optimization (TAPO), uma estrutura inovadora que alinha variações sutis de movimento com modificadores textuais e incorpora ajustes iterativos para reforçar o fundamento semântico. Para permitir ainda mais a síntese em tempo real, propomos o MotionFLUX, uma estrutura de geração de alta velocidade baseada em fluxo retificado determinístico. Diferente dos modelos de difusão tradicionais, que exigem centenas de etapas de remoção de ruído, o MotionFLUX constrói caminhos de transporte ótimo entre distribuições de ruído e espaços de movimento, facilitando a síntese em tempo real. Os caminhos de probabilidade linearizados reduzem a necessidade de amostragem em múltiplas etapas típica de métodos sequenciais, acelerando significativamente o tempo de inferência sem sacrificar a qualidade do movimento. Resultados experimentais demonstram que, juntos, TAPO e MotionFLUX formam um sistema unificado que supera as abordagens mais avançadas tanto em consistência semântica quanto em qualidade de movimento, ao mesmo tempo que acelera a velocidade de geração. O código e os modelos pré-treinados serão liberados.
Avaliar se os modelos de visão e linguagem (VLMs) raciocinam de forma consistente entre representações é desafiador porque as comparações entre modalidades são tipicamente confundidas por diferenças de tarefas e informações assimétricas. Apresentamos o SEAM, um benchmark que emparelha entradas semanticamente equivalentes em quatro domínios que possuem notações textuais e visuais padronizadas existentes. Ao empregar sistemas de notação distintos entre modalidades, em contraste com o emparelhamento de imagem-texto baseado em OCR, o SEAM fornece uma avaliação comparativa rigorosa das capacidades de raciocínio textual-simbólico e visual-espacial dos VLMs. Em 21 modelos contemporâneos, observamos um desequilíbrio sistemático entre modalidades: a visão frequentemente fica atrás da linguagem no desempenho geral, apesar dos problemas conterem informações semanticamente equivalentes, e a concordância entre modalidades é relativamente baixa. Nossa análise de erros revela dois principais fatores: falhas de percepção textual devido à tokenização na notação do domínio e falhas de percepção visual que induzem alucinações. Também mostramos que nossos resultados são amplamente robustos a transformações visuais. O SEAM estabelece um ambiente controlado e semanticamente equivalente para medir e melhorar o raciocínio independente de modalidade.
A capacidade de pesquisar e sintetizar conhecimento é central para a expertise humana e o progresso. Uma nova classe de sistemas promete essas capacidades empolgantes por meio da síntese generativa de pesquisa, realizando buscas na web em tempo real e sintetizando as fontes descobertas em resumos longos e citados. No entanto, avaliar tais sistemas continua sendo um desafio em aberto: os benchmarks existentes de questionamento e resposta focam em respostas factuais curtas, enquanto conjuntos de dados curados por especialistas correm o risco de se tornarem desatualizados e contaminados. Ambos falham em capturar a complexidade e a natureza evolutiva das tarefas reais de síntese de pesquisa. Neste trabalho, introduzimos o DeepScholar-bench, um benchmark em tempo real e um framework de avaliação holístico e automatizado projetado para avaliar a síntese generativa de pesquisa. O DeepScholar-bench extrai consultas de artigos recentes e de alta qualidade do ArXiv e se concentra em uma tarefa real de síntese de pesquisa: gerar as seções de trabalhos relacionados de um artigo, recuperando, sintetizando e citando pesquisas anteriores. Nosso framework de avaliação avalia holisticamente o desempenho em três dimensões principais: síntese de conhecimento, qualidade de recuperação e verificabilidade. Também desenvolvemos o DeepScholar-base, um pipeline de referência implementado de forma eficiente usando a API LOTUS. Utilizando o framework DeepScholar-bench, realizamos uma avaliação sistemática de sistemas de código aberto anteriores, AIs de busca, DeepResearch da OpenAI e DeepScholar-base. Descobrimos que o DeepScholar-base estabelece uma linha de base sólida, alcançando desempenho competitivo ou superior a cada um dos outros métodos. Também constatamos que o DeepScholar-bench está longe de estar saturado, com nenhum sistema excedendo uma pontuação de 19% em todas as métricas. Esses resultados destacam a dificuldade do DeepScholar-bench, bem como sua importância para o progresso em direção a sistemas de IA capazes de realizar síntese generativa de pesquisa. Disponibilizamos nosso código em https://github.com/guestrin-lab/deepscholar-bench.
O serviço de grandes modelos de linguagem (LLMs) é uma tarefa intensiva em GPU, na qual os escalonadores automáticos tradicionais se mostram insuficientes, especialmente para arquiteturas modernas desagregadas de Preenchimento-Decodificação (P/D). Essa mudança arquitetônica, embora poderosa, introduz desafios operacionais significativos, incluindo o uso ineficiente de hardware heterogêneo, gargalos de rede e desequilíbrios críticos entre as etapas de preenchimento e decodificação. Apresentamos o HeteroScale, um framework de escalonamento automático coordenado que aborda os principais desafios do serviço desagregado P/D. O HeteroScale combina um escalonador ciente da topologia, que se adapta a restrições de hardware heterogêneo e de rede, com uma política orientada por métricas inovadora, derivada do primeiro estudo empírico em larga escala de sinais de escalonamento automático em produção. Ao aproveitar uma única métrica robusta para escalar conjuntamente os pools de preenchimento e decodificação, o HeteroScale mantém o equilíbrio arquitetônico enquanto garante um gerenciamento de recursos eficiente e adaptativo. Implantado em um ambiente de produção massivo, com dezenas de milhares de GPUs, o HeteroScale demonstrou sua eficácia, aumentando a utilização média das GPUs em impressionantes 26,6 pontos percentuais e economizando centenas de milhares de horas de GPU diariamente, tudo isso mantendo rigorosos objetivos de nível de serviço.
Os modelos de base para modelagem de materiais estão avançando rapidamente, mas seu treinamento permanece caro, muitas vezes colocando os métodos de ponta fora do alcance de muitos grupos de pesquisa. Apresentamos o Nequix, um potencial E(3)-equivariante compacto que combina um design simplificado do NequIP com práticas modernas de treinamento, incluindo normalização de camada equivariante de raiz quadrada média e o otimizador Muon, para manter a precisão enquanto reduz substancialmente os requisitos de computação. Construído em JAX, o Nequix possui 700 mil parâmetros e foi treinado em 500 horas de GPU A100. Nos benchmarks Matbench-Discovery e MDR Phonon, o Nequix ocupa a terceira posição geral, exigindo menos de um quarto do custo de treinamento da maioria dos outros métodos, e oferece uma velocidade de inferência uma ordem de magnitude mais rápida do que o modelo atualmente mais bem classificado. Disponibilizamos os pesos do modelo e o código totalmente reproduzível em https://github.com/atomicarchitects/nequix.
Este artigo identifica e analisa uma nova classe de vulnerabilidade em sistemas de agentes baseados no Protocolo de Contexto de Modelo (MCP). A cadeia de ataque descreve e demonstra como tarefas benignas e individualmente autorizadas podem ser orquestradas para produzir comportamentos emergentes prejudiciais. Por meio de uma análise sistemática utilizando o framework MITRE ATLAS, demonstramos como 95 agentes testados com acesso a múltiplos serviços — incluindo automação de navegadores, análise financeira, rastreamento de localização e implantação de código — podem encadear operações legítimas em sequências de ataque sofisticadas que ultrapassam os limites de segurança de qualquer serviço individual. Esses exercícios de red team investigam se as arquiteturas atuais de MCP carecem de medidas de segurança entre domínios necessárias para detectar ou prevenir uma grande categoria de ataques composicionais. Apresentamos evidências empíricas de cadeias de ataque específicas que causam danos direcionais por meio da orquestração de serviços, incluindo exfiltração de dados, manipulação financeira e comprometimento de infraestrutura. Essas descobertas revelam que a suposição fundamental de segurança do isolamento de serviços falha quando os agentes podem coordenar ações em múltiplos domínios, criando uma superfície de ataque exponencial que cresce com cada capacidade adicional. Esta pesquisa fornece um framework experimental básico que avalia não se os agentes podem concluir tarefas de benchmark do MCP, mas o que acontece quando eles as concluem de forma excessivamente eficiente e otimizam entre múltiplos serviços de maneiras que violam expectativas humanas e restrições de segurança. Propomos três direções experimentais concretas utilizando o conjunto de benchmarks existente do MCP.