Artículos de investigación en IA seleccionados diariamente con traducciones
Los métodos de interpretabilidad han ganado reciente atención significativa, particularmente en el contexto de los modelos de lenguaje grandes, permitiendo obtener información sobre representaciones lingüísticas, detección de errores y comportamientos del modelo como alucinaciones y repeticiones. Sin embargo, estas técnicas siguen siendo poco exploradas en el reconocimiento automático del habla (ASR), a pesar de su potencial para avanzar tanto en el rendimiento como en la interpretabilidad de los sistemas ASR. En este trabajo, adaptamos y aplicamos sistemáticamente métodos de interpretabilidad establecidos como el "logit lens", el sondeo lineal y el parcheo de activaciones, para examinar cómo la información acústica y semántica evoluciona a través de las capas en los sistemas ASR. Nuestros experimentos revelan dinámicas internas previamente desconocidas, incluyendo interacciones específicas entre el codificador y el decodificador responsables de alucinaciones por repetición y sesgos semánticos codificados profundamente dentro de las representaciones acústicas. Estas observaciones demuestran los beneficios de extender y aplicar técnicas de interpretabilidad al reconocimiento del habla, abriendo direcciones prometedoras para futuras investigaciones sobre la mejora de la transparencia y robustez de los modelos.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) a menudo sufren de alucinaciones visuales, afirmando cosas que no están realmente en la imagen, y de atajos lingüísticos, donde omiten la parte visual y se basan únicamente en conocimientos previos de texto. Estos problemas surgen porque la mayoría de los métodos de posentrenamiento para VLMs dependen de la coincidencia simple de respuestas verificables y supervisan solo las salidas finales, dejando el razonamiento visual intermedio sin una guía explícita. Como resultado, los VLMs reciben señales visuales dispersas y a menudo aprenden a priorizar el razonamiento basado en el lenguaje sobre la percepción visual. Para mitigar esto, algunos métodos existentes añaden supervisión visual utilizando anotaciones humanas o etiquetas destiladas de modelos externos grandes. Sin embargo, las anotaciones humanas son laboriosas y costosas, y dado que las señales externas no pueden adaptarse a la política en evolución, causan cambios distribucionales que pueden llevar a la manipulación de recompensas. En este artículo, presentamos Vision-SR1, un método de autorrecompensa que mejora el razonamiento visual sin depender de supervisiones visuales externas mediante el aprendizaje por refuerzo. Vision-SR1 descompone el razonamiento del VLM en dos etapas: percepción visual y razonamiento lingüístico. Primero, se solicita al modelo que produzca percepciones visuales autónomas que sean suficientes para responder la pregunta sin volver a consultar la imagen de entrada. Para validar esta autonomía, el mismo modelo VLM es luego reimpulsado para realizar el razonamiento lingüístico utilizando solo la percepción generada como entrada para calcular la recompensa. Esta autorrecompensa se combina con la supervisión de las salidas finales, proporcionando una señal de entrenamiento equilibrada que fortalece tanto la percepción visual como el razonamiento lingüístico. Nuestros experimentos demuestran que Vision-SR1 mejora el razonamiento visual, mitiga las alucinaciones visuales y reduce la dependencia de atajos lingüísticos en diversas tareas de visión-lenguaje.
Los agentes autónomos para Interfaces Gráficas de Usuario (GUIs) enfrentan desafíos significativos en dominios especializados, como la computación científica, donde se requieren tanto la planificación a largo plazo como la ejecución precisa. Los enfoques existentes presentan una disyuntiva: los agentes generalistas sobresalen en la planificación pero tienen un desempeño deficiente en la ejecución, mientras que los agentes especializados muestran la debilidad opuesta. Los marcos composicionales recientes intentan cerrar esta brecha al combinar un planificador y un ejecutor, pero suelen ser estáticos y no entrenables, lo que impide la adaptación basada en la experiencia. Esta es una limitación crítica dada la escasez de datos de alta calidad en dominios científicos. Para abordar estas limitaciones, presentamos CODA, un marco composicional novedoso y entrenable que integra un planificador generalista (Cerebrum) con un ejecutor especialista (Cerebellum), entrenado mediante una canalización de dos etapas dedicada. En la primera etapa, Especialización, aplicamos un enfoque GRPO desacoplado para entrenar un planificador experto para cada aplicación científica individualmente, partiendo de un pequeño conjunto de trayectorias de tareas. En la segunda etapa, Generalización, agregamos todas las trayectorias exitosas de los expertos especializados para construir un conjunto de datos consolidado, que luego se utiliza para el ajuste supervisado del planificador final. Esto dota a CODA tanto de una ejecución robusta como de generalización cruzada de dominios. Evaluado en cuatro aplicaciones desafiantes del benchmark ScienceBoard, CODA supera significativamente a los modelos de referencia y establece un nuevo estado del arte entre los modelos de código abierto.
Recientemente, la generación interactiva de videos de humanos digitales ha atraído una atención generalizada y ha logrado avances notables. Sin embargo, construir un sistema práctico que pueda interactuar con diversas señales de entrada en tiempo real sigue siendo un desafío para los métodos existentes, los cuales a menudo enfrentan problemas de alta latencia, costos computacionales elevados y una controlabilidad limitada. En este trabajo, presentamos un marco de generación de videos autorregresivo que permite un control multimodal interactivo y una extrapolación de baja latencia en un flujo continuo. Con modificaciones mínimas a un modelo de lenguaje grande (LLM) estándar, nuestro marco acepta codificaciones de condiciones multimodales que incluyen audio, pose y texto, y genera representaciones espacial y semánticamente coherentes para guiar el proceso de eliminación de ruido de una cabeza de difusión. Para respaldar esto, construimos un conjunto de datos de diálogo a gran escala de aproximadamente 20,000 horas provenientes de múltiples fuentes, proporcionando escenarios conversacionales ricos para el entrenamiento. Además, introducimos un autoencoder de compresión profunda con una relación de reducción de hasta 64 veces, lo que alivia eficazmente la carga de inferencia a largo plazo del modelo autorregresivo. Experimentos extensos en conversaciones dúplex, síntesis humana multilingüe y modelos de mundo interactivo destacan las ventajas de nuestro enfoque en términos de baja latencia, alta eficiencia y controlabilidad multimodal de grano fino.
Los modelos Visión-Lenguaje-Acción (VLA) adaptan arquitecturas base de visión y lenguaje de gran escala para mapear imágenes e instrucciones a acciones robóticas. Sin embargo, los decodificadores VLA predominantes generan acciones de manera autoregresiva en un orden fijo de izquierda a derecha o incorporan cabezales de difusión continua o de emparejamiento de flujo fuera de la arquitectura base, lo que requiere entrenamiento especializado y muestreo iterativo que dificultan una arquitectura unificada y escalable. Presentamos Discrete Diffusion VLA, una política basada en un único transformador que modela fragmentos de acciones discretizados mediante difusión discreta y se entrena con el mismo objetivo de entropía cruzada que la arquitectura base VLM. Este diseño conserva el paradigma de refinamiento progresivo de la difusión mientras mantiene compatibilidad nativa con la interfaz de tokens discretos de los VLMs. Nuestro método logra un orden de decodificación adaptativo que resuelve elementos de acción más simples antes que los más complejos y utiliza un reenmascaramiento secundario para revisar predicciones inciertas a lo largo de las rondas de refinamiento, lo que mejora la consistencia y permite una corrección robusta de errores. Este decodificador unificado preserva los conocimientos previos de visión y lenguaje preentrenados, admite decodificación paralela, elimina el cuello de botella autoregresivo y reduce el número de evaluaciones de funciones. Discrete Diffusion VLA alcanza un 96.3% de tasa de éxito promedio en LIBERO, un 71.2% de coincidencia visual en SimplerEnv Fractal y un 49.3% general en SimplerEnv Bridge, superando tanto a los enfoques autoregresivos como a los basados en difusión continua. Estos resultados indican que el decodificador de acciones basado en difusión discreta permite un modelado preciso de acciones y un entrenamiento consistente, sentando las bases para escalar los VLA a modelos y conjuntos de datos más grandes.
Trabajos recientes han demostrado que el razonamiento en cadena (Chain-of-Thought, CoT) a menudo produce ganancias limitadas en problemas de razonamiento blando, como el razonamiento analítico y de sentido común. Además, el CoT puede no ser fiel al razonamiento real de un modelo. Investigamos la dinámica y la fidelidad del CoT en tareas de razonamiento blando en modelos ajustados por instrucción, modelos de razonamiento y modelos destilados para razonamiento. Nuestros hallazgos revelan diferencias en cómo estos modelos dependen del CoT y muestran que la influencia del CoT y su fidelidad no siempre están alineadas.
Los avances recientes en la generación de texto a audio (TTA) destacan en la síntesis de clips de audio cortos, pero enfrentan dificultades con el audio narrativo de larga duración, el cual requiere coherencia temporal y razonamiento compositivo. Para abordar esta brecha, proponemos AudioStory, un marco unificado que integra modelos de lenguaje de gran escala (LLMs) con sistemas TTA para generar narrativas de audio estructuradas y de larga duración. AudioStory posee capacidades avanzadas de generación de razonamiento basado en instrucciones. Emplea LLMs para descomponer consultas narrativas complejas en sub-tareas ordenadas temporalmente con indicaciones contextuales, permitiendo transiciones coherentes entre escenas y consistencia en el tono emocional. AudioStory presenta dos características atractivas: (1) Mecanismo de puente desacoplado: AudioStory separa la colaboración entre LLM y difusor en dos componentes especializados, es decir, una consulta de puente para la alineación semántica intra-evento y una consulta residual para la preservación de la coherencia inter-evento. (2) Entrenamiento de extremo a extremo: Al unificar la comprensión de instrucciones y la generación de audio dentro de un único marco de extremo a extremo, AudioStory elimina la necesidad de tuberías de entrenamiento modular mientras mejora la sinergia entre componentes. Además, establecemos un punto de referencia, AudioStory-10K, que abarca diversos dominios como paisajes sonoros animados y narrativas de sonidos naturales. Experimentos extensivos demuestran la superioridad de AudioStory tanto en la generación de audio individual como en la generación de audio narrativo, superando a los baselines previos de TTA tanto en la capacidad de seguimiento de instrucciones como en la fidelidad del audio. Nuestro código está disponible en https://github.com/TencentARC/AudioStory.
Los modelos de lenguaje de difusión (DLMs, por sus siglas en inglés) han surgido recientemente como una alternativa a los enfoques autorregresivos, ofreciendo generación paralela de secuencias y órdenes de tokens flexibles. Sin embargo, su inferencia sigue siendo más lenta que la de los modelos autorregresivos, principalmente debido al costo de la atención bidireccional y al gran número de pasos de refinamiento necesarios para obtener salidas de alta calidad. En este trabajo, destacamos y aprovechamos una propiedad pasada por alto de los DLMs: la convergencia temprana de respuestas. En muchos casos, la respuesta correcta puede identificarse internamente en la mitad de los pasos antes del paso de decodificación final, tanto bajo esquemas semi-autorregresivos como de remuestreo aleatorio. Por ejemplo, en GSM8K y MMLU, hasta el 97% y el 99% de las instancias, respectivamente, pueden decodificarse correctamente utilizando solo la mitad de los pasos de refinamiento. Basándonos en esta observación, presentamos Prophet, un paradigma de decodificación rápida sin entrenamiento que permite la decodificación temprana con compromiso. Específicamente, Prophet decide dinámicamente si continuar con el refinamiento o "ir a por todas" (es decir, decodificar todos los tokens restantes en un solo paso), utilizando la brecha de confianza entre los dos principales candidatos de predicción como criterio. Se integra sin problemas en las implementaciones existentes de DLMs, incurre en un sobrecosto insignificante y no requiere entrenamiento adicional. Las evaluaciones empíricas de LLaDA-8B y Dream-7B en múltiples tareas muestran que Prophet reduce el número de pasos de decodificación hasta en 3.4 veces, manteniendo una alta calidad de generación. Estos resultados replantean la decodificación de DLMs como un problema de cuándo detener el muestreo y demuestran que la convergencia temprana en la decodificación proporciona un mecanismo simple pero poderoso para acelerar la inferencia de DLMs, complementando las técnicas existentes de aceleración. Nuestro código está disponible públicamente en https://github.com/pixeli99/Prophet.
La Predicción Multi-Token (MTP, por sus siglas en inglés) se ha propuesto como un objetivo auxiliar para mejorar la predicción del siguiente token (NTP) en el entrenamiento de modelos de lenguaje, pero muestra mejoras inconsistentes y un rendimiento inferior en los benchmarks estándar de Procesamiento del Lenguaje Natural (PLN). Argumentamos que la predicción exacta de tokens futuros en MTP es demasiado difícil como una pérdida auxiliar. En su lugar, proponemos la Predicción del Orden de Tokens (TOP), que entrena a los modelos para ordenar los tokens próximos según su proximidad utilizando una pérdida de aprendizaje para clasificación. TOP requiere solo una capa adicional de desembebido en comparación con las múltiples capas de transformadores de MTP. Preentrenamos modelos de 340M, 1.8B y 7B de parámetros utilizando los objetivos NTP, MTP y TOP. Los resultados en ocho benchmarks estándar de PLN muestran que TOP supera en general tanto a NTP como a MTP, incluso a gran escala. Nuestro código está disponible en https://github.com/zaydzuhri/token-order-prediction.
A medida que los modelos aprovechan cada vez más estrategias de razonamiento de múltiples pasos para resolver problemas complejos, supervisar la validez lógica de estos pasos intermedios se ha convertido en un desafío de investigación crítico. Los modelos de recompensa por proceso abordan esto proporcionando retroalimentación paso a paso, pero los enfoques actuales tienen dos inconvenientes principales: generalmente funcionan como clasificadores sin ofrecer explicaciones, y su dependencia del ajuste fino supervisado con conjuntos de datos estáticos limita la generalización. Inspirados por avances recientes, reformulamos el modelado de recompensas paso a paso desde una tarea de clasificación a una tarea de razonamiento en sí misma. Por lo tanto, proponemos un juez generativo que razona sobre los pasos de razonamiento del modelo de política (es decir, meta-razona), emitiendo tokens de pensamiento antes de entregar un veredicto final. Nuestro modelo, StepWiser, se entrena mediante aprendizaje por refuerzo utilizando resultados relativos de ejecuciones. Demostramos que ofrece (i) una mejor precisión de juicio en los pasos intermedios que los métodos existentes; (ii) puede usarse para mejorar el modelo de política durante el entrenamiento; y (iii) mejora la búsqueda en tiempo de inferencia.
El progreso en la fotopletismografía remota (rPPG) se ve limitado por los problemas críticos de los conjuntos de datos públicos disponibles: tamaño reducido, preocupaciones de privacidad con los videos faciales y falta de diversidad en las condiciones. Este artículo presenta un nuevo conjunto de datos de video a gran escala y multi-vista para la estimación de rPPG y biomarcadores de salud. Nuestro conjunto de datos incluye 3600 grabaciones de video sincronizadas de 600 sujetos, capturadas en diversas condiciones (en reposo y post-ejercicio) utilizando múltiples cámaras de consumo en diferentes ángulos. Para permitir un análisis multimodal de los estados fisiológicos, cada grabación se acompaña de una señal PPG de 100 Hz y métricas de salud extendidas, como electrocardiograma, presión arterial, biomarcadores, temperatura, saturación de oxígeno, frecuencia respiratoria y nivel de estrés. Utilizando estos datos, entrenamos un modelo eficiente de rPPG y comparamos su calidad con enfoques existentes en escenarios de evaluación cruzada entre conjuntos de datos. La publicación pública de nuestro conjunto de datos y modelo debería acelerar significativamente el progreso en el desarrollo de asistentes médicos basados en IA.
Los smartphones brindan una comodidad significativa a los usuarios, pero también permiten que los dispositivos registren extensamente diversos tipos de información personal. Los agentes de smartphones existentes, impulsados por Modelos de Lenguaje Multimodal de Gran Escala (MLLMs, por sus siglas en inglés), han logrado un rendimiento notable en la automatización de diferentes tareas. Sin embargo, como contrapartida, estos agentes obtienen un acceso sustancial a la información personal sensible de los usuarios durante su funcionamiento. Para comprender a fondo la conciencia sobre la privacidad de estos agentes, presentamos el primer punto de referencia a gran escala que abarca 7,138 escenarios, según nuestro conocimiento. Además, para el contexto de privacidad en los escenarios, anotamos su tipo (por ejemplo, Credenciales de Cuenta), nivel de sensibilidad y ubicación. Luego, evaluamos cuidadosamente siete agentes de smartphones principales disponibles. Nuestros resultados demuestran que casi todos los agentes evaluados muestran una conciencia de privacidad (RA, por sus siglas en inglés) insatisfactoria, con un rendimiento que se mantiene por debajo del 60% incluso con indicaciones explícitas. En general, los agentes de código cerrado muestran una mejor capacidad de privacidad que los de código abierto, y Gemini 2.0-flash logra el mejor resultado, alcanzando un RA del 67%. También encontramos que la capacidad de detección de privacidad de los agentes está altamente relacionada con el nivel de sensibilidad del escenario, es decir, el escenario con un nivel de sensibilidad más alto suele ser más identificable. Esperamos que estos hallazgos inspiren a la comunidad de investigación a reconsiderar el equilibrio desproporcionado entre utilidad y privacidad en los agentes de smartphones. Nuestro código y punto de referencia están disponibles en https://zhixin-l.github.io/SAPA-Bench.
Evaluar si los modelos de visión y lenguaje (VLMs) razonan de manera consistente entre representaciones es un desafío porque las comparaciones entre modalidades suelen estar confundidas por diferencias en las tareas y por información asimétrica. Presentamos SEAM, un benchmark que empareja entradas semánticamente equivalentes en cuatro dominios que cuentan con notaciones textuales y visuales estandarizadas. Al emplear sistemas de notación distintos entre modalidades, en contraste con el emparejamiento imagen-texto basado en OCR, SEAM proporciona una evaluación comparativa rigurosa de las capacidades de razonamiento textual-simbólico y visual-espacial de los VLMs. En 21 modelos contemporáneos, observamos un desequilibrio sistemático entre modalidades: la visión frecuentemente se queda rezagada respecto al lenguaje en el rendimiento general, a pesar de que los problemas contienen información semánticamente equivalente, y la concordancia entre modalidades es relativamente baja. Nuestro análisis de errores revela dos factores principales: fallos en la percepción textual debido a la tokenización en la notación del dominio y fallos en la percepción visual que inducen alucinaciones. También demostramos que nuestros resultados son en gran medida robustos frente a transformaciones visuales. SEAM establece un entorno controlado y semánticamente equivalente para medir y mejorar el razonamiento independiente de la modalidad.
La generación de movimiento es esencial para animar personajes virtuales y agentes corporizados. Si bien los métodos recientes basados en texto han logrado avances significativos, a menudo enfrentan dificultades para alcanzar una alineación precisa entre las descripciones lingüísticas y la semántica del movimiento, así como con las ineficiencias de una inferencia lenta y de múltiples pasos. Para abordar estos problemas, presentamos TMR++ Aligned Preference Optimization (TAPO), un marco innovador que alinea variaciones sutiles del movimiento con modificadores textuales e incorpora ajustes iterativos para reforzar la fundamentación semántica. Para habilitar aún más la síntesis en tiempo real, proponemos MotionFLUX, un marco de generación de alta velocidad basado en el emparejamiento de flujo rectificado determinista. A diferencia de los modelos de difusión tradicionales, que requieren cientos de pasos de eliminación de ruido, MotionFLUX construye trayectorias de transporte óptimo entre distribuciones de ruido y espacios de movimiento, facilitando la síntesis en tiempo real. Las trayectorias de probabilidad linealizadas reducen la necesidad de muestreo de múltiples pasos típico de los métodos secuenciales, acelerando significativamente el tiempo de inferencia sin sacrificar la calidad del movimiento. Los resultados experimentales demuestran que, juntos, TAPO y MotionFLUX forman un sistema unificado que supera a los enfoques más avanzados tanto en consistencia semántica como en calidad de movimiento, al mismo tiempo que acelera la velocidad de generación. El código y los modelos preentrenados serán liberados.
La capacidad de investigar y sintetizar conocimiento es fundamental para la experiencia humana y el progreso. Una nueva clase de sistemas promete estas emocionantes capacidades a través de la síntesis generativa de investigación, realizando búsquedas en la web en vivo y sintetizando las fuentes descubiertas en resúmenes extensos y citados. Sin embargo, evaluar dichos sistemas sigue siendo un desafío abierto: los benchmarks existentes de preguntas y respuestas se centran en respuestas factuales breves, mientras que los conjuntos de datos curados por expertos corren el riesgo de quedarse obsoletos o de sufrir contaminación de datos. Ambos enfoques no logran capturar la complejidad y la naturaleza evolutiva de las tareas reales de síntesis de investigación. En este trabajo, presentamos DeepScholar-bench, un benchmark en vivo y un marco de evaluación holístico y automatizado diseñado para evaluar la síntesis generativa de investigación. DeepScholar-bench extrae consultas de artículos recientes y de alta calidad de ArXiv y se centra en una tarea real de síntesis de investigación: generar las secciones de trabajos relacionados de un artículo mediante la recuperación, síntesis y citación de investigaciones previas. Nuestro marco de evaluación evalúa holísticamente el rendimiento en tres dimensiones clave: síntesis de conocimiento, calidad de recuperación y verificabilidad. También desarrollamos DeepScholar-base, una canalización de referencia implementada de manera eficiente utilizando la API de LOTUS. Utilizando el marco de DeepScholar-bench, realizamos una evaluación sistemática de sistemas de código abierto previos, los sistemas de búsqueda de IA, DeepResearch de OpenAI y DeepScholar-base. Encontramos que DeepScholar-base establece una línea base sólida, alcanzando un rendimiento competitivo o superior al de cada uno de los otros métodos. También encontramos que DeepScholar-bench está lejos de estar saturado, ya que ningún sistema supera una puntuación del 19% en todas las métricas. Estos resultados subrayan la dificultad de DeepScholar-bench, así como su importancia para avanzar hacia sistemas de IA capaces de realizar síntesis generativa de investigación. Hacemos nuestro código disponible en https://github.com/guestrin-lab/deepscholar-bench.
Servir modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es una tarea intensiva en el uso de GPU, donde los escaladores automáticos tradicionales no son suficientes, especialmente para las arquitecturas modernas desagregadas de Prellenado-Decodificación (P/D). Este cambio arquitectónico, aunque potente, introduce desafíos operativos significativos, incluyendo el uso ineficiente de hardware heterogéneo, cuellos de botella en la red y desequilibrios críticos entre las etapas de prellenado y decodificación. Presentamos HeteroScale, un marco de escalado automático coordinado que aborda los desafíos centrales del servicio desagregado P/D. HeteroScale combina un planificador consciente de la topología que se adapta a las restricciones de hardware heterogéneo y de red con una política novedosa basada en métricas, derivada del primer estudio empírico a gran escala de señales de escalado automático en producción. Al aprovechar una única métrica robusta para escalar conjuntamente los grupos de prellenado y decodificación, HeteroScale mantiene el equilibrio arquitectónico mientras asegura una gestión de recursos eficiente y adaptativa. Implementado en un entorno de producción masivo con decenas de miles de GPUs, HeteroScale ha demostrado su efectividad, aumentando la utilización promedio de GPU en 26.6 puntos porcentuales y ahorrando cientos de miles de horas-GPU diariamente, todo mientras se mantienen objetivos de nivel de servicio estrictos.
Los modelos base para el modelado de materiales están avanzando rápidamente, pero su entrenamiento sigue siendo costoso, lo que a menudo sitúa los métodos de vanguardia fuera del alcance de muchos grupos de investigación. Presentamos Nequix, un potencial E(3)-equivariante compacto que combina un diseño simplificado de NequIP con prácticas modernas de entrenamiento, incluyendo la normalización de capas equivariante de raíz cuadrática media y el optimizador Muon, para mantener la precisión mientras reduce sustancialmente los requisitos de cómputo. Desarrollado en JAX, Nequix tiene 700K parámetros y fue entrenado en 500 horas de GPU A100. En los benchmarks Matbench-Discovery y MDR Phonon, Nequix ocupa el tercer lugar en general mientras requiere menos de un cuarto del costo de entrenamiento de la mayoría de los otros métodos, y ofrece una velocidad de inferencia un orden de magnitud más rápida que el modelo actualmente mejor clasificado. Publicamos los pesos del modelo y un código base completamente reproducible en https://github.com/atomicarchitects/nequix.
Este artículo identifica y analiza una nueva clase de vulnerabilidad en sistemas de agentes basados en el Protocolo de Contexto de Modelo (MCP, por sus siglas en inglés). La cadena de ataque describe y demuestra cómo tareas benignas y autorizadas individualmente pueden ser orquestadas para generar comportamientos emergentes dañinos. Mediante un análisis sistemático utilizando el marco MITRE ATLAS, demostramos cómo 95 agentes probados con acceso a múltiples servicios—incluyendo automatización de navegadores, análisis financiero, seguimiento de ubicación y despliegue de código—pueden encadenar operaciones legítimas en secuencias de ataque sofisticadas que trascienden los límites de seguridad de cualquier servicio individual. Estos ejercicios de equipo rojo evalúan si las arquitecturas actuales de MCP carecen de medidas de seguridad interdominio necesarias para detectar o prevenir una amplia categoría de ataques composicionales. Presentamos evidencia empírica de cadenas de ataque específicas que logran daños dirigidos mediante la orquestación de servicios, incluyendo exfiltración de datos, manipulación financiera y compromiso de infraestructura. Estos hallazgos revelan que la suposición fundamental de seguridad de aislamiento de servicios falla cuando los agentes pueden coordinar acciones a través de múltiples dominios, creando una superficie de ataque exponencial que crece con cada capacidad adicional. Esta investigación proporciona un marco experimental básico que evalúa no si los agentes pueden completar tareas de referencia de MCP, sino qué sucede cuando las completan demasiado bien y optimizan a través de múltiples servicios de maneras que violan las expectativas humanas y las restricciones de seguridad. Proponemos tres direcciones experimentales concretas utilizando el conjunto de pruebas de referencia de MCP existente.