Artículos de investigación en IA seleccionados diariamente con traducciones
En los últimos años, ha surgido una gran cantidad de modelos base de código abierto, logrando avances notables en algunos campos ampliamente atendidos, con un rendimiento bastante cercano al de los modelos de código cerrado. Sin embargo, en campos científicos profesionales de alto valor pero más desafiantes, estos campos aún dependen de modelos expertos, o el progreso de los modelos base generales se retrasa significativamente en comparación con las áreas populares, lejos de ser suficiente para transformar la investigación científica y dejando una brecha sustancial entre los modelos de código abierto y los de código cerrado en estos dominios científicos. Para mitigar esta brecha y explorar un paso más hacia la Inteligencia General Artificial (AGI), presentamos Intern-S1, un generalista especializado equipado con capacidades de comprensión y razonamiento general, además de experiencia para analizar datos multimodales en ciencia. Intern-S1 es un modelo multimodal de Mezcla de Expertos (MoE) con 28 mil millones de parámetros activados y 241 mil millones de parámetros en total, preentrenado continuamente en 5 billones de tokens, incluyendo más de 2.5 billones de tokens de dominios científicos. En la etapa de posentrenamiento, Intern-S1 se somete a aprendizaje por refuerzo (RL) tanto fuera de línea como en línea en InternBootCamp, donde proponemos una Mezcla de Recompensas (MoR) para sincronizar el entrenamiento de RL en más de 1000 tareas simultáneamente. A través de innovaciones integradas en algoritmos, datos y sistemas de entrenamiento, Intern-S1 logró un rendimiento de primer nivel en el entrenamiento de RL en línea. En evaluaciones integrales, Intern-S1 demuestra un rendimiento competitivo en tareas de razonamiento general entre los modelos de código abierto y supera significativamente a los modelos de código abierto en dominios científicos, superando a los modelos de código cerrado de última generación en tareas profesionales, como la planificación de síntesis molecular, la predicción de condiciones de reacción y la predicción de estabilidades termodinámicas para cristales. Nuestros modelos están disponibles en https://huggingface.co/internlm/Intern-S1.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un gran potencial en tareas de razonamiento mediante métodos de escalado en tiempo de prueba, como la autoconsistencia con votación mayoritaria. Sin embargo, este enfoque suele generar rendimientos decrecientes en precisión y un alto costo computacional. Para abordar estos desafíos, presentamos Deep Think with Confidence (DeepConf), un método simple pero potente que mejora tanto la eficiencia del razonamiento como el rendimiento en tiempo de prueba. DeepConf aprovecha señales internas de confianza del modelo para filtrar dinámicamente trazas de razonamiento de baja calidad durante o después de su generación. No requiere entrenamiento adicional del modelo ni ajuste de hiperparámetros y puede integrarse sin problemas en marcos de servicio existentes. Evaluamos DeepConf en una variedad de tareas de razonamiento y en los últimos modelos de código abierto, incluyendo Qwen 3 y la serie GPT-OSS. Destacablemente, en puntos de referencia desafiantes como AIME 2025, DeepConf@512 alcanza hasta un 99.9% de precisión y reduce los tokens generados hasta en un 84.7% en comparación con el pensamiento paralelo completo.
Este artículo presenta GUI-Owl, un modelo fundamental de agente GUI que alcanza un rendimiento de vanguardia entre los modelos de código abierto de extremo a extremo en diez benchmarks de GUI para entornos de escritorio y móviles, abarcando fundamentación, respuesta a preguntas, planificación, toma de decisiones y conocimiento procedimental. GUI-Owl-7B logra 66.4 en AndroidWorld y 29.4 en OSWorld. Sobre esta base, proponemos Mobile-Agent-v3, un marco de agente GUI de propósito general que mejora aún más el rendimiento a 73.3 en AndroidWorld y 37.7 en OSWorld, estableciendo un nuevo estado del arte para marcos de agentes GUI de código abierto. GUI-Owl incorpora tres innovaciones clave: (1) Infraestructura de Entorno a Gran Escala: un entorno virtual basado en la nube que abarca Android, Ubuntu, macOS y Windows, permitiendo nuestro marco de Producción de Trayectorias GUI de Auto-Evolución. Este genera datos de interacción de alta calidad mediante la generación automática de consultas y validación de corrección, aprovechando GUI-Owl para refinar trayectorias de manera iterativa, formando un ciclo de auto-mejora. Soporta diversas canalizaciones de datos y reduce la anotación manual. (2) Capacidades Fundamentales Diversas del Agente: al integrar fundamentación de UI, planificación, semántica de acciones y patrones de razonamiento, GUI-Owl soporta la toma de decisiones de extremo a extremo y puede actuar como un componente modular en sistemas multi-agente. (3) RL de Entorno Escalable: desarrollamos un marco de aprendizaje por refuerzo escalable con entrenamiento completamente asíncrono para alineación con el mundo real. También introducimos Optimización de Política Relativa Consciente de Trayectorias (TRPO) para RL en línea, alcanzando 34.9 en OSWorld. GUI-Owl y Mobile-Agent-v3 están disponibles en código abierto en https://github.com/X-PLUG/MobileAgent.
La capacidad de invocar herramientas ha surgido como una habilidad crítica para que los agentes de IA interactúen con el mundo real y resuelvan tareas complejas. Si bien el Protocolo de Contexto del Modelo (MCP, por sus siglas en inglés) proporciona un marco estandarizado y potente para la integración de herramientas, existe una brecha significativa en la evaluación de qué tan bien los agentes de IA pueden resolver eficazmente tareas de múltiples pasos utilizando diversas herramientas MCP en escenarios dinámicos y realistas. En este trabajo, presentamos LiveMCP-101, un benchmark de 101 consultas cuidadosamente seleccionadas del mundo real, refinadas mediante reescritura iterativa con modelos de lenguaje (LLM) y revisión manual, que requieren el uso coordinado de múltiples herramientas MCP, incluyendo búsqueda web, operaciones de archivos, razonamiento matemático y análisis de datos. Además, introducimos un enfoque de evaluación novedoso que aprovecha planes de ejecución de referencia en lugar de salidas brutas de API, reflejando mejor la naturaleza evolutiva de los entornos del mundo real. Los experimentos muestran que incluso los LLM más avanzados logran una tasa de éxito inferior al 60%, lo que subraya importantes desafíos en la orquestación de herramientas. Los análisis detallados y el estudio de errores revelan además modos de fallo distintos e ineficiencias en el uso de tokens, señalando direcciones concretas para avanzar en los modelos actuales. LiveMCP-101 establece un estándar riguroso para evaluar las capacidades de los agentes en el mundo real, avanzando hacia sistemas de IA autónomos que ejecuten tareas complejas de manera confiable mediante el uso de herramientas.
Presentamos Waver, un modelo base de alto rendimiento para la generación unificada de imágenes y videos. Waver puede generar directamente videos con duraciones que van desde 5 hasta 10 segundos a una resolución nativa de 720p, los cuales posteriormente se escalan a 1080p. El modelo soporta simultáneamente la generación de texto a video (T2V), imagen a video (I2V) y texto a imagen (T2I) dentro de un único marco integrado. Introducimos una arquitectura DiT de Flujo Híbrido para mejorar la alineación de modalidades y acelerar la convergencia del entrenamiento. Para garantizar la calidad de los datos de entrenamiento, establecemos una canalización integral de curación de datos y entrenamos manualmente un modelo de calidad de video basado en MLLM para filtrar las muestras de mayor calidad. Además, proporcionamos recetas detalladas de entrenamiento e inferencia para facilitar la generación de videos de alta calidad. Basándonos en estas contribuciones, Waver sobresale en la captura de movimientos complejos, logrando una amplitud de movimiento superior y consistencia temporal en la síntesis de videos. Cabe destacar que se encuentra entre los 3 primeros en las clasificaciones de T2V e I2V en Artificial Analysis (datos al 30-07-2025 10:00 GMT+8), superando consistentemente los modelos de código abierto existentes e igualando o superando las soluciones comerciales más avanzadas. Esperamos que este informe técnico ayude a la comunidad a entrenar de manera más eficiente modelos de generación de videos de alta calidad y acelere el progreso en las tecnologías de generación de videos. Página oficial: https://github.com/FoundationVision/Waver.
La generación de contenido 3D ha atraído recientemente un interés significativo en la investigación debido a sus aplicaciones en realidad virtual/aumentada (VR/AR) e inteligencia artificial encarnada. En este trabajo, abordamos la tarea desafiante de sintetizar múltiples activos 3D dentro de una sola imagen de escena. Concretamente, nuestras contribuciones son cuatro: (i) presentamos SceneGen, un marco novedoso que toma una imagen de escena y las máscaras de objetos correspondientes como entrada, produciendo simultáneamente múltiples activos 3D con geometría y textura. Notablemente, SceneGen opera sin necesidad de optimización o recuperación de activos; (ii) introducimos un módulo novedoso de agregación de características que integra información local y global de la escena a partir de codificadores visuales y geométricos dentro del módulo de extracción de características. Junto con una cabeza de posición, esto permite la generación de activos 3D y sus posiciones espaciales relativas en un único paso de propagación hacia adelante; (iii) demostramos la extensibilidad directa de SceneGen a escenarios de entrada con múltiples imágenes. A pesar de haber sido entrenado únicamente con entradas de una sola imagen, nuestro diseño arquitectónico permite un mejor rendimiento de generación con entradas de múltiples imágenes; y (iv) evaluaciones cuantitativas y cualitativas extensas confirman la eficiencia y las capacidades robustas de generación de nuestro enfoque. Creemos que este paradigma ofrece una solución novedosa para la generación de contenido 3D de alta calidad, potencialmente avanzando sus aplicaciones prácticas en tareas posteriores. El código y el modelo estarán disponibles públicamente en: https://mengmouxu.github.io/SceneGen.
En los últimos años, con el rápido desarrollo de la profundidad y amplitud de las capacidades de los modelos de lenguaje grandes, han surgido cada vez más diversos puntos de referencia de evaluación correspondientes. Como herramienta de evaluación cuantitativa del rendimiento de los modelos, los puntos de referencia no solo son un medio fundamental para medir las capacidades de los modelos, sino también un elemento clave para guiar la dirección del desarrollo de los modelos y promover la innovación tecnológica. Revisamos sistemáticamente, por primera vez, el estado actual y el desarrollo de los puntos de referencia para modelos de lenguaje grandes, clasificando 283 puntos de referencia representativos en tres categorías: capacidades generales, específicas de dominio y específicas de objetivo. Los puntos de referencia de capacidades generales abarcan aspectos como la lingüística central, el conocimiento y el razonamiento; los puntos de referencia específicos de dominio se centran en campos como las ciencias naturales, las humanidades y las ciencias sociales, y la tecnología de ingeniería; los puntos de referencia específicos de objetivo prestan atención a riesgos, confiabilidad, agentes, etc. Señalamos que los puntos de referencia actuales presentan problemas como puntuaciones infladas debido a la contaminación de datos, evaluaciones injustas por sesgos culturales y lingüísticos, y la falta de evaluación sobre la credibilidad del proceso y los entornos dinámicos, y proporcionamos un paradigma de diseño referencial para la innovación futura en puntos de referencia.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido que los agentes de IA generen propuestas científicas, realicen experimentos, redacten artículos y lleven a cabo revisiones por pares de manera autónoma. Sin embargo, esta avalancha de contenido de investigación generado por IA choca con un ecosistema de publicación fragmentado y en gran medida cerrado. Las revistas y conferencias tradicionales dependen de la revisión por pares humana, lo que dificulta su escalabilidad y, a menudo, las hace reacias a aceptar contenido de investigación generado por IA; los servidores de preimpresión existentes (por ejemplo, arXiv) carecen de mecanismos rigurosos de control de calidad. En consecuencia, una cantidad significativa de investigación de alta calidad generada por IA carece de espacios adecuados para su difusión, obstaculizando su potencial para impulsar el progreso científico. Para abordar estos desafíos, presentamos aiXiv, una plataforma de acceso abierto de próxima generación para científicos humanos y de IA. Su arquitectura multiagente permite que las propuestas de investigación y los artículos sean enviados, revisados y refinados iterativamente tanto por científicos humanos como por IA. Además, proporciona interfaces API y MCP que permiten la integración fluida de científicos humanos y de IA heterogéneos, creando un ecosistema escalable y extensible para el descubrimiento científico autónomo. A través de extensos experimentos, demostramos que aiXiv es una plataforma confiable y robusta que mejora significativamente la calidad de las propuestas y artículos de investigación generados por IA después de revisiones y refinamientos iterativos en aiXiv. Nuestro trabajo sienta las bases para un ecosistema de acceso abierto de próxima generación para científicos de IA, acelerando la publicación y difusión de contenido de investigación de alta calidad generado por IA. El código está disponible en https://github.com/aixiv-org. El sitio web está disponible en https://forms.gle/DxQgCtXFsJ4paMtn8.
Los modelos corporales paramétricos ofrecen una representación 3D expresiva de humanos en una amplia gama de poses, formas y expresiones faciales, típicamente derivada del aprendizaje de una base sobre mallas 3D registradas. Sin embargo, los enfoques existentes de modelado de mallas humanas tienen dificultades para capturar variaciones detalladas en diversas poses y formas corporales, principalmente debido a la diversidad limitada de datos de entrenamiento y a supuestos de modelado restrictivos. Además, el paradigma común primero optimiza la superficie externa del cuerpo utilizando una base lineal, y luego regresa las articulaciones esqueléticas internas a partir de los vértices de la superficie. Este enfoque introduce dependencias problemáticas entre el esqueleto interno y el tejido blando externo, limitando el control directo sobre la altura del cuerpo y las longitudes de los huesos. Para abordar estos problemas, presentamos ATLAS, un modelo corporal de alta fidelidad aprendido a partir de 600k escaneos de alta resolución capturados utilizando 240 cámaras sincronizadas. A diferencia de métodos anteriores, desacoplamos explícitamente las bases de forma y esqueleto al fundamentar nuestra representación de malla en el esqueleto humano. Este desacoplamiento permite una mayor expresividad de la forma, una personalización detallada de los atributos corporales y un ajuste de puntos clave independiente de las características del tejido blando externo. ATLAS supera a los métodos existentes al ajustar sujetos no vistos en diversas poses con mayor precisión, y las evaluaciones cuantitativas muestran que nuestras correcciones de pose no lineales capturan poses complejas de manera más efectiva en comparación con los modelos lineales.
Los recientes avances en los modelos de difusión han aportado una notable fidelidad visual a la edición de imágenes guiada por instrucciones. Sin embargo, su proceso global de eliminación de ruido inherentemente entrelaza la región editada con todo el contexto de la imagen, lo que conduce a modificaciones espurias no deseadas y a un compromiso en la adherencia a las instrucciones de edición. En contraste, los modelos autorregresivos ofrecen un paradigma distinto al formular la síntesis de imágenes como un proceso secuencial sobre tokens visuales discretos. Su mecanismo causal y composicional evita naturalmente los desafíos de adherencia de los métodos basados en difusión. En este artículo, presentamos VAREdit, un marco autorregresivo visual (VAR) que replantea la edición de imágenes como un problema de predicción de la siguiente escala. Condicionado por las características de la imagen fuente y las instrucciones de texto, VAREdit genera características objetivo a múltiples escalas para lograr ediciones precisas. Un desafío central en este paradigma es cómo condicionar efectivamente los tokens de la imagen fuente. Observamos que las características de la fuente a la escala más fina no pueden guiar efectivamente la predicción de las características objetivo más gruesas. Para cerrar esta brecha, introducimos un módulo de Referencia Alineada en Escala (SAR, por sus siglas en inglés), que inyecta información de condicionamiento alineada en escala en la primera capa de autoatención. VAREdit demuestra avances significativos tanto en la adherencia a la edición como en la eficiencia. En puntos de referencia estándar, supera a los principales métodos basados en difusión con un puntaje GPT-Balance un 30\% más alto. Además, completa una edición de 512x512 en 1.2 segundos, lo que lo hace 2.2 veces más rápido que UltraEdit de tamaño similar. Los modelos están disponibles en https://github.com/HiDream-ai/VAREdit.
Los mapas digitales interactivos han revolucionado la forma en que las personas viajan y aprenden sobre el mundo; sin embargo, dependen de datos estructurados preexistentes en bases de datos GIS (por ejemplo, redes viales, índices de puntos de interés), lo que limita su capacidad para abordar preguntas geo-visuales relacionadas con cómo se ve el mundo. Presentamos nuestra visión de los Agentes Geo-Visuales: agentes de IA multimodales capaces de comprender y responder a consultas visual-espaciales matizadas sobre el mundo mediante el análisis de repositorios a gran escala de imágenes geoespaciales, incluyendo vistas de calles (por ejemplo, Google Street View), fotos basadas en lugares (por ejemplo, TripAdvisor, Yelp) e imágenes aéreas (por ejemplo, fotos satelitales), combinadas con fuentes de datos GIS tradicionales. Definimos nuestra visión, describimos enfoques de detección e interacción, proporcionamos tres ejemplos y enumeramos los desafíos clave y las oportunidades para trabajos futuros.
La reconstrucción de cuerpos humanos en 3D a partir de vistas escasas ha sido un tema atractivo, crucial para ampliar las aplicaciones relacionadas. En este artículo, proponemos una tarea desafiante pero valiosa: reconstruir el cuerpo humano utilizando solo dos imágenes, es decir, las vistas frontal y posterior, lo que puede reducir significativamente la barrera para que los usuarios creen sus propios humanos digitales en 3D. Los principales desafíos radican en la dificultad de construir consistencia 3D y recuperar información faltante a partir de una entrada altamente escasa. Rediseñamos un modelo de reconstrucción geométrica basado en modelos de reconstrucción fundamentales para predecir nubes de puntos consistentes, incluso cuando las imágenes de entrada tienen superposiciones mínimas, gracias a un extenso entrenamiento con datos humanos. Además, se aplica un algoritmo de mejora para complementar la información de color faltante, obteniendo así nubes de puntos humanas completas con color, que se transforman directamente en gaussianas 3D para una mejor calidad de renderizado. Los experimentos muestran que nuestro método puede reconstruir un humano completo en 190 ms en una sola NVIDIA RTX 4090, utilizando dos imágenes con una resolución de 1024x1024, demostrando un rendimiento de vanguardia en los conjuntos de datos THuman2.0 y de dominio cruzado. Además, nuestro método puede completar la reconstrucción humana incluso con imágenes capturadas por dispositivos móviles de bajo costo, reduciendo los requisitos para la recopilación de datos. Demos y código están disponibles en https://hustvl.github.io/Snap-Snap/.
El desarrollo de los Modelos de Lenguaje-Habla a Gran Escala (LSLMs, por sus siglas en inglés) se ha visto ralentizado por arquitecturas fragmentadas y una falta de transparencia, lo que dificulta la comparación sistemática y la reproducibilidad de la investigación. A diferencia del dominio de visión-lenguaje, el campo de los LSLMs sufre de la práctica común de liberar los pesos de los modelos sin sus datos de entrenamiento y configuraciones correspondientes. Para abordar estas brechas críticas, presentamos LLaSO, el primer marco completamente abierto y de extremo a extremo para el modelado de lenguaje-habla a gran escala. LLaSO proporciona a la comunidad tres recursos esenciales: (1) LLaSO-Align, un corpus de alineación de habla-texto con 12 millones de instancias; (2) LLaSO-Instruct, un conjunto de datos de ajuste por instrucciones multitarea con 13.5 millones de instancias; y (3) LLaSO-Eval, un punto de referencia reproducible para la evaluación estandarizada. Para validar nuestro marco, construimos y liberamos LLaSO-Base, un modelo de referencia con 3.8 mil millones de parámetros entrenado exclusivamente con nuestros datos públicos. Este alcanza una puntuación normalizada de 0.72, estableciendo una línea base sólida y reproducible que supera a modelos comparables. Nuestro análisis revela que, aunque una cobertura más amplia del entrenamiento mejora el rendimiento, persisten brechas significativas de generalización en tareas no vistas, particularmente en escenarios de audio puro. Al liberar la pila completa de datos, puntos de referencia y modelos, LLaSO establece un estándar abierto fundamental para unificar los esfuerzos de investigación y acelerar el progreso impulsado por la comunidad en los LSLMs. Liberamos el código, el conjunto de datos, los modelos preentrenados y los resultados en https://github.com/EIT-NLP/LLaSO.
Comprender videos requiere más que responder preguntas abiertas; exige la capacidad de identificar cuándo ocurren los eventos y cómo interactúan las entidades a lo largo del tiempo. Si bien los modelos de lenguaje de video (Video LLMs) recientes han logrado avances notables en razonamiento holístico, siguen siendo imprecisos en la percepción temporal: las marcas de tiempo se codifican solo de manera implícita, las características a nivel de fotograma son débiles para capturar la continuidad, y la alineación entre lenguaje y visión a menudo se desvía de las entidades de interés. En este artículo, presentamos Grounded VideoDiT, un Video LLM diseñado para superar estas limitaciones mediante tres innovaciones clave. Primero, un codificador de latente temporal de difusión (Diffusion Temporal Latent, DTL) mejora la sensibilidad a los límites y mantiene la consistencia temporal. Segundo, las representaciones basadas en objetos vinculan explícitamente las entidades consultadas con evidencia visual localizada, fortaleciendo la alineación. Tercero, un esquema de tokens mixtos con tokens temporales discretos proporciona un modelado explícito de marcas de tiempo, permitiendo un razonamiento temporal de grano fino. En conjunto, estos diseños dotan a Grounded VideoDiT de capacidades robustas de anclaje, como lo validan los resultados de vanguardia en Charades STA, NExT GQA y múltiples benchmarks de VideoQA.
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) han surgido como un marco prometedor para supervisar el razonamiento intermedio en modelos de lenguaje de gran escala (LLMs). Sin embargo, los PRMs existentes se entrenan principalmente en dominios generales o de Ciencia, Tecnología, Ingeniería y Matemáticas (STEM) y no alcanzan un rendimiento óptimo en contextos específicos como el financiero, donde el razonamiento es más estructurado, simbólico y sensible a la corrección factual y regulatoria. Presentamos Fin-PRM, un PRM especializado en dominios y consciente de trayectorias, diseñado para evaluar pasos intermedios de razonamiento en tareas financieras. Fin-PRM integra supervisión de recompensas a nivel de paso y de trayectoria, permitiendo una evaluación detallada de trazas de razonamiento alineadas con la lógica financiera. Aplicamos Fin-PRM en configuraciones de aprendizaje de recompensas tanto fuera de línea como en línea, respaldando tres aplicaciones clave: (i) seleccionar trayectorias de razonamiento de alta calidad para ajustes supervisados basados en destilación, (ii) proporcionar recompensas densas a nivel de proceso para el aprendizaje por refuerzo, y (iii) guiar inferencias Best-of-N informadas por recompensas durante la fase de prueba. Los resultados experimentales en benchmarks de razonamiento financiero, como CFLUE y FinQA, demuestran que Fin-PRM supera consistentemente a los PRMs de propósito general y a líneas base sólidas del dominio en la calidad de selección de trayectorias. Los modelos entrenados con Fin-PRM muestran mejoras sustanciales respecto a las líneas base, con ganancias del 12.9% en aprendizaje supervisado, 5.2% en aprendizaje por refuerzo y 5.1% en el rendimiento durante la prueba. Estos hallazgos resaltan el valor de los modelos de recompensa especializados en dominios para alinear los LLMs con el razonamiento financiero a nivel experto. Los recursos de nuestro proyecto estarán disponibles en https://github.com/aliyun/qwen-dianjin.
La compañía de IA, donde los usuarios desarrollan vínculos emocionales con sistemas de IA, ha surgido como un patrón significativo con implicaciones tanto positivas como preocupantes. Presentamos el Benchmark de Interacciones y Apego a Máquinas (INTIMA), un punto de referencia para evaluar comportamientos de compañía en modelos de lenguaje. Basándonos en teorías psicológicas y datos de usuarios, desarrollamos una taxonomía de 31 comportamientos distribuidos en cuatro categorías y 368 indicaciones específicas. Las respuestas a estas indicaciones se evalúan como refuerzo de compañía, mantenimiento de límites o neutrales. Al aplicar INTIMA a Gemma-3, Phi-4, o3-mini y Claude-4, se revela que los comportamientos que refuerzan la compañía siguen siendo mucho más comunes en todos los modelos, aunque observamos diferencias marcadas entre ellos. Diferentes proveedores comerciales priorizan distintas categorías dentro de las partes más sensibles del benchmark, lo cual es preocupante ya que tanto el establecimiento adecuado de límites como el apoyo emocional son importantes para el bienestar del usuario. Estos hallazgos destacan la necesidad de enfoques más consistentes para manejar interacciones cargadas emocionalmente.