Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en los modelos de lenguaje de gran escala (LLMs) y los sistemas multiagente han demostrado capacidades notables en tareas complejas de resolución de problemas, como la investigación profunda, la codificación intuitiva y el razonamiento matemático. Sin embargo, la mayoría de los sistemas multiagente existentes se basan en la ingeniería manual de prompts/flujos de trabajo con marcos de agentes sofisticados, lo que los hace computacionalmente ineficientes, menos capaces y no pueden beneficiarse del aprendizaje centrado en datos. En este trabajo, presentamos Chain-of-Agents (CoA), un nuevo paradigma de razonamiento en LLMs que permite la resolución nativa de problemas complejos de extremo a extremo de la misma manera que un sistema multiagente (es decir, resolución de problemas en múltiples turnos con múltiples herramientas y múltiples agentes) dentro de un solo modelo. En la resolución de problemas de cadena de agentes, el modelo activa dinámicamente diferentes agentes de herramientas y agentes de interpretación de roles para simular la colaboración multiagente de manera integral. Para fomentar las habilidades de resolución de problemas de cadena de agentes de extremo a extremo en los LLMs, introducimos un marco de destilación multiagente para destilar sistemas multiagente de última generación en trayectorias de cadena de agentes para el ajuste fino supervisado de tipo agente. Luego, utilizamos el aprendizaje por refuerzo de tipo agente en tareas verificables para mejorar aún más las capacidades de los modelos en la resolución de problemas de cadena de agentes. Llamamos a los modelos resultantes Modelos Fundacionales de Agentes (AFMs). Nuestros estudios empíricos demuestran que AFM establece un nuevo estado del arte en diversos benchmarks tanto en configuraciones de agentes web como de código. Hacemos que toda la investigación, incluidos los pesos del modelo, el código para entrenamiento y evaluación, y los datos de entrenamiento, sean completamente de código abierto, lo que ofrece un punto de partida sólido para futuras investigaciones sobre modelos de agentes y aprendizaje por refuerzo de tipo agente.
LongSplat aborda desafíos críticos en la síntesis de nuevas vistas (NVS, por sus siglas en inglés) a partir de videos largos capturados de manera casual, caracterizados por movimientos irregulares de la cámara, poses desconocidas de la cámara y escenas expansivas. Los métodos actuales suelen sufrir de deriva en las poses, inicialización geométrica imprecisa y limitaciones severas de memoria. Para resolver estos problemas, presentamos LongSplat, un marco robusto de 3D Gaussian Splatting sin poses que incluye: (1) Optimización Conjunta Incremental que optimiza simultáneamente las poses de la cámara y los Gaussianos 3D para evitar mínimos locales y garantizar consistencia global; (2) un Módulo de Estimación de Poses Robusto que aprovecha priores 3D aprendidos; y (3) un mecanismo eficiente de Formación de Anclajes Octree que convierte nubes de puntos densas en anclajes basados en la densidad espacial. Experimentos exhaustivos en benchmarks desafiantes demuestran que LongSplat logra resultados de vanguardia, mejorando sustancialmente la calidad de renderizado, la precisión de las poses y la eficiencia computacional en comparación con enfoques anteriores. Página del proyecto: https://linjohnss.github.io/longsplat/
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) requieren técnicas de *prompting* sofisticadas, aunque las prácticas actuales enfrentan desafíos en estructura, integración de datos, sensibilidad al formato y herramientas disponibles. Los métodos existentes carecen de soluciones integrales para organizar *prompts* complejos que involucren diversos tipos de datos (documentos, tablas, imágenes) o para gestionar variaciones de presentación de manera sistemática. Para abordar estas limitaciones, presentamos POML (Lenguaje de Marcado para la Orquestación de *Prompts*). POML utiliza un marcado basado en componentes para la estructura lógica (roles, tareas, ejemplos), etiquetas especializadas para una integración fluida de datos y un sistema de estilos similar a CSS para separar el contenido de la presentación, reduciendo la sensibilidad al formato. Incluye plantillas para *prompts* dinámicos y un conjunto completo de herramientas para desarrolladores (soporte para IDE, SDKs) para mejorar el control de versiones y la colaboración. Validamos POML mediante dos estudios de caso que demuestran su impacto en la integración de aplicaciones complejas (PomLink) y en el rendimiento de precisión (TableQA), así como un estudio de usuario que evalúa su eficacia en escenarios de desarrollo del mundo real.
Los diseñadores visuales naturalmente obtienen inspiración de múltiples referencias visuales, combinando diversos elementos y principios estéticos para crear obras de arte. Sin embargo, los marcos actuales de generación de imágenes dependen predominantemente de entradas de una sola fuente, ya sea indicaciones de texto o imágenes de referencia individuales. En este artículo, nos centramos en la tarea de generación de imágenes controlable utilizando múltiples referencias visuales. Introducimos MultiRef-bench, un marco de evaluación riguroso que comprende 990 muestras sintéticas y 1,000 muestras del mundo real que requieren incorporar contenido visual de múltiples imágenes de referencia. Las muestras sintéticas se generan sintéticamente a través de nuestro motor de datos RefBlend, con 10 tipos de referencia y 33 combinaciones de referencias. Basándonos en RefBlend, construimos además un conjunto de datos MultiRef que contiene 38k imágenes de alta calidad para facilitar investigaciones futuras. Nuestros experimentos en tres modelos intercalados de imagen-texto (es decir, OmniGen, ACE y Show-o) y seis marcos agentes (por ejemplo, ChatDiT y LLM + SD) revelan que incluso los sistemas más avanzados tienen dificultades con el condicionamiento de múltiples referencias, con el mejor modelo, OmniGen, logrando solo un 66.6% en muestras sintéticas y un 79.0% en casos del mundo real en promedio en comparación con la respuesta ideal. Estos hallazgos proporcionan direcciones valiosas para desarrollar herramientas creativas más flexibles y similares a las humanas que puedan integrar efectivamente múltiples fuentes de inspiración visual. El conjunto de datos está disponible públicamente en: https://multiref.github.io/.
La evaluación de recomendaciones personalizadas sigue siendo un desafío central, especialmente en dominios de audio de larga duración como los podcasts, donde las métricas tradicionales fuera de línea sufren de sesgo de exposición y los métodos en línea, como las pruebas A/B, son costosos y operativamente limitados. En este artículo, proponemos un marco novedoso que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como evaluadores fuera de línea para valorar la calidad de las recomendaciones de podcasts de manera escalable e interpretable. Nuestro enfoque de dos etapas, consciente del perfil, primero construye perfiles de usuario en lenguaje natural destilados a partir de 90 días de historial de escucha. Estos perfiles resumen tanto los intereses temáticos como los patrones de comportamiento, sirviendo como representaciones compactas e interpretables de las preferencias del usuario. En lugar de proporcionar al LLM datos en bruto, utilizamos estos perfiles para ofrecer un contexto de alto nivel y semánticamente rico, permitiendo que el LLM razone de manera más efectiva sobre la alineación entre los intereses del usuario y los episodios recomendados. Esto reduce la complejidad de la entrada y mejora la interpretabilidad. Luego, se solicita al LLM que emita juicios detallados, tanto puntuales como por pares, basados en la correspondencia entre el perfil y el episodio. En un estudio controlado con 47 participantes, nuestro evaluador consciente del perfil coincidió con los juicios humanos con alta fidelidad y superó o igualó a una variante que utilizaba historiales de escucha en bruto. Este marco permite una evaluación eficiente y consciente del perfil para pruebas iterativas y selección de modelos en sistemas de recomendación.
La generalización en la IA encarnada se ve obstaculizada por la "brecha entre la percepción y la acción", que surge de la escasez de datos y la heterogeneidad de la encarnación. Para abordar esto, introducimos el "señalamiento" como una representación intermedia unificada y agnóstica a la encarnación, definiendo cuatro habilidades fundamentales de señalamiento encarnado que conectan la comprensión de alto nivel en visión y lenguaje con los primitivos de acción de bajo nivel. Presentamos Embodied-R1, un Modelo de Visión-Lenguaje (VLM) de 3B específicamente diseñado para el razonamiento encarnado y el señalamiento. Utilizamos una amplia gama de conjuntos de datos de razonamiento visual general y encarnado como fuentes para construir un conjunto de datos a gran escala, Embodied-Points-200K, que respalda capacidades clave de señalamiento encarnado. Luego entrenamos Embodied-R1 utilizando un currículo de Ajuste Fino Reforzado (RFT) en dos etapas con un diseño de recompensa multi-tarea especializado. Embodied-R1 logra un rendimiento de vanguardia en 11 benchmarks de señalamiento y espacialidad encarnada. De manera crítica, demuestra una generalización robusta en zero-shot al alcanzar una tasa de éxito del 56.2% en SIMPLEREnv y del 87.5% en 8 tareas reales con XArm, sin ningún ajuste fino específico para la tarea, lo que representa una mejora del 62% sobre líneas base sólidas. Además, el modelo exhibe una alta robustez frente a diversas perturbaciones visuales. Nuestro trabajo muestra que una representación centrada en el señalamiento, combinada con un paradigma de entrenamiento RFT, ofrece una vía efectiva y generalizable para cerrar la brecha percepción-acción en robótica.
Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en diversas tareas, carecen fundamentalmente de autoconciencia y con frecuencia muestran un exceso de confianza, asignando puntuaciones de confianza elevadas a predicciones incorrectas. Por lo tanto, la estimación precisa de la confianza es crucial para mejorar la confiabilidad y la fiabilidad de las salidas generadas por los LLMs. Sin embargo, los enfoques existentes adolecen de mecanismos de puntuación de grano grueso que no proporcionan estimaciones de confianza continuas y de grano fino durante el proceso de generación. Para abordar estas limitaciones, presentamos FineCE, un método novedoso de estimación de confianza que ofrece puntuaciones de confianza precisas y detalladas durante la generación de texto. Específicamente, primero desarrollamos una canalización integral para construir datos de entrenamiento que capturan efectivamente la distribución probabilística subyacente de las respuestas de los LLMs, y luego entrenamos un modelo para predecir puntuaciones de confianza para secuencias de texto arbitrarias de manera supervisada. Además, proponemos una estrategia de Integración de Confianza hacia Atrás (BCI, por sus siglas en inglés) que aprovecha la información del texto subsiguiente para mejorar la estimación de confianza de la secuencia actual durante la inferencia. También introducimos tres estrategias para identificar posiciones óptimas para realizar la estimación de confianza dentro del proceso de generación. Experimentos exhaustivos en múltiples conjuntos de datos de referencia demuestran que FineCE supera consistentemente a los métodos clásicos de estimación de confianza existentes. Nuestro código y todas las líneas base utilizadas en el artículo están disponibles en GitHub.
La edición de color guiada por texto en imágenes y videos es un problema fundamental pero aún no resuelto, que requiere una manipulación precisa de atributos de color, como el albedo, el color de la fuente de luz y la iluminación ambiental, mientras se preserva la consistencia física en la geometría, las propiedades de los materiales y las interacciones luz-materia. Los métodos existentes que no requieren entrenamiento ofrecen una amplia aplicabilidad en tareas de edición, pero tienen dificultades para controlar el color con precisión y a menudo introducen inconsistencias visuales tanto en las regiones editadas como en las no editadas. En este trabajo, presentamos ColorCtrl, un método de edición de color que no requiere entrenamiento y que aprovecha los mecanismos de atención de los Transformers de Difusión Multi-Modal (MM-DiT) modernos. Al separar la estructura y el color mediante la manipulación dirigida de mapas de atención y tokens de valor, nuestro método permite una edición de color precisa y consistente, junto con un control a nivel de palabra de la intensidad de los atributos. Nuestro método modifica solo las regiones especificadas por el prompt, dejando intactas las áreas no relacionadas. Experimentos extensivos tanto en SD3 como en FLUX.1-dev demuestran que ColorCtrl supera a los enfoques existentes que no requieren entrenamiento y logra un rendimiento de vanguardia tanto en calidad de edición como en consistencia. Además, nuestro método supera a modelos comerciales fuertes como FLUX.1 Kontext Max y GPT-4o Image Generation en términos de consistencia. Cuando se extiende a modelos de video como CogVideoX, nuestro enfoque muestra mayores ventajas, particularmente en el mantenimiento de la coherencia temporal y la estabilidad de la edición. Finalmente, nuestro método también se generaliza a modelos de difusión de edición basados en instrucciones como Step1X-Edit y FLUX.1 Kontext dev, lo que demuestra aún más su versatilidad.
El Virtual Try-On (VTON) es una tarea práctica y ampliamente aplicada, para la cual la mayoría de los trabajos existentes se centran en la ropa. Este artículo presenta OmniTry, un marco unificado que extiende el VTON más allá de las prendas para abarcar cualquier objeto wearable, como joyas y accesorios, con un enfoque sin máscaras para una aplicación más práctica. Al extenderlo a diversos tipos de objetos, la curación de datos es un desafío para obtener imágenes emparejadas, es decir, la imagen del objeto y el resultado correspondiente de la prueba virtual. Para abordar este problema, proponemos un pipeline de dos etapas: en la primera etapa, aprovechamos imágenes no emparejadas a gran escala, como retratos con cualquier artículo wearable, para entrenar el modelo en la localización sin máscaras. Específicamente, reutilizamos el modelo de inpainting para dibujar automáticamente objetos en posiciones adecuadas dada una máscara vacía. En la segunda etapa, el modelo se ajusta aún más con imágenes emparejadas para transferir la consistencia de la apariencia del objeto. Observamos que el modelo después de la primera etapa muestra una rápida convergencia incluso con pocas muestras emparejadas. OmniTry se evalúa en un benchmark integral que consta de 12 clases comunes de objetos wearables, con imágenes tanto de tienda como en entornos naturales. Los resultados experimentales sugieren que OmniTry muestra un mejor rendimiento tanto en la localización de objetos como en la preservación de la identidad en comparación con los métodos existentes. El código, los pesos del modelo y el benchmark de evaluación de OmniTry estarán disponibles públicamente en https://omnitry.github.io/.
Los recientes avances en auto-refinamiento han demostrado un potencial significativo para mejorar las salidas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) mediante refinamiento iterativo. Sin embargo, la mayoría de los métodos de auto-refinamiento existentes dependen de un proceso reactivo con un número fijo de iteraciones, lo que dificulta determinar el momento óptimo y el contenido del refinamiento basado en el contexto de generación en evolución. Inspirados por la forma en que los humanos refinan dinámicamente sus pensamientos durante la ejecución, proponemos Auto-Refinamiento Proactivo (PASR, por sus siglas en inglés), un método novedoso que permite a los LLMs refinar sus salidas durante el proceso de generación. A diferencia de los métodos que regeneran respuestas completas, PASR decide de manera proactiva si, cuándo y cómo refinar, basándose en el estado interno del modelo y el contexto en evolución. Realizamos experimentos exhaustivos en un conjunto diverso de 10 tareas para evaluar la efectividad de PASR. Los resultados experimentales muestran que PASR mejora significativamente el rendimiento en la resolución de problemas. En particular, en Qwen3-8B, PASR reduce el consumo promedio de tokens en un 41.6 por ciento en comparación con la generación estándar, al mismo tiempo que logra una mejora del 8.2 por ciento en precisión. Nuestro código y todas las líneas base utilizadas en el artículo están disponibles en GitHub.
El campo de la separación de voz, que aborda el "problema de la fiesta de cóctel", ha experimentado avances revolucionarios con las redes neuronales profundas (DNN). La separación de voz mejora la claridad en entornos acústicos complejos y sirve como un preprocesamiento crucial para el reconocimiento de voz y el reconocimiento de hablantes. Sin embargo, la literatura actual se centra de manera estrecha en arquitecturas específicas o enfoques aislados, creando una comprensión fragmentada. Esta encuesta aborda esta brecha al proporcionar un examen sistemático de las técnicas de separación de voz basadas en DNN. Nuestro trabajo se diferencia por: (I) Perspectiva integral: Investigamos sistemáticamente los paradigmas de aprendizaje, los escenarios de separación con hablantes conocidos/desconocidos, el análisis comparativo de marcos supervisados/autosupervisados/no supervisados, y los componentes arquitectónicos desde los codificadores hasta las estrategias de estimación. (II) Actualidad: La cobertura de los desarrollos más avanzados garantiza el acceso a las innovaciones y puntos de referencia actuales. (III) Ideas únicas: Más allá de la síntesis, evaluamos las trayectorias tecnológicas, identificamos patrones emergentes y destacamos direcciones prometedoras, incluyendo marcos robustos en diferentes dominios, arquitecturas eficientes, integración multimodal y nuevos paradigmas autosupervisados. (IV) Evaluación justa: Proporcionamos evaluaciones cuantitativas en conjuntos de datos estándar, revelando las verdaderas capacidades y limitaciones de los diferentes métodos. Esta encuesta integral sirve como una referencia accesible tanto para investigadores experimentados como para recién llegados que navegan por el complejo panorama de la separación de voz.
Este estudio investiga el uso de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para predecir puntuaciones de miseria percibida por humanos a partir de descripciones en lenguaje natural de escenarios del mundo real. La tarea se plantea como un problema de regresión, donde el modelo asigna un valor escalar entre 0 y 100 a cada enunciado de entrada. Evaluamos múltiples estrategias de "prompting", incluyendo enfoques de "zero-shot", "few-shot" con contexto fijo y "prompting" basado en recuperación utilizando embeddings de oraciones de BERT. Los enfoques de "few-shot" superan consistentemente a las líneas base de "zero-shot", destacando el valor de los ejemplos contextuales en la predicción afectiva. Para ir más allá de la evaluación estática, introducimos el "Misery Game Show", un marco gamificado novedoso inspirado en un formato televisivo. Este pone a prueba a los LLMs a través de rondas estructuradas que involucran comparación ordinal, clasificación binaria, estimación escalar y razonamiento basado en retroalimentación. Esta configuración nos permite evaluar no solo la precisión predictiva, sino también la capacidad del modelo para adaptarse basándose en retroalimentación correctiva. La evaluación gamificada resalta el potencial más amplio de los LLMs en tareas de razonamiento emocional dinámico más allá de la regresión estándar. Enlace al código y datos: https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub.
Los modelos recientes de emparejamiento de flujo para la generación de imágenes a partir de texto han logrado una calidad notable, pero su integración con el aprendizaje por refuerzo para la alineación con preferencias humanas sigue siendo subóptima, lo que dificulta la optimización basada en recompensas de grano fino. Observamos que el principal obstáculo para el entrenamiento efectivo de GRPO en modelos de flujo es la suposición de uniformidad temporal en los enfoques existentes: las recompensas terminales dispersas con asignación de crédito uniforme no logran capturar la criticidad variable de las decisiones a lo largo de los pasos de generación, lo que resulta en una exploración ineficiente y una convergencia subóptima. Para remediar esta deficiencia, presentamos TempFlow-GRPO (Temporal Flow GRPO), un marco de GRPO fundamentado que captura y explota la estructura temporal inherente en la generación basada en flujos. TempFlow-GRPO introduce dos innovaciones clave: (i) un mecanismo de bifurcación de trayectorias que proporciona recompensas de proceso al concentrar la estocasticidad en puntos de bifurcación designados, permitiendo una asignación de crédito precisa sin requerir modelos de recompensas intermedias especializados; y (ii) un esquema de ponderación consciente del ruido que modula la optimización de políticas según el potencial intrínseco de exploración de cada paso temporal, priorizando el aprendizaje durante las etapas iniciales de alto impacto mientras asegura un refinamiento estable en fases posteriores. Estas innovaciones dotan al modelo de una optimización temporalmente consciente que respeta la dinámica generativa subyacente, lo que conduce a un rendimiento de vanguardia en la alineación de preferencias humanas y en los puntos de referencia estándar de generación de imágenes a partir de texto.
El aprendizaje por refuerzo multiagente (MARL, por sus siglas en inglés) es un paradigma poderoso para resolver problemas de toma de decisiones cooperativos y competitivos. Aunque se han propuesto muchos puntos de referencia para MARL, pocos combinan espacios de estados y acciones continuos con tareas desafiantes de coordinación y planificación. Presentamos CAMAR, un nuevo punto de referencia para MARL diseñado explícitamente para la búsqueda de rutas multiagente en entornos con acciones continuas. CAMAR admite interacciones cooperativas y competitivas entre agentes y se ejecuta de manera eficiente a hasta 100,000 pasos del entorno por segundo. También proponemos un protocolo de evaluación de tres niveles para rastrear mejor el progreso algorítmico y permitir un análisis más profundo del rendimiento. Además, CAMAR permite la integración de métodos clásicos de planificación, como RRT y RRT*, en flujos de trabajo de MARL. Los utilizamos como líneas base independientes y combinamos RRT* con algoritmos populares de MARL para crear enfoques híbridos. Ofrecemos un conjunto de escenarios de prueba y herramientas de evaluación comparativa para garantizar la reproducibilidad y una comparación justa. Los experimentos muestran que CAMAR representa un banco de pruebas desafiante y realista para la comunidad de MARL.
La protección de derechos de autor para los modelos de lenguaje de gran escala es de crucial importancia, dado sus significativos costos de desarrollo, valor propietario y potencial de mal uso. Las revisiones existentes se han centrado predominantemente en técnicas para rastrear contenido generado por LLM, específicamente, la marca de agua en texto, mientras que una exploración sistemática de métodos para proteger los modelos en sí (es decir, la marca de agua en modelos y la huella digital de modelos) sigue ausente. Además, las relaciones y distinciones entre la marca de agua en texto, la marca de agua en modelos y la huella digital de modelos no han sido clarificadas de manera exhaustiva. Este trabajo presenta una revisión integral del estado actual de las tecnologías de protección de derechos de autor para LLM, con un enfoque en la huella digital de modelos, cubriendo los siguientes aspectos: (1) aclarar la conexión conceptual desde la marca de agua en texto hasta la marca de agua en modelos y la huella digital, adoptando una terminología unificada que incorpora la marca de agua en modelos dentro del marco más amplio de huella digital; (2) proporcionar una visión general y comparación de diversas técnicas de marca de agua en texto, destacando casos donde tales métodos pueden funcionar como huella digital de modelos; (3) categorizar y comparar sistemáticamente los enfoques existentes de huella digital de modelos para la protección de derechos de autor de LLM; (4) presentar, por primera vez, técnicas para la transferencia y eliminación de huellas digitales; (5) resumir métricas de evaluación para huellas digitales de modelos, incluyendo efectividad, inocuidad, robustez, discreción y fiabilidad; y (6) discutir desafíos abiertos y direcciones futuras de investigación. Esta revisión tiene como objetivo ofrecer a los investigadores una comprensión profunda tanto de las tecnologías de marca de agua en texto como de huella digital de modelos en la era de los LLM, fomentando así avances adicionales en la protección de su propiedad intelectual.
Los agentes de IA con capacidades avanzadas de razonamiento y uso de herramientas han demostrado un rendimiento impresionante en la navegación web para búsquedas profundas. Si bien los puntos de referencia existentes, como BrowseComp, evalúan estas habilidades de navegación, se centran principalmente en información textual, pasando por alto la prevalencia de contenido multimodal. Para cerrar esta brecha, presentamos MM-BrowseComp, un nuevo punto de referencia que comprende 224 preguntas desafiantes y cuidadosamente elaboradas, diseñadas específicamente para evaluar las capacidades de recuperación y razonamiento multimodal de los agentes. Estas preguntas a menudo incorporan imágenes en los enunciados, y la información crucial encontrada durante el proceso de búsqueda y razonamiento también puede estar incrustada en imágenes o videos en las páginas web. En consecuencia, los métodos que dependen únicamente del texto resultan insuficientes para nuestro punto de referencia. Además, proporcionamos una lista de verificación verificada para cada pregunta, lo que permite un análisis detallado de las dependencias multimodales y las rutas de razonamiento. Nuestra evaluación exhaustiva de los modelos más avanzados en MM-BrowseComp revela que incluso los mejores modelos, como OpenAI o3 con herramientas, logran solo un 29.02% de precisión, lo que destaca las capacidades multimodales subóptimas y la falta de razonamiento multimodal nativo en los modelos actuales.
La comprensión auditiva, que incluye el habla, los sonidos no verbales y la música, es esencial para alcanzar una inteligencia de nivel humano. En consecuencia, los agentes de IA deben demostrar una comprensión auditiva holística para calificar como generalmente inteligentes. Sin embargo, evaluar la inteligencia auditiva de manera integral sigue siendo un desafío. Para abordar esta brecha, presentamos MMAU-Pro, el punto de referencia más completo y rigurosamente curado para evaluar la inteligencia auditiva en sistemas de IA. MMAU-Pro contiene 5,305 instancias, donde cada instancia tiene uno o más audios emparejados con pares de preguntas y respuestas generadas por expertos humanos, abarcando el habla, los sonidos, la música y sus combinaciones. A diferencia de los puntos de referencia existentes, MMAU-Pro evalúa la inteligencia auditiva en 49 habilidades únicas y múltiples dimensiones complejas, incluyendo la comprensión de audios de larga duración, el razonamiento espacial en audio, la comprensión de múltiples audios, entre otros. Todas las preguntas están meticulosamente diseñadas para requerir un razonamiento deliberado de múltiples pasos, incluyendo formatos de respuesta tanto de opción múltiple como de respuesta abierta. Es importante destacar que los datos de audio se obtienen directamente "del mundo real" en lugar de provenir de conjuntos de datos existentes con distribuciones conocidas. Evaluamos 22 modelos de IA multimodal líderes, tanto de código abierto como propietarios, revelando limitaciones significativas: incluso los modelos más avanzados, como Gemini 2.5 Flash y Audio Flamingo 3, logran solo un 59.2% y un 51.7% de precisión, respectivamente, acercándose al rendimiento aleatorio en múltiples categorías. Nuestro análisis extenso destaca deficiencias específicas y proporciona perspectivas novedosas, ofreciendo puntos de vista accionables para que la comunidad mejore el progreso de los futuros sistemas de IA hacia la inteligencia general auditiva. El punto de referencia y el código están disponibles en https://sonalkum.github.io/mmau-pro.
Este trabajo estudia el desafío de transferir animaciones entre personajes cuyas topologías esqueléticas difieren sustancialmente. Si bien muchas técnicas han avanzado en la retargetización de movimientos durante décadas, la transferencia de movimientos entre topologías diversas sigue siendo un área poco explorada. El principal obstáculo radica en la inconsistencia topológica inherente entre los esqueletos de origen y destino, lo que dificulta el establecimiento de correspondencias óseas directas uno a uno. Además, la actual falta de conjuntos de datos de movimiento a gran escala que abarquen diferentes estructuras topológicas limita severamente el desarrollo de enfoques basados en datos. Para abordar estas limitaciones, presentamos Motion2Motion, un marco novedoso que no requiere entrenamiento. De manera simple pero efectiva, Motion2Motion funciona con solo uno o unos pocos movimientos de ejemplo en el esqueleto destino, accediendo a un conjunto reducido de correspondencias óseas entre los esqueletos de origen y destino. A través de evaluaciones cualitativas y cuantitativas exhaustivas, demostramos que Motion2Motion logra un rendimiento eficiente y confiable tanto en escenarios de transferencia entre esqueletos similares como en transferencias entre esqueletos de diferentes especies. La utilidad práctica de nuestro enfoque se evidencia aún más por su exitosa integración en aplicaciones e interfaces de usuario posteriores, destacando su potencial para aplicaciones industriales. El código y los datos están disponibles en https://lhchen.top/Motion2Motion.
Los Autoencoders Escasos (SAEs, por sus siglas en inglés) pueden extraer características interpretables de modelos de lenguaje grandes (LLMs) sin supervisión. Sin embargo, su eficacia en tareas de control posteriores se ve limitada por la necesidad de conjuntos de datos contrastivos o un gran almacenamiento de activaciones. Para abordar estas limitaciones, proponemos CorrSteer, que selecciona características correlacionando la corrección de las muestras con las activaciones de los SAEs a partir de tokens generados en tiempo de inferencia. Este enfoque utiliza únicamente activaciones en tiempo de inferencia para extraer características más relevantes, evitando así correlaciones espurias. Además, obtiene coeficientes de control a partir de activaciones promedio, automatizando todo el proceso. Nuestro método muestra un mejor rendimiento en tareas de preguntas y respuestas (QA), mitigación de sesgos, prevención de jailbreaking y pruebas de razonamiento en Gemma 2 2B y LLaMA 3.1 8B, logrando notablemente una mejora del +4.1% en el rendimiento de MMLU y un +22.9% en HarmBench con solo 4000 muestras. Las características seleccionadas demuestran patrones semánticamente significativos alineados con los requisitos de cada tarea, revelando las capacidades subyacentes que impulsan el rendimiento. Nuestro trabajo establece la selección basada en correlación como un enfoque efectivo y escalable para el control automatizado de SAEs en aplicaciones de modelos de lenguaje.
Los modelos universales de segmentación de imágenes médicas han surgido como un paradigma prometedor debido a su fuerte capacidad de generalización en diversas tareas, mostrando un gran potencial para una amplia gama de aplicaciones clínicas. Este potencial ha sido impulsado en parte por el éxito de modelos de visión de propósito general, como el Segment Anything Model (SAM), que ha inspirado el desarrollo de varias variantes ajustadas para tareas de segmentación médica. Sin embargo, variantes ajustadas como MedSAM se entrenan con datos de imágenes médicas comparativamente limitados que a menudo sufren de heterogeneidad, anotaciones escasas y cambios distribucionales. Estos desafíos limitan su capacidad para generalizar en una amplia gama de tareas de segmentación médica. En este sentido, proponemos MedSAMix, un método de fusión de modelos sin entrenamiento que integra las fortalezas de los modelos generalistas (por ejemplo, SAM) y los modelos especializados (por ejemplo, MedSAM) para la segmentación de imágenes médicas. A diferencia de los enfoques tradicionales de fusión de modelos que dependen de la configuración manual y a menudo resultan en resultados subóptimos, proponemos un método de optimización de orden cero para descubrir automáticamente soluciones óptimas de fusión capa por capa. Además, para aplicaciones clínicas, desarrollamos dos regímenes para satisfacer la demanda de especificidad de dominio y generalización en diferentes escenarios mediante optimización de tarea única y optimización multiobjetivo, respectivamente. Evaluaciones extensas en 25 tareas de segmentación médica demuestran que MedSAMix mitiga eficazmente el sesgo del modelo y mejora consistentemente el rendimiento tanto en precisión específica del dominio como en generalización, logrando mejoras del 6.67% en tareas especializadas y del 4.37% en evaluaciones multitarea.
Los modelos generativos impulsados por Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) están surgiendo como una solución unificada para potenciar tanto tareas de recomendación como de búsqueda. Una decisión clave en el diseño de estos modelos es cómo representar los elementos, tradicionalmente a través de identificadores únicos (IDs) y, más recientemente, con IDs semánticos compuestos por códigos discretos, obtenidos a partir de embeddings. Si bien los modelos de embeddings específicos para tareas pueden mejorar el rendimiento en tareas individuales, es posible que no generalicen bien en un entorno conjunto. En este artículo, exploramos cómo construir IDs semánticos que funcionen bien tanto en búsqueda como en recomendación al utilizar un modelo unificado. Comparamos una variedad de estrategias para construir IDs semánticos, analizando enfoques específicos para tareas y entre tareas, y también si cada tarea debería tener sus propios tokens de ID semántico en un modelo generativo unificado de búsqueda y recomendación. Nuestros resultados muestran que el uso de un modelo bi-codificador ajustado tanto para tareas de búsqueda como de recomendación para obtener embeddings de elementos, seguido de la construcción de un espacio unificado de IDs semánticos, proporciona un equilibrio efectivo, permitiendo un rendimiento sólido en ambas tareas. Esperamos que estos hallazgos impulsen trabajos posteriores sobre esquemas de IDs generalizables y basados en semántica, e informen la próxima ola de arquitecturas generativas unificadas de recomendación.
Los sistemas de recomendación de videos existentes dependen principalmente de metadatos definidos por el usuario o de señales visuales y acústicas de bajo nivel extraídas por codificadores especializados. Estas características de bajo nivel describen lo que aparece en la pantalla, pero pasan por alto semánticas más profundas, como la intención, el humor y el conocimiento del mundo, que hacen que los clips resuenen con los espectadores. Por ejemplo, ¿es un clip de 30 segundos simplemente un cantante en una azotea, o una parodia irónica filmada entre las chimeneas de hadas de Capadocia, Turquía? Tales distinciones son críticas para las recomendaciones personalizadas, pero permanecen invisibles para los pipelines de codificación tradicionales. En este artículo, presentamos un marco simple y agnóstico al sistema de recomendación, sin necesidad de ajuste fino, que inyecta semánticas de alto nivel en el pipeline de recomendación al solicitar a un Modelo de Lenguaje Multimodal (MLLM) preentrenado que resuma cada clip en una descripción en lenguaje natural rica (por ejemplo, "una parodia de superhéroes con peleas cómicas y golpes orquestales"), cerrando la brecha entre el contenido crudo y la intención del usuario. Utilizamos la salida del MLLM con un codificador de texto de última generación y la alimentamos en recomendadores estándar colaborativos, basados en contenido y generativos. En el conjunto de datos MicroLens-100K, que emula las interacciones de los usuarios con videos al estilo de TikTok, nuestro marco supera consistentemente las características convencionales de video, audio y metadatos en cinco modelos representativos. Nuestros hallazgos resaltan la promesa de aprovechar los MLLMs como extractores de conocimiento en tiempo real para construir recomendadores de videos más conscientes de la intención.
El desarrollo de campos de radiancia (RF, por sus siglas en inglés), como el *3D Gaussian Splatting* (3DGS) y los *Neural Radiance Fields* (NeRF), ha revolucionado la síntesis interactiva de vistas fotorrealistas y presenta enormes oportunidades para la investigación y aplicaciones en realidad extendida (XR). Sin embargo, a pesar del crecimiento exponencial de la investigación en RF, las contribuciones relacionadas con RF para la comunidad de XR siguen siendo escasas. Para comprender mejor esta brecha de investigación, realizamos una revisión sistemática de la literatura actual sobre RF para analizar (i) cómo se concibe el RF para aplicaciones de XR, (ii) cómo se ha implementado hasta ahora y (iii) las brechas de investigación restantes. Recopilamos 365 contribuciones relacionadas con RF y XR provenientes de comunidades de visión por computadora, gráficos por computadora, robótica, multimedia, interacción humano-computadora y XR, con el objetivo de responder a las preguntas de investigación mencionadas. Entre los 365 artículos, realizamos un análisis detallado de 66 trabajos que ya abordaban un aspecto específico de la investigación en RF para XR. Con esta revisión, ampliamos y posicionamos los temas de investigación específicos de XR en el campo más amplio de la investigación en RF, proporcionando un recurso útil para que la comunidad de XR navegue dentro del rápido desarrollo de la investigación en RF.
Las series temporales de sensores de movimiento son fundamentales para el reconocimiento de actividades humanas (HAR), con aplicaciones en salud, deportes y dispositivos inteligentes. Sin embargo, los métodos existentes se entrenan para conjuntos de actividades fijos y requieren un costoso reentrenamiento cuando surgen nuevos comportamientos o configuraciones de sensores. Los intentos recientes de utilizar modelos de lenguaje de gran escala (LLMs) para HAR, típicamente convirtiendo señales en texto o imágenes, sufren de precisión limitada y carecen de interpretabilidad verificable. Proponemos ZARA, el primer marco basado en agentes para HAR de cero disparos y explicable directamente a partir de series temporales de movimiento en bruto. ZARA integra una base de conocimiento de características por pares derivada automáticamente que captura estadísticas discriminativas para cada par de actividades, un módulo de recuperación multi-sensor que resalta evidencia relevante, y una canalización jerárquica de agentes que guía al LLM para seleccionar características de manera iterativa, utilizar esta evidencia y producir tanto predicciones de actividades como explicaciones en lenguaje natural. ZARA permite HAR flexible e interpretable sin necesidad de ajuste fino o clasificadores específicos de tarea. Experimentos extensos en 8 benchmarks de HAR muestran que ZARA alcanza un rendimiento de cero disparos de última generación (SOTA), ofreciendo un razonamiento claro mientras supera a los baselines más fuertes por 2.53x en F1 macro. Estudios de ablación confirman además la necesidad de cada módulo, marcando a ZARA como un paso prometedor hacia el análisis confiable y plug-and-play de series temporales de movimiento. Nuestros códigos están disponibles en https://github.com/zechenli03/ZARA.
¿Cómo comprenden los modelos de lenguaje de gran escala las dimensiones morales en comparación con los humanos? Esta primera evaluación bayesiana a gran escala de los principales modelos de lenguaje del mercado proporciona la respuesta. A diferencia de trabajos previos que utilizaban una verdad de referencia determinista (reglas de mayoría o inclusión), modelamos los desacuerdos entre anotadores para capturar tanto la incertidumbre aleatoria (desacuerdos inherentes entre humanos) como la incertidumbre epistémica (sensibilidad del modelo al dominio). Evaluamos los principales modelos de lenguaje (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) en más de 250,000 anotaciones de aproximadamente 700 anotadores, aplicadas a más de 100,000 textos que abarcan redes sociales, noticias y foros. Nuestro marco bayesiano optimizado para GPU procesó más de 1 millón de consultas a los modelos, revelando que los modelos de IA suelen ubicarse entre el 25% superior de los anotadores humanos, logrando una precisión equilibrada mucho mejor que el promedio. Es importante destacar que encontramos que la IA produce significativamente menos falsos negativos que los humanos, lo que resalta sus capacidades más sensibles para la detección moral.
Abordamos el desafío de detectar voz sintetizada bajo cambios de distribución —que surgen de métodos de síntesis, hablantes, idiomas o condiciones de audio no vistos— en relación con los datos de entrenamiento. Los métodos de aprendizaje con pocos ejemplos (few-shot) son una forma prometedora de abordar estos cambios de distribución al adaptarse rápidamente basándose en unos pocos ejemplos dentro de la distribución. Proponemos una red prototípica con autoatención para permitir una adaptación few-shot más robusta. Para evaluar nuestro enfoque, comparamos sistemáticamente el rendimiento de detectores tradicionales zero-shot con los detectores few-shot propuestos, controlando cuidadosamente las condiciones de entrenamiento para introducir cambios de distribución durante la evaluación. En condiciones donde los cambios de distribución afectan el rendimiento zero-shot, nuestra técnica de adaptación few-shot propuesta puede adaptarse rápidamente utilizando tan solo 10 ejemplos dentro de la distribución —logrando una reducción relativa del EER de hasta un 32% en deepfakes en idioma japonés y un 20% en el conjunto de datos ASVspoof 2021 Deepfake.
Los modelos de lenguaje de gran escala (LLMs) exhiben habilidades notables para resolver problemas, pero tienen dificultades con tareas complejas debido a su conocimiento interno estático. La Generación Aumentada por Recuperación (RAG) mejora el acceso a información externa, pero sigue siendo limitada en razonamiento de múltiples pasos y búsqueda estratégica debido a flujos de trabajo rígidos. Avances recientes en investigación profunda agentiva empoderan a los LLMs para razonar, buscar y sintetizar información de manera autónoma. Sin embargo, los enfoques actuales que dependen del aprendizaje por refuerzo (RL) basado en resultados enfrentan problemas críticos como gradientes conflictivos y escasez de recompensas, limitando las mejoras de rendimiento y la eficiencia del entrenamiento. Para abordar esto, primero proponemos Pensamiento Atómico, un nuevo paradigma de pensamiento para LLMs que descompone el razonamiento en unidades funcionales de grano fino. Estas unidades son supervisadas por Modelos de Recompensa de Razonamiento (RRMs), que proporcionan Recompensas de Pensamiento Atómico (ATR) para una guía detallada. Sobre esta base, proponemos Atom-Searcher, un nuevo marco de RL para investigación profunda agentiva que integra Pensamiento Atómico y ATR. Atom-Searcher utiliza un cronograma de recompensas inspirado en un currículo, priorizando ATR a nivel de proceso al principio y transicionando a recompensas de resultados, acelerando la convergencia en rutas de razonamiento efectivas. Los experimentos en siete benchmarks muestran mejoras consistentes sobre el estado del arte. Las ventajas clave incluyen: (1) Atom-Searcher escala el cómputo en tiempo de prueba. (2) Pensamiento Atómico proporciona anclajes de supervisión para RRMs, conectando tareas de investigación profunda y RRMs. (3) Atom-Searcher exhibe patrones de razonamiento más interpretables y similares a los humanos.