HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

20 papers found

OmniWorld: Un conjunto de datos multi-dominio y multimodal para el modelado 4D de mundos
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

Sep 15

ByYang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He

El campo de modelado de mundos 4D, que busca capturar conjuntamente la geometría espacial y la dinámica temporal, ha experimentado un progreso notable en los últimos años, impulsado por avances en modelos generativos a gran escala y aprendizaje multimodal. Sin embargo, el desarrollo de modelos de mundos 4D verdaderamente generales sigue estando fundamentalmente limitado por la disponibilidad de datos de alta calidad. Los conjuntos de datos y puntos de referencia existentes a menudo carecen de la complejidad dinámica, la diversidad multidominio y las anotaciones espacio-temporales necesarias para respaldar tareas clave como la reconstrucción geométrica 4D, la predicción futura y la generación de videos con control de cámara. Para abordar esta brecha, presentamos OmniWorld, un conjunto de datos a gran escala, multidominio y multimodal diseñado específicamente para el modelado de mundos 4D. OmniWorld consta de un nuevo conjunto de datos recopilado, OmniWorld-Game, y varios conjuntos de datos públicos curados que abarcan diversos dominios. En comparación con los conjuntos de datos sintéticos existentes, OmniWorld-Game ofrece una cobertura de modalidades más rica, una escala mayor e interacciones dinámicas más realistas. Basándonos en este conjunto de datos, establecemos un punto de referencia desafiante que expone las limitaciones de los enfoques actuales de vanguardia (SOTA) en el modelado de entornos 4D complejos. Además, el ajuste fino de los métodos SOTA existentes en OmniWorld conduce a mejoras significativas en el rendimiento en tareas de reconstrucción 4D y generación de videos, validando firmemente a OmniWorld como un recurso poderoso para el entrenamiento y la evaluación. Visualizamos a OmniWorld como un catalizador para acelerar el desarrollo de modelos de mundos 4D de propósito general, avanzando finalmente hacia una comprensión holística del mundo físico por parte de las máquinas.

UI-S1: Avanzando en la Automatización de Interfaces Gráficas mediante Aprendizaje por Refuerzo Semi-Online
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

Sep 15

ByZhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang

Los agentes de Interfaz Gráfica de Usuario (GUI) han demostrado un progreso notable en la automatización de interacciones complejas con la interfaz de usuario mediante aprendizaje por refuerzo. Sin embargo, los enfoques actuales enfrentan un dilema fundamental: el RL offline permite un entrenamiento estable en trayectorias previamente recolectadas, pero tiene dificultades para ejecutar tareas de múltiples pasos debido a la falta de señales de recompensa a nivel de trayectoria; el RL online captura estas señales a través de la interacción con el entorno, pero sufre de recompensas dispersas y costos de implementación prohibitivos. Para abordar este problema, presentamos el Aprendizaje por Refuerzo Semi-online, un paradigma novedoso que simula el RL online en trayectorias offline. Durante cada proceso de despliegue, preservamos la salida original del modelo dentro del diálogo de múltiples turnos, donde un Módulo de Parche adaptativamente recupera la divergencia entre las trayectorias de despliegue y las expertas. Para capturar señales de entrenamiento a largo plazo, el RL Semi-online introduce retornos futuros descontados en el cálculo de la recompensa y optimiza la política con ventajas ponderadas a nivel de paso y episodio. Además, introducimos el Rendimiento Semi-Online (SOP), una métrica que se alinea mejor con el rendimiento online real, sirviendo como un proxy práctico y efectivo para la evaluación en el mundo real. Los experimentos muestran que nuestro RL Semi-online logra un rendimiento SOTA entre los modelos de 7B en cuatro benchmarks dinámicos, con ganancias significativas sobre el modelo base (por ejemplo, +12.0% en AndroidWorld, +23.8% en AITW), demostrando un progreso significativo en cerrar la brecha entre la eficiencia del entrenamiento offline y el razonamiento online de múltiples turnos. El código está disponible en https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.

InternScenes: Un conjunto de datos a gran escala de escenas interiores simulables con diseños realistas
InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

Sep 13

ByWeipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang

El avance de la IA Embodied depende en gran medida de conjuntos de datos de escenas 3D simulables a gran escala, caracterizados por la diversidad de escenas y diseños realistas. Sin embargo, los conjuntos de datos existentes suelen presentar limitaciones en la escala o diversidad de los datos, diseños simplificados que carecen de objetos pequeños y colisiones severas entre objetos. Para abordar estas deficiencias, presentamos InternScenes, un novedoso conjunto de datos de escenas interiores simulables a gran escala que comprende aproximadamente 40,000 escenas diversas, integrando tres fuentes de escenas distintas: escaneos del mundo real, escenas generadas proceduralmente y escenas creadas por diseñadores, incluyendo 1.96 millones de objetos 3D y cubriendo 15 tipos de escenas comunes y 288 clases de objetos. Particularmente, preservamos una gran cantidad de objetos pequeños en las escenas, lo que resulta en diseños realistas y complejos con un promedio de 41.5 objetos por región. Nuestra completa pipeline de procesamiento de datos garantiza la simulabilidad al crear réplicas realistas para los escaneos del mundo real, mejora la interactividad al incorporar objetos interactivos en estas escenas y resuelve las colisiones de objetos mediante simulaciones físicas. Demostramos el valor de InternScenes con dos aplicaciones de referencia: generación de diseño de escenas y navegación hacia un punto objetivo. Ambas muestran los nuevos desafíos planteados por los diseños complejos y realistas. Más importante aún, InternScenes allana el camino para escalar el entrenamiento de modelos para ambas tareas, haciendo posible la generación y navegación en escenas tan complejas. Nos comprometemos a liberar los datos, modelos y benchmarks como código abierto para beneficiar a toda la comunidad.

Perdidos en los Embeddings: Pérdida de Información en Modelos de Visión y Lenguaje
Lost in Embeddings: Information Loss in Vision-Language Models

Sep 15

ByWenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard

Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) suelen procesar entradas visuales a través de un codificador de visión preentrenado, seguido de una proyección en el espacio de incrustación del modelo de lenguaje mediante un componente conector. Aunque este paso es crucial para la fusión de modalidades, la posible pérdida de información inducida por esta proyección y su impacto directo en las capacidades del modelo han sido poco estudiados. Introducimos dos enfoques complementarios para examinar y cuantificar esta pérdida mediante el análisis del espacio de representación latente. En primer lugar, evaluamos la preservación de la información semántica analizando los cambios en las relaciones de vecinos más cercanos (k-NN) entre las representaciones de imágenes, antes y después de la proyección. En segundo lugar, medimos directamente la pérdida de información reconstruyendo las incrustaciones visuales a partir de la representación proyectada, localizando la pérdida a nivel de parches de imagen. Los experimentos revelan que los conectores distorsionan sustancialmente la geometría local de las representaciones visuales, con un 40-60% de divergencia en los vecinos más cercanos después de la proyección, lo que se correlaciona con una degradación en el rendimiento de recuperación. La reconstrucción de incrustaciones a nivel de parche proporciona información interpretable sobre el comportamiento del modelo en tareas de respuesta a preguntas basadas en imágenes, encontrando que las áreas de alta pérdida de información predicen de manera confiable los casos en los que los modelos tienen dificultades.

LazyDrag: Habilitación de Edición Basada en Arrastre Estable en Transformadores de Difusión Multimodal mediante Correspondencia Explícita
LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

Sep 15

ByZixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum

La dependencia en la coincidencia implícita de puntos mediante atención se ha convertido en un cuello de botella fundamental en la edición basada en arrastre, lo que resulta en un compromiso básico entre la fuerza de inversión debilitada y la costosa optimización en tiempo de prueba (TTO, por sus siglas en inglés). Este compromiso limita severamente las capacidades generativas de los modelos de difusión, suprimiendo la restauración de alta fidelidad y la creación guiada por texto. En este artículo, presentamos LazyDrag, el primer método de edición de imágenes basado en arrastre para Transformadores de Difusión Multi-Modal, que elimina directamente la dependencia en la coincidencia implícita de puntos. En términos concretos, nuestro método genera un mapa de correspondencia explícito a partir de las entradas de arrastre del usuario como una referencia confiable para potenciar el control de atención. Esta referencia confiable abre el potencial para un proceso de inversión de fuerza completa y estable, siendo el primero en la tarea de edición basada en arrastre. Elimina la necesidad de TTO y desbloquea la capacidad generativa de los modelos. Por lo tanto, LazyDrag unifica de manera natural el control geométrico preciso con la guía de texto, permitiendo ediciones complejas que antes eran inalcanzables: abrir la boca de un perro y restaurar su interior, generar nuevos objetos como una "pelota de tenis" o, para arrastres ambiguos, realizar cambios conscientes del contexto, como mover una mano a un bolsillo. Además, LazyDrag admite flujos de trabajo de múltiples rondas con operaciones simultáneas de movimiento y escala. Evaluado en DragBench, nuestro método supera a las líneas base en precisión de arrastre y calidad perceptual, validado por VIEScore y evaluación humana. LazyDrag no solo establece un nuevo estado del arte en rendimiento, sino que también allana un nuevo camino hacia paradigmas de edición.

SearchInstruct: Mejora de la Adaptación de Dominios mediante la Creación de Conjuntos de Datos de Instrucciones Basados en Recuperación
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation

Sep 12

ByIman Barati, Mostafa Amiri, Heshaam Faili

El Ajuste Fino Supervisado (SFT, por sus siglas en inglés) es esencial para entrenar modelos de lenguaje de gran escala (LLMs), mejorando significativamente capacidades críticas como el seguimiento de instrucciones y el aprendizaje en contexto. Sin embargo, la creación de conjuntos de datos de entrenamiento adecuados y adaptados a dominios específicos sigue siendo un desafío debido a las restricciones únicas del dominio y la escasez de datos. En este artículo, proponemos SearchInstruct, un método innovador diseñado explícitamente para construir conjuntos de datos de instrucciones de alta calidad para SFT. Nuestro enfoque comienza con un conjunto limitado de preguntas generadas por humanos y específicas del dominio, las cuales se expanden sistemáticamente utilizando un modelo de lenguaje de gran escala. Posteriormente, se recuperan dinámicamente recursos relevantes al dominio para generar respuestas precisas y contextualmente apropiadas para cada pregunta ampliada. La evaluación experimental demuestra que SearchInstruct mejora tanto la diversidad como la calidad de los conjuntos de datos de SFT, lo que conduce a mejoras medibles en el rendimiento de los LLMs dentro de dominios especializados. Además, mostramos que, más allá de la generación de conjuntos de datos, el método propuesto también puede facilitar eficazmente tareas como la edición de modelos, permitiendo actualizaciones eficientes a modelos existentes. Para facilitar la reproducibilidad y la adopción por parte de la comunidad, proporcionamos detalles completos de implementación, el conjunto completo de pares de instrucción-respuesta generados y el código fuente en un repositorio Git de acceso público: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).

La localidad en los modelos de difusión de imágenes emerge de las estadísticas de los datos.
Locality in Image Diffusion Models Emerges from Data Statistics

Sep 11

ByArtem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann

Entre los modelos generativos, los modelos de difusión son particularmente intrigantes debido a la existencia de un minimizador óptimo de forma cerrada para su objetivo de entrenamiento, a menudo denominado el desenturbiador óptimo. Sin embargo, la difusión utilizando este desenturbiador óptimo simplemente reproduce las imágenes del conjunto de entrenamiento y, por lo tanto, no logra capturar el comportamiento de los modelos de difusión profundos. Trabajos recientes han intentado caracterizar esta brecha entre el desenturbiador óptimo y los modelos de difusión profundos, proponiendo modelos analíticos y libres de entrenamiento que pueden generar imágenes similares a las producidas por una UNet entrenada. El método de mejor rendimiento plantea la hipótesis de que la equivariancia al desplazamiento y los sesgos inductivos de localidad de las redes neuronales convolucionales son la causa de la brecha de rendimiento, incorporando así estas suposiciones en su modelo analítico. En este trabajo, presentamos evidencia de que la localidad en los modelos de difusión profundos surge como una propiedad estadística del conjunto de datos de imágenes, y no debido al sesgo inductivo de las redes neuronales convolucionales. Específicamente, demostramos que un desenturbiador lineal paramétrico óptimo exhibe propiedades de localidad similares a las de los desenturbiadores neuronales profundos. Además, mostramos, tanto teórica como experimentalmente, que esta localidad surge directamente de las correlaciones de píxeles presentes en los conjuntos de datos de imágenes naturales. Finalmente, utilizamos estas ideas para diseñar un desenturbiador analítico que se ajusta mejor a las puntuaciones predichas por un modelo de difusión profundo que la alternativa previamente diseñada por expertos.

Aprendizaje para Optimizar la Alineación Multiobjetivo mediante la Ponderación Dinámica de Recompensas
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

Sep 14

ByYining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang

Los trabajos previos en aprendizaje por refuerzo multiobjetivo suelen utilizar la escalarización lineal de recompensas con pesos fijos, lo que, como se ha demostrado, no logra capturar frentes de Pareto no convexos y, por lo tanto, produce resultados subóptimos. Esta limitación se vuelve especialmente crítica en la alineación de preferencias en línea para modelos de lenguaje grandes. Aquí, las trayectorias estocásticas generadas por políticas parametrizadas crean mapeos altamente no lineales y no convexos desde los parámetros hacia los objetivos, lo que hace que ningún esquema de ponderación estática pueda encontrar compensaciones óptimas. Abordamos esta limitación introduciendo la ponderación dinámica de recompensas, que ajusta adaptativamente los pesos de las recompensas durante el proceso de aprendizaje por refuerzo en línea. A diferencia de los enfoques existentes que dependen de la interpolación con pesos fijos, nuestra ponderación dinámica equilibra y prioriza continuamente los objetivos durante el entrenamiento, facilitando una exploración efectiva de los frentes de Pareto en el espacio de objetivos. Presentamos dos enfoques de creciente sofisticación y generalización: (1) adaptación de pesos guiada por hipervolumen y (2) optimización de pesos basada en gradientes, ofreciendo un conjunto de herramientas versátil para la alineación multiobjetivo en línea. Nuestros extensos experimentos demuestran su compatibilidad con algoritmos de aprendizaje por refuerzo en línea comúnmente utilizados (incluyendo GRPO, REINFORCE y RLOO), su efectividad en múltiples conjuntos de datos de razonamiento matemático y su aplicabilidad a diferentes familias de modelos, logrando consistentemente soluciones dominantes en Pareto con menos pasos de entrenamiento que las líneas base de escalarización lineal con pesos fijos.

Medición de la Humildad Epistémica en Modelos de Lenguaje Multimodales de Gran Escala
Measuring Epistemic Humility in Multimodal Large Language Models

Sep 11

ByBingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou

Las alucinaciones en modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) —donde el modelo genera contenido inconsistente con la imagen de entrada— representan riesgos significativos en aplicaciones del mundo real, desde la desinformación en tareas de respuesta visual a preguntas hasta errores inseguros en la toma de decisiones. Los puntos de referencia existentes evalúan principalmente la precisión en el reconocimiento, es decir, si los modelos pueden seleccionar la respuesta correcta entre distractores. Esto pasa por alto una capacidad igualmente crítica para la inteligencia artificial confiable: reconocer cuando ninguna de las opciones proporcionadas es correcta, un comportamiento que refleja humildad epistémica. Presentamos HumbleBench, un nuevo punto de referencia para evaluar alucinaciones diseñado para evaluar la capacidad de los MLLMs para rechazar respuestas plausibles pero incorrectas en tres tipos de alucinaciones: objetos, relaciones y atributos. Construido a partir de un conjunto de datos de grafos de escenas panópticas, aprovechamos anotaciones detalladas de grafos de escenas para extraer entidades y relaciones de referencia, y utilizamos GPT-4-Turbo para generar preguntas de opción múltiple, seguidas de un riguroso proceso de filtrado manual. Cada pregunta incluye una opción "Ninguna de las anteriores", lo que requiere que los modelos no solo reconozcan información visual correcta, sino también que identifiquen cuando ninguna respuesta proporcionada es válida. Evaluamos una variedad de MLLMs de última generación —incluyendo tanto modelos de propósito general como modelos especializados en razonamiento— en HumbleBench y compartimos hallazgos y perspectivas valiosas con la comunidad. Al incorporar el rechazo explícito de opciones falsas, HumbleBench llena un vacío clave en las suites de evaluación actuales, proporcionando una medida más realista de la confiabilidad de los MLLMs en entornos críticos para la seguridad. Nuestro código y conjunto de datos se publican de manera abierta y pueden accederse en https://github.com/maifoundations/HumbleBench.

Mira de nuevo, piensa con calma: Mejorando la reflexión visual en modelos de visión y lenguaje
Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

Sep 15

ByPu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang

Los recientes avances en el razonamiento de "pensamiento lento" basado únicamente en texto han impulsado esfuerzos para transferir esta capacidad a los modelos de visión y lenguaje (VLMs), con el fin de entrenar modelos de razonamiento visual (VRMs). Sin embargo, dicha transferencia enfrenta desafíos críticos: el "pensamiento lento" efectivo en los VRMs requiere reflexión visual, es decir, la capacidad de verificar el proceso de razonamiento basándose en información visual. A través de un análisis cuantitativo, observamos que los VRMs actuales muestran una reflexión visual limitada, ya que su atención a la información visual disminuye rápidamente con respuestas generadas más extensas. Para abordar este desafío, proponemos un nuevo VRM, Reflection-V, que mejora la reflexión visual mediante la construcción de datos de razonamiento para el arranque en frío y el diseño de recompensas para el aprendizaje por refuerzo (RL). En primer lugar, construimos datos de razonamiento centrados en la visión utilizando un agente que interactúa entre VLMs y modelos de lenguaje de razonamiento (LLMs), permitiendo el aprendizaje de patrones de reflexión visual desde el arranque en frío. En segundo lugar, se emplea un modelo de recompensas basado en la atención visual durante el RL para fomentar el razonamiento basado en información visual. Como resultado, Reflection-V demuestra mejoras significativas en múltiples benchmarks de razonamiento visual. Además, Reflection-V mantiene una dependencia más fuerte y consistente en la información visual durante el razonamiento visual, lo que indica una mejora efectiva en las capacidades de reflexión visual.

Nav-R1: Razonamiento y Navegación en Escenarios Encarnados
Nav-R1: Reasoning and Navigation in Embodied Scenes

Sep 13

ByQingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang

La navegación encarnada requiere que los agentes integren percepción, razonamiento y acción para una interacción robusta en entornos 3D complejos. Los enfoques existentes a menudo presentan trazas de razonamiento incoherentes e inestables que dificultan la generalización en diversos entornos, así como problemas para equilibrar el razonamiento semántico a largo plazo con el control de baja latencia para la navegación en tiempo real. Para abordar estos desafíos, proponemos Nav-R1, un modelo fundacional encarnado que unifica el razonamiento en entornos encarnados. Primero construimos Nav-CoT-110K, un conjunto de datos a gran escala de Cadenas de Pensamiento (CoT) paso a paso para tareas encarnadas, que permite una inicialización en frío con razonamiento estructurado. Sobre esta base, diseñamos un marco de aprendizaje por refuerzo basado en GRPO con tres recompensas complementarias: formato, comprensión y navegación, para mejorar la adherencia estructural, la fundamentación semántica y la fidelidad de la ruta. Además, introducimos un paradigma de razonamiento Rápido-en-Lento, desacoplando el razonamiento semántico deliberado del control reactivo de baja latencia para una navegación eficiente pero coherente. Evaluaciones extensas en benchmarks de IA encarnada demuestran que Nav-R1 supera consistentemente líneas de base sólidas, con una mejora promedio de más del 8% en el rendimiento de razonamiento y navegación. El despliegue en el mundo real en un robot móvil valida además su robustez bajo recursos limitados a bordo. Código: https://github.com/AIGeeksGroup/Nav-R1. Sitio web: https://aigeeksgroup.github.io/Nav-R1.

CognitiveSky: Análisis Escalable de Sentimiento y Narrativa para Redes Sociales Descentralizadas
CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media

Sep 14

ByGaurab Chhetri, Anandi Dutta, Subasish Das

El surgimiento de plataformas de redes sociales descentralizadas presenta nuevas oportunidades y desafíos para el análisis en tiempo real del discurso público. Este estudio introduce CognitiveSky, un marco de trabajo de código abierto y escalable diseñado para el análisis de sentimientos, emociones y narrativas en Bluesky, una alternativa federada a Twitter o X.com. Al ingerir datos a través de la Interfaz de Programación de Aplicaciones (API) de Bluesky, CognitiveSky aplica modelos basados en transformadores para anotar contenido generado por usuarios a gran escala y produce salidas estructuradas y analizables. Estos resúmenes impulsan un panel dinámico que visualiza patrones en evolución de emociones, actividad y temas de conversación. Construido completamente en infraestructura de nivel gratuito, CognitiveSky logra tanto un bajo costo operativo como una alta accesibilidad. Aunque aquí se demuestra para monitorear el discurso sobre salud mental, su diseño modular permite aplicaciones en diversos dominios, como la detección de desinformación, la respuesta a crisis y el análisis del sentimiento cívico. Al conectar modelos de lenguaje de gran escala con redes descentralizadas, CognitiveSky ofrece una herramienta transparente y extensible para las ciencias sociales computacionales en una era de ecosistemas digitales en transformación.

PersonaX: Conjuntos de datos multimodales con rasgos de comportamiento inferidos por LLM
PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

Sep 14

ByLoka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang

Comprender los rasgos del comportamiento humano es fundamental para aplicaciones en la interacción humano-computadora, la ciencia social computacional y los sistemas de IA personalizados. Dicha comprensión a menudo requiere integrar múltiples modalidades para capturar patrones y relaciones matizadas. Sin embargo, los recursos existentes rara vez proporcionan conjuntos de datos que combinen descriptores conductuales con modalidades complementarias, como atributos faciales e información biográfica. Para abordar esta brecha, presentamos PersonaX, una colección curada de conjuntos de datos multimodales diseñados para permitir un análisis exhaustivo de rasgos públicos a través de diversas modalidades. PersonaX consta de (1) CelebPersona, que incluye 9444 figuras públicas de diversas ocupaciones, y (2) AthlePersona, que abarca 4181 atletas profesionales de 7 ligas deportivas principales. Cada conjunto de datos incluye evaluaciones de rasgos conductuales inferidos por tres modelos de lenguaje de alto rendimiento, junto con imágenes faciales y características biográficas estructuradas. Analizamos PersonaX en dos niveles complementarios. Primero, abstraemos puntuaciones de rasgos de alto nivel a partir de descripciones textuales y aplicamos cinco pruebas de independencia estadística para examinar sus relaciones con otras modalidades. Segundo, introducimos un novedoso marco de aprendizaje de representación causal (CRL, por sus siglas en inglés) adaptado a datos multimodales y de múltiples mediciones, proporcionando garantías teóricas de identificabilidad. Los experimentos con datos sintéticos y del mundo real demuestran la efectividad de nuestro enfoque. Al unificar análisis estructurados y no estructurados, PersonaX establece una base para estudiar rasgos conductuales inferidos por modelos de lenguaje en conjunto con atributos visuales y biográficos, avanzando en el análisis multimodal de rasgos y el razonamiento causal.

FuseCodec: Fusión Semántico-Contextual y Supervisión para Codecs Neuronales
FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

Sep 14

ByMd Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman

La tokenización del habla permite una representación discreta y facilita el modelado del lenguaje hablado. Sin embargo, los códecs neuronales existentes capturan características acústicas de bajo nivel, pasando por alto las señales semánticas y contextuales inherentes al habla humana. Aunque esfuerzos recientes han introducido representaciones semánticas a partir de modelos de habla auto-supervisados o han incorporado representaciones contextuales de modelos de lenguaje preentrenados, persisten desafíos en la alineación y unificación de las representaciones semánticas y contextuales. Presentamos FuseCodec, que unifica representaciones acústicas, semánticas y contextuales mediante una fuerte alineación multimodal y supervisión globalmente informada. Proponemos tres técnicas complementarias: (i) Fusión de Representaciones Latentes, integrando características semánticas y contextuales directamente en el espacio latente del codificador para un aprendizaje robusto y unificado de representaciones; (ii) Supervisión Global Semántico-Contextual, supervisando tokens discretos con representaciones agrupadas y difundidas globalmente para mejorar la consistencia temporal y la alineación multimodal; y (iii) Supervisión Contextual Temporalmente Alineada, fortaleciendo la alineación mediante la coincidencia dinámica de tokens contextuales y de habla dentro de una ventana local para una supervisión detallada a nivel de token. Además, presentamos FuseCodec-TTS, demostrando la aplicabilidad de nuestra metodología en la síntesis de habla zero-shot. Empíricamente, FuseCodec logra un rendimiento de vanguardia en LibriSpeech, superando a EnCodec, SpeechTokenizer y DAC en precisión de transcripción, calidad perceptual, inteligibilidad y similitud de hablante. Los resultados destacan la efectividad de la tokenización guiada contextual y semánticamente para la tokenización del habla y tareas posteriores. El código y los modelos preentrenados están disponibles en https://github.com/mubtasimahasan/FuseCodec.

Dr.V: Un Marco Jerárquico de Percepción-Temporal-Cognición para Diagnosticar Alucinaciones en Videos mediante la Fundamentación Espacio-Temporal de Grano Fino
Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

Sep 15

ByMeng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu

Los recientes avances en los modelos de video de gran escala (LVMs, por sus siglas en inglés) han mejorado significativamente la comprensión de video. Sin embargo, estos modelos continúan sufriendo de alucinaciones, generando contenido que entra en conflicto con los videos de entrada. Para abordar este problema, proponemos Dr.V, un marco jerárquico que abarca niveles perceptivos, temporales y cognitivos para diagnosticar la alucinación en videos mediante una anclaje espacio-temporal de grano fino. Dr.V consta de dos componentes clave: un conjunto de datos de referencia, Dr.V-Bench, y un agente de video satélite, Dr.V-Agent. Dr.V-Bench incluye 10k instancias extraídas de 4,974 videos que abarcan diversas tareas, cada una enriquecida con anotaciones espacio-temporales detalladas. Dr.V-Agent detecta alucinaciones en los LVMs aplicando sistemáticamente un anclaje espacio-temporal de grano fino en los niveles perceptivo y temporal, seguido de un razonamiento a nivel cognitivo. Este proceso paso a paso imita la comprensión humana de los videos e identifica eficazmente las alucinaciones. Experimentos extensivos demuestran que Dr.V-Agent es efectivo en el diagnóstico de alucinaciones mientras mejora la interpretabilidad y la confiabilidad, ofreciendo un plan práctico para una comprensión robusta de videos en escenarios del mundo real. Todos nuestros datos y código están disponibles en https://github.com/Eurekaleo/Dr.V.

EthicsMH: Un punto de referencia piloto para el razonamiento ético en la IA de salud mental
EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI

Sep 15

BySai Kartheek Reddy Kasu

El despliegue de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en salud mental y otros dominios sensibles plantea preguntas urgentes sobre razonamiento ético, equidad y alineación responsable. Sin embargo, los puntos de referencia existentes para la toma de decisiones morales y clínicas no capturan adecuadamente los dilemas éticos únicos que se encuentran en la práctica de la salud mental, donde la confidencialidad, la autonomía, la beneficencia y el sesgo se intersectan con frecuencia. Para abordar esta brecha, presentamos Razonamiento Ético en Salud Mental (EthicsMH), un conjunto de datos piloto de 125 escenarios diseñados para evaluar cómo los sistemas de IA navegan situaciones éticamente cargadas en contextos terapéuticos y psiquiátricos. Cada escenario está enriquecido con campos estructurados, que incluyen múltiples opciones de decisión, razonamiento alineado con expertos, comportamiento esperado del modelo, impacto en el mundo real y perspectivas de múltiples partes interesadas. Esta estructura permite evaluar no solo la precisión de las decisiones, sino también la calidad de las explicaciones y la alineación con las normas profesionales. Aunque modesto en escala y desarrollado con generación asistida por modelos, EthicsMH establece un marco de tareas que conecta la ética de la IA con la toma de decisiones en salud mental. Al publicar este conjunto de datos, nuestro objetivo es proporcionar un recurso inicial que pueda ampliarse mediante contribuciones comunitarias y de expertos, fomentando el desarrollo de sistemas de IA capaces de manejar de manera responsable algunas de las decisiones más delicadas de la sociedad.

ClaimIQ en CheckThat! 2025: Comparación de modelos de lenguaje ajustados y basados en prompts para la verificación de afirmaciones numéricas
ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims

Sep 15

ByAnirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury

Este artículo presenta nuestro sistema para la Tarea 3 del CLEF 2025 CheckThat! Lab, que se centra en la verificación de afirmaciones numéricas y temporales utilizando evidencia recuperada. Exploramos dos enfoques complementarios: el prompting zero-shot con modelos de lenguaje grandes (LLMs) ajustados por instrucciones y el ajuste fino supervisado utilizando LoRA, un método eficiente en parámetros. Para mejorar la calidad de la evidencia, investigamos varias estrategias de selección, incluyendo la entrada de documentos completos y el filtrado de las k mejores oraciones utilizando BM25 y MiniLM. Nuestro modelo de mejor rendimiento, LLaMA ajustado con LoRA, logra un desempeño sólido en el conjunto de validación en inglés. Sin embargo, una caída notable en el conjunto de prueba resalta un desafío de generalización. Estos hallazgos subrayan la importancia de la granularidad de la evidencia y la adaptación del modelo para una verificación robusta de hechos numéricos.

GAPrune: Poda de Alineación de Gradientes para Incrustaciones Conscientes del Dominio
GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

Sep 13

ByYixuan Tang, Yi Yang

Los modelos de incrustación específicos de dominio han mostrado ser prometedores para aplicaciones que requieren una comprensión semántica especializada, como agentes de codificación y sistemas de recuperación financiera, logrando a menudo mayores ganancias de rendimiento que los modelos generales. Sin embargo, los modelos de incrustación más avanzados suelen basarse en LLM (modelos de lenguaje grandes), que contienen miles de millones de parámetros, lo que dificulta su implementación en entornos con recursos limitados. La compresión de modelos mediante poda ofrece una solución prometedora, pero los métodos de poda existentes tratan todos los parámetros de manera uniforme, sin distinguir entre representaciones semánticas generales y patrones específicos del dominio, lo que lleva a decisiones de poda subóptimas. Por ello, proponemos GAPrune, un marco de poda que aborda este desafío considerando tanto la importancia del dominio como la preservación de la base lingüística general. Nuestro método utiliza la Información de Fisher para medir la importancia y la alineación de gradientes en el dominio general para evaluar el comportamiento de los parámetros, combinando estas señales mediante nuestra puntuación de Importancia de Alineación de Dominio (DAI). Puntuaciones DAI más bajas indican que el parámetro es menos importante para la tarea del dominio o crea conflictos entre los objetivos del dominio y los generales. Los experimentos en dos puntos de referencia de dominio, FinMTEB y ChemTEB, muestran que GAPrune mantiene el rendimiento dentro del 2.5% de los modelos densos en la poda de un solo paso con un 50% de dispersión, superando a todas las líneas base. Con un reentrenamiento en 100 pasos, GAPrune logra una mejora del +4.51% en FinMTEB y del +1.73% en ChemTEB, demostrando que nuestra estrategia de poda no solo preserva, sino que también mejora las capacidades específicas del dominio. Nuestros hallazgos demuestran que las estrategias de poda fundamentadas pueden lograr la compresión de modelos y una especialización de dominio mejorada, proporcionando a la comunidad investigadora un nuevo enfoque para el desarrollo.

ToolRM: Modelos de Recompensa Basados en Resultados para Modelos de Lenguaje de Gran Escala con Capacidad de Llamada a Herramientas
ToolRM: Outcome Reward Models for Tool-Calling Large Language Models

Sep 15

ByMayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi

A medida que los modelos de lenguaje de gran escala (LLMs) interactúan cada vez más con herramientas externas, el modelado de recompensas para el uso de herramientas se ha convertido en un área crítica pero poco explorada. Los modelos de recompensa existentes, entrenados principalmente en salidas de lenguaje natural, tienen dificultades para evaluar el razonamiento y la ejecución basados en herramientas. Para cuantificar esta brecha, presentamos FC-RewardBench, el primer punto de referencia diseñado para evaluar sistemáticamente el rendimiento de los modelos de recompensa en escenarios de llamadas a herramientas. Nuestro análisis muestra que los modelos de recompensa actuales a menudo pasan por alto señales clave del uso efectivo de herramientas, destacando la necesidad de un modelado específico del dominio. Para abordar esto, proponemos un marco de entrenamiento para modelos de recompensa basados en resultados utilizando datos sintetizados a partir de LLMs de código abierto y con licencias permisivas. Entrenamos modelos que van desde 1.7B hasta 14B parámetros y los evaluamos en siete puntos de referencia fuera del dominio. Estos modelos superan consistentemente a los baselines de propósito general, logrando una mejora promedio de hasta el 25\% en el rendimiento de tareas posteriores y permitiendo un ajuste fino eficiente en datos mediante el filtrado guiado por recompensas.

LongEmotion: Medición de la Inteligencia Emocional en Modelos de Lenguaje de Gran Escala en Interacciones de Contexto Extendido
LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction

Sep 9

ByWeichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances significativos en Inteligencia Emocional (IE) y en la comprensión de contextos extensos. Sin embargo, los puntos de referencia existentes tienden a pasar por alto ciertos aspectos de la IE en escenarios de contexto prolongado, especialmente en entornos prácticos y realistas donde las interacciones son extensas, diversas y a menudo ruidosas. Para avanzar hacia estos entornos realistas, presentamos LongEmotion, un punto de referencia diseñado específicamente para tareas de IE en contextos extensos. Este abarca un conjunto diverso de tareas, incluyendo Clasificación de Emociones, Detección de Emociones, Preguntas y Respuestas sobre Emociones, Conversación Emocional, Resumen Emocional y Expresión Emocional. En promedio, la longitud de entrada para estas tareas alcanza 8,777 tokens, con generación de texto extenso requerida para la Expresión Emocional. Para mejorar el rendimiento bajo restricciones realistas, incorporamos Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) y Modelado Emocional Colaborativo (CoEM, por sus siglas en inglés), y los comparamos con métodos estándar basados en indicaciones. A diferencia de los enfoques convencionales, nuestro método RAG aprovecha tanto el contexto de la conversación como el propio modelo de lenguaje de gran escala como fuentes de recuperación, evitando la dependencia de bases de conocimiento externas. El método CoEM mejora aún más el rendimiento al descomponer la tarea en cinco etapas, integrando tanto la recuperación aumentada como la inyección limitada de conocimiento. Los resultados experimentales muestran que tanto RAG como CoEM mejoran consistentemente el rendimiento relacionado con la IE en la mayoría de las tareas de contexto extenso, avanzando los LLMs hacia aplicaciones de IE más prácticas y del mundo real. Además, realizamos un estudio de caso comparativo en la serie GPT para demostrar las diferencias entre varios modelos en términos de IE. El código está disponible en GitHub en https://github.com/LongEmotion/LongEmotion, y la página del proyecto se puede encontrar en https://longemotion.github.io/.