HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

17 papers found

GLM-5V-Turbo: Hacia un Modelo Base Nativo para Agentes Multimodales
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29

ByV Team, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue, Yu Wang, Yanling Wang, Yan Wang, Xijun Liu, Wenmeng Yu, Weihan Wang, Wei Li, Shuaiqi Duan, Sheng Yang, Ruiliang Lv, Mingdao Liu, Lihang Pan, Ke Ning, Junhui Ji, Jinjiang Wang, Jing Chen, Jiazheng Xu, Jiale Zhu, Jiale Cheng, Ji Qi, Guobing Gan, Guo Wang, Cong Yao, Zijun Dou, Zihao Zhou, Zihan Wang, Zhiqi Ge, Zhijie Li, Zhenyu Hou, Zhao Xue, Zehui Wang, Zehai He, Yusen Liu, Yukuo Cen, Yuchen Li, Yuan Wang, Yijian Lu, Yanzi Wang, Yadong Xue, Xinyu Zhang, Xinyu Liu, Wenkai Li, Tianyu Tong, Tianshu Zhang, Shengdong Yan, Qinkai Zheng, Mingde Xu, Licheng Bao, Jiaxing Xu, Jiaxin Fan, Jiawen Qian, Jiali Chen, Jiahui Lin, Haozhi Zheng, Haoran Wang, Haochen Li, Fan Yang, Dan Zhang, Chuangxin Zhao, Chengcheng Wu, Boyan Shi, Bowei Jia, Baoxu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Presentamos GLM-5V-Turbo, un avance hacia modelos de base nativos para agentes multimodales. A medida que los modelos de base se despliegan cada vez más en entornos reales, la capacidad de agente no solo depende del razonamiento lingüístico, sino también de la habilidad para percibir, interpretar y actuar sobre contextos heterogéneos como imágenes, videos, páginas web, documentos e interfaces gráficas de usuario. GLM-5V-Turbo se construye en torno a este objetivo: la percepción multimodal se integra como un componente central del razonamiento, la planificación, el uso de herramientas y la ejecución, en lugar de como una interfaz auxiliar para un modelo de lenguaje. Este informe resume las principales mejoras detrás de GLM-5V-Turbo en diseño de modelos, entrenamiento multimodal, aprendizaje por refuerzo, expansión de la cadena de herramientas e integración con marcos de agentes. Estos avances conducen a un rendimiento sólido en codificación multimodal, uso de herramientas visuales y tareas de agente basadas en marcos, al tiempo que se preserva una capacidad competitiva de codificación solo con texto. Más importante aún, nuestro proceso de desarrollo ofrece perspectivas prácticas para la construcción de agentes multimodales, destacando el papel central de la percepción multimodal, la optimización jerárquica y la verificación confiable de extremo a extremo.

Los Modelos de Lenguaje a Gran Escala Exploran Mediante Destilación Latente
Large Language Models Explore by Latent Distilling

Apr 27

ByYuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren

La generación de respuestas diversas es crucial para el escalado en tiempo de prueba de los modelos de lenguaje grandes (LLM), sin embargo, el muestreo estocástico estándar produce principalmente variación léxica superficial, lo que limita la exploración semántica. En este artículo, proponemos Muestreo Exploratorio (ESamp), un enfoque de decodificación que fomenta explícitamente la diversidad semántica durante la generación. ESamp se motiva por la observación bien conocida de que las redes neuronales tienden a hacer predicciones con menor error en entradas similares a las encontradas previamente, e incurren en un error de predicción mayor en entradas novedosas. Basándonos en esta propiedad, entrenamos un Destilador ligero en tiempo de prueba para predecir las representaciones ocultas de capas profundas del LLM a partir de sus representaciones de capas superficiales, modelando así las transiciones de representación en profundidad del LLM. Durante la decodificación, el Destilador se adapta continuamente a las mapeos inducidos por el contexto de generación actual. ESamp utiliza el error de predicción como una señal de novedad para reponderar las extensiones de tokens candidatos condicionadas al prefijo actual, sesgando así la decodificación hacia patrones semánticos menos explorados. ESamp se implementa con una canalización asíncrona de entrenamiento-inferencia, con una sobrecarga máxima de menos del 5% (1.2% en la versión optimizada). Los resultados empíricos muestran que ESamp mejora significativamente la eficiencia Pass@k de los modelos de razonamiento, mostrando un rendimiento superior o comparable al de líneas base estocásticas y heurísticas sólidas. Notablemente, ESamp logra una generalización robusta en benchmarks de generación de matemáticas, ciencias y código, y rompe la compensación entre diversidad y coherencia en la escritura creativa. Nuestro código ha sido liberado en: https://github.com/LinesHogan/tLLM.

RADIO-ViPE: Fusión Multimodal Estrechamente Acoplada en Tiempo Real para SLAM Semántico de Vocabulario Abierto en Entornos Dinámicos
RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Apr 28

ByZaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin

Presentamos RADIO-ViPE (Reduce All Domains Into One -- Video Pose Engine), un sistema de SLAM semántico en línea que permite la localización abierta de vocabulario consciente de la geometría, asociando consultas arbitrarias en lenguaje natural con regiones 3D localizadas y objetos en entornos dinámicos. A diferencia de los enfoques existentes que requieren entrada RGB-D calibrada y con pose conocida, RADIO-ViPE opera directamente sobre flujos de vídeo RGB monoculares en bruto, sin requerir intrínsecos de cámara previos, sensores de profundidad o inicialización de pose. El sistema acopla estrechamente incrustaciones multimodales —que abarcan visión y lenguaje— derivadas de modelos fundacionales aglomerativos (por ejemplo, RADIO) con información geométrica de la escena. Este acoplamiento tiene lugar en la inicialización, la optimización y las conexiones del grafo de factores para mejorar la consistencia del mapa a partir de múltiples modalidades. La optimización está encapsulada dentro de kernels robustos adaptativos, diseñados para manejar tanto objetos en movimiento activo como elementos de la escena desplazados por el agente (por ejemplo, muebles reorganizados durante una sesión egocéntrica). Los experimentos demuestran que RADIO-ViPE logra resultados de vanguardia en el benchmark dinámico TUM-RGBD, manteniendo al mismo tiempo un rendimiento competitivo frente a métodos de vocabulario abierto fuera de línea que dependen de datos calibrados y suposiciones de escenas estáticas. RADIO-ViPE salva una brecha crítica en el despliegue del mundo real, permitiendo una localización semántica de vocabulario abierto robusta para la robótica autónoma y flujos de vídeo sin restricciones en entornos naturales. Página del proyecto: https://be2rlab.github.io/radio_vipe

ClawGym: Un Marco Escalable para Construir Agentes Claw Efectivos
ClawGym: A Scalable Framework for Building Effective Claw Agents

Apr 29

ByFei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang, Yuan Wei, Ran Tao, Bryan Dai, Jian Yang, Wayne Xin Zhao

Los entornos de tipo Claw permiten flujos de trabajo multi-etapa sobre archivos locales, herramientas y estados persistentes del espacio de trabajo. Sin embargo, el desarrollo escalable en torno a estos entornos sigue viéndose limitado por la ausencia de un marco sistemático, especialmente uno para sintetizar datos de entrenamiento verificables e integrarlos con el entrenamiento de agentes y la evaluación diagnóstica. Para abordar este desafío, presentamos ClawGym, un marco escalable que soporta el ciclo de vida completo del desarrollo de agentes personales de tipo Claw. De forma concreta, construimos ClawGym-SynData, un conjunto de datos diverso de 13.5K tareas filtradas sintetizadas a partir de intenciones basadas en personajes y operaciones fundamentadas en habilidades, emparejadas con espacios de trabajo simulados realistas y mecanismos de verificación híbridos. Posteriormente, entrenamos una familia de modelos capaces de tipo Claw, denominados ClawGym-Agents, mediante ajuste fino supervisado en trayectorias de ejecución de caja negra, y exploramos además el aprendizaje por refuerzo mediante una pipeline ligera que paraleliza las ejecuciones en entornos aislados (sandboxes) por tarea. Para respaldar una evaluación confiable, construimos además ClawGym-Bench, un benchmark de 200 instancias calibradas mediante filtrado automatizado y revisión humano-LLM. Los recursos relevantes serán publicados próximamente en https://github.com/ClawGym.

Girando la Marea: Distilación Transarquitectónica para Modelos de Lenguaje Grande Basados en Difusión
Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Apr 29

ByGongbo Zhang, Wen Wang, Ye Tian, Li Yuan

Los modelos de lenguaje de difusión a gran escala (dLLM) ofrecen decodificación paralela y contexto bidireccional, pero los dLLM de última generación requieren miles de millones de parámetros para un rendimiento competitivo. Si bien los métodos de destilación existentes para dLLM reducen los pasos de inferencia dentro de una única arquitectura, ninguno aborda la transferencia de conocimiento entre arquitecturas, donde el profesor y el estudiante difieren en arquitectura, mecanismo de atención y tokenizador. Presentamos TIDE, el primer marco para la destilación de dLLM entre arquitecturas, que comprende tres componentes modulares: (1) TIDAL, que modula conjuntamente la intensidad de la destilación a lo largo del progreso del entrenamiento y el paso de difusión para tener en cuenta la confiabilidad dependiente del ruido del profesor; (2) CompDemo, que enriquece el contexto del profesor mediante división de máscaras complementaria para mejorar las predicciones bajo enmascaramiento severo; y (3) Reverse CALM, un objetivo entre tokenizadores que invierte la coincidencia de verosimilitud a nivel de fragmentos, produciendo gradientes acotados y filtrado de ruido dual. La destilación de profesores densos de 8B y MoE de 16B en un estudiante de 0.6B mediante dos pipelines heterogéneos supera la línea base en un promedio de 1.53 puntos en ocho benchmarks, logrando ganancias notables en generación de código, donde las puntuaciones en HumanEval alcanzan 48.78 en comparación con 32.3 para la línea base AR.

Plantillas de Difusión: Un Marco Unificado de Complementos para Difusión Controlable
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Apr 27

ByZhongjie Duan, Hong Zhang, Yingda Chen

Los métodos de difusión controlable han ampliado sustancialmente la utilidad práctica de los modelos de difusión, pero generalmente se desarrollan como sistemas aislados específicos de cada arquitectura base, con pipelines de entrenamiento, formatos de parámetros y hooks de ejecución incompatibles. Esta fragmentación dificulta la reutilización de infraestructura entre tareas, la transferencia de capacidades entre arquitecturas o la composición de múltiples controles dentro de un único pipeline de generación. Presentamos Diffusion Templates, un framework unificado y abierto de tipo plugin que desacopla la inferencia del modelo base de la inyección de capacidades controlables. El framework se organiza en torno a tres componentes: Modelos plantilla que mapean entradas arbitrarias específicas de tarea a una representación intermedia de capacidad, una caché de plantilla que funciona como interfaz estandarizada para la inyección de capacidades, y un pipeline de plantilla que carga, fusiona e inyecta una o más cachés de plantilla en el entorno de ejecución de difusión base. Dado que la interfaz se define a nivel de sistemas en lugar de estar vinculada a una arquitectura de control específica, portadores de capacidad heterogéneos como KV-Cache y LoRA pueden ser soportados bajo la misma abstracción. Basándonos en este diseño, construimos un zoo de modelos diverso que abarca control estructural, ajuste de brillo, ajuste de color, edición de imágenes, super-resolución, mejora de nitidez, alineación estética, referencia de contenido, inpaintin local y control de edad. Estos estudios de caso demuestran que Diffusion Templates puede unificar una amplia gama de tareas de generación controlable mientras preserva la modularidad, componibilidad y extensibilidad práctica a través de arquitecturas de difusión en rápida evolución. Todos los recursos serán de código abierto, incluyendo código, modelos y conjuntos de datos.

FAMA: Marco Meta-Agéntico Consciente de Fallos para LLMs de Código Abierto en Entornos Interactivos de Uso de Herramientas
FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Apr 28

ByAmir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

Los Modelos de Lenguaje Grandes (LLMs) se están desplegando cada vez más como núcleo de toma de decisiones de agentes autónomos capaces de efectuar cambios en entornos externos. Sin embargo, en evaluaciones conversacionales, que simulan escenarios de resolución de problemas centrados en el cliente del mundo real, estos agentes fracasan con frecuencia debido a los efectos en cascada de una toma de decisiones incorrecta. Estos desafíos son particularmente pronunciados en LLMs de código abierto con tamaños de parámetros más pequeños, ventanas de contexto limitadas y presupuestos de inferencia restringidos, lo que contribuye a una mayor acumulación de errores en entornos agentivos. Para abordar estos desafíos, presentamos el marco Meta-Agéntico Consciente de Fallos (FAMA). FAMA opera en dos etapas: primero, analiza las trayectorias de fallo de agentes base para identificar los errores más prevalentes; segundo, emplea un mecanismo de orquestación que activa un subconjunto mínimo de agentes especializados diseñados para abordar estos fallos, inyectando un contexto específico para el agente de uso de herramientas antes del paso de toma de decisiones. Los experimentos realizados con diversos LLMs de código abierto demuestran mejoras de rendimiento de hasta el 27% en distintos modos de evaluación con respecto a los métodos base estándar. Estos resultados destacan que la curación dirigida de contexto mediante agentes especializados para abordar fallos comunes es un principio de diseño valioso para construir agentes LLM de uso de herramientas confiables y multi-turno que simulen escenarios conversacionales del mundo real.

Modelado Unificado de Acciones en un Mundo 4D a partir de Priors de Video con Desruido Asíncrono
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Apr 29

ByJun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu

Proponemos X-WAM, un Modelo Mundial Unificado 4D que unifica la ejecución de acciones robóticas en tiempo real y la síntesis de mundos 4D de alta fidelidad (video + reconstrucción 3D) en un único marco, abordando las limitaciones críticas de los modelos mundiales unificados previos (por ejemplo, UWM) que solo modelan el espacio de píxeles 2D y no logran equilibrar la eficiencia de la acción y la calidad del modelado mundial. Para aprovechar los fuertes *priors* visuales de los modelos de difusión de video preentrenados, X-WAM imagina el mundo futuro prediciendo videos RGB-D multi-vista, y obtiene información espacial de manera eficiente mediante una adaptación estructural ligera: replicando los últimos bloques del *Diffusion Transformer* preentrenado en una rama dedicada a la predicción de profundidad para la reconstrucción de la información espacial futura. Además, proponemos el Muestreo de Ruido Asíncrono (ANS, por sus siglas en inglés) para optimizar conjuntamente la calidad de la generación y la eficiencia de la decodificación de acciones. ANS aplica un programa de eliminación de ruido asíncrono especializado durante la inferencia, que decodifica acciones rápidamente con menos pasos para permitir una ejecución eficiente en tiempo real, mientras dedica la secuencia completa de pasos para generar video de alta fidelidad. En lugar de desacoplar completamente los intervalos de tiempo durante el entrenamiento, ANS muestrea de su distribución conjunta para alinearse con la distribución de inferencia. Preentrenado con más de 5.800 horas de datos robóticos, X-WAM alcanza una tasa de éxito promedio del 79.2% y 90.7% en los puntos de referencia RoboCasa y RoboTwin 2.0, mientras produce una reconstrucción y generación 4D de alta fidelidad que supera a los métodos existentes tanto en métricas visuales como geométricas.

Aceleración de los Despliegues Posteriores al Entrenamiento de RL mediante Decodificación Especulativa Integrada en el Sistema
Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Apr 29

ByHayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani

El post-entrenamiento por RL de modelos lingüísticos de vanguardia se ve cada vez más limitado por la generación autoregresiva de rollouts, lo que convierte la aceleración de estos en un desafío central de sistemas. Muchos métodos de eficiencia existentes mejoran el rendimiento cambiando el régimen de rollout u optimización, por ejemplo, mediante ejecución fuera de política, repetición de experiencias o generación de menor precisión. Estudiamos la decodificación especulativa como una primitiva de aceleración sin pérdidas para los rollouts de RL que preserva la distribución de salida del modelo objetivo. Implementamos la decodificación especulativa en NeMo-RL con un backend vLLM, compatible con pipelines síncronos y asíncronos y que permite la especulación durante los rollouts de RL. Este beneficio es realizable a través de diversos mecanismos de especulación, como cabezas MTP preentrenadas, pequeños modelos de borrador externos o incluso técnicas como Eagle3, que tradicionalmente se aplican después de la fase de RL. Esto ofrece una vía de despliegue para la decodificación especulativa de última generación dentro del entrenamiento por RL. En una carga de trabajo de post-entrenamiento para razonamiento a escala de 8B bajo RL síncrono, la decodificación especulativa mejora el rendimiento de los rollouts en 1.8x. Utilizando un simulador de rendimiento de alta fidelidad, proyectamos que la combinación de decodificación especulativa con RL asíncrono produce una aceleración de hasta 2.5x en el entrenamiento de extremo a extremo a escala de 235B.

Controles de Capa Operativa para Agentes de Modelos de Lenguaje en Cadena Bajo Capital Real
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Apr 28

ByT. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau

Estudiamos la fiabilidad en agentes autónomos basados en modelos de lenguaje que traducen mandatos de usuario en acciones validadas con herramientas bajo capital real. El escenario es DX Terminal Pro, un despliegue de 21 días en el que 3.505 agentes financiados por usuarios operaron con ETH real en un mercado *onchain* delimitado. Los usuarios configuraron bóvedas mediante controles estructurados y estrategias en lenguaje natural, pero solo los agentes podían elegir operaciones de compra/venta normales. El sistema produjo 7,5 millones de invocaciones de agentes, aproximadamente 300.000 acciones *onchain*, un volumen de alrededor de 20 millones de dólares, más de 5.000 ETH desplegados, aproximadamente 70.000 millones de tokens de inferencia y un 99,9 % de éxito en la liquidación de transacciones enviadas validadas por la política. Los agentes de larga duración acumularon miles de decisiones secuenciales, incluyendo más de 6.000 ciclos estado-prólogo-acción para agentes continuamente activos, generando una traza a gran escala desde el mandato del usuario hasta el prólogo renderizado, el razonamiento, la validación, el estado de la cartera y la liquidación. La fiabilidad no surgió únicamente del modelo base; emergió de la capa de operaciones alrededor del modelo: compilación de *prompts*, controles tipados, validación de políticas, guardas de ejecución, diseño de memoria y observabilidad a nivel de traza. Las pruebas previas al lanzamiento expusieron fallos que los puntos de referencia basados solo en texto rara vez miden, incluyendo reglas de negociación fabricadas, parálisis por comisiones, anclaje numérico, negociación por cadencia y mala lectura de la tokenómica. Cambios específicos en el *harness* redujeron las reglas de venta fabricadas del 57 % al 3 %, redujeron las observaciones lideradas por comisiones del 32,5 % a menos del 10 % y aumentaron el despliegue de capital del 42,9 % al 78,0 % en una población de prueba afectada. Demostramos que los agentes gestores de capital deben evaluarse a lo largo de toda la trayectoria, desde el mandato del usuario hasta el *prompt*, la acción validada y la liquidación.

Una Encuesta sobre Simulación de Usuarios Conversacionales Basada en Modelos de Lenguaje Grandes
A Survey on LLM-based Conversational User Simulation

Apr 27

ByBo Ni, Leyao Wang, Yu Wang, Branislav Kveton, Franck Dernoncourt, Yu Xia, Hongjie Chen, Reuben Leura, Samyadeep Basu, Subhojyoti Mukherjee, Puneet Mathur, Nesreen Ahmed, Junda Wu, Li Li, Huixin Zhang, Ruiyi Zhang, Tong Yu, Sungchul Kim, Jiuxiang Gu, Zhengzhong Tu, Alexa Siu, Zichao Wang, David Seunghyun Yoon, Nedim Lipka, Namyong Park, Zihao Lin, Trung Bui, Yue Zhao, Tyler Derr, Ryan A. Rossi

La simulación de usuarios ha desempeñado durante mucho tiempo un papel vital en la informática debido a su potencial para respaldar una amplia gama de aplicaciones. El lenguaje, como principal medio de comunicación humana, constituye la base de la interacción social y el comportamiento. En consecuencia, la simulación del comportamiento conversacional se ha convertido en un área clave de estudio. Los recientes avances en los modelos de lenguaje grandes (LLMs) han catalizado significativamente el progreso en este dominio al permitir la generación de conversaciones de usuarios sintéticos de alta fidelidad. En este artículo, examinamos los avances recientes en la simulación de usuarios conversacionales basada en LLMs. Introducimos una taxonomía novedosa que cubre la granularidad del usuario y los objetivos de la simulación. Además, analizamos sistemáticamente las técnicas centrales y las metodologías de evaluación. Nuestro objetivo es mantener a la comunidad investigadora informada sobre los últimos avances en simulación de usuarios conversacionales y facilitar futuras investigaciones mediante la identificación de desafíos abiertos y la organización del trabajo existente bajo un marco unificado.

PSP: Un punto de referencia de acento por dimensión interpretable para la síntesis de voz a partir de texto en lenguas índicas
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta

Las medidas estándar de evaluación de texto a voz (TTS) evalúan la inteligibilidad (WER, CER) y la naturalidad general (MOS, UTMOS), pero no cuantifican el acento. Un sintetizador puede obtener buenos resultados en las cuatro métricas y, sin embargo, sonar no nativo en rasgos que son fonémicos en la lengua objetivo. Para las lenguas índicas, estos rasgos incluyen la articulación retrofleja, la aspiración, la longitud vocálica y el aproximante retroflejo del tamil (letra zha). Presentamos PSP, el Perfil de Sustitución de Fonemas, un benchmark de acento interpretable por dimensión fonológica para TTS en lenguas índicas. PSP descompone el acento en seis dimensiones complementarias: tasa de colapso retroflejo (RR), fidelidad de aspiración (AF), fidelidad de longitud vocálica (LF), fidelidad de la zha tamil (ZF), Distancia de Audio Fréchet (FAD) y divergencia de la firma prosódica (PSD). Las primeras cuatro se miden mediante alineación forzada más sondas acústicas de centroide de hablantes nativos sobre los *embeddings* de la capa 9 de Wav2Vec2-XLS-R; las dos últimas son distancias distribucionales a nivel de corpus. En esta v1, evaluamos cuatro sistemas comerciales y de código abierto (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) en conjuntos piloto de hindi, telugu y tamil, incluyendo un quinto sistema (Praxy Voice) en los tres idiomas, más un estudio de caso R5->R6 en telugu. Tres hallazgos: (i) el colapso retroflejo crece monótonamente con la dificultad fonológica hindi < telugu < tamil (~1%, ~40%, ~68%); (ii) el ordenamiento PSP diverge del ordenamiento WER: los líderes comerciales en WER no lideran uniformemente en fidelidad retrofleja o prosódica; (iii) ningún sistema único es Pareto-óptimo en las seis dimensiones. Publicamos los centroides de referencia nativos (500 clips por idioma), *embeddings* de 1000 clips para FAD, matrices de características prosódicas de 500 clips para PSD, conjuntos de prueba de 300 enunciados por idioma, código de evaluación bajo licencia MIT y centroides bajo CC-BY. La correlación MOS formal se pospone para la v2; la v1 reporta cinco señales de consistencia interna más una verificación de robustez con audio nativo.

Praxy Voice: Recuperación por Comando de Voz + BUPS para TTS de Lenguas Índicas de Grado Comercial a partir de una Base No Índica Congelada, con Coste Cero de Datos de Entrenamiento Comercial
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta

Los sistemas comerciales de TTS producen audio en lenguas índicas de calidad casi nativa, pero las mejores bases de código abierto (Chatterbox, Indic Parler-TTS, IndicF5) se quedan atrás en las dimensiones fonológicas medidas, y la base multilingüe más adoptada (Chatterbox, 23 idiomas) ni siquiera tokeniza el telugu o el tamil. Nos preguntamos: ¿cuál es la intervención mínima que lleva a una base de este tipo, no nativa para lenguas índicas, a producir resultados de clase comercial en telugu, tamil e hindi, sin entrenar un nuevo decodificador acústico y sin utilizar datos de entrenamiento de TTS comerciales? Combinamos tres elementos: (1) BUPS, un Espacio de Fonemas Unificado Brahmic que romaniza determinísticamente siete escrituras índicas a ISO-15919 para que el tokenizador latino de Chatterbox pueda procesarlas; (2) un adaptador LoRA aplicado únicamente al predictor de tokens de texto (t3 de Chatterbox), entrenado con ~1.220 h de audio índico licenciado y usando un language_id proxy del hindi; (3) una receta de recuperación por prompt de voz – un clip de referencia de 8-11 s en el mismo idioma más tres anulaciones de muestreo (exageración 0.7, temperatura 0.6, min_p 0.1; "Configuración B") – que recupera una salida acústica de clase comercial sin entrenamiento del decodificador acústico. En hindi, el LoRA reduce la precisión, por lo que en su lugar usamos Chatterbox vanilla + Configuración B, dando lugar a un despliegue de dos ramas. Evaluado en conjuntos piloto de 10 enunciados con el benchmark PSP complementario, Praxy Voice iguala o supera ligeramente los baselines comerciales: 26.7% de colapso de retroflejas en telugu (vs. 33.3% de Sarvam Bulbul), 71% de colapso de zha en tamil (vs. 86% del trío comercial), 0.025 LLM-WER en hindi (empatado con Cartesia Sonic-3). Para el código mixto intrasentencial añadimos una tercera rama (IndicF5 + transliteración a escritura nativa) que reduce el LLM-WER de código mixto de 0.80-0.85 a 0.14-0.27 en hindi/telugu/tamil. Publicamos los pesos LoRA R6 (Apache-2.0), el código de inferencia y el enrutador (MIT), y una demo en Gradio.

FASH-iCNN: Haciendo Inspeccionable la Identidad de la Moda Editorial Mediante Sondeo Multimodal con CNN
FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Apr 29

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

Los sistemas de IA de moda codifican rutinariamente la lógica estética de casas de moda específicas, editores y momentos históricos sin revelarla. Presentamos FASH-iCNN, un sistema multimodal entrenado con 87.547 imágenes de pasarela de Vogue de 15 casas de moda entre 1991 y 2024 que hace esta lógica cultural inspeccionable. Dada una fotografía de una prenda, el sistema identifica qué casa la produjo, a qué época pertenece y qué tradición cromática refleja. Un modelo que utiliza solo la prenda identifica la casa de moda con un 78,2% de precisión top-1 en 14 casas, la década con un 88,6% top-1 y el año específico con un 58,3% top-1 en 34 años, con un error medio de solo 2,2 años. Al investigar qué canales visuales portan esta señal, se revela una clara disociación: eliminar el color solo reduce la precisión de identidad de la casa en 10,6 puntos porcentuales, mientras que eliminar la textura la reduce en 37,6 pp, estableciendo la textura y la luminancia como los principales portadores de la identidad editorial. FASH-iCNN trata la cultura editorial como la señal y no como ruido de fondo, identificando qué casas, épocas y tradiciones cromáticas dieron forma a cada resultado para que los usuarios puedan ver no solo qué predice el sistema, sino también qué casas, editores y momentos históricos están codificados en esa predicción.

Exploración de la Planificación Visual en Modelos de Edición de Imágenes
Probing Visual Planning in Image Editing Models

Apr 23

ByZhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma

La planificación visual representa un aspecto crucial de la inteligencia humana, especialmente en tareas que requieren razonamiento espacial complejo y navegación. Sin embargo, en el aprendizaje automático, este problema inherentemente visual a menudo se aborda desde una perspectiva centrada en lo verbal. Si bien investigaciones recientes demuestran la promesa de los enfoques completamente visuales, estos adolecen de una importante ineficiencia computacional debido al paradigma de planificación-paso-a-paso-mediante-generación. En este trabajo, presentamos EAR, un paradigma de edición-como-razonamiento que reformula la planificación visual como una transformación de imagen en un solo paso. Para aislar el razonamiento intrínseco del reconocimiento visual, empleamos rompecabezas abstractos como tareas de sondeo e introducimos AMAZE, un conjunto de datos generado proceduralmente que incluye los problemas clásicos del Laberinto y de la Reina, cubriendo formas distintas y complementarias de planificación visual. La naturaleza abstracta de AMAZE también facilita la evaluación automática de modelos autoregresivos y basados en difusión, tanto en términos de fidelidad a nivel de píxel como de validez lógica. Evaluamos modelos de edición líderes, tanto propietarios como de código abierto. Los resultados muestran que todos ellos tienen dificultades en un entorno de cero disparos, pero que el ajuste fino en escalas básicas permite una generalización notable a escalas de dominio interno más grandes y a escalas y geometrías de dominio externo. Sin embargo, nuestro mejor modelo, que se ejecuta en hardware de gama alta, no logra igualar la eficiencia de cero disparos de los solucionadores humanos, lo que subraya una brecha persistente en el razonamiento visual neuronal.

Privacidad Mejorada y Eficiencia en la Comunicación para el Aprendizaje Federado No-IID mediante Cuantización Adaptativa y Privacidad Diferencial
Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Apr 25

ByEmre Ardıç, Yakup Genç

El aprendizaje federado (FL) es un método de aprendizaje automático distribuido en el que múltiples dispositivos entrenan colaborativamente un modelo bajo la gestión de un servidor central sin compartir los datos subyacentes. Uno de los principales desafíos del FL es el cuello de botella en la comunicación causado por las variaciones en la velocidad de conexión y el ancho de banda entre dispositivos. Por lo tanto, es esencial reducir el tamaño de los datos transmitidos durante el entrenamiento. Adicionalmente, existe un riesgo potencial de exponer información sensible mediante el análisis del modelo o de los gradientes durante el entrenamiento. Para abordar tanto la privacidad como la eficiencia en la comunicación, combinamos métodos de privacidad diferencial (DP) y de cuantificación adaptativa. Utilizamos DP basada en Laplace para preservar la privacidad, un enfoque relativamente poco explorado en FL que ofrece garantías de privacidad más estrictas que la DP basada en Gaussiana. Proponemos un planificador simple y eficiente de longitud de bits global usando atenuación coseno basada en rondas, junto con un planificador por cliente que se adapta dinámicamente basándose en la contribución del cliente estimada mediante análisis de entropía del conjunto de datos. Evaluamos nuestro enfoque mediante experimentos exhaustivos en CIFAR10, MNIST y conjuntos de datos de imágenes médicas, utilizando distribuciones de datos no-IID con diferentes cantidades de clientes, planificadores de longitud de bits y presupuestos de privacidad. Los resultados muestran que nuestros métodos de cuantificación adaptativa reducen el total de datos comunicados hasta en un 52,64% para MNIST, 45,06% para CIFAR10, y entre 31% y 37% para los conjuntos de datos de imágenes médicas en comparación con el entrenamiento con flotantes de 32 bits, manteniendo una precisión competitiva del modelo y garantizando una privacidad robusta mediante la privacidad diferencial.

Selección de Muestras mediante Autoencoders Multitarea en Aprendizaje Federado con Datos No IID
Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Apr 28

ByEmre Ardıç, Yakup Genç

El aprendizaje federado es un paradigma de aprendizaje automático en el que múltiples dispositivos entrenan colaborativamente un modelo bajo la supervisión de un servidor central, garantizando la privacidad de los datos. Sin embargo, su rendimiento se ve frecuentemente obstaculizado por muestras redundantes, maliciosas o anómalas, lo que provoca degradación e ineficiencia del modelo. Para superar estos problemas, proponemos nuevos métodos de selección de muestras para clasificación de imágenes, empleando un autoencoder multitarea para estimar las contribuciones de las muestras mediante análisis de pérdidas y características. Nuestro enfoque incorpora detección no supervisada de valores atípicos, utilizando métodos de máquina de vectores de soporte de una clase (OCSVM), bosque de aislamiento (IF) y umbral de pérdida adaptativo (AT), gestionados por un servidor central para filtrar muestras ruidosas en los clientes. También proponemos una pérdida de descripción de datos de vectores de soporte (SVDD) multiclase controlada por un servidor central para mejorar la selección de muestras basada en características. Validamos nuestros métodos en los conjuntos de datos CIFAR10 y MNIST, considerando distintos números de clientes, distribuciones no-IID y niveles de ruido de hasta el 40%. Los resultados muestran mejoras significativas en precisión con la selección de muestras basada en pérdidas, logrando ganancias de hasta el 7,02% en CIFAR10 con OCSVM y del 1,83% en MNIST con AT. Adicionalmente, nuestra pérdida SVDD federada mejora aún más la selección de muestras basada en características, obteniendo ganancias de precisión de hasta el 0,99% en CIFAR10 con OCSVM. Estos resultados demuestran la efectividad de nuestros métodos para mejorar la precisión del modelo en diversas condiciones de número de clientes y ruido.

Praxy Voice: Recuperación por Comando de Voz + BUPS para TTS de Lenguas Índicas de Grado Comercial a partir de una Base No Índica Congelada, con Coste Cero de Datos de Entrenamiento Comercial
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta