HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

26 papers found

Razonamiento Agéntico para Modelos de Lenguaje Grandes
Agentic Reasoning for Large Language Models

Jan 18

ByTianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He

193

El razonamiento es un proceso cognitivo fundamental que subyace a la inferencia, la resolución de problemas y la toma de decisiones. Si bien los modelos de lenguaje grandes (LLMs) demuestran capacidades de razonamiento sólidas en entornos de mundo cerrado, tienen dificultades en entornos abiertos y dinámicos. El razonamiento agéntico marca un cambio de paradigma al reformular los LLMs como agentes autónomos que planifican, actúan y aprenden mediante la interacción continua. En este estudio, organizamos el razonamiento agéntico a lo largo de tres dimensiones complementarias. Primero, caracterizamos la dinámica ambiental a través de tres capas: el razonamiento agéntico fundamental, que establece las capacidades centrales de un solo agente, incluyendo la planificación, el uso de herramientas y la búsqueda en entornos estables; el razonamiento agéntico de auto-evolución, que estudia cómo los agentes refinan estas capacidades mediante retroalimentación, memoria y adaptación; y el razonamiento colectivo multiagente, que extiende la inteligencia a entornos colaborativos que implican coordinación, intercambio de conocimientos y objetivos compartidos. A lo largo de estas capas, distinguimos el razonamiento en contexto, que escala la interacción en tiempo de prueba mediante una orquestación estructurada, del razonamiento posterior al entrenamiento, que optimiza los comportamientos mediante el aprendizaje por refuerzo y el ajuste fino supervisado. Además, revisamos marcos de razonamiento agéntico representativos en aplicaciones y benchmarks del mundo real, incluyendo ciencia, robótica, atención sanitaria, investigación autónoma y matemáticas. Este estudio sintetiza los métodos de razonamiento agéntico en una hoja de ruta unificada que tiende un puente entre el pensamiento y la acción, y esboza desafíos abiertos y direcciones futuras, incluyendo la personalización, la interacción de largo horizonte, el modelado del mundo, el entrenamiento escalable de multiagentes y la gobernanza para el despliegue en el mundo real.

MMDeepResearch-Bench: Un Punto de Referencia para Agentes de Investigación Profunda Multimodal
MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

Jan 18

ByPeizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang

Los Agentes de Investigación Profunda (DRA, por sus siglas en inglés) generan informes ricos en citas mediante procesos de búsqueda y síntesis multi-etapa. Sin embargo, los puntos de referencia existentes se centran principalmente en entornos de solo texto o en preguntas y respuestas multimodales breves, pasando por alto la evaluación integral del uso de evidencia multimodal de extremo a extremo. Presentamos MMDeepResearch-Bench (MMDR-Bench), un punto de referencia que consta de 140 tareas elaboradas por expertos en 21 dominios, donde cada tarea proporciona un conjunto de imagen-texto para evaluar la comprensión multimodal y la generación de informes anclados en citas. En comparación con configuraciones anteriores, MMDR-Bench hace hincapié en la síntesis de estilo informe con un uso explícito de evidencia, donde los modelos deben conectar artefactos visuales con afirmaciones referenciadas y mantener la coherencia entre la narrativa, las citas y las referencias visuales. Además, proponemos una pipeline de evaluación unificada e interpretable: la Evaluación Adaptativa Formula-LLM (FLAE) para la calidad del informe, la Evaluación de Citas Alineadas con Recuperación Confiable (TRACE) para la alineación de la evidencia basada en citas, y la Verificación de Integridad Alineada con Soporte Multimodal (MOSAIC) para la integridad texto-visual. Cada una produce señales detalladas que permiten diagnosticar errores más allá de una única puntuación general. Los experimentos con 25 modelos de vanguardia revelan compensaciones sistemáticas entre la calidad de la generación, la disciplina de citación y la fundamentación multimodal, destacando que una prosa sólida por sí sola no garantiza un uso fiel de la evidencia y que la integridad multimodal sigue siendo un cuello de botella clave para los agentes de investigación profunda.

Paper2Rebuttal: Un Marco Multiagente para la Asistencia Transparente en la Respuesta a Autores
Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance

Jan 20

ByQianli Ma, Chang Guo, Zhiheng Tian, Siyu Wang, Jipeng Xiao, Yuanhao Yue, Zhipeng Zhang

La redacción de refutaciones efectivas es una tarea de alta exigencia que requiere algo más que fluidez lingüística, ya que exige una alineación precisa entre la intención del revisor y los detalles del manuscrito. Las soluciones actuales suelen abordar esto como un problema de generación directa de texto, adoleciendo de alucinaciones, críticas pasadas por alto y falta de base verificable. Para superar estas limitaciones, presentamos RebuttalAgent, el primer marco de trabajo multiagente que replantea la generación de refutaciones como una tarea de planificación centrada en la evidencia. Nuestro sistema descompone las críticas complejas en preocupaciones atómicas y construye dinámicamente contextos híbridos sintetizando resúmenes comprimidos con texto de alta fidelidad, a la vez que integra un módulo de búsqueda externa autónoma y bajo demanda para resolver preocupaciones que requieren literatura externa. Al generar un plan de respuesta verificable antes de redactar, RebuttalAgent garantiza que cada argumento esté explícitamente anclado en evidencia interna o externa. Validamos nuestro enfoque en el RebuttalBench propuesto y demostramos que nuestra canalización supera a los buenos modelos de referencia en cobertura, fidelidad y coherencia estratégica, ofreciendo un asistente transparente y controlable para el proceso de revisión por pares. El código será liberado.

Replanteamiento del Modelo de Generación de Vídeo para el Mundo Embebido
Rethinking Video Generation Model for the Embodied World

Jan 21

ByYufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou

Los modelos de generación de vídeo han impulsado significativamente la inteligencia corporeizada, desbloqueando nuevas posibilidades para generar datos robóticos diversos que capturan la percepción, el razonamiento y la acción en el mundo físico. Sin embargo, sintetizar vídeos de alta calidad que reflejen con precisión las interacciones robóticas del mundo real sigue siendo un desafío, y la falta de un benchmark estandarizado limita las comparaciones justas y el progreso. Para abordar esta brecha, presentamos un benchmark integral de robótica, RBench, diseñado para evaluar la generación de vídeo orientada a robots en cinco dominios de tareas y cuatro embodimientos distintos. Evalúa tanto la corrección a nivel de tarea como la fidelidad visual mediante sub-métricas reproducibles, incluyendo consistencia estructural, plausibilidad física e integridad de la acción. La evaluación de 25 modelos representativos revela deficiencias significativas en la generación de comportamientos robóticos físicamente realistas. Además, el benchmark alcanza un coeficiente de correlación de Spearman de 0.96 con evaluaciones humanas, validando su efectividad. Si bien RBench proporciona la lente necesaria para identificar estas deficiencias, lograr realismo físico requiere ir más allá de la evaluación para abordar la crítica escasez de datos de entrenamiento de alta calidad. Guiados por estas observaciones, introducimos una pipeline de datos refinada de cuatro etapas, resultando en RoVid-X, el mayor conjunto de datos robótico de código abierto para generación de vídeo con 4 millones de clips de vídeo anotados, cubriendo miles de tareas y enriquecido con anotaciones exhaustivas de propiedades físicas. Colectivamente, este ecosistema sinérgico de evaluación y datos establece una base sólida para la evaluación rigurosa y el entrenamiento escalable de modelos de vídeo, acelerando la evolución de la IA corporeizada hacia la inteligencia general.

GutenOCR: Un Front-End de Visión por Computador y Lenguaje Fundamentado para Documentos
GutenOCR: A Grounded Vision-Language Front-End for Documents

Jan 20

ByHunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew

GutenOCR es una familia de frontales de OCR con base obtenidos mediante el ajuste fino de Qwen2.5-VL-3B y Qwen2.5-VL-7B. Los modelos de visión y lenguaje resultantes, de punto de control único, exponen capacidades de lectura, detección y localización a través de una interfaz unificada basada en prompts. Entrenados en documentos comerciales, artículos científicos y datos sintéticos de localización, los modelos admiten lectura de página completa y localizada con cuadros delimitadores a nivel de línea y párrafo, y consultas condicionales del tipo "¿dónde está x?". Introducimos un protocolo de evaluación de OCR con base y demostramos que GutenOCR-7B más que duplica la puntuación compuesta de OCR con base de su modelo base Qwen2.5-VL-7B en 10.5K páginas comerciales y científicas retenidas (de 0.40 a 0.82). En Fox y OmniDocBench v1.5, nuestro enfoque mejora sustancialmente el OCR a nivel de región y línea, así como la recuperación en la detección de texto, pero revela compensaciones en la linealización a nivel de página, el OCR guiado por color y los diseños con gran cantidad de fórmulas.

Fusión de Conocimientos Conductuales en Modelos Agénticos Reforzados
Behavior Knowledge Merge in Reinforced Agentic Models

Jan 20

ByXiangchi Yuan, Dachuan Shi, Chunhui Zhang, Zheyuan Liu, Shenglong Yao, Soroush Vosoughi, Wenke Lee

El aprendizaje por refuerzo (RL) es fundamental para el post-entrenamiento, particularmente para modelos agentivos que requieren comportamientos de razonamiento especializados. En este contexto, la fusión de modelos ofrece un mecanismo práctico para integrar múltiples agentes entrenados con RL de diferentes tareas en un único modelo generalista. Sin embargo, los métodos de fusión existentes están diseñados para el ajuste fino supervisado (SFT) y son subóptimos para preservar las capacidades específicas de la tarea en modelos agentivos entrenados con RL. La raíz del problema es un desajuste en los vectores de tarea entre RL y SFT: el RL *on-policy* induce vectores de tarea altamente dispersos y heterogéneos, mientras que la fusión al estilo SFT asume implícitamente vectores de tarea densos y globalmente comparables. Cuando se aplica el promedio global estándar bajo este desajuste, los vectores de tarea no superpuestos del RL, que codifican comportamientos críticos específicos de la tarea, se reducen y las actualizaciones de parámetros se diluyen. Para abordar este problema, proponemos Fusión de Agentes Reforzada (RAM, por sus siglas en inglés), un marco de fusión consciente de la distribución diseñado explícitamente para modelos agentivos entrenados con RL. RAM desentrelaza las actualizaciones de parámetros compartidas y las únicas específicas de la tarea, promediando los componentes compartidos mientras preserva y reescala selectivamente los únicos para contrarrestar la dilución de las actualizaciones de parámetros. Los experimentos en múltiples dominios de agentes y arquitecturas de modelos demuestran que RAM no solo supera los métodos de fusión de referencia, sino que también desbloquea el potencial sinérgico entre agentes para lograr un rendimiento superior al de los agentes especializados en sus respectivos dominios.

FlashLabs Chroma 1.0: Un Modelo de Diálogo Hablado en Tiempo Real de Extremo a Extremo con Clonación de Voz Personalizada
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

Jan 16

ByTanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi

Los sistemas de diálogo hablado de extremo a extremo recientes aprovechan tokenizadores de voz y códecs neuronales de audio para permitir que los LLM operen directamente sobre representaciones discretas del habla. Sin embargo, estos modelos a menudo presentan una preservación limitada de la identidad del hablante, lo que dificulta la interacción de voz personalizada. En este trabajo, presentamos Chroma 1.0, el primer modelo de diálogo hablado de extremo a extremo, de código abierto y en tiempo real que logra tanto una interacción de baja latencia como una clonación de voz personalizada de alta fidelidad. Chroma alcanza una latencia de extremo a extremo inferior a un segundo mediante un programa intercalado de tokens de texto y audio (1:2) que admite generación en flujo continuo, manteniendo al mismo tiempo una síntesis de voz personalizada de alta calidad a lo largo de conversaciones de múltiples turnos. Nuestros resultados experimentales demuestran que Chroma logra una mejora relativa del 10.96% en similitud de hablante respecto al baseline humano, con un Factor de Tiempo Real (RTF) de 0.43, manteniendo sólidas capacidades de razonamiento y diálogo. Nuestro código y modelos están disponibles públicamente en https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma y https://huggingface.co/FlashLabs/Chroma-4B.

Render-of-Thought: Representación de Cadenas de Razonamiento Textual como Imágenes para el Razonamiento Visual Latente
Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Jan 21

ByYifan Wang, Shiyu Li, Peiming Li, Xiaochen Yang, Yang Tang, Zheng Wei

El prompting de Cadena de Pensamiento (CoT) ha logrado un notable éxito para desbloquear las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLM). Aunque CoT mejora el razonamiento, su verbosidad impone una sobrecarga computacional sustancial. Trabajos recientes a menudo se centran exclusivamente en la alineación de resultados y carecen de supervisión sobre el proceso de razonamiento intermedio. Estas deficiencias oscurecen la analizabilidad de la cadena de razonamiento latente. Para abordar estos desafíos, presentamos Renderizado del Pensamiento (RoT), el primer marco que materializa la cadena de razonamiento renderizando los pasos textuales en imágenes, haciendo explícita y rastreable la lógica subyacente. Específicamente, aprovechamos los codificadores visuales de los Modelos de Lenguaje Visual (VLM) existentes como anclajes semánticos para alinear las incrustaciones visuales con el espacio textual. Este diseño garantiza una implementación plug-and-play sin incurrir en sobrecarga adicional de pre-entrenamiento. Experimentos exhaustivos en benchmarks de razonamiento matemático y lógico demuestran que nuestro método logra una compresión de tokens 3-4 veces mayor y una aceleración sustancial de la inferencia en comparación con CoT explícito. Además, mantiene un rendimiento competitivo frente a otros métodos, validando la viabilidad de este paradigma. Nuestro código está disponible en https://github.com/TencentBAC/RoT.

Tifón OCR: Modelo de Visión y Lenguaje Abierto para la Extracción de Documentos Tailandeses
Typhoon OCR: Open Vision-Language Model For Thai Document Extraction

Jan 21

BySurapon Nonesung, Natapong Nitarach, Teetouch Jaknamon, Pittawat Taveekitworachai, Kunat Pipatanakul

La extracción de documentos es un componente central de los flujos de trabajo digitales; sin embargo, los modelos de visión y lenguaje (VLM) existentes se inclinan predominantemente por idiomas de altos recursos. El tailandés presenta desafíos adicionales debido a la complejidad de su escritura con caracteres no latinos, la ausencia de límites explícitos entre palabras y la prevalencia de documentos del mundo real altamente no estructurados, lo que limita la eficacia de los modelos de código abierto actuales. Este artículo presenta Typhoon OCR, un VLM abierto para la extracción de documentos, diseñado específicamente para tailandés e inglés. El modelo se ajusta a partir de arquitecturas base de visión y lenguaje utilizando un conjunto de datos de entrenamiento centrado en el tailandés. Dicho conjunto de datos se desarrolla mediante una pipeline de construcción de datos en múltiples etapas que combina OCR tradicional, reestructuración basada en VLM y datos sintéticos cuidadosamente seleccionados. Typhoon OCR es un marco unificado capaz de realizar transcripción de texto, reconstrucción de diseño y mantener la coherencia estructural a nivel de documento. La última iteración de nuestro modelo, Typhoon OCR V1.5, es un modelo compacto y eficiente en inferencia, diseñado para reducir la dependencia de metadatos y simplificar su despliegue. Evaluaciones exhaustivas en diversas categorías de documentos tailandeses, que incluyen informes financieros, formularios gubernamentales, libros, infografías y documentos manuscritos, muestran que Typhoon OCR alcanza un rendimiento comparable o superior al de modelos propietarios líderes más grandes, a pesar de un coste computacional sustancialmente menor. Los resultados demuestran que los modelos OCR de visión y lenguaje abiertos pueden lograr una extracción de texto precisa y una reconstrucción del diseño para documentos en tailandés, alcanzando un rendimiento comparable al de sistemas propietarios mientras se mantienen ligeros y desplegables.

Tifón ASR en Tiempo Real: FastConformer-Transducer para Reconocimiento Automático del Habla en Tailandés
Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

Jan 19

ByWarit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul

Los modelos grandes de codificador-decodificador como Whisper logran una transcripción offline sólida, pero siguen siendo impracticables para aplicaciones en streaming debido a su alta latencia. Sin embargo, debido a la accesibilidad de los checkpoints preentrenados, el panorama de la ASR tailandesa abierta sigue dominado por estas arquitecturas offline, dejando un vacío crítico en soluciones de streaming eficientes. Presentamos Typhoon ASR Real-time, un modelo Transductor FastConformer de 115 millones de parámetros para el reconocimiento de voz tailandesa de baja latencia. Demostramos que una normalización de texto rigurosa puede igualar el impacto del escalado de modelos: nuestro modelo compacto logra una reducción de 45x en el coste computacional en comparación con Whisper Large-v3, ofreciendo una precisión comparable. Nuestro pipeline de normalización resuelve ambigüedades sistémicas en la transcripción tailandesa —incluyendo la verbalización de números dependiente del contexto y los marcadores de repetición (mai yamok)— creando objetivos de entrenamiento consistentes. Además, presentamos un enfoque de aprendizaje curricular en dos etapas para la adaptación al dialecto Isan (noreste) que preserva el rendimiento en tailandés central. Para abordar los desafíos de reproducibilidad en la ASR tailandesa, publicamos el Benchmark Typhoon ASR, un conjunto de datos de referencia etiquetado manualmente con transcripciones que siguen las convenciones lingüísticas tailandesas establecidas, proporcionando protocolos de evaluación estandarizados para la comunidad investigadora.

Numina-Lean-Agent: Un Sistema de Razonamiento Agéntico Abierto y General para Matemáticas Formales
Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

Jan 20

ByJunqi Liu, Zihao Zhou, Zekai Zhu, Marco Dos Santos, Weikun He, Jiawei Liu, Ran Wang, Yunzhou Xie, Junqiao Zhao, Qiufeng Wang, Lihong Zhi, Jia Li, Wenda Li

Los sistemas agentes se han convertido recientemente en el paradigma dominante para la demostración formal de teoremas, logrando un rendimiento sólido mediante la coordinación de múltiples modelos y herramientas. Sin embargo, los enfoques existentes a menudo dependen de pipelines específicos para cada tarea y de demostradores formales entrenados, lo que limita su flexibilidad y reproducibilidad. En este artículo, proponemos el paradigma que utiliza directamente un agente de codificación general como razonador de matemáticas formales. Este paradigma está motivado por: (1) Un agente de codificación general proporciona una interfaz natural para diversas tareas de razonamiento más allá de la demostración, (2) El rendimiento puede mejorarse simplemente reemplazando el modelo base subyacente, sin necesidad de entrenamiento, y (3) MCP permite la extensión flexible y la llamada autónoma de herramientas especializadas, evitando diseños complejos. Basándonos en este paradigma, presentamos Numina-Lean-Agent, que combina Claude Code con Numina-Lean-MCP para permitir la interacción autónoma con Lean, la recuperación de teoremas relevantes, y herramientas de demostración informal y razonamiento auxiliar. Utilizando Claude Opus 4.5 como modelo base, Numina-Lean-Agent resuelve todos los problemas del Putnam 2025 (12 / 12), igualando al mejor sistema de código cerrado. Más allá de la evaluación comparativa, demostramos además su generalidad interactuando con matemáticos para formalizar con éxito el teorema de Brascamp-Lieb. Publicamos Numina-Lean-Agent y todas las soluciones en https://github.com/project-numina/numina-lean-agent.

Movimiento 3-a-4: Reconstrucción de Movimiento 3D para Síntesis 4D
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

Jan 20

ByHongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen

Presentamos Motion 3-to-4, un marco de trabajo de propagación directa para sintetizar objetos dinámicos 4D de alta calidad a partir de un único vídeo monocular y una malla de referencia 3D opcional. Si bien los avances recientes han mejorado significativamente la generación de contenido 2D, de vídeo y 3D, la síntesis 4D sigue siendo un desafío debido a la escasez de datos de entrenamiento y la ambigüedad inherente de reconstruir la geometría y el movimiento desde una vista monocular. Motion 3-to-4 aborda estos problemas descomponiendo la síntesis 4D en la generación de una forma 3D estática y la reconstrucción del movimiento. Utilizando una malla de referencia canónica, nuestro modelo aprende una representación latente compacta del movimiento y predice trayectorias de vértices por fotograma para recuperar una geometría completa y temporalmente coherente. Un transformador escalable por fotograma aporta además robustez frente a longitudes de secuencia variables. Las evaluaciones en benchmarks estándar y en un nuevo conjunto de datos con geometría de verdad terreno precisa demuestran que Motion 3-to-4 ofrece una fidelidad y consistencia espacial superiores en comparación con trabajos anteriores. La página del proyecto está disponible en https://motion3-to-4.github.io/.

XR: Agentes Cross-Modal para la Recuperación de Imágenes Compuestas
XR: Cross-Modal Agents for Composed Image Retrieval

Jan 20

ByZhongyu Yang, Wei Pang, Yingfang Yuan

La recuperación está siendo redefinida por la IA agentiva, exigiendo un razonamiento multimodal más allá de los paradigmas convencionales basados en similitud. La Recuperación de Imágenes Compuestas (CIR) ejemplifica este cambio, ya que cada consulta combina una imagen de referencia con modificaciones textuales, requiriendo una comprensión compositiva entre modalidades. Si bien los métodos CIR basados en *embeddings* han logrado progresos, mantienen una perspectiva limitada, captando señales cruzadas entre modalidades de forma restringida y careciendo de razonamiento semántico. Para abordar estas limitaciones, presentamos XR, un marco multiagente libre de entrenamiento que reformula la recuperación como un proceso de razonamiento progresivamente coordinado. Este sistema orquesta tres tipos especializados de agentes: los agentes de imaginación sintetizan representaciones objetivo mediante generación multimodal, los agentes de similitud realizan un filtrado grueso mediante emparejamiento híbrido, y los agentes de pregunta verifican la consistencia factual mediante razonamiento dirigido para un filtrado fino. A través de una coordinación multiagente progresiva, XR refina iterativamente la recuperación para satisfacer tanto las restricciones semánticas como visuales de la consulta, logrando una mejora de hasta el 38% sobre líneas base sólidas, tanto libres de entrenamiento como basadas en él, en FashionIQ, CIRR y CIRCO, mientras que los estudios de ablación demuestran que cada agente es esencial. El código está disponible en: https://01yzzyu.github.io/xr.github.io/.

RoboBrain 2.5: La Profundidad a la Vista, el Tiempo en Mente
RoboBrain 2.5: Depth in Sight, Time in Mind

Jan 20

ByHuajie Tan, Enshen Zhou, Zhiyu Li, Yijie Xu, Yuheng Ji, Xiansheng Chen, Cheng Chi, Pengwei Wang, Huizhu Jia, Yulong Ao, Mingyu Cao, Sixiang Chen, Zhe Li, Mengzhen Liu, Zixiao Wang, Shanyu Rong, Yaoxu Lyu, Zhongxia Zhao, Peterson Co, Yibo Li, Yi Han, Shaoxuan Xie, Guocai Yao, Songjing Wang, Leiduo Zhang, Xi Yang, Yance Jiao, Donghai Shi, Kunchang Xie, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang

Presentamos RoboBrain 2.5, un modelo fundacional de IA encarnada de próxima generación que avanza en la percepción general, el razonamiento espacial y el modelado temporal mediante un extenso entrenamiento con supervisión espaciotemporal de alta calidad. Basándose en su predecesor, RoboBrain 2.5 introduce dos mejoras principales de capacidad. Específicamente, desbloquea el **Razonamiento Espacial 3D Preciso** al pasar de una anclaje relativo a píxeles en 2D a la predicción de coordenadas consciente de la profundidad y la comprensión de restricciones métricas absolutas, generando trazas completas de manipulación 3D como secuencias ordenadas de puntos clave bajo restricciones físicas. Complementando esta precisión espacial, el modelo establece una **Estimación Densa de Valor Temporal** que proporciona una predicción de progreso densa y consciente de los pasos, junto con una comprensión del estado de ejecución desde diferentes puntos de vista, produciendo señales de retroalimentación estables para el aprendizaje descendente. En conjunto, estas mejoras extienden el marco hacia una inteligencia encarnada más fundamentada físicamente y consciente de la ejecución para manipulaciones complejas y de grano fino. El código y los puntos de control están disponibles en el sitio web del proyecto: https://superrobobrain.github.io

FinVault: Evaluación de la Seguridad de Agentes Financieros en Entornos de Ejecución Fundamentada
FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments

Jan 9

ByZhi Yang, Runguo Li, Qiqi Qiang, Jiashun Wang, Fangqi Lou, Mengping Li, Dongpo Cheng, Rui Xu, Heng Lian, Shuo Zhang, Xiaolong Liang, Xiaoming Huang, Zheng Wei, Zhaowei Liu, Xin Guo, Huacan Wang, Ronghao Chen, Liwen Zhang

Los agentes financieros impulsados por grandes modelos de lenguaje (LLM) se despliegan cada vez más para el análisis de inversiones, la evaluación de riesgos y la toma de decisiones automatizada, donde sus capacidades para planificar, invocar herramientas y manipular estados mutables introducen nuevos riesgos de seguridad en entornos financieros de alto riesgo y altamente regulados. Sin embargo, las evaluaciones de seguridad existentes se centran principalmente en el cumplimiento de contenido a nivel de modelo de lenguaje o en configuraciones de agentes abstractos, sin capturar los riesgos basados en la ejecución que surgen de los flujos de trabajo operativos reales y las acciones que alteran el estado. Para cerrar esta brecha, proponemos FinVault, el primer benchmark de seguridad basado en ejecución para agentes financieros, que comprende 31 escenarios de sandbox impulsados por casos regulatorios con bases de datos de escritura de estado y restricciones explícitas de cumplimiento, junto con 107 vulnerabilidades del mundo real y 963 casos de prueba que cubren sistemáticamente la inyección de prompts, el jailbreaking, los ataques adaptados financieramente, así como entradas benignas para la evaluación de falsos positivos. Los resultados experimentales revelan que los mecanismos de defensa existentes siguen siendo ineficaces en entornos realistas de agentes financieros, con tasas promedio de éxito de ataques (ASR) que aún alcanzan hasta el 50,0% en los modelos más avanzados y que siguen siendo no despreciables incluso para los sistemas más robustos (ASR 6,7%), lo que subraya la transferibilidad limitada de los diseños de seguridad actuales y la necesidad de defensas más sólidas específicas para el sector financiero. Nuestro código se puede encontrar en https://github.com/aifinlab/FinVault.

Colapso de la Privacidad: El Ajuste Fino Benigno Puede Quebrar la Privacidad Contextual en Modelos de Lenguaje
Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

Jan 21

ByAnmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri

Identificamos un fenómeno novedoso en los modelos de lenguaje: el ajuste fino benigno de modelos de vanguardia puede provocar un colapso de la privacidad. Descubrimos que diversos patrones sutiles en los datos de entrenamiento pueden degradar la privacidad contextual, incluyendo la optimización para la utilidad, la exposición a información del usuario, diálogos emocionales y subjetivos, y la depuración de código que imprime variables internas, entre otros. Los modelos ajustados pierden su capacidad para razonar sobre las normas de privacidad contextual, comparten información de forma inapropiada con herramientas y violan los límites de memoria entre contextos. El colapso de la privacidad es un "fallo silencioso" porque los modelos mantienen un alto rendimiento en los puntos de referencia estándar de seguridad y utilidad mientras exhiben graves vulnerabilidades de privacidad. Nuestros experimentos muestran evidencia de colapso de la privacidad en seis modelos (de pesos abiertos y cerrados), cinco conjuntos de datos de ajuste fino (datos del mundo real y controlados) y dos categorías de tareas (de agente y basadas en memoria). Nuestro análisis mecanicista revela que las representaciones de privacidad son singularmente frágiles al ajuste fino, en comparación con las características relevantes para la tarea que se preservan. Nuestros resultados revelan una brecha crítica en las evaluaciones de seguridad actuales, en particular para el despliegue de agentes especializados.

La Representación Neuronal Implícita Facilita la Codificación Visual Universal Unificada
Implicit Neural Representation Facilitates Unified Universal Vision Encoding

Jan 20

ByMatthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang

Los modelos para el aprendizaje de representación de imágenes suelen diseñarse para reconocimiento o generación. Diversas formas de aprendizaje contrastivo ayudan a los modelos a convertir imágenes en incrustaciones útiles para clasificación, detección y segmentación. Por otro lado, los modelos pueden entrenarse para reconstruir imágenes mediante pérdidas a nivel de píxel, perceptuales y adversariales, con el fin de aprender un espacio latente útil para la generación de imágenes. Buscamos unificar estas dos direcciones con un modelo pionero que aprenda representaciones simultáneamente útiles para reconocimiento y generación. Entrenamos nuestro modelo como una hiper-red para representación neuronal implícita, que aprende a mapear imágenes a pesos del modelo para una reconstrucción rápida y precisa. Además, integramos nuestra hiper-red INR con destilación de conocimiento para mejorar su generalización y rendimiento. Más allá del novedoso diseño de entrenamiento, el modelo también aprende un espacio de incrustaciones comprimido sin precedentes con rendimiento excepcional para diversas tareas visuales. El modelo completo compite con los mejores resultados actuales en aprendizaje de representación de imágenes, a la vez que habilita capacidades generativas mediante sus incrustaciones minúsculas de alta calidad. El código está disponible en https://github.com/tiktok/huvr.

FARE: Exploración Robótica Ágente Rápida-Lenta
FARE: Fast-Slow Agentic Robotic Exploration

Jan 21

ByShuhao Liao, Xuxin Lv, Jeric Lew, Shizhe Zhang, Jingsong Liang, Peizhuo Li, Yuhong Cao, Wenjun Wu, Guillaume Sartoretti

Este trabajo avanza en la exploración autónoma de robots mediante la integración de razonamiento semántico a nivel de agente con control local rápido. Presentamos FARE, un marco de exploración autónoma jerárquico que integra un modelo de lenguaje grande (LLM) para el razonamiento global con una política de aprendizaje por refuerzo (RL) para la toma de decisiones local. FARE sigue un paradigma de pensamiento rápido-lento. El módulo de pensamiento lento (LLM) interpreta una descripción textual concisa del entorno desconocido y sintetiza una estrategia de exploración a nivel de agente, que luego se materializa en una secuencia de waypoints globales a través de un grafo topológico. Para mejorar aún más la eficiencia del razonamiento, este módulo emplea un mecanismo de poda basado en modularidad que reduce las estructuras de grafos redundantes. El módulo de pensamiento rápido (RL) ejecuta la exploración reaccionando a las observaciones locales mientras es guiado por los waypoints globales generados por el LLM. La política de RL se moldea adicionalmente mediante un término de recompensa que fomenta la adherencia a los waypoints globales, permitiendo un comportamiento coherente y robusto en lazo cerrado. Esta arquitectura desacopla el razonamiento semántico de la decisión geométrica, permitiendo que cada módulo opere en su escala temporal y espacial apropiada. En entornos simulados desafiantes, nuestros resultados muestran que FARE logra mejoras sustanciales en la eficiencia de exploración respecto a los métodos de referencia más avanzados. Además, implementamos FARE en hardware y lo validamos en un entorno de edificio complejo y a gran escala de 200m × 130m.

Cuantificación de las Interacciones entre las Reglas Fonológicas y las Incrustaciones del Hablante en la Síntesis de Voz con Acento
Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

Jan 20

ByThanathai Lertpetchpun, Yoonjeong Lee, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan

Muchos idiomas hablados, incluido el inglés, presentan una amplia variación en dialectos y acentos, lo que convierte el control del acento en una capacidad importante para los modelos flexibles de texto a voz (TTS). Los sistemas TTS actuales generalmente generan habla con acento condicionando las incrustaciones del hablante asociadas a acentos específicos. Aunque son efectivos, este enfoque ofrece una interpretabilidad y controlabilidad limitadas, ya que las incrustaciones también codifican rasgos como el timbre y la emoción. En este estudio, analizamos la interacción entre las incrustaciones del hablante y las reglas fonológicas de base lingüística en la síntesis de habla acentuada. Utilizando el inglés estadounidense y británico como caso de estudio, implementamos reglas para el *flapping*, la rotacidad y las correspondencias vocálicas. Proponemos la tasa de desplazamiento de fonemas (PSR), una nueva métrica que cuantifica qué tan fuertemente las incrustaciones preservan o anulan las transformaciones basadas en reglas. Los experimentos muestran que combinar reglas con incrustaciones produce acentos más auténticos, mientras que las incrustaciones pueden atenuar o sobrescribir las reglas, revelando un entrelazamiento entre el acento y la identidad del hablante. Nuestros hallazgos destacan las reglas como una palanca para el control del acento y un marco para evaluar el desentrelazamiento en la generación de habla.

AgentEHR: Avanzando en la Toma de Decisiones Clínicas Autónomas mediante Resumen Retrospectivo
AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization

Jan 20

ByYusheng Liao, Chuan Xuan, Yutong Cai, Lina Yang, Zhe Chen, Yanfeng Wang, Yu Wang

Los Grandes Modelos de Lenguaje han demostrado una utilidad profunda en el dominio médico. Sin embargo, su aplicación a la navegación autónoma de Registros Electrónicos de Salud (EHR) sigue estando limitada por una dependencia de entradas seleccionadas y tareas de recuperación simplificadas. Para cerrar la brecha entre los entornos experimentales idealizados y los entornos clínicos realistas, presentamos AgentEHR. Este benchmark desafía a los agentes a ejecutar tareas complejas de toma de decisiones, como el diagnóstico y la planificación del tratamiento, que requieren un razonamiento interactivo de largo alcance directamente dentro de bases de datos crudas y con alto nivel de ruido. Al abordar estas tareas, identificamos que los métodos de resumen existentes sufren inevitablemente una pérdida crítica de información y una continuidad de razonamiento fracturada. Para abordar esto, proponemos RetroSum, un marco novedoso que unifica un mecanismo de resumen retrospectivo con una estrategia de experiencia evolutiva. Al reevaluar dinámicamente el historial de interacciones, el mecanismo retrospectivo previene la pérdida de información en contextos largos y garantiza una coherencia lógica ininterrumpida. Adicionalmente, la estrategia evolutiva salva la brecha de dominio recuperando experiencia acumulada de un banco de memoria. Evaluaciones empíricas exhaustivas demuestran que RetroSum logra mejoras de rendimiento de hasta el 29.16% sobre líneas base competitivas, mientras disminuye significativamente los errores de interacción totales hasta en un 92.3%.

Perdidos en el Orden del Prompt: Revelando las Limitaciones de la Atención Causal en Modelos de Lenguaje
Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

Jan 20

ByHyunjong Ok, Jaeho Lee

Los modelos de lenguaje grandes muestran una sorprendente sensibilidad a la estructura del prompt, pero los mecanismos subyacentes a esta sensibilidad siguen siendo poco comprendidos. En este trabajo, realizamos una investigación en profundidad sobre un caso llamativo: en la respuesta a preguntas de opción múltiple, colocar el contexto antes de las preguntas y opciones (CPO) supera al orden inverso (OPC) en más de 14 puntos porcentuales, de manera consistente en una amplia gama de modelos y conjuntos de datos. Mediante un análisis arquitectónico sistemático, identificamos la atención causal como el mecanismo central: en los prompts OPC, la máscara causal impide que los tokens de las opciones atiendan al contexto, creando un cuello de botella de información donde el contexto se vuelve invisible para las opciones.

Facilitación de Orientación Proactiva y Reactiva para la Toma de Decisiones en la Web: Una Sonda de Diseño con WebSeek
Facilitating Proactive and Reactive Guidance for Decision Making on the Web: A Design Probe with WebSeek

Jan 21

ByYanwei Huang, Arpit Narechania

Los agentes de IA web como ChatGPT Agent y GenSpark se utilizan cada vez más para tareas rutinarias basadas en la web, pero aún dependen de instrucciones de entrada basadas en texto, carecen de detección proactiva de la intención del usuario y no ofrecen soporte para el análisis interactivo de datos y la toma de decisiones. Presentamos WebSeek, una extensión de navegador de iniciativa mixta que permite a los usuarios descubrir y extraer información de páginas web para luego construir, transformar y refinar de manera flexible artefactos de datos tangibles—como tablas, listas y visualizaciones—todo dentro de un lienzo interactivo. Dentro de este entorno, los usuarios pueden realizar análisis—incluyendo transformaciones de datos como unir tablas o crear visualizaciones—mientras una IA integrada ofrece tanto orientación y automatización conscientes del contexto de forma proactiva, como responde reactivamente a las solicitudes explícitas del usuario. Un estudio de usuario exploratorio (N=15) que utiliza WebSeek como sonda revela las diversas estrategias de análisis de los participantes, subrayando su deseo de transparencia y control durante la colaboración humano-IA.

El Vacío de Responsabilidad: Fracaso Organizacional en Sistemas de Agentes a Escala
The Responsibility Vacuum: Organizational Failure in Scaled Agent Systems

Jan 21

ByOleg Romanchuk, Roman Bondar

Las canalizaciones modernas de CI/CD que integran código generado por agentes presentan una falla estructural en la atribución de responsabilidades. Las decisiones se ejecutan mediante procesos de aprobación formalmente correctos, pero ninguna entidad posee a la vez la autoridad para aprobar dichas decisiones y la capacidad epistémica para comprender significativamente su base. Definimos esta condición como *vacío de responsabilidad*: un estado en el que se toman decisiones, pero la responsabilidad no puede atribuirse porque la autoridad y la capacidad de verificación no coinciden. Demostramos que esto no es una desviación del proceso ni un defecto técnico, sino una propiedad estructural de los despliegues donde el volumen de generación de decisiones supera la capacidad humana limitada de verificación. Identificamos un límite de escalabilidad bajo supuestos de despliegue estándar, que incluyen generación paralela por agentes, validación basada en CI y compuertas de aprobación humana individualizadas. Más allá de un umbral de rendimiento, la verificación deja de funcionar como criterio de decisión y es reemplazada por una aprobación ritualizada basada en señales proxy. La responsabilidad personalizada se vuelve estructuralmente inalcanzable en este régimen. Caracterizamos además una dinámica de amplificación por CI, por la cual el aumento de la cobertura de validación automatizada incrementa la densidad de señales proxy sin restaurar la capacidad humana. Bajo restricciones fijas de tiempo y atención, esto acelera la descarga cognitiva en sentido amplio y amplía la brecha entre la aprobación formal y la comprensión epistémica. Por lo tanto, la automatización adicional amplifica, en lugar de mitigar, el vacío de responsabilidad. Concluimos que, a menos que las organizaciones rediseñen explícitamente los límites de decisión o reasignen la responsabilidad, alejándola de las decisiones individuales hacia una propiedad por lotes o a nivel del sistema, el vacío de responsabilidad permanece como un modo de fallo invisible pero persistente en los despliegues de agentes a escala.

Muéstrame la evidencia: Evaluación del papel de la evidencia y las explicaciones en lenguaje natural en la verificación de hechos con soporte de IA
Show me the evidence: Evaluating the role of evidence and natural language explanations in AI-supported fact-checking

Jan 16

ByGreta Warren, Jingyi Sun, Irina Shklovski, Isabelle Augenstein

Aunque gran parte de la investigación se ha centrado en las explicaciones de la IA para respaldar decisiones en tareas complejas de búsqueda de información, como la verificación de hechos, el papel de la evidencia ha sido sorprendentemente poco investigado. En nuestro estudio, variamos sistemáticamente el tipo de explicación, la certeza de la predicción de la IA y la corrección de las recomendaciones del sistema de IA para participantes no expertos, quienes evaluaron la veracidad de las afirmaciones y las predicciones del sistema de IA. Se les dio a los participantes la opción de inspeccionar fácilmente la evidencia subyacente. Descubrimos que los participantes confiaron consistentemente en la evidencia para validar las afirmaciones de la IA en todas las condiciones experimentales. Cuando se presentaron a los participantes explicaciones en lenguaje natural, la evidencia se utilizó con menos frecuencia, aunque recurrieron a ella cuando estas explicaciones parecían insuficientes o defectuosas. Los datos cualitativos sugieren que los participantes intentaron inferir la confiabilidad de la fuente de la evidencia, a pesar de que las identidades de las fuentes fueron omitidas deliberadamente. Nuestros resultados demuestran que la evidencia es un componente clave en cómo las personas evalúan la confiabilidad de la información presentada por un sistema de IA y, en combinación con las explicaciones en lenguaje natural, ofrece un valioso apoyo para la toma de decisiones. Se necesita urgentemente más investigación para comprender cómo debe presentarse la evidencia y cómo las personas interactúan con ella en la práctica.

sangkuriang: Una biblioteca de Python pseudoespectral para la simulación de solitones de Korteweg-de Vries
sangkuriang: A pseudo-spectral Python library for Korteweg-de Vries soliton simulation

Jan 17

BySandy H. S. Herho, Faruq Khadami, Iwan P. Anwar, Dasapta E. Irawan

La ecuación de Korteweg-de Vries (KdV) sirve como modelo fundamental en la física de ondas no lineales, describiendo el equilibrio entre la dispersión espacial y el empinamiento no lineal que da lugar a los solitones. Este artículo presenta sangkuriang, una biblioteca de Python de código abierto para resolver esta ecuación utilizando la discretización espacial pseudoespectral de Fourier junto con integración temporal adaptativa de alto orden. La implementación aprovecha la compilación justo a tiempo (JIT) para la eficiencia computacional, manteniendo al mismo tiempo la accesibilidad con fines didácticos. La validación abarca escenarios progresivamente complejos que incluyen la propagación de solitones aislados, configuraciones simétricas de dos ondas, colisiones por alcance entre ondas de amplitudes diferentes e interacciones de tres cuerpos. La conservación de los invariantes clásicos se monitorea durante todo el proceso, manteniéndose las desviaciones pequeñas en todos los casos de prueba. Las velocidades de los solitones medidas se ajustan estrechamente a las predicciones teóricas basadas en la relación amplitud-velocidad característica de los sistemas integrables. Los diagnósticos complementarios extraídos de la teoría de la información y el análisis de recurrencia confirman que las soluciones calculadas preservan la estructura regular del espacio de fase esperada para dinámicas completamente integrables. El resolvedor genera datos en formatos científicos estándar compatibles con las herramientas de análisis comunes y produce visualizaciones de la evolución espacio-temporal de las ondas. Al combinar la precisión numérica con una accesibilidad práctica en recursos computacionales modestos, sangkuriang ofrece una plataforma adecuada tanto para demostraciones en el aula de fenómenos de ondas no lineales como para la investigación exploratoria de la dinámica de solitones.

CURE-Med: Aprendizaje por Refuerzo Basado en Currículo para el Razonamiento Médico Multilingüe
CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Jan 19

ByEric Onyame, Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen, Chirag Agarwal

Si bien los grandes modelos de lenguaje (LLM) han demostrado un buen desempeño en el razonamiento matemático y de sentido común monolingüe, continúan siendo poco confiables para aplicaciones de razonamiento médico multilingüe, lo que dificulta su despliegue en entornos sanitarios multilingües. Abordamos este problema presentando primero CUREMED-BENCH, un conjunto de datos de alta calidad para razonamiento médico multilingüe con consultas de razonamiento abiertas que tienen una única respuesta verificable, abarcando trece idiomas, incluyendo lenguas poco representadas como el amárico, el yoruba y el suajili. Basándonos en este conjunto de datos, proponemos CURE-MED, un marco de aprendizaje por refuerzo basado en currículum que integra un ajuste fino supervisado consciente del cambio de código y la Optimización de Políticas Relativas Grupales para mejorar conjuntamente la corrección lógica y la estabilidad lingüística. En trece idiomas, nuestro enfoque supera consistentemente a sólidos modelos de referencia y escala de manera efectiva, logrando un 85.21% de consistencia lingüística y un 54.35% de corrección lógica con 7B de parámetros, y un 94.96% de consistencia lingüística y un 70.04% de corrección lógica con 32B de parámetros. Estos resultados respaldan un razonamiento médico multilingüe confiable y equitativo en los LLM. El código y el conjunto de datos están disponibles en https://cure-med.github.io/