HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

19 papers found

A.S.E: Un punto de referencia a nivel de repositorio para evaluar la seguridad en código generado por IA
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

Aug 25

ByKeke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang

340

La creciente adopción de modelos de lenguaje de gran escala (LLMs) en la ingeniería de software requiere una evaluación rigurosa de la seguridad del código que generan. Sin embargo, los puntos de referencia existentes son insuficientes, ya que se centran en fragmentos de código aislados, emplean métodos de evaluación inestables que carecen de reproducibilidad y no logran conectar la calidad del contexto de entrada con la seguridad de la salida. Para abordar estas brechas, presentamos A.S.E (Evaluación de Seguridad en la Generación de Código con IA), un punto de referencia para la generación segura de código a nivel de repositorio. A.S.E construye tareas a partir de repositorios del mundo real con CVEs documentados, preservando el contexto completo del repositorio, como sistemas de compilación y dependencias entre archivos. Su marco de evaluación reproducible y contenerizado utiliza reglas definidas por expertos para proporcionar evaluaciones estables y auditables de seguridad, calidad de compilación y estabilidad de la generación. Nuestra evaluación de los principales LLMs en A.S.E revela tres hallazgos clave: (1) Claude-3.7-Sonnet logra el mejor rendimiento general. (2) La brecha de seguridad entre los modelos propietarios y los de código abierto es estrecha; Qwen3-235B-A22B-Instruct obtiene la puntuación de seguridad más alta. (3) Las estrategias de decodificación concisas y de "pensamiento rápido" superan consistentemente a los razonamientos complejos y de "pensamiento lento" para la aplicación de parches de seguridad.

Una Revisión de los Modelos de Lenguaje Científico a Gran Escala: Desde los Fundamentos de Datos hasta las Fronteras de los Agentes
A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

Aug 28

ByMing Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou

140

Los Modelos de Lenguaje Científico a Gran Escala (Sci-LLMs, por sus siglas en inglés) están transformando la forma en que el conocimiento se representa, integra y aplica en la investigación científica, aunque su avance está condicionado por la naturaleza compleja de los datos científicos. Este estudio presenta una síntesis exhaustiva y centrada en los datos que replantea el desarrollo de los Sci-LLMs como una coevolución entre los modelos y su sustrato de datos subyacente. Formulamos una taxonomía unificada de los datos científicos y un modelo jerárquico del conocimiento científico, destacando los desafíos multimodales, multiescala y específicos de dominio que diferencian los corpus científicos de los conjuntos de datos generales de procesamiento del lenguaje natural. Revisamos sistemáticamente los Sci-LLMs recientes, desde fundamentos de propósito general hasta modelos especializados en diversas disciplinas científicas, junto con un análisis extenso de más de 270 conjuntos de datos de preentrenamiento y posentrenamiento, demostrando por qué los Sci-LLMs plantean demandas distintivas: corpus heterogéneos, multiescala y cargados de incertidumbre que requieren representaciones que preserven la invariancia de dominio y permitan el razonamiento multimodal. En la evaluación, examinamos más de 190 conjuntos de datos de referencia y rastreamos un cambio desde exámenes estáticos hacia evaluaciones orientadas a procesos y descubrimientos con protocolos de evaluación avanzados. Estos análisis centrados en los datos resaltan problemas persistentes en el desarrollo de datos científicos y discuten soluciones emergentes que involucran pipelines de anotación semiautomatizados y validación experta. Finalmente, delineamos un cambio de paradigma hacia sistemas de bucle cerrado donde agentes autónomos basados en Sci-LLMs experimentan, validan y contribuyen activamente a una base de conocimiento viva y en evolución. En conjunto, este trabajo proporciona una hoja de ruta para construir sistemas de inteligencia artificial (IA) confiables y en continua evolución que funcionen como verdaderos socios en la aceleración del descubrimiento científico.

R-4B: Incentivizando la capacidad de pensamiento automático de propósito general en MLLMs mediante recocido bimodal y aprendizaje por refuerzo
R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

Aug 28

ByJie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng

109

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) equipados con capacidades de pensamiento paso a paso han demostrado un rendimiento notable en problemas de razonamiento complejo. Sin embargo, este proceso de pensamiento resulta redundante para problemas simples que pueden resolverse sin un razonamiento complejo. Para abordar esta ineficiencia, proponemos R-4B, un MLLM de pensamiento automático, que puede decidir de manera adaptativa cuándo pensar en función de la complejidad del problema. La idea central de R-4B es dotar al modelo con capacidades tanto de pensamiento como de no pensamiento utilizando un recocido bi-modal, y aplicar la Optimización de Política Bi-modal (BPO) para mejorar la precisión del modelo al determinar si activar el proceso de pensamiento. Específicamente, primero entrenamos el modelo en un conjunto de datos cuidadosamente seleccionado que abarca diversos temas, el cual contiene muestras de ambos modos, pensamiento y no pensamiento. Luego, el modelo pasa por una segunda fase de entrenamiento bajo un marco GRPO mejorado, donde el modelo de política es forzado a generar respuestas desde ambos modos para cada consulta de entrada. Los resultados experimentales muestran que R-4B alcanza un rendimiento de vanguardia en 25 benchmarks desafiantes. Supera a Qwen2.5-VL-7B en la mayoría de las tareas y logra un rendimiento comparable a modelos más grandes como Kimi-VL-A3B-Thinking-2506 (16B) en benchmarks intensivos en razonamiento, con un menor costo computacional.

EmbodiedOneVision: Pretrenamiento Intercalado de Visión-Texto-Acción para el Control General de Robots
EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

Aug 28

ByDelin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

La capacidad humana para realizar razonamiento multimodal e interacción física de manera fluida en el mundo abierto es un objetivo fundamental para los sistemas inteligentes con propósito general y encarnados. Los modelos recientes de visión-lenguaje-acción (VLA), entrenados conjuntamente con datos a gran escala de robots y datos visuales-textuales, han demostrado avances notables en el control general de robots. Sin embargo, aún no logran alcanzar la flexibilidad a nivel humano en el razonamiento e interacción entrelazados. En este trabajo, presentamos EO-Robotics, que consta del modelo EO-1 y el conjunto de datos EO-Data1.5M. EO-1 es un modelo fundacional encarnado unificado que logra un rendimiento superior en el razonamiento multimodal encarnado y el control de robots mediante un preentrenamiento entrelazado de visión-texto-acción. El desarrollo de EO-1 se basa en dos pilares clave: (i) una arquitectura unificada que procesa entradas multimodales de manera indiscriminada (imágenes, texto, video y acciones), y (ii) un conjunto de datos masivo y de alta calidad para el razonamiento multimodal encarnado, EO-Data1.5M, que contiene más de 1.5 millones de muestras con énfasis en la comprensión entrelazada de visión-texto-acción. EO-1 se entrena mediante sinergias entre la decodificación autorregresiva y la eliminación de ruido mediante emparejamiento de flujo en EO-Data1.5M, lo que permite la generación fluida de acciones robóticas y el razonamiento multimodal encarnado. Experimentos exhaustivos demuestran la efectividad del aprendizaje entrelazado de visión-texto-acción para la comprensión y generalización en el mundo abierto, validado a través de una variedad de tareas de manipulación diestra y de horizonte largo en múltiples encarnaciones. Este artículo detalla la arquitectura de EO-1, la estrategia de construcción de datos de EO-Data1.5M y la metodología de entrenamiento, ofreciendo insights valiosos para el desarrollo de modelos fundacionales encarnados avanzados.

Droplet3D: Prioris de sentido común a partir de vídeos facilitan la generación 3D
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

Aug 28

ByXiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan

Las leyes de escalabilidad han validado el éxito y el potencial de los modelos entrenados con grandes volúmenes de datos en la generación creativa a través de dominios como texto, imágenes y video. Sin embargo, este paradigma enfrenta escasez de datos en el dominio 3D, ya que hay mucho menos disponible en internet en comparación con las modalidades mencionadas. Afortunadamente, existen videos adecuados que contienen de manera inherente conocimientos previos de sentido común, ofreciendo una señal supervisora alternativa para mitigar el cuello de botella de generalización causado por los datos nativos 3D limitados. Por un lado, los videos que capturan múltiples vistas de un objeto o escena proporcionan un conocimiento previo de consistencia espacial para la generación 3D. Por otro lado, la rica información semántica contenida en los videos permite que el contenido generado sea más fiel a las indicaciones de texto y semánticamente plausible. Este artículo explora cómo aplicar la modalidad de video en la generación de activos 3D, abarcando desde conjuntos de datos hasta modelos. Presentamos Droplet3D-4M, el primer conjunto de datos de video a gran escala con anotaciones a nivel de múltiples vistas, y entrenamos Droplet3D, un modelo generativo que admite tanto imágenes como entradas de texto denso. Experimentos extensos validan la efectividad de nuestro enfoque, demostrando su capacidad para producir contenido espacialmente consistente y semánticamente plausible. Además, en contraste con las soluciones 3D predominantes, nuestro enfoque exhibe el potencial de extenderse a aplicaciones a nivel de escena. Esto indica que los conocimientos previos de sentido común de los videos facilitan significativamente la creación 3D. Hemos liberado todos los recursos, incluyendo el conjunto de datos, código, marco técnico y pesos del modelo: https://dropletx.github.io/.

Pensar en Juegos: Aprendiendo a Razonar en Juegos mediante Aprendizaje por Refuerzo con Modelos de Lenguaje de Gran Escala
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

Aug 29

ByYi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobresalen en tareas de razonamiento complejo, como las matemáticas y la programación, pero a menudo tienen dificultades con tareas interactivas simples que los niños pequeños realizan sin esfuerzo. Esta discrepancia resalta una brecha crítica entre el conocimiento declarativo (saber sobre algo) y el conocimiento procedimental (saber cómo hacer algo). Aunque los agentes tradicionales de aprendizaje por refuerzo (RL, por sus siglas en inglés) pueden adquirir conocimiento procedimental a través de la interacción con el entorno, suelen operar como cajas negras y requieren una cantidad sustancial de datos de entrenamiento. En contraste, los LLMs poseen un amplio conocimiento del mundo y capacidades de razonamiento, pero no pueden convertir efectivamente este conocimiento estático en toma de decisiones dinámica en entornos interactivos. Para abordar este desafío, proponemos Think in Games (TiG), un marco novedoso que permite a los LLMs desarrollar comprensión procedimental a través de la interacción directa con entornos de juego, manteniendo sus capacidades inherentes de razonamiento y explicación. Específicamente, TiG reformula la toma de decisiones basada en RL como una tarea de modelado de lenguaje: los LLMs generan políticas guiadas por lenguaje, que se refinan iterativamente mediante aprendizaje por refuerzo en línea basado en la retroalimentación del entorno. Nuestros resultados experimentales muestran que TiG logra cerrar la brecha entre el conocimiento declarativo y procedimental, alcanzando un rendimiento competitivo con demandas de datos y computación significativamente menores en comparación con los métodos tradicionales de RL. Además, TiG proporciona explicaciones paso a paso en lenguaje natural para sus decisiones, mejorando considerablemente la transparencia y la interpretabilidad en tareas interactivas complejas.

Incrustaciones de código eficientes a partir de modelos de generación de código
Efficient Code Embeddings from Code Generation Models

Aug 29

ByDaria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao

jina-code-embeddings es un conjunto innovador de modelos de incrustación de código diseñado para recuperar código a partir de consultas en lenguaje natural, realizar preguntas y respuestas técnicas, e identificar fragmentos de código semánticamente similares en distintos lenguajes de programación. Utiliza de manera innovadora una arquitectura autoregresiva preentrenada tanto en texto como en código, generando incrustaciones mediante la técnica de agrupación por último token. Describimos la receta de entrenamiento y demostramos un rendimiento de vanguardia a pesar del tamaño relativamente pequeño de los modelos, validando así este enfoque para la construcción de modelos de incrustación de código.

TalkVid: Un Conjunto de Datos Diversificado a Gran Escala para la Síntesis de Cabeza Parlante Impulsada por Audio
TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

Aug 19

ByShunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang

La síntesis de cabezas parlantes impulsada por audio ha logrado un notable fotorealismo; sin embargo, los modelos de última generación (SOTA) presentan una falla crítica: carecen de generalización para abarcar toda la diversidad humana en términos de etnia, idioma y grupos de edad. Argumentamos que esta brecha de generalización es un síntoma directo de las limitaciones en los datos de entrenamiento existentes, los cuales carecen de la escala, calidad y diversidad necesarias. Para abordar este desafío, presentamos TalkVid, un nuevo conjunto de datos a gran escala, de alta calidad y diverso, que contiene 1244 horas de video de 7729 hablantes únicos. TalkVid se ha curado mediante una canalización automatizada y de múltiples etapas, que filtra rigurosamente la estabilidad del movimiento, la calidad estética y el detalle facial, y se valida con juicios humanos para garantizar su fiabilidad. Además, construimos y publicamos TalkVid-Bench, un conjunto de evaluación estratificado de 500 clips meticulosamente equilibrados en ejes demográficos y lingüísticos clave. Nuestros experimentos demuestran que un modelo entrenado con TalkVid supera a los entrenados con conjuntos de datos anteriores, exhibiendo una generalización cruzada superior. De manera crucial, nuestro análisis en TalkVid-Bench revela disparidades de rendimiento entre subgrupos que quedan ocultas por las métricas agregadas tradicionales, subrayando su necesidad para futuras investigaciones. El código y los datos están disponibles en https://github.com/FreedomIntelligence/TalkVid.

TiKMiX: Incorporación de la Influencia de los Datos en Mezclas Dinámicas para el Preentrenamiento de Modelos de Lenguaje
TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

Aug 25

ByYifan Wang, Binbin Liu, Fengze Liu, Yuanfan Guo, Jiyao Deng, Xuecheng Wu, Weidong Zhou, Xiaohuan Zhou, Taifeng Wang

La mezcla de datos utilizada en el preentrenamiento de un modelo de lenguaje es un pilar fundamental para su rendimiento final. Sin embargo, una estrategia de mezcla estática no es óptima, ya que las preferencias de aprendizaje del modelo para diversos dominios de datos cambian dinámicamente durante el entrenamiento. Es crucial destacar que observar estas preferencias en evolución de manera computacionalmente eficiente sigue siendo un desafío significativo. Para abordar esto, proponemos TiKMiX, un método que ajusta dinámicamente la mezcla de datos según las preferencias evolutivas del modelo. TiKMiX introduce la Influencia de Grupo, una métrica eficiente para evaluar el impacto de los dominios de datos en el modelo. Esta métrica permite formular el problema de la mezcla de datos como una búsqueda de una distribución óptima que maximice la influencia. Resolvemos esto mediante dos enfoques: TiKMiX-D para optimización directa y TiKMiX-M, que utiliza un modelo de regresión para predecir una mezcla superior. Entrenamos modelos con diferentes cantidades de parámetros, utilizando hasta 1 billón de tokens. TiKMiX-D supera el rendimiento de métodos de vanguardia como REGMIX mientras utiliza solo el 20% de los recursos computacionales. TiKMiX-M conduce a una mejora promedio del 2% en 9 puntos de referencia de tareas posteriores. Nuestros experimentos revelan que las preferencias de datos de un modelo evolucionan con el progreso del entrenamiento y la escala, y demostramos que ajustar dinámicamente la mezcla de datos basándose en la Influencia de Grupo, una medida directa de estas preferencias, mejora significativamente el rendimiento al mitigar la subdigestión de datos observada con proporciones estáticas.

UItron: Agente GUI Fundamental con Percepción y Planificación Avanzadas
UItron: Foundational GUI Agent with Advanced Perception and Planning

Aug 29

ByZhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma

El agente GUI tiene como objetivo permitir operaciones automatizadas en dispositivos móviles y de PC, lo cual es una tarea importante hacia la consecución de la inteligencia artificial general. El rápido avance de los modelos de lenguaje visual (VLMs) acelera el desarrollo de agentes GUI, gracias a sus potentes capacidades en comprensión visual y planificación de tareas. Sin embargo, construir un agente GUI sigue siendo una tarea desafiante debido a la escasez de trayectorias de operación, la disponibilidad de infraestructura interactiva y las limitaciones iniciales de capacidades en los modelos base. En este trabajo, presentamos UItron, un modelo base de código abierto para agentes GUI automáticos, que cuenta con capacidades avanzadas de percepción, anclaje y planificación de GUI. UItron destaca la necesidad de la ingeniería de datos sistémica y la infraestructura interactiva como componentes fundamentales para avanzar en el desarrollo de agentes GUI. No solo estudia sistemáticamente una serie de estrategias de ingeniería de datos para mejorar los efectos del entrenamiento, sino que también establece un entorno interactivo que conecta tanto dispositivos móviles como de PC. En el entrenamiento, UItron adopta el ajuste fino supervisado para tareas de percepción y planificación en diversos escenarios de GUI, y luego desarrolla un marco de aprendizaje por refuerzo curricular para permitir razonamiento complejo y exploración en entornos en línea. Como resultado, UItron logra un rendimiento superior en puntos de referencia de percepción, anclaje y planificación de GUI. En particular, UItron destaca la competencia en la interacción con aplicaciones móviles chinas de primer nivel, ya que identificamos una falta general de capacidades en chino incluso en las soluciones más avanzadas. Para ello, recopilamos manualmente más de un millón de pasos de trayectorias de operación en las 100 aplicaciones más populares, y construimos entornos de evaluación de agentes tanto en línea como fuera de línea. Los resultados experimentales demuestran que UItron logra un progreso significativo en escenarios de aplicaciones chinas, acercando a los agentes GUI un paso más hacia la aplicación en el mundo real.

AHELM: Una Evaluación Integral de Modelos de Audio-Lenguaje
AHELM: A Holistic Evaluation of Audio-Language Models

Aug 29

ByTony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang

Las evaluaciones de los modelos de audio-lenguaje (ALMs, por sus siglas en inglés) —modelos multimodales que reciben como entrada audio y texto intercalados y generan texto como salida— se ven obstaculizadas por la falta de puntos de referencia estandarizados; la mayoría de los benchmarks miden solo una o dos capacidades y omiten aspectos evaluativos como la equidad o la seguridad. Además, la comparación entre modelos es difícil, ya que las evaluaciones separadas prueban un número limitado de modelos y utilizan métodos de indicación (prompting) y parámetros de inferencia diferentes. Para abordar estas deficiencias, presentamos AHELM, un benchmark que agrega diversos conjuntos de datos —incluyendo dos nuevos conjuntos de datos sintéticos de audio-texto llamados PARADE, que evalúa a los ALMs en la evitación de estereotipos, y CoRe-Bench, que mide el razonamiento sobre audio conversacional mediante preguntas inferenciales de múltiples turnos— para medir de manera integral el rendimiento de los ALMs en 10 aspectos que hemos identificado como importantes para el desarrollo y uso de estos modelos: percepción de audio, conocimiento, razonamiento, detección de emociones, sesgo, equidad, multilingüismo, robustez, toxicidad y seguridad. También estandarizamos las indicaciones, los parámetros de inferencia y las métricas de evaluación para garantizar comparaciones equitativas entre modelos. Evaluamos 14 ALMs de código abierto y API cerrada de 3 desarrolladores, junto con 3 sistemas de línea base simples adicionales, cada uno compuesto por un reconocedor automático de voz y un modelo de lenguaje. Nuestros resultados muestran que, aunque Gemini 2.5 Pro ocupa el primer lugar en 5 de los 10 aspectos, exhibe inequidad grupal (p=0.01) en tareas de ASR, mientras que la mayoría de los otros modelos no lo hacen. También encontramos que los sistemas de línea base tienen un rendimiento razonablemente bueno en AHELM, con uno ocupando el 5º lugar general a pesar de tener solo capacidades de conversión de voz a texto. Para garantizar transparencia, todas las indicaciones, generaciones de modelos y salidas están disponibles en nuestro sitio web en https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM está diseñado para ser un benchmark en constante evolución, y se agregarán nuevos conjuntos de datos y modelos con el tiempo.

La Alineación Modelo-Tarea Impulsa Resultados Distintos en Aprendizaje por Refuerzo
Model-Task Alignment Drives Distinct RL Outcomes

Aug 28

ByHaoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He

Los avances recientes en la aplicación del aprendizaje por refuerzo (RL, por sus siglas en inglés) a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado a un progreso sustancial. En particular, se han reportado una serie de fenómenos notables, aunque a menudo contraintuitivos, en los LLMs, que exhiben patrones no típicamente observados en entornos tradicionales de RL. Por ejemplo, afirmaciones destacadas incluyen que un solo ejemplo de entrenamiento puede igualar el rendimiento logrado con un conjunto de datos completo, que la señal de recompensa no necesita ser muy precisa y que el entrenamiento únicamente con muestras negativas puede igualar o incluso superar métodos sofisticados basados en recompensas. Sin embargo, las condiciones precisas bajo las cuales estas observaciones se mantienen —y, críticamente, cuándo fallan— siguen sin estar claras. En este trabajo, identificamos un factor clave que diferencia las observaciones de RL: si el modelo preentrenado ya exhibe una fuerte Alineación Modelo-Tarea, medida por la precisión pass@k en la tarea evaluada. A través de un examen sistemático y exhaustivo de una serie de afirmaciones contraintuitivas, respaldado por una validación experimental rigurosa en diferentes arquitecturas de modelos y dominios de tareas, nuestros hallazgos muestran que, aunque el entrenamiento estándar de RL sigue siendo consistentemente robusto en todos los entornos, muchos de estos resultados contraintuitivos surgen solo cuando el modelo y la tarea ya exhiben una fuerte alineación modelo-tarea. Por el contrario, estas técnicas no logran impulsar un aprendizaje sustancial en regímenes más desafiantes, donde los métodos estándar de RL siguen siendo efectivos.

CLIPSym: Explorando la detección de simetría con CLIP
CLIPSym: Delving into Symmetry Detection with CLIP

Aug 19

ByTinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh

La simetría es una de las pistas geométricas más fundamentales en visión por computadora, y su detección ha sido un desafío constante. Con los recientes avances en modelos de visión y lenguaje, como CLIP, investigamos si un modelo CLIP preentrenado puede ayudar en la detección de simetrías aprovechando las pistas adicionales de simetría presentes en las descripciones de imágenes naturales. Proponemos CLIPSym, que aprovecha los codificadores de imagen y lenguaje de CLIP junto con un decodificador rotacionalmente equivariante basado en una combinación de Transformer y G-Convolución para detectar simetrías de rotación y reflexión. Para utilizar plenamente el codificador de lenguaje de CLIP, hemos desarrollado una novedosa técnica de prompting llamada Agrupación de Prompts Semánticamente Conscientes (SAPG), que agrega un conjunto diverso de prompts frecuentes basados en objetos para integrar mejor las pistas semánticas en la detección de simetrías. Empíricamente, demostramos que CLIPSym supera al estado del arte actual en tres conjuntos de datos estándar de detección de simetrías (DENDI, SDRW y LDRS). Finalmente, realizamos ablaciones detalladas que verifican los beneficios del preentrenamiento de CLIP, el decodificador equivariante propuesto y la técnica SAPG. El código está disponible en https://github.com/timyoung2333/CLIPSym.

Imitando el ojo del físico: Un enfoque centrado en VLM para el descubrimiento de fórmulas físicas
Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

Aug 24

ByJiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang

El descubrimiento automatizado de leyes físicas a partir de datos observacionales en el mundo real representa un gran desafío en la IA. Los métodos actuales, que dependen de regresión simbólica o modelos de lenguaje grandes (LLMs), se limitan a datos unimodales y pasan por alto las ricas representaciones fenomenológicas visuales del movimiento, que son indispensables para los físicos. Esta "privación sensorial" debilita severamente su capacidad para interpretar los patrones espacio-temporales inherentes a los fenómenos dinámicos. Para abordar esta brecha, proponemos VIPER-R1, un modelo multimodal que realiza Inducción Visual para el Razonamiento de Ecuaciones Basadas en Física, con el fin de descubrir fórmulas simbólicas fundamentales. Este modelo integra percepción visual, datos de trayectorias y razonamiento simbólico para emular el proceso de descubrimiento científico. El modelo se entrena mediante un currículo de Inducción de Estructura de Movimiento (MSI), utilizando ajuste fino supervisado para interpretar retratos de fase cinemática y construir hipótesis guiadas por una Cadena de Pensamiento Causal (C-CoT), seguido de Calibración Simbólica Guiada por Recompensa (RGSC) para refinar la estructura de la fórmula con aprendizaje por refuerzo. Durante la inferencia, el VIPER-R1 entrenado actúa como un agente: primero postula un ansatz simbólico de alta confianza, luego invoca proactivamente una herramienta externa de regresión simbólica para realizar Realineación de Residuos Simbólicos (SR^2). Este último paso, análogo al análisis de perturbaciones de un físico, reconcilia el modelo teórico con los datos empíricos. Para apoyar esta investigación, presentamos PhysSymbol, un nuevo corpus multimodal de 5,000 instancias. Los experimentos muestran que VIPER-R1 supera consistentemente a los modelos de lenguaje visual (VLM) de última generación en precisión e interpretabilidad, permitiendo un descubrimiento más preciso de las leyes físicas. Página del proyecto: https://jiaaqiliu.github.io/VIPER-R1/

Morae: Pausa proactiva de agentes de interfaz de usuario para elecciones del usuario
Morae: Proactively Pausing UI Agents for User Choices

Aug 29

ByYi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel

Los agentes de interfaz de usuario (UI) prometen hacer que las interfaces inaccesibles o complejas sean más fáciles de usar para personas ciegas o con baja visión (BLV, por sus siglas en inglés). Sin embargo, los agentes de UI actuales suelen realizar tareas de principio a fin sin involucrar a los usuarios en decisiones críticas ni informarles sobre información contextual importante, lo que reduce su capacidad de agencia. Por ejemplo, en nuestro estudio de campo, un participante BLV solicitó comprar el agua con gas más barata disponible, y el agente eligió automáticamente una entre varias opciones de igual precio, sin mencionar productos alternativos con diferentes sabores o mejores calificaciones. Para abordar este problema, presentamos Morae, un agente de UI que identifica automáticamente puntos de decisión durante la ejecución de tareas y se detiene para que los usuarios puedan tomar decisiones. Morae utiliza modelos multimodales de gran escala para interpretar consultas de los usuarios junto con el código de la UI y capturas de pantalla, y solicita aclaraciones a los usuarios cuando hay una elección por hacer. En un estudio sobre tareas web del mundo real con participantes BLV, Morae ayudó a los usuarios a completar más tareas y seleccionar opciones que se ajustaban mejor a sus preferencias, en comparación con agentes de referencia, incluido OpenAI Operator. En términos más generales, este trabajo ejemplifica un enfoque de iniciativa mixta en el que los usuarios se benefician de la automatización de los agentes de UI mientras pueden expresar sus preferencias.

Redes de Reservorios Residuales Profundos: exploración de conexiones residuales ortogonales en Redes Neuronales Recurrentes no entrenadas
Deep Residual Echo State Networks: exploring residual orthogonal connections in untrained Recurrent Neural Networks

Aug 28

ByMatteo Pinna, Andrea Ceni, Claudio Gallicchio

Las Redes de Eco (Echo State Networks, ESNs) son un tipo particular de Redes Neuronales Recurrentes (RNNs) no entrenadas dentro del marco de Computación de Reservorios (Reservoir Computing, RC), populares por su aprendizaje rápido y eficiente. Sin embargo, las ESNs tradicionales suelen tener dificultades para procesar información a largo plazo. En este artículo, presentamos una nueva clase de RNNs no entrenadas basadas en conexiones residuales temporales, denominadas Redes de Eco Residuales Profundas (Deep Residual Echo State Networks, DeepResESNs). Demostramos que aprovechar una jerarquía de capas recurrentes residuales no entrenadas mejora significativamente la capacidad de memoria y el modelado temporal a largo plazo. Para las conexiones residuales temporales, consideramos diferentes configuraciones ortogonales, incluidas configuraciones generadas aleatoriamente y de estructura fija, y estudiamos su efecto en la dinámica de la red. Un análisis matemático exhaustivo describe las condiciones necesarias y suficientes para garantizar dinámicas estables dentro de DeepResESN. Nuestros experimentos en una variedad de tareas de series temporales muestran las ventajas del enfoque propuesto sobre las RC tradicionales, tanto superficiales como profundas.

HERMES: Aprendizaje Encarnado de Humano a Robot a partir de Datos de Movimiento Multifuente para la Manipulación Diestra Móvil
HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation

Aug 27

ByZhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu

Aprovechar los datos de movimiento humano para dotar a los robots de habilidades de manipulación versátiles ha surgido como un paradigma prometedor en la manipulación robótica. Sin embargo, traducir movimientos de la mano humana provenientes de múltiples fuentes en comportamientos viables para robots sigue siendo un desafío, especialmente para robots equipados con manos diestras multifuncionales caracterizadas por espacios de acción complejos y de alta dimensionalidad. Además, los enfoques existentes a menudo tienen dificultades para producir políticas capaces de adaptarse a diversas condiciones ambientales. En este artículo, presentamos HERMES, un marco de aprendizaje de humano a robot para la manipulación diestra bimanual móvil. En primer lugar, HERMES formula un enfoque unificado de aprendizaje por refuerzo capaz de transformar de manera fluida movimientos heterogéneos de la mano humana provenientes de múltiples fuentes en comportamientos robóticos físicamente plausibles. Posteriormente, para mitigar la brecha sim2real, diseñamos un método de transferencia sim2real basado en imágenes de profundidad de extremo a extremo para mejorar la generalización a escenarios del mundo real. Además, para permitir la operación autónoma en entornos variados y no estructurados, potenciamos el modelo base de navegación con un mecanismo de localización Perspective-n-Point (PnP) en bucle cerrado, asegurando una alineación precisa de los objetivos visuales y conectando efectivamente la navegación autónoma con la manipulación diestra. Los resultados experimentales extensivos demuestran que HERMES exhibe consistentemente comportamientos generalizables en diversos escenarios en entornos reales, realizando con éxito numerosas tareas complejas de manipulación diestra bimanual móvil. Página del proyecto: https://gemcollector.github.io/HERMES/.

Robustez de la Cuantización ante Degradaciones de Entrada para la Detección de Objetos
Quantization Robustness to Input Degradations for Object Detection

Aug 27

ByToghrul Karimov, Hassan Imani, Allan Kazakov

La cuantización post-entrenamiento (PTQ, por sus siglas en inglés) es crucial para implementar modelos eficientes de detección de objetos, como YOLO, en dispositivos con recursos limitados. Sin embargo, el impacto de la reducción de precisión en la robustez del modelo frente a degradaciones del mundo real, como ruido, desenfoque y artefactos de compresión, es una preocupación significativa. Este artículo presenta un estudio empírico exhaustivo que evalúa la robustez de los modelos YOLO (desde la escala nano hasta extra grande) en múltiples formatos de precisión: FP32, FP16 (TensorRT), UINT8 dinámico (ONNX) e INT8 estático (TensorRT). Introducimos y evaluamos una estrategia de calibración consciente de la degradación para PTQ en INT8 estático, donde el proceso de calibración de TensorRT se expone a una mezcla de imágenes limpias y sintéticamente degradadas. Los modelos se evaluaron en el conjunto de datos COCO bajo siete condiciones de degradación distintas (incluyendo varios tipos y niveles de ruido, desenfoque, bajo contraste y compresión JPEG) y un escenario de degradación mixta. Los resultados indican que, aunque los motores INT8 estático de TensorRT ofrecen aceleraciones sustanciales (~1.5-3.3x) con una caída moderada en la precisión (~3-7% mAP50-95) en datos limpios, la calibración consciente de la degradación propuesta no produjo mejoras consistentes y generalizadas en la robustez en comparación con la calibración estándar en datos limpios en la mayoría de los modelos y degradaciones. Se observó una excepción notable en escalas de modelos más grandes bajo condiciones específicas de ruido, lo que sugiere que la capacidad del modelo puede influir en la eficacia de este enfoque de calibración. Estos hallazgos resaltan los desafíos de mejorar la robustez de la PTQ y brindan insights para implementar detectores cuantizados en entornos no controlados. Todo el código y las tablas de evaluación están disponibles en https://github.com/AllanK24/QRID.

EduRABSA: Un Conjunto de Datos de Revisión Educativa para Tareas de Análisis de Sentimiento Basado en Aspectos
EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks

Aug 23

ByYan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova

Cada año, la mayoría de las instituciones educativas recopilan y reciben un volumen enorme de comentarios textuales de los estudiantes sobre los cursos, la enseñanza y la experiencia general. Sin embargo, transformar estos comentarios en bruto en información útil dista mucho de ser sencillo. Durante mucho tiempo, ha sido un desafío adoptar soluciones automáticas de minería de opiniones para este tipo de datos de revisiones educativas debido a la complejidad del contenido y a los requisitos de reporte de baja granularidad. El Análisis de Sentimientos Basado en Aspectos (ABSA, por sus siglas en inglés) ofrece una solución prometedora con sus capacidades avanzadas de minería de opiniones a nivel de suboraciones. No obstante, las investigaciones y recursos existentes sobre ABSA están muy enfocados en el ámbito comercial. En el campo educativo, son escasos y difíciles de desarrollar debido a la limitada disponibilidad de conjuntos de datos públicos y a las estrictas normas de protección de datos. Se necesita urgentemente un conjunto de datos anotado de alta calidad para impulsar la investigación en esta área con recursos limitados. En este trabajo, presentamos EduRABSA (Education Review ABSA), el primer conjunto de datos público y anotado de ABSA para revisiones educativas que abarca tres tipos de sujetos de revisión (curso, personal docente, universidad) en idioma inglés y todas las tareas principales de ABSA, incluyendo la extracción de aspectos implícitos y opiniones implícitas, áreas poco exploradas. También compartimos ASQE-DPT (Herramienta de Procesamiento de Datos), una herramienta ligera, sin necesidad de instalación y fuera de línea para la anotación manual de datos que genera conjuntos de datos etiquetados para tareas completas de ABSA a partir de una anotación de tarea única. Juntos, estos recursos contribuyen a la comunidad de ABSA y al ámbito educativo al eliminar la barrera de los conjuntos de datos, apoyar la transparencia y reproducibilidad de la investigación, y permitir la creación y el intercambio de más recursos. El conjunto de datos, la herramienta de anotación, así como los scripts y estadísticas para el procesamiento y muestreo del conjunto de datos, están disponibles en https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.

Una Revisión de los Modelos de Lenguaje Científico a Gran Escala: Desde los Fundamentos de Datos hasta las Fronteras de los Agentes
A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

Aug 28

140