Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje Científico a Gran Escala (Sci-LLMs, por sus siglas en inglés) están transformando la forma en que el conocimiento se representa, integra y aplica en la investigación científica, aunque su avance está condicionado por la naturaleza compleja de los datos científicos. Este estudio presenta una síntesis exhaustiva y centrada en los datos que replantea el desarrollo de los Sci-LLMs como una coevolución entre los modelos y su sustrato de datos subyacente. Formulamos una taxonomía unificada de los datos científicos y un modelo jerárquico del conocimiento científico, destacando los desafíos multimodales, multiescala y específicos de dominio que diferencian los corpus científicos de los conjuntos de datos generales de procesamiento del lenguaje natural. Revisamos sistemáticamente los Sci-LLMs recientes, desde fundamentos de propósito general hasta modelos especializados en diversas disciplinas científicas, junto con un análisis extenso de más de 270 conjuntos de datos de preentrenamiento y posentrenamiento, demostrando por qué los Sci-LLMs plantean demandas distintivas: corpus heterogéneos, multiescala y cargados de incertidumbre que requieren representaciones que preserven la invariancia de dominio y permitan el razonamiento multimodal. En la evaluación, examinamos más de 190 conjuntos de datos de referencia y rastreamos un cambio desde exámenes estáticos hacia evaluaciones orientadas a procesos y descubrimientos con protocolos de evaluación avanzados. Estos análisis centrados en los datos resaltan problemas persistentes en el desarrollo de datos científicos y discuten soluciones emergentes que involucran pipelines de anotación semiautomatizados y validación experta. Finalmente, delineamos un cambio de paradigma hacia sistemas de bucle cerrado donde agentes autónomos basados en Sci-LLMs experimentan, validan y contribuyen activamente a una base de conocimiento viva y en evolución. En conjunto, este trabajo proporciona una hoja de ruta para construir sistemas de inteligencia artificial (IA) confiables y en continua evolución que funcionen como verdaderos socios en la aceleración del descubrimiento científico.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) equipados con capacidades de pensamiento paso a paso han demostrado un rendimiento notable en problemas de razonamiento complejo. Sin embargo, este proceso de pensamiento resulta redundante para problemas simples que pueden resolverse sin un razonamiento complejo. Para abordar esta ineficiencia, proponemos R-4B, un MLLM de pensamiento automático, que puede decidir de manera adaptativa cuándo pensar en función de la complejidad del problema. La idea central de R-4B es dotar al modelo con capacidades tanto de pensamiento como de no pensamiento utilizando un recocido bi-modal, y aplicar la Optimización de Política Bi-modal (BPO) para mejorar la precisión del modelo al determinar si activar el proceso de pensamiento. Específicamente, primero entrenamos el modelo en un conjunto de datos cuidadosamente seleccionado que abarca diversos temas, el cual contiene muestras de ambos modos, pensamiento y no pensamiento. Luego, el modelo pasa por una segunda fase de entrenamiento bajo un marco GRPO mejorado, donde el modelo de política es forzado a generar respuestas desde ambos modos para cada consulta de entrada. Los resultados experimentales muestran que R-4B alcanza un rendimiento de vanguardia en 25 benchmarks desafiantes. Supera a Qwen2.5-VL-7B en la mayoría de las tareas y logra un rendimiento comparable a modelos más grandes como Kimi-VL-A3B-Thinking-2506 (16B) en benchmarks intensivos en razonamiento, con un menor costo computacional.
La creciente adopción de modelos de lenguaje de gran escala (LLMs) en la ingeniería de software requiere una evaluación rigurosa de la seguridad del código que generan. Sin embargo, los puntos de referencia existentes son insuficientes, ya que se centran en fragmentos de código aislados, emplean métodos de evaluación inestables que carecen de reproducibilidad y no logran conectar la calidad del contexto de entrada con la seguridad de la salida. Para abordar estas brechas, presentamos A.S.E (Evaluación de Seguridad en la Generación de Código con IA), un punto de referencia para la generación segura de código a nivel de repositorio. A.S.E construye tareas a partir de repositorios del mundo real con CVEs documentados, preservando el contexto completo del repositorio, como sistemas de compilación y dependencias entre archivos. Su marco de evaluación reproducible y contenerizado utiliza reglas definidas por expertos para proporcionar evaluaciones estables y auditables de seguridad, calidad de compilación y estabilidad de la generación. Nuestra evaluación de los principales LLMs en A.S.E revela tres hallazgos clave: (1) Claude-3.7-Sonnet logra el mejor rendimiento general. (2) La brecha de seguridad entre los modelos propietarios y los de código abierto es estrecha; Qwen3-235B-A22B-Instruct obtiene la puntuación de seguridad más alta. (3) Las estrategias de decodificación concisas y de "pensamiento rápido" superan consistentemente a los razonamientos complejos y de "pensamiento lento" para la aplicación de parches de seguridad.
La capacidad humana para realizar razonamiento multimodal e interacción física de manera fluida en el mundo abierto es un objetivo fundamental para los sistemas inteligentes con propósito general y encarnados. Los modelos recientes de visión-lenguaje-acción (VLA), entrenados conjuntamente con datos a gran escala de robots y datos visuales-textuales, han demostrado avances notables en el control general de robots. Sin embargo, aún no logran alcanzar la flexibilidad a nivel humano en el razonamiento e interacción entrelazados. En este trabajo, presentamos EO-Robotics, que consta del modelo EO-1 y el conjunto de datos EO-Data1.5M. EO-1 es un modelo fundacional encarnado unificado que logra un rendimiento superior en el razonamiento multimodal encarnado y el control de robots mediante un preentrenamiento entrelazado de visión-texto-acción. El desarrollo de EO-1 se basa en dos pilares clave: (i) una arquitectura unificada que procesa entradas multimodales de manera indiscriminada (imágenes, texto, video y acciones), y (ii) un conjunto de datos masivo y de alta calidad para el razonamiento multimodal encarnado, EO-Data1.5M, que contiene más de 1.5 millones de muestras con énfasis en la comprensión entrelazada de visión-texto-acción. EO-1 se entrena mediante sinergias entre la decodificación autorregresiva y la eliminación de ruido mediante emparejamiento de flujo en EO-Data1.5M, lo que permite la generación fluida de acciones robóticas y el razonamiento multimodal encarnado. Experimentos exhaustivos demuestran la efectividad del aprendizaje entrelazado de visión-texto-acción para la comprensión y generalización en el mundo abierto, validado a través de una variedad de tareas de manipulación diestra y de horizonte largo en múltiples encarnaciones. Este artículo detalla la arquitectura de EO-1, la estrategia de construcción de datos de EO-Data1.5M y la metodología de entrenamiento, ofreciendo insights valiosos para el desarrollo de modelos fundacionales encarnados avanzados.
Las leyes de escalabilidad han validado el éxito y el potencial de los modelos entrenados con grandes volúmenes de datos en la generación creativa a través de dominios como texto, imágenes y video. Sin embargo, este paradigma enfrenta escasez de datos en el dominio 3D, ya que hay mucho menos disponible en internet en comparación con las modalidades mencionadas. Afortunadamente, existen videos adecuados que contienen de manera inherente conocimientos previos de sentido común, ofreciendo una señal supervisora alternativa para mitigar el cuello de botella de generalización causado por los datos nativos 3D limitados. Por un lado, los videos que capturan múltiples vistas de un objeto o escena proporcionan un conocimiento previo de consistencia espacial para la generación 3D. Por otro lado, la rica información semántica contenida en los videos permite que el contenido generado sea más fiel a las indicaciones de texto y semánticamente plausible. Este artículo explora cómo aplicar la modalidad de video en la generación de activos 3D, abarcando desde conjuntos de datos hasta modelos. Presentamos Droplet3D-4M, el primer conjunto de datos de video a gran escala con anotaciones a nivel de múltiples vistas, y entrenamos Droplet3D, un modelo generativo que admite tanto imágenes como entradas de texto denso. Experimentos extensos validan la efectividad de nuestro enfoque, demostrando su capacidad para producir contenido espacialmente consistente y semánticamente plausible. Además, en contraste con las soluciones 3D predominantes, nuestro enfoque exhibe el potencial de extenderse a aplicaciones a nivel de escena. Esto indica que los conocimientos previos de sentido común de los videos facilitan significativamente la creación 3D. Hemos liberado todos los recursos, incluyendo el conjunto de datos, código, marco técnico y pesos del modelo: https://dropletx.github.io/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobresalen en tareas de razonamiento complejo, como las matemáticas y la programación, pero a menudo tienen dificultades con tareas interactivas simples que los niños pequeños realizan sin esfuerzo. Esta discrepancia resalta una brecha crítica entre el conocimiento declarativo (saber sobre algo) y el conocimiento procedimental (saber cómo hacer algo). Aunque los agentes tradicionales de aprendizaje por refuerzo (RL, por sus siglas en inglés) pueden adquirir conocimiento procedimental a través de la interacción con el entorno, suelen operar como cajas negras y requieren una cantidad sustancial de datos de entrenamiento. En contraste, los LLMs poseen un amplio conocimiento del mundo y capacidades de razonamiento, pero no pueden convertir efectivamente este conocimiento estático en toma de decisiones dinámica en entornos interactivos. Para abordar este desafío, proponemos Think in Games (TiG), un marco novedoso que permite a los LLMs desarrollar comprensión procedimental a través de la interacción directa con entornos de juego, manteniendo sus capacidades inherentes de razonamiento y explicación. Específicamente, TiG reformula la toma de decisiones basada en RL como una tarea de modelado de lenguaje: los LLMs generan políticas guiadas por lenguaje, que se refinan iterativamente mediante aprendizaje por refuerzo en línea basado en la retroalimentación del entorno. Nuestros resultados experimentales muestran que TiG logra cerrar la brecha entre el conocimiento declarativo y procedimental, alcanzando un rendimiento competitivo con demandas de datos y computación significativamente menores en comparación con los métodos tradicionales de RL. Además, TiG proporciona explicaciones paso a paso en lenguaje natural para sus decisiones, mejorando considerablemente la transparencia y la interpretabilidad en tareas interactivas complejas.
La síntesis de cabezas parlantes impulsada por audio ha logrado un notable fotorealismo; sin embargo, los modelos de última generación (SOTA) presentan una falla crítica: carecen de generalización para abarcar toda la diversidad humana en términos de etnia, idioma y grupos de edad. Argumentamos que esta brecha de generalización es un síntoma directo de las limitaciones en los datos de entrenamiento existentes, los cuales carecen de la escala, calidad y diversidad necesarias. Para abordar este desafío, presentamos TalkVid, un nuevo conjunto de datos a gran escala, de alta calidad y diverso, que contiene 1244 horas de video de 7729 hablantes únicos. TalkVid se ha curado mediante una canalización automatizada y de múltiples etapas, que filtra rigurosamente la estabilidad del movimiento, la calidad estética y el detalle facial, y se valida con juicios humanos para garantizar su fiabilidad. Además, construimos y publicamos TalkVid-Bench, un conjunto de evaluación estratificado de 500 clips meticulosamente equilibrados en ejes demográficos y lingüísticos clave. Nuestros experimentos demuestran que un modelo entrenado con TalkVid supera a los entrenados con conjuntos de datos anteriores, exhibiendo una generalización cruzada superior. De manera crucial, nuestro análisis en TalkVid-Bench revela disparidades de rendimiento entre subgrupos que quedan ocultas por las métricas agregadas tradicionales, subrayando su necesidad para futuras investigaciones. El código y los datos están disponibles en https://github.com/FreedomIntelligence/TalkVid.
jina-code-embeddings es un conjunto innovador de modelos de incrustación de código diseñado para recuperar código a partir de consultas en lenguaje natural, realizar preguntas y respuestas técnicas, e identificar fragmentos de código semánticamente similares en distintos lenguajes de programación. Utiliza de manera innovadora una arquitectura autoregresiva preentrenada tanto en texto como en código, generando incrustaciones mediante la técnica de agrupación por último token. Describimos la receta de entrenamiento y demostramos un rendimiento de vanguardia a pesar del tamaño relativamente pequeño de los modelos, validando así este enfoque para la construcción de modelos de incrustación de código.
La mezcla de datos utilizada en el preentrenamiento de un modelo de lenguaje es un pilar fundamental para su rendimiento final. Sin embargo, una estrategia de mezcla estática no es óptima, ya que las preferencias de aprendizaje del modelo para diversos dominios de datos cambian dinámicamente durante el entrenamiento. Es crucial destacar que observar estas preferencias en evolución de manera computacionalmente eficiente sigue siendo un desafío significativo. Para abordar esto, proponemos TiKMiX, un método que ajusta dinámicamente la mezcla de datos según las preferencias evolutivas del modelo. TiKMiX introduce la Influencia de Grupo, una métrica eficiente para evaluar el impacto de los dominios de datos en el modelo. Esta métrica permite formular el problema de la mezcla de datos como una búsqueda de una distribución óptima que maximice la influencia. Resolvemos esto mediante dos enfoques: TiKMiX-D para optimización directa y TiKMiX-M, que utiliza un modelo de regresión para predecir una mezcla superior. Entrenamos modelos con diferentes cantidades de parámetros, utilizando hasta 1 billón de tokens. TiKMiX-D supera el rendimiento de métodos de vanguardia como REGMIX mientras utiliza solo el 20% de los recursos computacionales. TiKMiX-M conduce a una mejora promedio del 2% en 9 puntos de referencia de tareas posteriores. Nuestros experimentos revelan que las preferencias de datos de un modelo evolucionan con el progreso del entrenamiento y la escala, y demostramos que ajustar dinámicamente la mezcla de datos basándose en la Influencia de Grupo, una medida directa de estas preferencias, mejora significativamente el rendimiento al mitigar la subdigestión de datos observada con proporciones estáticas.
El agente GUI tiene como objetivo permitir operaciones automatizadas en dispositivos móviles y de PC, lo cual es una tarea importante hacia la consecución de la inteligencia artificial general. El rápido avance de los modelos de lenguaje visual (VLMs) acelera el desarrollo de agentes GUI, gracias a sus potentes capacidades en comprensión visual y planificación de tareas. Sin embargo, construir un agente GUI sigue siendo una tarea desafiante debido a la escasez de trayectorias de operación, la disponibilidad de infraestructura interactiva y las limitaciones iniciales de capacidades en los modelos base. En este trabajo, presentamos UItron, un modelo base de código abierto para agentes GUI automáticos, que cuenta con capacidades avanzadas de percepción, anclaje y planificación de GUI. UItron destaca la necesidad de la ingeniería de datos sistémica y la infraestructura interactiva como componentes fundamentales para avanzar en el desarrollo de agentes GUI. No solo estudia sistemáticamente una serie de estrategias de ingeniería de datos para mejorar los efectos del entrenamiento, sino que también establece un entorno interactivo que conecta tanto dispositivos móviles como de PC. En el entrenamiento, UItron adopta el ajuste fino supervisado para tareas de percepción y planificación en diversos escenarios de GUI, y luego desarrolla un marco de aprendizaje por refuerzo curricular para permitir razonamiento complejo y exploración en entornos en línea. Como resultado, UItron logra un rendimiento superior en puntos de referencia de percepción, anclaje y planificación de GUI. En particular, UItron destaca la competencia en la interacción con aplicaciones móviles chinas de primer nivel, ya que identificamos una falta general de capacidades en chino incluso en las soluciones más avanzadas. Para ello, recopilamos manualmente más de un millón de pasos de trayectorias de operación en las 100 aplicaciones más populares, y construimos entornos de evaluación de agentes tanto en línea como fuera de línea. Los resultados experimentales demuestran que UItron logra un progreso significativo en escenarios de aplicaciones chinas, acercando a los agentes GUI un paso más hacia la aplicación en el mundo real.
Las evaluaciones de los modelos de audio-lenguaje (ALMs, por sus siglas en inglés) —modelos multimodales que reciben como entrada audio y texto intercalados y generan texto como salida— se ven obstaculizadas por la falta de puntos de referencia estandarizados; la mayoría de los benchmarks miden solo una o dos capacidades y omiten aspectos evaluativos como la equidad o la seguridad. Además, la comparación entre modelos es difícil, ya que las evaluaciones separadas prueban un número limitado de modelos y utilizan métodos de indicación (prompting) y parámetros de inferencia diferentes. Para abordar estas deficiencias, presentamos AHELM, un benchmark que agrega diversos conjuntos de datos —incluyendo dos nuevos conjuntos de datos sintéticos de audio-texto llamados PARADE, que evalúa a los ALMs en la evitación de estereotipos, y CoRe-Bench, que mide el razonamiento sobre audio conversacional mediante preguntas inferenciales de múltiples turnos— para medir de manera integral el rendimiento de los ALMs en 10 aspectos que hemos identificado como importantes para el desarrollo y uso de estos modelos: percepción de audio, conocimiento, razonamiento, detección de emociones, sesgo, equidad, multilingüismo, robustez, toxicidad y seguridad. También estandarizamos las indicaciones, los parámetros de inferencia y las métricas de evaluación para garantizar comparaciones equitativas entre modelos. Evaluamos 14 ALMs de código abierto y API cerrada de 3 desarrolladores, junto con 3 sistemas de línea base simples adicionales, cada uno compuesto por un reconocedor automático de voz y un modelo de lenguaje. Nuestros resultados muestran que, aunque Gemini 2.5 Pro ocupa el primer lugar en 5 de los 10 aspectos, exhibe inequidad grupal (p=0.01) en tareas de ASR, mientras que la mayoría de los otros modelos no lo hacen. También encontramos que los sistemas de línea base tienen un rendimiento razonablemente bueno en AHELM, con uno ocupando el 5º lugar general a pesar de tener solo capacidades de conversión de voz a texto. Para garantizar transparencia, todas las indicaciones, generaciones de modelos y salidas están disponibles en nuestro sitio web en https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM está diseñado para ser un benchmark en constante evolución, y se agregarán nuevos conjuntos de datos y modelos con el tiempo.
Los avances recientes en la aplicación del aprendizaje por refuerzo (RL, por sus siglas en inglés) a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado a un progreso sustancial. En particular, se han reportado una serie de fenómenos notables, aunque a menudo contraintuitivos, en los LLMs, que exhiben patrones no típicamente observados en entornos tradicionales de RL. Por ejemplo, afirmaciones destacadas incluyen que un solo ejemplo de entrenamiento puede igualar el rendimiento logrado con un conjunto de datos completo, que la señal de recompensa no necesita ser muy precisa y que el entrenamiento únicamente con muestras negativas puede igualar o incluso superar métodos sofisticados basados en recompensas. Sin embargo, las condiciones precisas bajo las cuales estas observaciones se mantienen —y, críticamente, cuándo fallan— siguen sin estar claras. En este trabajo, identificamos un factor clave que diferencia las observaciones de RL: si el modelo preentrenado ya exhibe una fuerte Alineación Modelo-Tarea, medida por la precisión pass@k en la tarea evaluada. A través de un examen sistemático y exhaustivo de una serie de afirmaciones contraintuitivas, respaldado por una validación experimental rigurosa en diferentes arquitecturas de modelos y dominios de tareas, nuestros hallazgos muestran que, aunque el entrenamiento estándar de RL sigue siendo consistentemente robusto en todos los entornos, muchos de estos resultados contraintuitivos surgen solo cuando el modelo y la tarea ya exhiben una fuerte alineación modelo-tarea. Por el contrario, estas técnicas no logran impulsar un aprendizaje sustancial en regímenes más desafiantes, donde los métodos estándar de RL siguen siendo efectivos.
La simetría es una de las pistas geométricas más fundamentales en visión por computadora, y su detección ha sido un desafío constante. Con los recientes avances en modelos de visión y lenguaje, como CLIP, investigamos si un modelo CLIP preentrenado puede ayudar en la detección de simetrías aprovechando las pistas adicionales de simetría presentes en las descripciones de imágenes naturales. Proponemos CLIPSym, que aprovecha los codificadores de imagen y lenguaje de CLIP junto con un decodificador rotacionalmente equivariante basado en una combinación de Transformer y G-Convolución para detectar simetrías de rotación y reflexión. Para utilizar plenamente el codificador de lenguaje de CLIP, hemos desarrollado una novedosa técnica de prompting llamada Agrupación de Prompts Semánticamente Conscientes (SAPG), que agrega un conjunto diverso de prompts frecuentes basados en objetos para integrar mejor las pistas semánticas en la detección de simetrías. Empíricamente, demostramos que CLIPSym supera al estado del arte actual en tres conjuntos de datos estándar de detección de simetrías (DENDI, SDRW y LDRS). Finalmente, realizamos ablaciones detalladas que verifican los beneficios del preentrenamiento de CLIP, el decodificador equivariante propuesto y la técnica SAPG. El código está disponible en https://github.com/timyoung2333/CLIPSym.
Los agentes de interfaz de usuario (UI) prometen hacer que las interfaces inaccesibles o complejas sean más fáciles de usar para personas ciegas o con baja visión (BLV, por sus siglas en inglés). Sin embargo, los agentes de UI actuales suelen realizar tareas de principio a fin sin involucrar a los usuarios en decisiones críticas ni informarles sobre información contextual importante, lo que reduce su capacidad de agencia. Por ejemplo, en nuestro estudio de campo, un participante BLV solicitó comprar el agua con gas más barata disponible, y el agente eligió automáticamente una entre varias opciones de igual precio, sin mencionar productos alternativos con diferentes sabores o mejores calificaciones. Para abordar este problema, presentamos Morae, un agente de UI que identifica automáticamente puntos de decisión durante la ejecución de tareas y se detiene para que los usuarios puedan tomar decisiones. Morae utiliza modelos multimodales de gran escala para interpretar consultas de los usuarios junto con el código de la UI y capturas de pantalla, y solicita aclaraciones a los usuarios cuando hay una elección por hacer. En un estudio sobre tareas web del mundo real con participantes BLV, Morae ayudó a los usuarios a completar más tareas y seleccionar opciones que se ajustaban mejor a sus preferencias, en comparación con agentes de referencia, incluido OpenAI Operator. En términos más generales, este trabajo ejemplifica un enfoque de iniciativa mixta en el que los usuarios se benefician de la automatización de los agentes de UI mientras pueden expresar sus preferencias.
El descubrimiento automatizado de leyes físicas a partir de datos observacionales en el mundo real representa un gran desafío en la IA. Los métodos actuales, que dependen de regresión simbólica o modelos de lenguaje grandes (LLMs), se limitan a datos unimodales y pasan por alto las ricas representaciones fenomenológicas visuales del movimiento, que son indispensables para los físicos. Esta "privación sensorial" debilita severamente su capacidad para interpretar los patrones espacio-temporales inherentes a los fenómenos dinámicos. Para abordar esta brecha, proponemos VIPER-R1, un modelo multimodal que realiza Inducción Visual para el Razonamiento de Ecuaciones Basadas en Física, con el fin de descubrir fórmulas simbólicas fundamentales. Este modelo integra percepción visual, datos de trayectorias y razonamiento simbólico para emular el proceso de descubrimiento científico. El modelo se entrena mediante un currículo de Inducción de Estructura de Movimiento (MSI), utilizando ajuste fino supervisado para interpretar retratos de fase cinemática y construir hipótesis guiadas por una Cadena de Pensamiento Causal (C-CoT), seguido de Calibración Simbólica Guiada por Recompensa (RGSC) para refinar la estructura de la fórmula con aprendizaje por refuerzo. Durante la inferencia, el VIPER-R1 entrenado actúa como un agente: primero postula un ansatz simbólico de alta confianza, luego invoca proactivamente una herramienta externa de regresión simbólica para realizar Realineación de Residuos Simbólicos (SR^2). Este último paso, análogo al análisis de perturbaciones de un físico, reconcilia el modelo teórico con los datos empíricos. Para apoyar esta investigación, presentamos PhysSymbol, un nuevo corpus multimodal de 5,000 instancias. Los experimentos muestran que VIPER-R1 supera consistentemente a los modelos de lenguaje visual (VLM) de última generación en precisión e interpretabilidad, permitiendo un descubrimiento más preciso de las leyes físicas. Página del proyecto: https://jiaaqiliu.github.io/VIPER-R1/
Las Redes de Eco (Echo State Networks, ESNs) son un tipo particular de Redes Neuronales Recurrentes (RNNs) no entrenadas dentro del marco de Computación de Reservorios (Reservoir Computing, RC), populares por su aprendizaje rápido y eficiente. Sin embargo, las ESNs tradicionales suelen tener dificultades para procesar información a largo plazo. En este artículo, presentamos una nueva clase de RNNs no entrenadas basadas en conexiones residuales temporales, denominadas Redes de Eco Residuales Profundas (Deep Residual Echo State Networks, DeepResESNs). Demostramos que aprovechar una jerarquía de capas recurrentes residuales no entrenadas mejora significativamente la capacidad de memoria y el modelado temporal a largo plazo. Para las conexiones residuales temporales, consideramos diferentes configuraciones ortogonales, incluidas configuraciones generadas aleatoriamente y de estructura fija, y estudiamos su efecto en la dinámica de la red. Un análisis matemático exhaustivo describe las condiciones necesarias y suficientes para garantizar dinámicas estables dentro de DeepResESN. Nuestros experimentos en una variedad de tareas de series temporales muestran las ventajas del enfoque propuesto sobre las RC tradicionales, tanto superficiales como profundas.
Aprovechar los datos de movimiento humano para dotar a los robots de habilidades de manipulación versátiles ha surgido como un paradigma prometedor en la manipulación robótica. Sin embargo, traducir movimientos de la mano humana provenientes de múltiples fuentes en comportamientos viables para robots sigue siendo un desafío, especialmente para robots equipados con manos diestras multifuncionales caracterizadas por espacios de acción complejos y de alta dimensionalidad. Además, los enfoques existentes a menudo tienen dificultades para producir políticas capaces de adaptarse a diversas condiciones ambientales. En este artículo, presentamos HERMES, un marco de aprendizaje de humano a robot para la manipulación diestra bimanual móvil. En primer lugar, HERMES formula un enfoque unificado de aprendizaje por refuerzo capaz de transformar de manera fluida movimientos heterogéneos de la mano humana provenientes de múltiples fuentes en comportamientos robóticos físicamente plausibles. Posteriormente, para mitigar la brecha sim2real, diseñamos un método de transferencia sim2real basado en imágenes de profundidad de extremo a extremo para mejorar la generalización a escenarios del mundo real. Además, para permitir la operación autónoma en entornos variados y no estructurados, potenciamos el modelo base de navegación con un mecanismo de localización Perspective-n-Point (PnP) en bucle cerrado, asegurando una alineación precisa de los objetivos visuales y conectando efectivamente la navegación autónoma con la manipulación diestra. Los resultados experimentales extensivos demuestran que HERMES exhibe consistentemente comportamientos generalizables en diversos escenarios en entornos reales, realizando con éxito numerosas tareas complejas de manipulación diestra bimanual móvil. Página del proyecto: https://gemcollector.github.io/HERMES/.
La cuantización post-entrenamiento (PTQ, por sus siglas en inglés) es crucial para implementar modelos eficientes de detección de objetos, como YOLO, en dispositivos con recursos limitados. Sin embargo, el impacto de la reducción de precisión en la robustez del modelo frente a degradaciones del mundo real, como ruido, desenfoque y artefactos de compresión, es una preocupación significativa. Este artículo presenta un estudio empírico exhaustivo que evalúa la robustez de los modelos YOLO (desde la escala nano hasta extra grande) en múltiples formatos de precisión: FP32, FP16 (TensorRT), UINT8 dinámico (ONNX) e INT8 estático (TensorRT). Introducimos y evaluamos una estrategia de calibración consciente de la degradación para PTQ en INT8 estático, donde el proceso de calibración de TensorRT se expone a una mezcla de imágenes limpias y sintéticamente degradadas. Los modelos se evaluaron en el conjunto de datos COCO bajo siete condiciones de degradación distintas (incluyendo varios tipos y niveles de ruido, desenfoque, bajo contraste y compresión JPEG) y un escenario de degradación mixta. Los resultados indican que, aunque los motores INT8 estático de TensorRT ofrecen aceleraciones sustanciales (~1.5-3.3x) con una caída moderada en la precisión (~3-7% mAP50-95) en datos limpios, la calibración consciente de la degradación propuesta no produjo mejoras consistentes y generalizadas en la robustez en comparación con la calibración estándar en datos limpios en la mayoría de los modelos y degradaciones. Se observó una excepción notable en escalas de modelos más grandes bajo condiciones específicas de ruido, lo que sugiere que la capacidad del modelo puede influir en la eficacia de este enfoque de calibración. Estos hallazgos resaltan los desafíos de mejorar la robustez de la PTQ y brindan insights para implementar detectores cuantizados en entornos no controlados. Todo el código y las tablas de evaluación están disponibles en https://github.com/AllanK24/QRID.
Cada año, la mayoría de las instituciones educativas recopilan y reciben un volumen enorme de comentarios textuales de los estudiantes sobre los cursos, la enseñanza y la experiencia general. Sin embargo, transformar estos comentarios en bruto en información útil dista mucho de ser sencillo. Durante mucho tiempo, ha sido un desafío adoptar soluciones automáticas de minería de opiniones para este tipo de datos de revisiones educativas debido a la complejidad del contenido y a los requisitos de reporte de baja granularidad. El Análisis de Sentimientos Basado en Aspectos (ABSA, por sus siglas en inglés) ofrece una solución prometedora con sus capacidades avanzadas de minería de opiniones a nivel de suboraciones. No obstante, las investigaciones y recursos existentes sobre ABSA están muy enfocados en el ámbito comercial. En el campo educativo, son escasos y difíciles de desarrollar debido a la limitada disponibilidad de conjuntos de datos públicos y a las estrictas normas de protección de datos. Se necesita urgentemente un conjunto de datos anotado de alta calidad para impulsar la investigación en esta área con recursos limitados. En este trabajo, presentamos EduRABSA (Education Review ABSA), el primer conjunto de datos público y anotado de ABSA para revisiones educativas que abarca tres tipos de sujetos de revisión (curso, personal docente, universidad) en idioma inglés y todas las tareas principales de ABSA, incluyendo la extracción de aspectos implícitos y opiniones implícitas, áreas poco exploradas. También compartimos ASQE-DPT (Herramienta de Procesamiento de Datos), una herramienta ligera, sin necesidad de instalación y fuera de línea para la anotación manual de datos que genera conjuntos de datos etiquetados para tareas completas de ABSA a partir de una anotación de tarea única. Juntos, estos recursos contribuyen a la comunidad de ABSA y al ámbito educativo al eliminar la barrera de los conjuntos de datos, apoyar la transparencia y reproducibilidad de la investigación, y permitir la creación y el intercambio de más recursos. El conjunto de datos, la herramienta de anotación, así como los scripts y estadísticas para el procesamiento y muestreo del conjunto de datos, están disponibles en https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.