Artículos de investigación en IA seleccionados diariamente con traducciones
Los métodos de aprendizaje por refuerzo sin crítico, particularmente las políticas de grupo, han atraído considerable atención por su eficiencia en tareas complejas. Sin embargo, estos métodos dependen en gran medida de múltiples muestreos y comparaciones dentro de la política para estimar la ventaja, lo que puede hacer que la política caiga en óptimos locales y aumente el costo computacional. Para abordar estos problemas, proponemos PVPO, un método eficiente de aprendizaje por refuerzo mejorado por un ancla de referencia de ventaja y un pre-muestreo de datos. Específicamente, utilizamos el modelo de referencia para realizar simulaciones con anticipación y empleamos la puntuación de recompensa calculada como un ancla de referencia. Nuestro enfoque corrige eficazmente el sesgo acumulado introducido por las comparaciones intragrupo y reduce significativamente la dependencia del número de simulaciones. Mientras tanto, el modelo de referencia puede evaluar la dificultad de las muestras durante el pre-muestreo de datos, permitiendo una selección efectiva de datos de alto rendimiento para mejorar la eficiencia del entrenamiento. Los experimentos realizados en nueve conjuntos de datos en dos dominios demuestran que PVPO alcanza un rendimiento de última generación (State-Of-The-Art, SOTA). Nuestro enfoque no solo demuestra una generalización robusta en múltiples tareas, sino que también exhibe un rendimiento escalable en modelos de diferentes escalas.
Se ha realizado una extensa investigación para explorar las capacidades de los modelos de lenguaje de gran escala (LLMs) en el razonamiento sobre tablas. Sin embargo, la tarea esencial de transformar la información de las tablas en informes sigue siendo un desafío significativo para las aplicaciones industriales. Esta tarea se ve afectada por dos problemas críticos: 1) la complejidad y diversidad de las tablas conducen a resultados de razonamiento subóptimos; y 2) los benchmarks existentes para tablas carecen de la capacidad para evaluar adecuadamente la aplicación práctica de esta tarea. Para llenar este vacío, proponemos la tarea de tabla-a-informe y construimos un benchmark bilingüe llamado T2R-bench, donde se sigue el flujo clave de información desde las tablas hasta los informes para esta tarea. El benchmark comprende 457 tablas industriales, todas derivadas de escenarios del mundo real y abarcando 19 dominios industriales, así como 4 tipos de tablas industriales. Además, proponemos un criterio de evaluación para medir de manera justa la calidad de la generación de informes. Los experimentos con 25 LLMs ampliamente utilizados revelan que incluso modelos de última generación como Deepseek-R1 solo alcanzan un rendimiento con una puntuación general de 62.71, lo que indica que los LLMs aún tienen margen de mejora en T2R-bench. El código fuente y los datos estarán disponibles después de la aceptación.
Los recientes avances en las capacidades de razonamiento y planificación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido su potencial como agentes autónomos capaces de utilizar herramientas en entornos dinámicos. Sin embargo, en entornos conversacionales de múltiples turnos como tau-bench, estos agentes suelen tener dificultades con el razonamiento consistente, el cumplimiento de políticas específicas del dominio y la extracción de información correcta a lo largo de un horizonte prolongado de llamadas a herramientas y conversaciones. Para capturar y mitigar estos fallos, realizamos un análisis manual exhaustivo de los errores comunes que ocurren en las trayectorias de conversación. Luego, experimentamos con reformulaciones de las entradas al agente que llama a herramientas para mejorar la toma de decisiones del agente. Finalmente, proponemos el marco de Multi-Agente de Reformulación de Entradas (IRMA, por sus siglas en inglés), que reformula automáticamente las consultas de los usuarios aumentadas con reglas relevantes del dominio y sugerencias de herramientas para que el agente que llama a herramientas se enfoque en ellas. Los resultados muestran que IRMA supera significativamente a ReAct, Function Calling y Self-Reflection en un 16,1%, 12,7% y 19,1%, respectivamente, en las puntuaciones generales de pass^5. Estos hallazgos resaltan la superior confiabilidad y consistencia de IRMA en comparación con otros métodos en entornos dinámicos.
La detección de defectos superficiales es una tarea crítica en numerosas industrias, cuyo objetivo es identificar y localizar de manera eficiente imperfecciones o irregularidades en componentes manufacturados. Aunque se han propuesto numerosos métodos, muchos no cumplen con las demandas industriales de alto rendimiento, eficiencia y adaptabilidad. Los enfoques existentes suelen estar limitados a escenarios de supervisión específicos y tienen dificultades para adaptarse a las diversas anotaciones de datos encontradas en los procesos de fabricación del mundo real, como configuraciones no supervisadas, débilmente supervisadas, de supervisión mixta y totalmente supervisadas. Para abordar estos desafíos, proponemos SuperSimpleNet, un modelo discriminativo altamente eficiente y adaptable basado en SimpleNet. SuperSimpleNet incorpora un novedoso proceso de generación de anomalías sintéticas, una cabeza de clasificación mejorada y un procedimiento de aprendizaje optimizado, lo que permite un entrenamiento eficiente en los cuatro escenarios de supervisión, convirtiéndolo en el primer modelo capaz de aprovechar completamente todas las anotaciones de datos disponibles. SuperSimpleNet establece un nuevo estándar de rendimiento en todos los escenarios, como lo demuestran sus resultados en cuatro conjuntos de datos de referencia desafiantes. Además de su precisión, es extremadamente rápido, logrando un tiempo de inferencia inferior a 10 ms. Con su capacidad para unificar diversos paradigmas de supervisión mientras mantiene una velocidad y fiabilidad sobresalientes, SuperSimpleNet representa un paso prometedor hacia la solución de los desafíos de fabricación del mundo real y la reducción de la brecha entre la investigación académica y las aplicaciones industriales. Código: https://github.com/blaz-r/SuperSimpleNet
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) entrenados principalmente en corpus en inglés a menudo tienen dificultades para captar los matices lingüísticos y culturales del árabe. Para abordar esta brecha, la Autoridad Saudí de Datos e Inteligencia Artificial (SDAIA) introdujo la familia de modelos ALLaM, centrados en el árabe. El más capaz de estos disponible públicamente, ALLaM-34B, fue posteriormente adoptado por HUMAIN, quienes desarrollaron e implementaron HUMAIN Chat, un servicio web conversacional cerrado basado en este modelo. Este artículo presenta una evaluación ampliada y refinada a nivel de interfaz de usuario (UI) de ALLaM-34B. Utilizando un conjunto de indicaciones que abarca el árabe estándar moderno, cinco dialectos regionales, cambio de código, conocimiento factual, razonamiento aritmético y temporal, generación creativa y seguridad adversaria, recopilamos 115 salidas (23 indicaciones multiplicadas por 5 ejecuciones) y calificamos cada una con tres modelos de lenguaje de vanguardia como jueces (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Calculamos medias a nivel de categoría con intervalos de confianza del 95%, analizamos las distribuciones de puntuaciones y visualizamos mapas de calor de métricas por dialecto. El análisis actualizado revela un rendimiento consistentemente alto en tareas de generación y cambio de código (ambas con un promedio de 4.92/5), junto con resultados sólidos en el manejo del árabe estándar moderno (4.74/5), una capacidad de razonamiento robusta (4.64/5) y una fidelidad mejorada en dialectos (4.21/5). Las indicaciones relacionadas con la seguridad muestran un rendimiento estable y confiable (4.54/5). En conjunto, estos resultados posicionan a ALLaM-34B como un modelo de lenguaje árabe robusto y culturalmente fundamentado, demostrando tanto fortaleza técnica como preparación práctica para su implementación en el mundo real.
La cognición espacial permite comportamientos adaptativos orientados a objetivos mediante la construcción de modelos internos del espacio. Los sistemas biológicos robustos consolidan el conocimiento espacial en tres formas interconectadas: puntos de referencia para señales destacadas, conocimiento de rutas para trayectorias de movimiento y conocimiento de mapas para representaciones similares a mapas. Si bien los avances recientes en modelos de lenguaje multimodal (MLLMs) han permitido el razonamiento visual-lingüístico en agentes corporizados, estos esfuerzos carecen de memoria espacial estructurada y, en cambio, operan de manera reactiva, lo que limita su generalización y adaptabilidad en entornos complejos del mundo real. Aquí presentamos Brain-inspired Spatial Cognition for Navigation (BSC-Nav), un marco unificado para construir y aprovechar la memoria espacial estructurada en agentes corporizados. BSC-Nav construye mapas cognitivos alocéntricos a partir de trayectorias egocéntricas y señales contextuales, y recupera dinámicamente el conocimiento espacial alineado con objetivos semánticos. Integrado con potentes MLLMs, BSC-Nav logra una eficacia y eficiencia de vanguardia en diversas tareas de navegación, demuestra una fuerte generalización en escenarios de cero disparos y respalda comportamientos corporizados versátiles en el mundo físico real, ofreciendo un camino escalable y biológicamente fundamentado hacia la inteligencia espacial de propósito general.
Este artículo presenta Democracy-in-Silico, una simulación basada en agentes donde sociedades de agentes de IA avanzados, dotados de complejas personalidades psicológicas, se autogobiernan bajo diferentes marcos institucionales. Exploramos lo que significa ser humano en una era de IA al encargar a Modelos de Lenguaje de Gran Escala (LLMs) que encarnen agentes con recuerdos traumáticos, agendas ocultas y desencadenantes psicológicos. Estos agentes participan en deliberaciones, legislación y elecciones bajo diversos factores de estrés, como crisis presupuestarias y escasez de recursos. Presentamos una nueva métrica, el Índice de Preservación del Poder (PPI), para cuantificar comportamientos desalineados en los que los agentes priorizan su propio poder sobre el bienestar público. Nuestros hallazgos demuestran que el diseño institucional, específicamente la combinación de una carta de IA Constitucional (CAI) y un protocolo de deliberación mediada, sirve como un mecanismo de alineación potente. Estas estructuras reducen significativamente el comportamiento corrupto de búsqueda de poder, mejoran la estabilidad de las políticas y aumentan el bienestar ciudadano en comparación con modelos democráticos menos restringidos. La simulación revela que un diseño institucional puede ofrecer un marco para alinear los comportamientos emergentes y complejos de futuras sociedades de agentes artificiales, obligándonos a reconsiderar qué rituales y responsabilidades humanas son esenciales en una era de autoría compartida con entidades no humanas.