Artículos de investigación en IA seleccionados diariamente con traducciones
Al igual que los estudiantes que se enfrentan a preguntas difíciles en un examen, los modelos de lenguaje grandes a veces adivinan cuando no están seguros, produciendo afirmaciones plausibles pero incorrectas en lugar de admitir incertidumbre. Tales "alucinaciones" persisten incluso en los sistemas más avanzados y socavan la confianza. Argumentamos que los modelos de lenguaje alucinan porque los procedimientos de entrenamiento y evaluación recompensan la adivinación en lugar de reconocer la incertidumbre, y analizamos las causas estadísticas de las alucinaciones en el proceso moderno de entrenamiento. Las alucinaciones no tienen por qué ser misteriosas: se originan simplemente como errores en la clasificación binaria. Si las afirmaciones incorrectas no pueden distinguirse de los hechos, entonces las alucinaciones en los modelos de lenguaje preentrenados surgirán debido a presiones estadísticas naturales. Luego argumentamos que las alucinaciones persisten debido a la forma en que se califican la mayoría de las evaluaciones: los modelos de lenguaje están optimizados para ser buenos en exámenes, y adivinar cuando hay incertidumbre mejora el rendimiento en las pruebas. Esta "epidemia" de penalizar respuestas inciertas solo puede abordarse mediante una mitigación socio-técnica: modificando la puntuación de los puntos de referencia existentes que están desalineados pero dominan las clasificaciones, en lugar de introducir evaluaciones adicionales de alucinaciones. Este cambio podría guiar al campo hacia sistemas de IA más confiables.
Los modelos de lenguaje de predicción de siguiente token autoregresivos ofrecen capacidades potentes, pero enfrentan desafíos significativos en su implementación práctica debido a los altos costos computacionales y de memoria durante la inferencia, particularmente en la etapa de decodificación. Introducimos Set Block Decoding (SBD), un paradigma simple y flexible que acelera la generación al integrar la predicción estándar de siguiente token (NTP) y la predicción de tokens enmascarados (MATP) dentro de una única arquitectura. SBD permite al modelo muestrear múltiples tokens futuros, no necesariamente consecutivos, en paralelo, una distinción clave respecto a métodos de aceleración previos. Esta flexibilidad permite el uso de solucionadores avanzados de la literatura de difusión discreta, ofreciendo aceleraciones significativas sin sacrificar precisión. SBD no requiere cambios arquitectónicos ni hiperparámetros adicionales de entrenamiento, mantiene la compatibilidad con el almacenamiento exacto de KV-caching y puede implementarse mediante el ajuste fino de modelos existentes de predicción de siguiente token. Al ajustar Llama-3.1 8B y Qwen-3 8B, demostramos que SBD permite una reducción de 3 a 5 veces en el número de pasos hacia adelante requeridos para la generación, logrando el mismo rendimiento que el entrenamiento equivalente con NTP.
Los modelos de lenguaje de gran escala (LLMs) sobresalen en la síntesis de programas, pero su capacidad para producir programas de gráficos simbólicos (SGPs) que se renderizan en contenido visual preciso sigue siendo poco explorada. Estudiamos la programación de gráficos simbólicos, donde el objetivo es generar un SGP a partir de una descripción en lenguaje natural. Esta tarea también sirve como una lente para entender cómo los LLMs comprenden el mundo visual al incitarlos a generar imágenes renderizadas a partir de SGPs. Entre varios SGPs, nuestro artículo se centra en gráficos vectoriales escalables (SVGs). Comenzamos examinando hasta qué punto los LLMs pueden generar SGPs. Para ello, introducimos SGP-GenBench, un benchmark integral que cubre fidelidad de objetos, fidelidad de escenas y composicionalidad (vinculación de atributos, relaciones espaciales, numeración). En SGP-GenBench, descubrimos que los modelos propietarios de vanguardia superan sustancialmente a los modelos de código abierto, y el rendimiento se correlaciona bien con las capacidades generales de codificación. Motivados por esta brecha, buscamos mejorar la capacidad de los LLMs para generar SGPs. Proponemos un enfoque de aprendizaje por refuerzo (RL) con recompensas verificables, donde una puerta de validez de formato asegura SVG renderizable, y una recompensa multimodal alinea el texto y la imagen renderizada mediante codificadores visuales potentes (por ejemplo, SigLIP para texto-imagen y DINO para imagen-imagen). Aplicado a Qwen-2.5-7B, nuestro método mejora sustancialmente la calidad y semántica de la generación de SVG, logrando un rendimiento comparable con los sistemas de vanguardia. Además, analizamos la dinámica del entrenamiento, mostrando que RL induce (i) una descomposición más fina de objetos en primitivas controlables y (ii) detalles contextuales que mejoran la coherencia de la escena. Nuestros resultados demuestran que la programación de gráficos simbólicos ofrece una lente precisa e interpretable sobre la fundamentación multimodal.
La estimación de la iluminación de una escena a partir de una sola imagen o video sigue siendo un desafío persistente en visión por computadora y gráficos. Los enfoques basados en aprendizaje están limitados por la escasez de mapas de entorno HDR de referencia, que son costosos de capturar y tienen una diversidad limitada. Aunque los modelos generativos recientes ofrecen fuertes priors para la síntesis de imágenes, la estimación de la iluminación sigue siendo difícil debido a su dependencia de indicios visuales indirectos, la necesidad de inferir contexto global (no local) y la recuperación de salidas de alto rango dinámico. Proponemos LuxDiT, un enfoque novedoso basado en datos que ajusta un transformador de difusión de video para generar mapas de entorno HDR condicionados por una entrada visual. Entrenado en un gran conjunto de datos sintéticos con diversas condiciones de iluminación, nuestro modelo aprende a inferir la iluminación a partir de indicios visuales indirectos y generaliza eficazmente a escenas del mundo real. Para mejorar la alineación semántica entre la entrada y el mapa de entorno predicho, introducimos una estrategia de ajuste fino de adaptación de bajo rango utilizando un conjunto de datos recopilado de panoramas HDR. Nuestro método produce predicciones de iluminación precisas con detalles angulares de alta frecuencia realistas, superando las técnicas existentes de vanguardia tanto en evaluaciones cuantitativas como cualitativas.
Los avances recientes en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en diversas tareas de visión y lenguaje. Sin embargo, sus habilidades de razonamiento en el dominio multimodal de la música simbólica siguen siendo en gran medida inexploradas. Presentamos WildScore, el primer punto de referencia de razonamiento y análisis multimodal de música simbólica en entornos reales, diseñado para evaluar la capacidad de los MLLMs para interpretar partituras musicales del mundo real y responder a consultas musicológicas complejas. Cada instancia en WildScore proviene de composiciones musicales genuinas y está acompañada de preguntas y discusiones auténticas generadas por usuarios, capturando las complejidades del análisis musical práctico. Para facilitar una evaluación sistemática, proponemos una taxonomía sistemática que comprende ontologías musicológicas tanto de alto nivel como detalladas. Además, enmarcamos el razonamiento musical complejo como una tarea de respuesta a preguntas de opción múltiple, permitiendo una evaluación controlada y escalable de la comprensión de la música simbólica por parte de los MLLMs. La evaluación empírica de los MLLMs más avanzados en WildScore revela patrones intrigantes en su razonamiento visual-simbólico, descubriendo tanto direcciones prometedoras como desafíos persistentes para los MLLMs en el razonamiento y análisis de la música simbólica. Publicamos el conjunto de datos y el código.
Investigaciones recientes se han centrado cada vez más en el desarrollo de modelos de mundos 3D que simulan escenarios complejos del mundo real. Los modelos de mundos han encontrado aplicaciones amplias en diversos dominios, incluyendo la inteligencia artificial encarnada, la conducción autónoma, el entretenimiento, entre otros. Una simulación más realista con física precisa reducirá efectivamente la brecha entre simulación y realidad y nos permitirá recopilar información rica sobre el mundo real de manera conveniente. Si bien el modelado manual tradicional ha permitido la creación de escenas virtuales en 3D, los enfoques modernos han aprovechado algoritmos avanzados de aprendizaje automático para la generación de mundos 3D, con los avances más recientes centrados en métodos generativos que pueden crear mundos virtuales basados en instrucciones del usuario. Este trabajo explora dicha dirección de investigación al proponer LatticeWorld, un marco de generación de mundos 3D simple pero efectivo que optimiza la línea de producción industrial de entornos 3D. LatticeWorld aprovecha modelos de lenguaje livianos (LLaMA-2-7B) junto con un motor de renderizado de grado industrial (por ejemplo, Unreal Engine 5) para generar un entorno dinámico. Nuestro marco propuesto acepta descripciones textuales e instrucciones visuales como entradas multimodales y crea mundos interactivos en 3D a gran escala con agentes dinámicos, destacando interacciones competitivas entre múltiples agentes, simulación de física de alta fidelidad y renderizado en tiempo real. Realizamos experimentos exhaustivos para evaluar LatticeWorld, demostrando que logra una precisión superior en la generación de disposición de escenas y fidelidad visual. Además, LatticeWorld logra un aumento de más de 90 veces en la eficiencia de producción industrial mientras mantiene una alta calidad creativa en comparación con los métodos tradicionales de producción manual. Nuestro video de demostración está disponible en https://youtu.be/8VWZXpERR18.
Presentamos WinT3R, un modelo de reconstrucción de avance capaz de predecir en tiempo real poses precisas de cámara y mapas de puntos de alta calidad. Los métodos anteriores enfrentan un compromiso entre la calidad de la reconstrucción y el rendimiento en tiempo real. Para abordar esto, primero introducimos un mecanismo de ventana deslizante que garantiza un intercambio suficiente de información entre los fotogramas dentro de la ventana, mejorando así la calidad de las predicciones geométricas sin un gran costo computacional. Además, aprovechamos una representación compacta de las cámaras y mantenemos un grupo global de tokens de cámara, lo que mejora la confiabilidad de la estimación de la pose de la cámara sin sacrificar la eficiencia. Estos diseños permiten que WinT3R alcance un rendimiento de vanguardia en términos de calidad de reconstrucción en tiempo real, estimación de la pose de la cámara y velocidad de reconstrucción, como lo validan extensos experimentos en diversos conjuntos de datos. El código y el modelo están disponibles públicamente en https://github.com/LiZizun/WinT3R.
El progreso en muchos dominios de tareas surge de revisiones repetidas de intentos previos de solución. Entrenar agentes que puedan mejorar de manera confiable a lo largo de tales secuencias durante el tiempo de inferencia es un objetivo natural para el aprendizaje por refuerzo (RL, por sus siglas en inglés). Sin embargo, el enfoque ingenuo asume una profundidad máxima fija de iteración, lo cual puede ser tanto costoso como arbitrario. Presentamos Iteración Exploratoria (ExIt), una familia de métodos de RL con autocurrículo que explota directamente la estructura recurrente de las tareas de auto-mejora para entrenar modelos de lenguaje grandes (LLMs) a realizar auto-mejora de múltiples pasos durante el tiempo de inferencia, mientras solo se entrenan en las iteraciones de un solo paso más informativas. ExIt expande un espacio de tareas al muestrear selectivamente los historiales intermedios y parciales más informativos encontrados durante un episodio para continuar la iteración, tratando estos puntos de partida como nuevas instancias de tareas de auto-iteración para entrenar una política de auto-mejora. ExIt puede además combinarse con mecanismos de exploración explícita para mantener una mayor diversidad de tareas. A través de varios dominios, que incluyen matemáticas competitivas, uso de herramientas de múltiples turnos e ingeniería de aprendizaje automático, demostramos que las estrategias de ExIt, comenzando desde una sola o muchas instancias de tareas, pueden producir políticas que exhiben una fuerte auto-mejora durante el tiempo de inferencia en instancias de tareas retenidas, y la capacidad de iterar hacia un mayor rendimiento dentro de un presupuesto de pasos que se extiende más allá de la profundidad promedio de iteración encontrada durante el entrenamiento.
Los puntos de referencia actuales para los Modelos de Lenguaje de Gran Escala (LLMs) se centran principalmente en métricas de rendimiento, a menudo sin capturar las características conductuales matizadas que los diferencian. Este artículo presenta un novedoso marco de "Huella Conductual" diseñado para ir más allá de la evaluación tradicional, creando un perfil multifacético de los estilos cognitivos e interactivos intrínsecos de un modelo. Utilizando un conjunto de Indicaciones Diagnósticas cuidadosamente seleccionado y una innovadora tubería de evaluación automatizada en la que un LLM potente actúa como juez imparcial, analizamos dieciocho modelos a través de diferentes niveles de capacidad. Nuestros resultados revelan una divergencia crítica en el panorama de los LLMs: mientras que las capacidades centrales, como el razonamiento abstracto y causal, están convergiendo entre los modelos más avanzados, los comportamientos relacionados con la alineación, como la sicofancia y la robustez semántica, varían drásticamente. Además, documentamos una agrupación de personalidad predeterminada entre modelos (ISTJ/ESTJ) que probablemente refleja incentivos comunes de alineación. En conjunto, esto sugiere que la naturaleza interactiva de un modelo no es una propiedad emergente de su escala o poder de razonamiento, sino una consecuencia directa de estrategias de alineación específicas y altamente variables por parte de los desarrolladores. Nuestro marco proporciona una metodología reproducible y escalable para descubrir estas profundas diferencias conductuales. Proyecto: https://github.com/JarvisPei/Behavioral-Fingerprinting
La efectividad de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) suele evaluarse mediante puntos de referencia como MMLU, ARC-C o HellaSwag, donde las preguntas se presentan en su redacción original, es decir, en un formato fijo y estandarizado. Sin embargo, las aplicaciones del mundo real implican variabilidad lingüística, lo que requiere que los modelos mantengan su efectividad frente a diversas reformulaciones de la misma pregunta o consulta. En este estudio, evaluamos sistemáticamente la robustez de los LLMs ante preguntas de referencia parafraseadas e investigamos si las evaluaciones basadas en puntos de referencia proporcionan una medida confiable de las capacidades de los modelos. Generamos sistemáticamente varias paráfrasis de todas las preguntas en seis puntos de referencia comunes diferentes y medimos las variaciones resultantes en la efectividad de 34 LLMs de última generación, de diferentes tamaños y niveles de efectividad. Nuestros hallazgos revelan que, aunque las clasificaciones de los LLMs se mantienen relativamente estables frente a entradas parafraseadas, las puntuaciones absolutas de efectividad cambian y disminuyen significativamente. Esto sugiere que los LLMs tienen dificultades con la variabilidad lingüística, lo que plantea preocupaciones sobre sus habilidades de generalización y las metodologías de evaluación. Además, la caída observada en el rendimiento cuestiona la confiabilidad de las evaluaciones basadas en puntos de referencia, indicando que las puntuaciones altas en estos pueden no capturar completamente la robustez de un modelo frente a variaciones de entrada del mundo real. Discutimos las implicaciones de estos hallazgos para las metodologías de evaluación de LLMs, enfatizando la necesidad de puntos de referencia que consideren la robustez y reflejen mejor los escenarios de implementación práctica.
Los errores diagnósticos radiológicos—errores de sublectura, ceguera por falta de atención y fallos en la comunicación—siguen siendo prevalentes en la práctica clínica. Estos problemas a menudo se originan por la omisión de anomalías localizadas, un contexto global limitado y la variabilidad en el lenguaje de los informes. Estos desafíos se amplifican en la imagenología 3D, donde los clínicos deben examinar cientos de cortes por escaneo. Para abordarlos, se requieren sistemas con detección localizada precisa, razonamiento a nivel de volumen global e informes en lenguaje natural semánticamente consistentes. Sin embargo, los modelos existentes de visión-lenguaje en 3D no pueden satisfacer estas tres necesidades de manera conjunta, careciendo de una comprensión local-global para el razonamiento espacial y enfrentando dificultades con la variabilidad y el ruido de los informes radiológicos no curados. Presentamos MedVista3D, un marco de preentrenamiento de visión-lenguaje enriquecido semánticamente a múltiples escalas para el análisis de tomografías computarizadas 3D. Para permitir la detección conjunta de enfermedades y una interpretación holística, MedVista3D realiza una alineación local y global de imagen-texto para el aprendizaje de representaciones de grano fino dentro del contexto de volumen completo. Para abordar la variabilidad de los informes, aplicamos reescrituras con modelos de lenguaje e introducimos un Banco de Coincidencia Semántica Radiológica para una alineación consciente de la semántica. MedVista3D logra un rendimiento de vanguardia en la clasificación de enfermedades en modo zero-shot, recuperación de informes y respuesta a preguntas visuales médicas, mientras se transfiere eficazmente a la segmentación de órganos y la predicción de pronósticos. Se liberarán el código y los conjuntos de datos.
Proponemos U-Arm, un marco de teleoperación líder-seguidor de bajo costo y rápida adaptabilidad diseñado para interactuar con la mayoría de los brazos robóticos disponibles comercialmente. Nuestro sistema admite la teleoperación a través de tres brazos líderes impresos en 3D estructuralmente distintos que comparten una lógica de control consistente, lo que permite una compatibilidad perfecta con diversas configuraciones de robots comerciales. En comparación con interfaces líder-seguidor de código abierto anteriores, optimizamos tanto el diseño mecánico como la selección de servomotores, logrando un costo de materiales (BOM) de solo \$50.5 para el brazo líder de 6 grados de libertad (DoF) y \$56.8 para la versión de 7 DoF. Para mejorar la usabilidad, mitigamos el desafío común de controlar grados de libertad redundantes mediante optimizaciones mecánicas y de control. Los resultados experimentales demuestran que U-Arm logra un 39\% más de eficiencia en la recopilación de datos y tasas de éxito comparables en múltiples escenarios de manipulación en comparación con Joycon, otra interfaz de teleoperación de bajo costo. Hemos liberado todos los modelos CAD de las tres configuraciones y también proporcionamos soporte de simulación para validar flujos de trabajo de teleoperación. Además, hemos liberado datos de manipulación del mundo real recopilados con U-Arm. El sitio web del proyecto es https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm.