Artículos de investigación en IA seleccionados diariamente con traducciones
El Embedding de Posición Rotatoria (RoPE) en modelos Transformer tiene límites inherentes que debilitan la extrapolación de longitud. Reinterpretamos el mapa de atención con codificación posicional como un mapa de características ruidoso y proponemos Denoising Positional Encoding (DoPE), un método sin entrenamiento basado en la entropía de matriz truncada para detectar bandas de frecuencia atípicas en el mapa de características. Aprovechando las características de ruido del mapa de características, lo reparametrizamos adicionalmente con una distribución Gaussiana sin parámetros para lograr una extrapolación robusta. Nuestro método revela teóricamente la causa subyacente del fenómeno del sumidero de atención y su conexión con la entropía de matriz truncada. Los experimentos en tareas de aprendizaje en contexto de "aguja en un pajar" y de muchos ejemplos demuestran que DoPE mejora significativamente la precisión de recuperación y la estabilidad del razonamiento en contextos extendidos (hasta 64K tokens). Los resultados muestran que la estrategia de eliminación de ruido para los embeddings posicionales mitiga eficazmente los sumideros de atención y restaura patrones de atención equilibrados, proporcionando una solución simple pero poderosa para mejorar la generalización de longitud. Nuestra página del proyecto es: https://The-physical-picture-of-LLMs.github.io.
Los recientes avances en modelos multimodales unificados (UMMs) han permitido un progreso impresionante en comprensión y generación visual. Sin embargo, los conjuntos de datos y benchmarks existentes se centran principalmente en interacciones de un solo turno, sin capturar la naturaleza multiturno y dependiente del contexto propia de la creación y edición de imágenes en el mundo real. Para abordar esta brecha, presentamos WEAVE, el primer conjunto de herramientas para la comprensión y generación intercalada en contexto entre modalidades. Nuestro conjunto consta de dos partes complementarias. WEAVE-100k es un conjunto de datos a gran escala de 100.000 muestras intercaladas que abarca más de 370.000 turnos de diálogo y 500.000 imágenes, cubriendo tareas de comprensión, edición y generación que requieren razonamiento sobre el contexto histórico. WEAVEBench es un benchmark anotado manualmente con 100 tareas basadas en 480 imágenes, que presenta un marco de evaluación híbrido con juez VLM basado tanto en la imagen de referencia como en la combinación de la imagen original con las instrucciones de edición, que evalúa las capacidades de los modelos en generación multiturno, memoria visual y razonamiento con conocimiento del mundo a través de diversos dominios. Los experimentos demuestran que el entrenamiento con WEAVE-100k permite capacidades de comprensión visual, edición de imágenes y colaboración comprensión-generación. Además, facilita que los UMMs desarrollen capacidades emergentes de memoria visual, mientras que las evaluaciones exhaustivas en WEAVEBench exponen las limitaciones persistentes y los desafíos de los enfoques actuales en la generación y edición de imágenes multiturno y conscientes del contexto. Creemos que WEAVE ofrece una perspectiva y una base para estudiar la comprensión y generación intercalada en contexto para la comunidad multimodal.
Introducimos Virtual Width Networks (VWN), un marco que ofrece los beneficios de representaciones más amplias sin incurrir en el coste cuadrático de aumentar el tamaño de la capa oculta. VWN desacopla el ancho representacional del ancho de la red troncal, expandiendo el espacio de *embeddings* mientras mantiene el cómputo de la red troncal casi constante. En nuestro experimento a gran escala, una expansión de 8 veces acelera la optimización en más de 2 veces para la predicción del siguiente token y en 3 veces para la predicción de los siguientes 2 tokens. La ventaja se amplía durante el entrenamiento a medida que crece tanto la brecha de la pérdida como la relación de aceleración de la convergencia, lo que demuestra que VWN no solo es eficiente en tokens, sino también cada vez más efectivo con la escala. Además, identificamos una relación de escalado aproximadamente log-lineal entre el ancho virtual y la reducción de la pérdida, ofreciendo una base empírica inicial y una motivación para explorar el escalado de ancho virtual como una nueva dimensión de la eficiencia en modelos grandes.
El advenimiento de los Modelos Multimodales Unificados (UMMs) marca un cambio de paradigma en la inteligencia artificial, transitando desde la percepción pasiva hacia la generación activa y cross-modal. A pesar de su capacidad sin precedentes para sintetizar información, persiste una brecha crítica en la evaluación: los benchmarks existentes evalúan principalmente la comprensión discriminativa o la generación de imágenes sin restricciones por separado, sin medir el proceso cognitivo integrado del razonamiento generativo. Para cerrar esta brecha, proponemos que la construcción geométrica constituye un banco de pruebas ideal, ya que requiere inherentemente una fusión de comprensión lingüística y generación visual precisa. Presentamos GGBench, un benchmark diseñado específicamente para evaluar el razonamiento generativo geométrico. Este proporciona un marco integral para diagnosticar sistemáticamente la capacidad de un modelo no solo para comprender y razonar, sino para construir activamente una solución, estableciendo así un estándar más riguroso para la próxima generación de sistemas inteligentes. Sitio web del proyecto: https://opendatalab-raiser.github.io/GGBench/.
La programación de interfaces de usuario (UI) es un componente fundamental pero altamente complejo del desarrollo de software moderno. Los avances recientes en modelos de lenguaje visual (VLMs) destacan el potencial de la codificación automática de UI, pero los enfoques actuales enfrentan dos limitaciones principales: las capacidades de codificación multimodal siguen subdesarrolladas, y los paradigmas de un solo turno hacen poco uso de la retroalimentación visual iterativa. Abordamos estos desafíos con un paradigma interactivo de UI-a-código que refleja mejor los flujos de trabajo del mundo real y eleva el límite superior del rendimiento alcanzable. Bajo este paradigma, presentamos UI2Code^N, un modelo de lenguaje visual entrenado mediante preentrenamiento escalonado, ajuste fino y aprendizaje por refuerzo para lograr mejoras fundamentales en la codificación multimodal. El modelo unifica tres capacidades clave: generación de UI-a-código, edición de UI y pulido de UI. Exploramos además el escalado en tiempo de prueba para la generación interactiva, permitiendo el uso sistemático de retroalimentación multiturno. Los experimentos en benchmarks de UI-a-código y pulido de UI muestran que UI2Code^N establece un nuevo estado del arte entre los modelos de código abierto y alcanza un rendimiento comparable a modelos cerrados líderes como Claude-4-Sonnet y GPT-5. Nuestro código y modelos están disponibles en https://github.com/zai-org/UI2Code_N.
El panorama de la generación de vídeo está experimentando una transformación, pasando de un enfoque en la creación de clips visualmente atractivos a la construcción de entornos virtuales que admiten la interacción y mantienen la plausibilidad física. Estos avances apuntan hacia la emergencia de modelos fundacionales de vídeo que funcionan no solo como generadores visuales, sino también como modelos de mundo implícitos; es decir, modelos que simulan la dinámica física, las interacciones agente-entorno y la planificación de tareas que gobiernan mundos reales o imaginados. Esta revisión ofrece una visión sistemática de esta evolución, conceptualizando los modelos fundacionales de vídeo modernos como la combinación de dos componentes centrales: un modelo de mundo implícito y un renderizador de vídeo. El modelo de mundo codifica conocimiento estructurado sobre el mundo, incluyendo leyes físicas, dinámicas de interacción y comportamiento de los agentes. Sirve como un motor de simulación latente que permite un razonamiento visual coherente, una consistencia temporal a largo plazo y una planificación orientada a objetivos. El renderizador de vídeo transforma esta simulación latente en observaciones visuales realistas, produciendo efectivamente vídeos como una "ventana" al mundo simulado. Rastreamos la progresión de la generación de vídeo a través de cuatro generaciones, en las que las capacidades centrales avanzan paso a paso, culminando finalmente en un modelo de mundo, construido sobre un modelo de generación de vídeo, que incorpora una plausibilidad física intrínseca, una interacción multimodal en tiempo real y capacidades de planificación que abarcan múltiples escalas espacio-temporales. Para cada generación, definimos sus características principales, destacamos trabajos representativos y examinamos sus dominios de aplicación, como la robótica, la conducción autónoma y los videojuegos interactivos. Finalmente, discutimos los desafíos abiertos y los principios de diseño para los modelos de mundo de próxima generación, incluyendo el papel de la inteligencia de los agentes en la configuración y evaluación de estos sistemas. Una lista actualizada de trabajos relacionados se mantiene en este enlace.
Los Transformadores de Difusión, particularmente para la generación de vídeo, logran una calidad notable, pero sufren de una complejidad de atención cuadrática que conlleva una latencia prohibitiva. Los métodos de aceleración existentes enfrentan una disyuntiva fundamental: la estimación dinámica de patrones de atención dispersos en cada paso de desruido incurre en una alta sobrecarga computacional y errores de estimación, mientras que los patrones de dispersión estáticos permanecen fijos y a menudo son subóptimos durante todo el proceso de desruido. Identificamos una propiedad estructural clave de la atención en difusión: sus patrones de dispersión exhiben una fuerte coherencia temporal a lo largo de los pasos de desruido. Los "tiles" considerados no esenciales en el paso t normalmente permanecen así en el paso t+δ. Aprovechando esta observación, presentamos LiteAttention, un método que explota la coherencia temporal para permitir saltos de cómputo evolutivo a lo largo de la secuencia de desruido. Al marcar los tiles no esenciales de forma temprana y propagar las decisiones de salto hacia adelante, LiteAttention elimina los cálculos de atención redundantes sin las sobrecargas de un perfilado repetido, combinando la adaptabilidad de los métodos dinámicos con la eficiencia de los estáticos. Implementamos un kernel de LiteAttention altamente optimizado sobre FlashAttention y demostramos aceleraciones sustanciales en modelos de difusión de vídeo de producción, sin degradación de la calidad. El código y los detalles de implementación se publicarán públicamente.
El descubrimiento de nuevos Líquidos Iónicos (LIs) se ve obstaculizado por desafíos críticos en la predicción de propiedades, incluyendo datos limitados, baja precisión de los modelos y flujos de trabajo fragmentados. Aprovechando el poder de los Modelos de Lenguaje a Gran Escala (LLMs), presentamos AIonopedia, que hasta donde sabemos, es el primer agente basado en LLM para el descubrimiento de LIs. Impulsado por un modelo de dominio multimodal aumentado con LLM para LIs, AIonopedia permite predicciones precisas de propiedades e incorpora una arquitectura de búsqueda jerárquica para el cribado y diseño molecular. Entrenado y evaluado en un nuevo conjunto de datos de LIs exhaustivo y cuidadosamente seleccionado, nuestro modelo ofrece un rendimiento superior. Complementando estos resultados, las evaluaciones en sistemas reportados en la literatura indican que el agente puede realizar modificaciones efectivas de LIs. Yendo más allá de las pruebas offline, la eficacia práctica se confirmó mediante validación en laboratorio con experimentación real, donde el agente demostró capacidades excepcionales de generalización en tareas complejas fuera de distribución, subrayando su capacidad para acelerar el descubrimiento de LIs en el mundo real.
Los modelos lingüísticos multimodales (MLLM) han logrado avances notables en tareas de visión y lenguaje, pero continúan presentando dificultades en la comprensión espacial. Los MLLM espaciales existentes a menudo dependen de entradas 3D explícitas o modificaciones específicas de la arquitectura, y siguen limitados por conjuntos de datos a gran escala o supervisión escasa. Para abordar estas limitaciones, presentamos SpatialThinker, un MLLM con conciencia 3D entrenado con Aprendizaje por Refuerzo (RL) para integrar la fundamentación espacial estructurada con el razonamiento multi-etapa. El modelo simula la percepción espacial humana construyendo un grafo de escena con los objetos relevantes para la tarea y sus relaciones espaciales, y razonando hacia una respuesta mediante recompensas espaciales densas. SpatialThinker consta de dos contribuciones clave: (1) una canalización de síntesis de datos que genera STVQA-7K, un conjunto de datos de alta calidad para VQA espacial, y (2) un RL en línea con una recompensa espacial densa multi-objetivo que refuerza la fundamentación espacial. SpatialThinker-7B supera al ajuste fino supervisado y a la línea base de RL escaso en benchmarks de comprensión espacial y VQA del mundo real, casi duplicando la mejora del modelo base en comparación con el RL escaso, y superando a GPT-4o. Estos resultados demuestran la eficacia de combinar la supervisión espacial con el razonamiento alineado por recompensas para permitir una comprensión espacial 3D robusta con datos limitados y avanzar hacia un razonamiento visual a nivel humano en los MLLM.
Los recientes avances en los modelos de lenguaje grandes (LLMs) han sido impulsados por el aprendizaje por refuerzo con recompensas verificables (RLVR) y la escalabilidad en tiempo de prueba. Sin embargo, la longitud limitada de la salida de los LLMs restringe la profundidad de razonamiento alcanzable en un único proceso de inferencia. Los sistemas de razonamiento multiagente ofrecen una alternativa prometedora al emplear múltiples agentes, como Resolvedor, Verificador y Corrector, para refinar soluciones de forma iterativa. Aunque son efectivos en modelos de código cerrado como Gemini 2.5 Pro, presentan dificultades para generalizarse a modelos de código abierto debido a capacidades insuficientes de crítica y corrección. Para abordar esto, proponemos MarsRL, un novedoso marco de aprendizaje por refuerzo con paralelismo de pipeline agentico, diseñado para optimizar conjuntamente todos los agentes del sistema. MarsRL introduce mecanismos de recompensa específicos por agente para mitigar el ruido en las recompensas y emplea entrenamiento inspirado en pipelines para mejorar la eficiencia en el manejo de trayectorias largas. Aplicado a Qwen3-30B-A3B-Thinking-2507, MarsRL mejora la precisión en AIME2025 del 86.5% al 93.3% y en BeyondAIME del 64.9% al 73.8%, superando incluso a Qwen3-235B-A22B-Thinking-2507. Estos hallazgos resaltan el potencial de MarsRL para avanzar los sistemas de razonamiento multiagente y ampliar su aplicabilidad en diversas tareas de razonamiento.
Los detectores de vocabulario abierto logran un rendimiento impresionante en COCO, pero a menudo fallan al generalizar a conjuntos de datos del mundo real con clases fuera de distribución que no suelen encontrarse en su pre-entrenamiento. En lugar de simplemente ajustar un modelo pesado de visión y lenguaje (VLM) para nuevos dominios, presentamos RF-DETR, un transformer detector especializado y ligero que descubre curvas de Pareto de precisión-latencia para cualquier conjunto de datos objetivo mediante búsqueda de arquitectura neuronal (NAS) con pesos compartidos. Nuestro enfoque ajusta una red base pre-entrenada en un conjunto de datos objetivo y evalúa miles de configuraciones de red con diferentes compensaciones de precisión-latencia sin necesidad de re-entrenar. Además, revisitamos los "parámetros ajustables" para NAS con el fin de mejorar la transferibilidad de los DETR a diversos dominios objetivo. Notablemente, RF-DETR mejora significativamente los métodos de última generación en tiempo real anteriores en COCO y Roboflow100-VL. RF-DETR (nano) alcanza 48.0 AP en COCO, superando a D-FINE (nano) por 5.3 AP con una latencia similar, y RF-DETR (2x-large) supera a GroundingDINO (tiny) por 1.2 AP en Roboflow100-VL mientras funciona 20 veces más rápido. Hasta donde sabemos, RF-DETR (2x-large) es el primer detector en tiempo real que supera los 60 AP en COCO. Nuestro código está en https://github.com/roboflow/rf-detr.
Para ofrecer una solución unificada y flexible para la comunicación diaria de personas con discapacidad auditiva, introducimos el paradigma *Omni-Model* en la tecnología de asistencia y presentamos HI-TransPA, un asistente personal audiovisual basado en instrucciones. El modelo fusiona el habla poco clara con la dinámica labial de alta frecuencia de cuadros, permitiendo tanto la traducción como el diálogo dentro de un único marco multimodal. Para abordar los desafíos de los datos brutos ruidosos y heterogéneos y la adaptabilidad limitada de los *Omni-Models* existentes al habla con discapacidad auditiva, construimos una canalización integral de preprocesamiento y curación que detecta puntos de referencia faciales, aísla y estabiliza la región labial y evalúa cuantitativamente la calidad de las muestras multimodales. Estas puntuaciones de calidad guían una estrategia de aprendizaje curricular que primero entrena con muestras limpias y de alta confianza e incorpora progresivamente casos más difíciles para fortalecer la robustez del modelo. Además, adoptamos un codificador SigLIP combinado con un *Unified 3D-Resampler* para codificar eficientemente el movimiento labial de alta frecuencia de cuadros. Los experimentos en nuestro conjunto de datos HI-Dialogue, creado específicamente, muestran que HI-TransPA logra un rendimiento de vanguardia tanto en precisión literal como en fidelidad semántica. Este trabajo establece una base para aplicar los *Omni-Models* a la tecnología de comunicación asistiva, proporcionando un marco de modelado integral y herramientas de procesamiento esenciales para futuras investigaciones.
La optimización de los sistemas de recomendación para objetivos más allá de la precisión, como la diversidad, la novedad y la personalización, es crucial para la satisfacción del usuario a largo plazo. Para ello, los profesionales de la industria han acumulado grandes cantidades de conocimiento del dominio estructurado, que denominamos *priors* humanos (por ejemplo, taxonomías de ítems, patrones temporales). Este conocimiento se aplica típicamente mediante ajustes *post-hoc* durante la clasificación o post-clasificación. Sin embargo, este enfoque permanece disociado del aprendizaje central del modelo, lo cual es particularmente indeseable a medida que la industria se desplaza hacia modelos de base generativos de recomendación de extremo a extremo. Por otro lado, muchos métodos dirigidos a estos objetivos más allá de la precisión a menudo requieren modificaciones específicas de la arquitectura y descartan estos valiosos *priors* humanos al aprender la intención del usuario de una manera completamente no supervisada. En lugar de descartar los *priors* humanos acumulados durante años de práctica, presentamos un marco independiente de la arquitectura base que integra perfectamente estos *priors* humanos directamente en el entrenamiento de extremo a extremo de los recomendadores generativos. Mediante cabezales adaptadores ligeros, condicionados por los *priors* e inspirados en estrategias eficientes de decodificación de LLM, nuestro enfoque guía al modelo para desentrañar la intención del usuario a lo largo de ejes comprensibles para los humanos (por ejemplo, tipos de interacción, intereses a largo versus corto plazo). También introducimos una estrategia de composición jerárquica para modelar interacciones complejas entre diferentes tipos de *priors*. Experimentos exhaustivos en tres conjuntos de datos a gran escala demuestran que nuestro método mejora significativamente tanto los objetivos de precisión como los que van más allá de la precisión. También mostramos que los *priors* humanos permiten al modelo base aprovechar de manera más efectiva longitudes de contexto más largas y tamaños de modelo más grandes.
La evaluación de la traducción a nivel discursivo en dominios especializados sigue siendo insuficiente, a pesar de su centralidad para la diseminación del conocimiento y la comunicación académica multilingüe. Si bien estas traducciones exigen coherencia discursiva y una precisión terminológica estricta, los métodos de evaluación actuales se centran predominantemente en la exactitud y fluidez a nivel segmentario. Para abordar esta limitación, presentamos DiscoX, un nuevo punto de referencia para la traducción chino-inglés a nivel discursivo y de experto. Este comprende 200 textos seleccionados profesionalmente de 7 dominios, con una longitud promedio que supera los 1700 tokens. Para evaluar el rendimiento en DiscoX, también desarrollamos Metric-S, un sistema sin referencias que proporciona evaluaciones automáticas detalladas en cuanto a exactitud, fluidez y adecuación. Metric-S demuestra una fuerte consistencia con los juicios humanos, superando significativamente a las métricas existentes. Nuestros experimentos revelan una brecha de rendimiento notable: incluso los modelos de lenguaje más avanzados aún están por detrás de los expertos humanos en estas tareas. Este hallazgo valida la dificultad de DiscoX y subraya los desafíos que persisten para lograr una traducción automática de grado profesional. El punto de referencia y el sistema de evaluación propuestos proporcionan un marco robusto para una evaluación más rigurosa, facilitando los avances futuros en la traducción basada en modelos de lenguaje.
Permitir que los sistemas de IA agenticos adapten sus enfoques de resolución de problemas basándose en interacciones posteriores al entrenamiento sigue siendo un desafío fundamental. Si bien se han propuesto sistemas que actualizan y mantienen una memoria durante el tiempo de inferencia, los diseños existentes solo dirigen el sistema modificando la entrada textual a un modelo de lenguaje o agente, lo que significa que no pueden cambiar parámetros de muestreo, eliminar herramientas, modificar instrucciones del sistema o cambiar entre paradigmas agenticos y de flujo de trabajo. Por otro lado, los sistemas que se adaptan de manera más flexible requieren optimización fuera de línea y permanecen estáticos una vez desplegados. Presentamos Experience-Guided Reasoner (EGuR), que genera estrategias personalizadas —procedimientos computacionales completos que involucran llamadas a LLM, herramientas, parámetros de muestreo y lógica de control— de forma dinámica durante el tiempo de inferencia basándose en la experiencia acumulada. Logramos esto utilizando una meta-estrategia basada en LLM —una estrategia que genera estrategias— permitiendo la adaptación de todos los componentes de la estrategia (instrucciones, parámetros de muestreo, configuraciones de herramientas y lógica de control). EGuR opera mediante dos componentes: una Guía genera múltiples estrategias candidatas condicionadas al problema actual y a una memoria estructurada de experiencias pasadas, mientras que un Consolidador integra la retroalimentación de la ejecución para mejorar la generación futura de estrategias. Esto produce estrategias completas y listas para ejecutar, optimizadas para cada problema, que pueden almacenarse en caché, recuperarse y ejecutarse según sea necesario sin desperdiciar recursos. En cinco benchmarks desafiantes (AIME 2025, 3-SAT y tres tareas Big Bench Extra Hard), EGuR logra mejoras de precisión de hasta el 14 % respecto a las líneas base más sólidas, mientras reduce los costos computacionales hasta en 111 veces, mejorando ambas métricas a medida que el sistema gana experiencia.
La emoción juega un papel fundamental en la expresión basada en video, pero los sistemas existentes de generación de video se centran predominantemente en métricas visuales de bajo nivel mientras descuidan las dimensiones afectivas. Aunque el análisis de emociones ha progresado en el dominio visual, la comunidad de video carece de recursos dedicados para conectar la comprensión emocional con las tareas generativas, particularmente para contextos estilizados y no realistas. Para abordar esta brecha, presentamos EmoVid, el primer conjunto de datos de video multimodal y anotado emocionalmente diseñado específicamente para medios creativos, que incluye animaciones de dibujos animados, clips de películas y stickers animados. Cada video está anotado con etiquetas emocionales, atributos visuales (brillo, colorido, tono) y subtítulos de texto. Mediante un análisis sistemático, descubrimos patrones espaciales y temporales que vinculan las características visuales con las percepciones emocionales en diversas formas de video. Basándonos en estas observaciones, desarrollamos una técnica de generación de video condicionada por emociones mediante el ajuste fino del modelo Wan2.1. Los resultados muestran una mejora significativa tanto en las métricas cuantitativas como en la calidad visual de los videos generados para las tareas de texto-a-video e imagen-a-video. EmoVid establece un nuevo punto de referencia para la computación de video afectivo. Nuestro trabajo no solo ofrece perspectivas valiosas para el análisis de emociones visuales en videos de estilo artístico, sino que también proporciona métodos prácticos para mejorar la expresión emocional en la generación de video.
Los Modelos de Lenguaje Aumentados con Herramientas (TaLMs, por sus siglas en inglés) pueden invocar herramientas externas para resolver problemas que exceden su capacidad paramétrica. Sin embargo, aún no está claro si estas mejoras habilitadas por herramientas reflejan un razonamiento confiable. Centrándonos en la herramienta Code Interpreter, demostramos que incluso cuando las herramientas se seleccionan y ejecutan correctamente, los TaLMs tratan las salidas de las herramientas como sustitutos del razonamiento, produciendo soluciones que parecen correctas pero carecen de una justificación coherente. Denominamos a este modo de fallo **Miopía Inducida por Herramientas (TIM)**, y lo estudiamos utilizando PYMATH, un benchmark de 1.679 problemas matemáticos de nivel competitivo para los cuales el código Python es útil pero no suficiente. Además, desarrollamos una suite de evaluación multidimensional para cuantificar la degradación del razonamiento en los TaLMs en comparación con sus contrapartes sin herramientas. Nuestros hallazgos revelan que, si bien los TaLMs logran una mejora de hasta 19.3 puntos porcentuales en la precisión de la respuesta final, su comportamiento de razonamiento se deteriora consistentemente (por ejemplo, los LLMs sin herramientas ganan hasta un 41.5% más a menudo en comparaciones por pares del proceso de razonamiento). Esta degradación se intensifica con el uso de herramientas; cuanto más frecuentemente un modelo invoca herramientas, menos coherente se vuelve su razonamiento. Además, el uso de herramientas desplaza los errores desde equivocaciones aritméticas hacia fallos de razonamiento global (lógica, suposiciones, creatividad); estando TIM presente en aproximadamente el 55% de los casos de alto riesgo. Finalmente, proponemos un marco basado en optimización de preferencias que realinea a los TaLMs para usar las herramientas como evidencia de apoyo, mejorando tanto la precisión de la respuesta final como la profundidad del razonamiento bajo el uso de herramientas. Los códigos y datos están disponibles en: https://github.com/megagonlabs/TIM.
La generación de ideas científicas se encuentra en el corazón del descubrimiento científico y ha impulsado el progreso humano, ya sea resolviendo problemas no resueltos o proponiendo hipótesis novedosas para explicar fenómenos desconocidos. A diferencia del razonamiento científico estándar o la generación creativa general, la generación de ideas en la ciencia es una tarea multiobjetivo y de final abierto, donde la novedad de una contribución es tan esencial como su solidez empírica. Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) han surgido recientemente como generadores prometedores de ideas científicas, capaces de producir resultados coherentes y factuales con una intuición sorprendente y un razonamiento aceptable; sin embargo, su capacidad creativa sigue siendo inconsistente y poco comprendida. Esta revisión ofrece una síntesis estructurada de los métodos para la ideación científica impulsada por LLMs, examinando cómo los diferentes enfoques equilibran la creatividad con la solidez científica. Clasificamos los métodos existentes en cinco familias complementarias: Aumento de conocimiento externo, Dirección distribucional basada en *prompts*, Escalado en tiempo de inferencia, Colaboración multiagente y Adaptación a nivel de parámetros. Para interpretar sus contribuciones, empleamos dos marcos complementarios: la taxonomía de Boden de creatividad Combinatoria, Exploratoria y Transformacional para caracterizar el nivel de ideas que se espera que genere cada familia, y el marco de las 4P de Rhodes (Persona, Proceso, Presión y Producto) para ubicar el aspecto o fuente de creatividad que cada método enfatiza. Al alinear los avances metodológicos con los marcos de creatividad, esta revisión clarifica el estado del campo y delinea direcciones clave hacia aplicaciones confiables, sistemáticas y transformadoras de los LLMs en el descubrimiento científico.
Realizamos un análisis exhaustivo de los enunciados formales e informales en el benchmark miniF2F desde la perspectiva de un sistema de IA cuya tarea es participar en una olimpiada matemática que consta de los problemas de miniF2F. En este contexto, el modelo debe leer y comprender los problemas en lenguaje natural, formalizarlos en el lenguaje Lean, proceder a demostrar los problemas y obtendrá crédito por cada problema si la prueba formal corresponde al enunciado informal original presentado al modelo. Nuestros resultados de evaluación revelan que la precisión máxima de dicho pipeline puede ser de aproximadamente un 36% utilizando los modelos estado del arte (SoTA) de la literatura, considerablemente inferior a las precisiones SoTA individuales del 97% y 69% reportadas en la literatura de autoformalización y demostración de teoremas. Analizando los modos de fallo, atribuimos una parte considerable de esta disminución a discrepancias entre los enunciados formales e informales en más de la mitad de los problemas de miniF2F. Procedemos a corregir todos los errores, discrepancias y simplificaciones en los enunciados formales e informales, y presentamos miniF2F-v2 con enunciados y demostraciones formales e informales completamente verificados. La evaluación del pipeline completo de demostración de teoremas en miniF2F-v2 arroja una precisión máxima del 70%, una mejora significativa respecto al 40% obtenido en el miniF2F original, aunque aún indica un desalineamiento considerable entre los modelos de autoformalización y los demostradores de teoremas. Nuestro análisis en profundidad sugiere que un benchmark de mayor calidad puede ayudar a la comunidad a evaluar mejor el progreso en el campo del razonamiento formal y también a diagnosticar de manera más efectiva los modos de fallo y éxito de los modelos de autoformalización y demostración de teoremas. Nuestro conjunto de datos está disponible en https://github.com/roozbeh-yz/miniF2F_v2.
Este artículo presenta un enfoque novedoso para la categorización de los planificadores de carga de trabajo modernos. Proporcionamos descripciones de tres clases de planificadores: Planificadores de Procesos de Sistemas Operativos, Planificadores de Trabajos para Sistemas de Clúster y Planificadores para Big Data. Describimos su evolución desde las primeras implementaciones hasta las modernas, considerando tanto el uso como las características de los algoritmos. En resumen, discutimos las diferencias entre todas las clases de planificadores presentadas y analizamos su desarrollo cronológico. En conclusión, destacamos las similitudes en el enfoque del diseño de estrategias de planificación, aplicables tanto a sistemas locales como distribuidos.
La creciente implementación de agentes de IA autónomos en la web se ve obstaculizada por una desalineación fundamental: los agentes deben inferir las posibilidades de acción (affordances) a partir de interfaces de usuario diseñadas para humanos, lo que genera interacciones frágiles, ineficientes e inseguras. Para abordar este problema, presentamos VOIX, un framework nativo de la web que permite a los sitios exponer capacidades confiables, auditables y que preservan la privacidad para los agentes de IA mediante elementos HTML simples y declarativos. VOIX introduce las etiquetas `<tool>` y `<context>`, permitiendo a los desarrolladores definir explícitamente las acciones disponibles y el estado relevante, creando así un contrato claro y legible por máquinas para el comportamiento del agente. Este enfoque traslada el control al desarrollador del sitio web y preserva la privacidad del usuario al desconectar las interacciones conversacionales del sitio web. Evaluamos la practicidad, facilidad de aprendizaje y expresividad del framework en un estudio de hackathon de tres días con 16 desarrolladores. Los resultados demuestran que los participantes, independientemente de su experiencia previa, pudieron construir rápidamente aplicaciones web diversas y funcionales habilitadas para agentes. En última instancia, este trabajo proporciona un mecanismo fundamental para materializar la Web Agéntica, posibilitando un futuro de colaboración humana-IA perfecta y segura en la web.
Este artículo presenta una estrategia para asignar servicios en un sistema de Cloud sin sobrecargar los nodos y manteniendo la estabilidad del sistema con un coste mínimo. Especificamos un modelo abstracto de utilización de recursos en la nube, que incluye múltiples tipos de recursos así como consideraciones sobre los costes de migración de servicios. Se demuestra un prototipo de balanceador de carga metaheurístico y se presentan y discuten los resultados experimentales. También proponemos un novedoso algoritmo genético, donde la población se inicializa con los resultados de otros algoritmos metaheurísticos.
La percepción cooperativa entre vehículos (V2V) tiene un gran potencial para mejorar el rendimiento de la conducción autónoma al superar las limitaciones de percepción en escenarios de tráfico adversos complejos (CATS). Mientras tanto, los datos sirven como infraestructura fundamental para la IA moderna de conducción autónoma. Sin embargo, debido a los estrictos requisitos de recopilación de datos, los conjuntos de datos existentes se centran principalmente en escenarios de tráfico ordinarios, lo que limita los beneficios de la percepción cooperativa. Para abordar este desafío, presentamos CATS-V2V, el primer conjunto de datos del mundo real para percepción cooperativa V2V bajo escenarios de tráfico adversos complejos. El conjunto de datos fue recopilado por dos vehículos sincronizados temporalmente en hardware, cubriendo 10 condiciones climáticas y de iluminación en 10 ubicaciones diversas. El conjunto de datos de 100 clips incluye 60.000 fotogramas de nubes de puntos LiDAR de 10 Hz y 1,26 millones de imágenes de cámara multi-vista de 30 Hz, junto con 750.000 registros anonimizados pero de alta precisión de GNSS con corrección RTK e IMU. Correspondientemente, proporcionamos anotaciones de cajas delimitadoras 3D consistentes en el tiempo para objetos, así como escenas estáticas para construir una representación BEV 4D. Sobre esta base, proponemos un método de alineación temporal basado en objetivos, garantizando que todos los objetos estén precisamente alineados en todas las modalidades de sensores. Esperamos que CATS-V2V, el conjunto de datos más grande, más completo y de mayor calidad de su tipo hasta la fecha, beneficie a la comunidad de conducción autónoma en tareas relacionadas.