Artículos de investigación en IA seleccionados diariamente con traducciones
La generación aumentada por recuperación multi-etapa (RAG) se ha convertido en una estrategia ampliamente adoptada para mejorar los modelos de lenguaje grande (LLM) en tareas que exigen comprensión global y razonamiento intensivo. Muchos sistemas RAG incorporan un módulo de memoria de trabajo para consolidar la información recuperada. Sin embargo, los diseños de memoria existentes funcionan principalmente como almacenamiento pasivo que acumula hechos aislados con el propósito de condensar las entradas extensas y generar nuevas sub-consultas mediante deducción. Esta naturaleza estática pasa por alto las cruciales correlaciones de alto orden entre los hechos primitivos, cuyas composiciones a menudo pueden proporcionar una guía más sólida para los pasos subsiguientes. Por lo tanto, su fuerza representacional y su impacto en el razonamiento multi-etapa y la evolución del conocimiento son limitados, lo que resulta en un razonamiento fragmentado y una débil capacidad de construcción de sentido global en contextos extensos. Presentamos HGMem, un mecanismo de memoria basado en hipergrafos que extiende el concepto de memoria más allá del simple almacenamiento hacia una estructura dinámica y expresiva para el razonamiento complejo y la comprensión global. En nuestro enfoque, la memoria se representa como un hipergrafo cuyas hiperaristas corresponden a unidades de memoria distintas, permitiendo la formación progresiva de interacciones de orden superior dentro de la memoria. Este mecanismo conecta hechos y pensamientos en torno al problema central, evolucionando hacia una estructura de conocimiento integrada y situada que proporciona proposiciones sólidas para un razonamiento más profundo en pasos posteriores. Evaluamos HGMem en varios conjuntos de datos desafiantes diseñados para la construcción de sentido global. Experimentos exhaustivos y análisis en profundidad demuestran que nuestro método mejora consistentemente el RAG multi-etapa y supera sustancialmente a sistemas de referencia sólidos en diversas tareas.
Si bien los Modelos de Grandes Lenguajes Multimodales (MLLMs) recientes han logrado avances significativos en el razonamiento multimodal, sus procesos de razonamiento siguen siendo predominantemente centrados en texto, lo que conduce a un rendimiento subóptimo en tareas complejas de horizonte largo y centradas en la visión. En este artículo, establecemos un nuevo paradigma de Razonamiento Multimodal Generativo e introducimos DiffThinker, un marco de razonamiento basado en difusión. Conceptualemente, DiffThinker reformula el razonamiento multimodal como una tarea generativa nativa de imagen a imagen, logrando una superior consistencia lógica y precisión espacial en tareas centradas en la visión. Realizamos una comparación sistemática entre DiffThinker y los MLLMs, proporcionando la primera investigación en profundidad sobre las características intrínsecas de este paradigma, revelando cuatro propiedades centrales: eficiencia, controlabilidad, paralelismo nativo y colaboración. Experimentos exhaustivos en cuatro dominios (planificación secuencial, optimización combinatoria, satisfacción de restricciones y configuración espacial) demuestran que DiffThinker supera significativamente a modelos líderes de código cerrado, incluidos GPT-5 (+314.2%) y Gemini-3-Flash (+111.6%), así como a la línea base ajustada Qwen3-VL-32B (+39.0%), destacando al razonamiento multimodal generativo como un enfoque prometedor para el razonamiento centrado en la visión.
Los Modelos de Lenguaje Grandes (LLM) aplican un cómputo uniforme a todos los tokens, a pesar de que el lenguaje exhibe una densidad de información altamente no uniforme. Este régimen token-uniforme desperdicia capacidad en tramos localmente predecibles mientras sub-asigna cómputo a transiciones semánticamente críticas. Proponemos los Modelos Dinámicos de Conceptos Grandes (DLCM), un marco de modelado de lenguaje jerárquico que aprende límites semánticos a partir de representaciones latentes y desplaza el cómputo de los tokens a un espacio de conceptos comprimido donde el razonamiento es más eficiente. DLCM descubre conceptos de longitud variable de extremo a extremo sin depender de unidades lingüísticas predefinidas. La compresión jerárquica cambia fundamentalmente el comportamiento de escalado. Introducimos la primera ley de escalado consciente de la compresión, que desacopla la capacidad a nivel de token, la capacidad de razonamiento a nivel de concepto y la tasa de compresión, permitiendo una asignación de cómputo principlada bajo FLOPs fijos. Para entrenar de forma estable esta arquitectura heterogénea, desarrollamos además una parametrización μP desacoplada que soporta la transferencia *zero-shot* de hiperparámetros a través de anchos y regímenes de compresión. En un ajuste práctico (R=4, correspondiente a un promedio de cuatro tokens por concepto), DLCM reasigna aproximadamente un tercio del cómputo de inferencia a un *backbone* de razonamiento de mayor capacidad, logrando una mejora promedio de +2.69% en 12 benchmarks *zero-shot* bajo FLOPs de inferencia equivalentes.
Los modelos de difusión ofrecen propiedades atractivas para la generación de lenguaje, como la decodificación paralela y el refinamiento iterativo, pero la naturaleza discreta y altamente estructurada del texto desafía la aplicación directa de los principios de difusión. En este artículo, revisitamos el modelado de lenguaje por difusión desde la perspectiva del proceso de difusión y el modelado del lenguaje, y delineamos cinco propiedades que separan la mecánica de difusión de los requisitos específicos del lenguaje. Primero categorizamos los enfoques existentes en difusión continua en el espacio de embeddings y difusión discreta sobre tokens. Luego demostramos que cada uno satisface solo parte de las cinco propiedades esenciales y, por lo tanto, refleja un equilibrio estructural. Mediante análisis de modelos de lenguaje por difusión recientes y a gran escala, identificamos dos problemas centrales: (i) la corrupción uniforme no respeta cómo se distribuye la información entre las posiciones, y (ii) el entrenamiento marginal token-wise no puede capturar dependencias multi-token durante la decodificación paralela. Estas observaciones motivan procesos de difusión que se alineen más estrechamente con la estructura del texto, e incentivan trabajos futuros hacia modelos de lenguaje por difusión más coherentes.
La modelización generativa de video ha surgido como una herramienta convincente para razonar en modo zero-shot sobre interacciones físicas plausibles en la manipulación de entornos de mundo abierto. Sin embargo, traducir dichos movimientos guiados por humanos a las acciones de bajo nivel que requieren los sistemas robóticos sigue siendo un desafío. Observamos que, dada una imagen inicial y una instrucción de tarea, estos modelos sobresalen en sintetizar movimientos de objetos sensatos. Por ello, presentamos Dream2Flow, un marco que conecta la generación de video y el control robótico mediante el flujo de objetos 3D como representación intermedia. Nuestro método reconstruye movimientos 3D de objetos a partir de videos generados y formula la manipulación como un seguimiento de trayectorias de objetos. Al separar los cambios de estado de los actuadores que materializan dichos cambios, Dream2Flow supera la brecha de encarnación y permite una guía zero-shot a partir de modelos de video preentrenados para manipular objetos de diversas categorías, incluyendo rígidos, articulados, deformables y granulares. Mediante optimización de trayectorias o aprendizaje por refuerzo, Dream2Flow convierte el flujo de objetos 3D reconstruido en comandos de bajo nivel ejecutables sin necesidad de demostraciones específicas por tarea. Experimentos en simulación y en el mundo real destacan el flujo de objetos 3D como una interfaz general y escalable para adaptar modelos de generación de video a la manipulación robótica en mundo abierto. Los videos y visualizaciones están disponibles en https://dream2flow.github.io/.
En este trabajo, demostramos que el impacto de la capacidad del modelo varía a lo largo de los intervalos de tiempo: es crucial en las etapas iniciales y finales, pero en gran medida insignificante durante la etapa intermedia. En consecuencia, proponemos FlowBlending, una estrategia de muestreo multi-modelo consciente de la etapa que emplea un modelo grande y un modelo pequeño en las etapas sensibles a la capacidad y en las etapas intermedias, respectivamente. Además, introducimos criterios simples para elegir los límites de las etapas y proporcionamos un análisis de divergencia-velocidad como un proxy efectivo para identificar las regiones sensibles a la capacidad. En LTX-Video (2B/13B) y WAN 2.1 (1.3B/14B), FlowBlending logra una inferencia hasta 1.65 veces más rápida con un 57.35% menos de operaciones de punto flotante (FLOPs), manteniendo la fidelidad visual, la coherencia temporal y la alineación semántica de los modelos grandes. FlowBlending también es compatible con las técnicas existentes de aceleración de muestreo, permitiendo una aceleración adicional de hasta 2 veces. La página del proyecto está disponible en: https://jibin86.github.io/flowblending_project_page.
La optimización de simulación (OS) se enfrenta frecuentemente a desafíos como evaluaciones ruidosas, altos costos computacionales y espacios de búsqueda complejos y multimodales. Este artículo presenta la Optimización de Simulación Mejorada con Tábú (TESO), un novedoso marco metaheurístico que integra búsqueda adaptativa con estrategias basadas en memoria. TESO aprovecha una Lista Tábú a corto plazo para prevenir ciclos y fomentar la diversificación, y una Memoria de Élite a largo plazo para guiar la intensificación mediante la perturbación de soluciones de alto rendimiento. Un criterio de aspiración permite anular las restricciones tábú para candidatos excepcionales. Esta combinación facilita un equilibrio dinámico entre exploración y explotación en entornos estocásticos. Demostramos la eficacia y confiabilidad de TESO utilizando un problema de optimización de colas, mostrando un rendimiento mejorado en comparación con los puntos de referencia y validando la contribución de sus componentes de memoria. El código fuente y los datos están disponibles en: https://github.com/bulentsoykan/TESO.