Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos visión-lenguaje-acción (VLA, por sus siglas en inglés) han demostrado recientemente un gran potencial para permitir que los robots sigan instrucciones en lenguaje natural y ejecuten acciones precisas. Sin embargo, la mayoría de los VLA se basan en modelos visión-lenguaje preentrenados únicamente con datos 2D, lo que limita su conciencia espacial precisa y dificulta su capacidad para operar en el mundo físico tridimensional. Las soluciones existentes intentan incorporar entradas explícitas de sensores 3D, como mapas de profundidad o nubes de puntos, pero estos enfoques enfrentan desafíos debido al ruido de los sensores, la heterogeneidad del hardware y la cobertura incompleta de profundidad en los conjuntos de datos disponibles. Métodos alternativos que estiman señales 3D a partir de imágenes 2D también se ven afectados por el rendimiento limitado de los estimadores de profundidad. Proponemos Spatial Forcing (SF), una estrategia de alineación simple pero efectiva que fuerza implícitamente a los modelos VLA a desarrollar capacidades de comprensión espacial sin depender de entradas 3D explícitas o estimadores de profundidad. SF alinea los embeddings visuales intermedios de los VLA con representaciones geométricas generadas por modelos fundacionales 3D preentrenados. Al imponer esta alineación en capas intermedias, SF guía a los VLA para codificar representaciones espaciales más ricas que mejoran la precisión de las acciones. Experimentos exhaustivos en entornos de simulación y del mundo real demuestran que SF logra resultados de vanguardia, superando tanto a los VLA basados en 2D como en 3D. Además, SF acelera el entrenamiento hasta 3.8 veces y mejora la eficiencia de los datos en diversas tareas robóticas. La página del proyecto está disponible en https://spatial-forcing.github.io/.
Los modelos generativos en el espacio de píxeles suelen ser más difíciles de entrenar y, en general, tienen un rendimiento inferior en comparación con sus contrapartes en el espacio latente, lo que deja una brecha persistente en cuanto a rendimiento y eficiencia. En este artículo, presentamos un novedoso marco de entrenamiento en dos etapas que cierra esta brecha para los modelos de difusión y consistencia en el espacio de píxeles. En la primera etapa, preentrenamos codificadores para capturar semántica significativa a partir de imágenes limpias mientras las alineamos con puntos a lo largo de la misma trayectoria de muestreo determinista, la cual evoluciona puntos desde la distribución previa hacia la distribución de datos. En la segunda etapa, integramos el codificador con un decodificador inicializado aleatoriamente y ajustamos finamente el modelo completo de extremo a extremo tanto para los modelos de difusión como de consistencia. Nuestro marco de entrenamiento demuestra un fuerte rendimiento empírico en el conjunto de datos ImageNet. Específicamente, nuestro modelo de difusión alcanza un FID de 2.04 en ImageNet-256 y 2.35 en ImageNet-512 con 75 evaluaciones de función (NFE), superando ampliamente a los métodos previos en el espacio de píxeles tanto en calidad de generación como en eficiencia, mientras rivaliza con los principales modelos basados en VAE a un costo de entrenamiento comparable. Además, en ImageNet-256, nuestro modelo de consistencia logra un impresionante FID de 8.82 en un solo paso de muestreo, superando significativamente a su contraparte en el espacio latente. Hasta donde sabemos, esto marca el primer entrenamiento exitoso de un modelo de consistencia directamente en imágenes de alta resolución sin depender de VAEs o modelos de difusión preentrenados.
Los modelos de lenguaje de gran escala (LLMs) han avanzado significativamente la traducción automática (MT), aunque su eficacia en la traducción de novelas web sigue siendo incierta. Los puntos de referencia existentes se basan en métricas superficiales que no logran capturar las características distintivas de este género. Para abordar estas limitaciones, presentamos DITING, el primer marco de evaluación integral para la traducción de novelas web, que evalúa la fidelidad narrativa y cultural en seis dimensiones: traducción de modismos, ambigüedad léxica, localización de terminología, consistencia temporal, resolución de pronombres cero y seguridad cultural, respaldado por más de 18K pares de frases chino-inglés anotados por expertos. Además, proponemos AgentEval, un marco de evaluación multiagente basado en razonamiento que simula la deliberación experta para evaluar la calidad de la traducción más allá de la superposición léxica, logrando la mayor correlación con los juicios humanos entre siete métricas automáticas probadas. Para permitir la comparación de métricas, desarrollamos MetricAlign, un conjunto de datos de meta-evaluación de 300 pares de frases anotados con etiquetas de error y puntuaciones escalares de calidad. La evaluación exhaustiva de catorce modelos abiertos, cerrados y comerciales revela que los LLMs entrenados en chino superan a sus contrapartes extranjeras más grandes, y que DeepSeek-V3 ofrece las traducciones más fieles y coherentes en estilo. Nuestro trabajo establece un nuevo paradigma para explorar la traducción de novelas web basada en LLMs y proporciona recursos públicos para impulsar futuras investigaciones.
Los enfoques recientes de incrustación multimodal que aprovechan los modelos de lenguaje multimodal de gran escala (MLLM) ajustados mediante aprendizaje contrastivo (CL) han mostrado resultados prometedores, aunque las razones subyacentes detrás de su superioridad siguen siendo poco exploradas. Este trabajo argumenta que una ventaja crucial de los enfoques basados en MLLM proviene de la alineación cruzada implícita lograda durante el preentrenamiento generativo, donde el decodificador de lenguaje aprende a explotar señales multimodales dentro de un espacio de representación compartido para generar salidas unimodales. A través del análisis de la anisotropía y la estructura de similitud del núcleo, confirmamos empíricamente que surge una alineación latente dentro de las representaciones de los MLLM, permitiendo que el CL sirva como una etapa de refinamiento ligera. Aprovechando esta idea, proponemos un marco de Incrustación Omnimodal Centrado en el Lenguaje, denominado LCO-Emb. Experimentos extensos en diversos modelos de referencia y benchmarks demuestran su efectividad, logrando un rendimiento de vanguardia en todas las modalidades. Además, identificamos una Ley de Escalado Generación-Representación (GRSL), mostrando que las capacidades representativas obtenidas a través del refinamiento contrastivo escalan positivamente con las capacidades generativas del MLLM. Esto sugiere que mejorar las habilidades generativas evoluciona como un paradigma efectivo para mejorar la calidad de la representación. Proporcionamos una explicación teórica de la GRSL, que vincula formalmente la calidad generativa del MLLM con el límite superior de su rendimiento representativo, y la validamos en una tarea desafiante de recuperación visual-documental con recursos limitados, mostrando que el preentrenamiento generativo continuo antes del CL puede potenciar aún más las capacidades de incrustación del modelo. Los códigos, modelos y recursos están disponibles en https://github.com/LCO-Embedding/LCO-Embedding.
El aprendizaje robótico se encuentra en un punto de inflexión, impulsado por los rápidos avances en el aprendizaje automático y la creciente disponibilidad de datos robóticos a gran escala. Este cambio desde los métodos clásicos basados en modelos hacia paradigmas basados en datos y aprendizaje está desbloqueando capacidades sin precedentes en los sistemas autónomos. Este tutorial explora el panorama del aprendizaje robótico moderno, trazando un recorrido desde los principios fundamentales del Aprendizaje por Refuerzo y la Clonación de Comportamiento hasta modelos generalistas condicionados por lenguaje, capaces de operar en diversas tareas e incluso en diferentes encarnaciones robóticas. Este trabajo está diseñado como una guía para investigadores y profesionales, y nuestro objetivo es equipar al lector con la comprensión conceptual y las herramientas prácticas necesarias para contribuir a los avances en el aprendizaje robótico, con ejemplos listos para usar implementados en lerobot.
El avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha catalizado un cambio de paradigma desde la asistencia en la generación de código hacia agentes de codificación autónomos, permitiendo una nueva metodología de desarrollo denominada "Vibe Coding", en la que los desarrolladores validan implementaciones generadas por IA mediante la observación de resultados en lugar de la comprensión línea por línea del código. A pesar de su potencial transformador, la efectividad de este paradigma emergente sigue siendo poco explorada, con evidencia empírica que revela pérdidas inesperadas de productividad y desafíos fundamentales en la colaboración humano-IA. Para abordar esta brecha, este estudio proporciona la primera revisión exhaustiva y sistemática del Vibe Coding con modelos de lenguaje de gran escala, estableciendo tanto fundamentos teóricos como marcos prácticos para este enfoque de desarrollo transformador. Basándonos en el análisis sistemático de más de 1000 artículos de investigación, examinamos todo el ecosistema del Vibe Coding, analizando componentes críticos de la infraestructura, incluyendo LLMs para codificación, agentes de codificación basados en LLM, entornos de desarrollo de agentes de codificación y mecanismos de retroalimentación. Primero, presentamos el Vibe Coding como una disciplina formal al formalizarlo a través de un Proceso de Decisión de Markov Restringido que captura la relación triádica dinámica entre desarrolladores humanos, proyectos de software y agentes de codificación. Sobre esta base teórica, sintetizamos las prácticas existentes en cinco modelos de desarrollo distintos: Automatización sin Restricciones, Colaboración Conversacional Iterativa, Basado en Planificación, Basado en Pruebas y Modelos Mejorados por Contexto, proporcionando así la primera taxonomía exhaustiva en este dominio. De manera crítica, nuestro análisis revela que el éxito del Vibe Coding no depende únicamente de las capacidades del agente, sino de la ingeniería sistemática del contexto, entornos de desarrollo bien establecidos y modelos de desarrollo colaborativo humano-agente.
La detección de objetos ha estado dominada durante mucho tiempo por modelos tradicionales basados en regresión de coordenadas, como YOLO, DETR y Grounding DINO. Aunque esfuerzos recientes han intentado aprovechar los MLLM (Modelos de Lenguaje Multimodal) para abordar esta tarea, enfrentan desafíos como baja tasa de recuperación, predicciones duplicadas, desalineación de coordenadas, etc. En este trabajo, cerramos esta brecha y proponemos Rex-Omni, un MLLM de 3 mil millones de parámetros que logra un rendimiento de percepción de objetos de vanguardia. En benchmarks como COCO y LVIS, Rex-Omni alcanza un rendimiento comparable o superior a los modelos basados en regresión (por ejemplo, DINO, Grounding DINO) en un entorno de zero-shot. Esto es posible gracias a tres diseños clave: 1) Formulación de la tarea: utilizamos tokens especiales para representar coordenadas cuantizadas de 0 a 999, reduciendo la dificultad de aprendizaje del modelo y mejorando la eficiencia de tokens para la predicción de coordenadas; 2) Motores de datos: construimos múltiples motores de datos para generar datos de alta calidad para anclaje, referencia y señalización, proporcionando supervisión semánticamente rica para el entrenamiento; 3) Pipelines de entrenamiento: empleamos un proceso de entrenamiento en dos etapas, combinando ajuste fino supervisado en 22 millones de datos con un post-entrenamiento de refuerzo basado en GRPO. Este post-entrenamiento de RL aprovecha recompensas conscientes de la geometría para cerrar efectivamente la brecha entre la predicción de coordenadas discreta y continua, mejorar la precisión de las cajas y mitigar comportamientos no deseados como predicciones duplicadas que surgen de la naturaleza guiada por el profesor en la etapa inicial de SFT. Más allá de la detección convencional, la comprensión del lenguaje inherente de Rex-Omni permite capacidades versátiles como referencia de objetos, señalización, indicación visual, anclaje de GUI, referencia espacial, OCR y señalización de puntos clave, todas evaluadas sistemáticamente en benchmarks dedicados. Creemos que Rex-Omni allana el camino para sistemas de percepción visual más versátiles y conscientes del lenguaje.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha surgido como un paradigma fundamental para expandir los Modelos de Lenguaje de Gran Escala más allá de sus limitaciones de entrenamiento estático. Sin embargo, existe una desalineación crítica entre las capacidades actuales de RAG y los entornos de información del mundo real. Los repositorios de conocimiento modernos son inherentemente multimodales, conteniendo combinaciones ricas de contenido textual, elementos visuales, tablas estructuradas y expresiones matemáticas. No obstante, los marcos de trabajo RAG existentes se limitan al contenido textual, creando brechas fundamentales al procesar documentos multimodales. Presentamos RAG-Anything, un marco unificado que permite la recuperación integral de conocimiento a través de todas las modalidades. Nuestro enfoque reconceptualiza el contenido multimodal como entidades de conocimiento interconectadas en lugar de tipos de datos aislados. El marco introduce la construcción de grafos duales para capturar tanto las relaciones intermodales como la semántica textual dentro de una representación unificada. Desarrollamos una recuperación híbrida intermodal que combina la navegación de conocimiento estructural con la coincidencia semántica. Esto permite un razonamiento efectivo sobre contenido heterogéneo donde la evidencia relevante abarca múltiples modalidades. RAG-Anything demuestra un rendimiento superior en puntos de referencia multimodales desafiantes, logrando mejoras significativas sobre los métodos más avanzados. Las ganancias de rendimiento se vuelven particularmente pronunciadas en documentos largos donde los enfoques tradicionales fallan. Nuestro marco establece un nuevo paradigma para el acceso multimodal al conocimiento, eliminando la fragmentación arquitectónica que limita los sistemas actuales. Nuestro marco es de código abierto en: https://github.com/HKUDS/RAG-Anything.
Los modelos de difusión han avanzado recientemente la restauración de video, pero su aplicación a la super-resolución de video (VSR) en escenarios del mundo real sigue siendo un desafío debido a la alta latencia, el cálculo prohibitivo y la mala generalización a resoluciones ultra altas. Nuestro objetivo en este trabajo es hacer que la VSR basada en difusión sea práctica logrando eficiencia, escalabilidad y rendimiento en tiempo real. Para ello, proponemos FlashVSR, el primer marco de transmisión en un solo paso basado en difusión para VSR en tiempo real. FlashVSR funciona a aproximadamente 17 FPS para videos de 768x1408 en una sola GPU A100 mediante la combinación de tres innovaciones complementarias: (i) una canalización de destilación en tres etapas apta para entrenamiento que permite la super-resolución en transmisión, (ii) una atención dispersa con restricción de localidad que reduce el cálculo redundante mientras salva la brecha de resolución entre entrenamiento y prueba, y (iii) un decodificador condicional pequeño que acelera la reconstrucción sin sacrificar la calidad. Para apoyar el entrenamiento a gran escala, también construimos VSR-120K, un nuevo conjunto de datos con 120k videos y 180k imágenes. Experimentos extensivos muestran que FlashVSR escala de manera confiable a resoluciones ultra altas y alcanza un rendimiento de vanguardia con una aceleración de hasta 12x sobre modelos previos de VSR basados en difusión de un solo paso. Publicaremos el código, los modelos preentrenados y el conjunto de datos para fomentar futuras investigaciones en VSR eficiente basada en difusión.
Los modelos de difusión han logrado un éxito notable como modelos generativos. Sin embargo, incluso un modelo bien entrenado puede acumular errores a lo largo del proceso de generación. Estos errores se vuelven particularmente problemáticos cuando se aplica una guía arbitraria para dirigir las muestras hacia propiedades deseadas, lo que a menudo compromete la fidelidad de las muestras. En este artículo, proponemos una solución general para abordar el fenómeno de desviación del manifold observado en los modelos de difusión. Nuestro enfoque utiliza un predictor de tiempo para estimar las desviaciones del manifold de datos deseado en cada paso de tiempo, identificando que un mayor intervalo de tiempo está asociado con una reducción en la calidad de la generación. Luego, diseñamos un nuevo mecanismo de guía, denominado `Guía de Alineación Temporal' (TAG, por sus siglas en inglés), que atrae las muestras de vuelta al manifold deseado en cada paso de tiempo durante la generación. A través de experimentos exhaustivos, demostramos que TAG produce consistentemente muestras estrechamente alineadas con el manifold deseado en cada paso de tiempo, lo que conduce a mejoras significativas en la calidad de la generación en diversas tareas posteriores.
Los Modelos de Lenguaje de Gran Escala (LLMs) procesan cada token a través de todas las capas de una pila de transformadores, lo que genera un desperdicio de cómputo en consultas simples y una flexibilidad insuficiente para aquellas más complejas que requieren un razonamiento más profundo. Los métodos de profundidad adaptativa pueden mejorar la eficiencia, pero enfoques previos dependen de búsquedas costosas durante la inferencia, cambios arquitectónicos o reentrenamientos a gran escala, y en la práctica a menudo degradan la precisión a pesar de las ganancias en eficiencia. Presentamos Dr.LLM, Enrutamiento Dinámico de Capas para LLMs, un marco adaptable que equipa modelos preentrenados con enrutadores ligeros por capa que deciden omitir, ejecutar o repetir un bloque. Los enrutadores se entrenan con supervisión explícita: utilizando Búsqueda de Árbol de Monte Carlo (MCTS), derivamos configuraciones de capas de alta calidad que preservan o mejoran la precisión bajo un presupuesto de cómputo. Nuestro diseño, que incluye agrupación en ventanas para un enrutamiento estable, pérdida focal con balanceo de clases y enrutadores MLP de cuello de botella, garantiza robustez ante desequilibrios de clases y secuencias largas. En ARC (lógica) y DART (matemáticas), Dr.LLM mejora la precisión hasta en +3.4%p mientras ahorra 5 capas por ejemplo en promedio. Los enrutadores generalizan a tareas fuera del dominio (MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval) con solo un 0.85% de caída en precisión mientras mantienen la eficiencia, y superan a métodos de enrutamiento previos hasta en +7.7%p. En general, Dr.LLM demuestra que los enrutadores supervisados explícitamente adaptan LLMs congelados para inferencia consciente del presupuesto y orientada a la precisión sin alterar los pesos base.
Los recientes avances en IA encarnada destacan el potencial de los modelos de visión y lenguaje (VLMs) como agentes capaces de percepción, razonamiento e interacción en entornos complejos. Sin embargo, los sistemas de mayor rendimiento dependen de modelos a gran escala que son costosos de implementar, mientras que los VLMs más pequeños carecen del conocimiento y las habilidades necesarias para tener éxito. Para cerrar esta brecha, presentamos el Agente de Razonamiento Encarnado (ERA), un marco de dos etapas que integra el aprendizaje de conocimiento previo y el aprendizaje por refuerzo (RL) en línea. La primera etapa, Aprendizaje de Conocimiento Previo Encarnado, destila conocimiento fundamental a partir de tres tipos de datos: (1) Conocimientos Previos Aumentados con Trayectorias, que enriquecen los datos de trayectoria existentes con razonamiento estructurado generado por modelos más potentes; (2) Conocimientos Previos Anclados al Entorno, que proporcionan conocimiento dentro del entorno y supervisión de anclaje; y (3) Conocimientos Previos de Conocimiento Externo, que transfieren conocimiento general de conjuntos de datos fuera del entorno. En la segunda etapa, desarrollamos una canalización de RL en línea que se basa en estos conocimientos previos para mejorar aún más el rendimiento del agente. Para superar los desafíos inherentes al RL de agentes, incluyendo horizontes largos, recompensas dispersas e inestabilidad en el entrenamiento, introducimos tres diseños clave: auto-resumen para la gestión del contexto, modelado de recompensas densas y optimización de políticas a nivel de turno. Experimentos extensos en tareas de planificación de alto nivel (EB-ALFRED) y control de bajo nivel (EB-Manipulación) demuestran que ERA-3B supera tanto a los modelos grandes basados en indicaciones como a los baselines anteriores basados en entrenamiento. Específicamente, logra mejoras generales del 8.4\% en EB-ALFRED y del 19.4\% en EB-Manipulación sobre GPT-4o, y exhibe una fuerte generalización a tareas no vistas. En general, ERA ofrece un camino práctico hacia la inteligencia encarnada escalable, proporcionando insights metodológicos para futuros sistemas de IA encarnada.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden funcionar como modelos del mundo para mejorar la toma de decisiones de agentes en entornos digitales mediante la simulación de estados futuros y la predicción de los resultados de acciones, lo que podría eliminar la costosa exploración por ensayo y error. Sin embargo, esta capacidad está fundamentalmente limitada por la tendencia de los LLMs a generar alucinaciones y su dependencia de conocimientos estáticos de entrenamiento, lo que puede llevar a errores acumulativos que inhiben simulaciones de largo plazo. Para investigar sistemáticamente si los LLMs son adecuados para modelar el mundo, examinamos dos capacidades centrales de los modelos del mundo—la predicción de estados futuros y la estimación de recompensas—a través de tres tareas: identificación del siguiente estado, alineación de planificación de procedimientos completos y reconocimiento de transiciones de hitos. Nuestro análisis muestra que, aunque los LLMs capturan eficazmente los siguientes estados inmediatos e identifican transiciones de estados significativas, su rendimiento se degrada rápidamente en la planificación de procedimientos completos. Esto resalta las limitaciones de los LLMs para modelar de manera confiable la dinámica del entorno en horizontes largos. Para abordar estas limitaciones, proponemos el Modelo del Mundo Aumentado con Recuperación (R-WoM, por sus siglas en inglés), que fundamenta las simulaciones de los LLMs incorporando conocimientos factuales y actualizados recuperados de tutoriales externos. Los experimentos muestran que R-WoM logra mejoras sustanciales de hasta un 25,3% (OSWorld) y un 18,1% (WebArena) en comparación con los métodos de referencia, con ventajas particulares en simulaciones de horizontes más largos.
Recientemente, se han logrado avances notables en los Modelos Multimodales Unificados (UMMs, por sus siglas en inglés), que integran capacidades de generación y comprensión de visión y lenguaje dentro de un único marco. Sin embargo, existe una brecha significativa en la que la fuerte comprensión visual de un modelo a menudo no se transfiere a su generación visual. Un modelo podría entender correctamente una imagen basándose en las instrucciones del usuario, pero ser incapaz de generar una imagen fiel a partir de indicaciones de texto. Este fenómeno plantea directamente una pregunta intrigante: ¿Puede un modelo lograr una automejora utilizando su módulo de comprensión para recompensar su módulo de generación? Para cerrar esta brecha y lograr la automejora, presentamos SRUM, un marco de posentrenamiento autorecompensante que puede aplicarse directamente a UMMs existentes de diversos diseños. SRUM crea un bucle de retroalimentación en el que el módulo de comprensión del modelo actúa como un "evaluador" interno, proporcionando señales correctivas para mejorar su módulo de generación, sin requerir datos adicionales etiquetados por humanos. Para garantizar que esta retroalimentación sea integral, diseñamos un sistema de recompensa dual global-local. Para abordar la complejidad estructural inherente de las imágenes, este sistema ofrece guía multiescala: una recompensa global asegura la corrección de la semántica visual general y el diseño, mientras que una recompensa local refina la fidelidad a nivel de objetos y detalles finos. SRUM conduce a capacidades potentes y muestra una fuerte generalización, mejorando el rendimiento en T2I-CompBench de 82.18 a 88.37 y en T2I-ReasonBench de 43.82 a 46.75. En general, nuestro trabajo establece un nuevo y poderoso paradigma para permitir que el módulo de comprensión de un UMM guíe y mejore su propia generación mediante la autorecompensa.
Aunque los avances recientes en generación visual han sido notables, la mayoría de las arquitecturas existentes aún dependen de codificadores separados para imágenes y texto. Esta separación limita la capacidad de los modelos de difusión para realizar razonamiento multimodal y transferencia de conocimiento. Intentos previos para cerrar esta brecha suelen utilizar información de la última capa de un modelo de lenguaje visual (VLM), emplear múltiples codificadores visuales o entrenar modelos unificados de gran escala conjuntamente para la generación de texto e imágenes, lo que requiere recursos computacionales sustanciales y datos a gran escala, limitando su accesibilidad. Presentamos UniFusion, un modelo generativo basado en difusión condicionado en un modelo de lenguaje visual (VLM) congelado que sirve como codificador multimodal unificado. En el núcleo de UniFusion se encuentra el mecanismo de Agrupación de Atención por Capas (LAP), que extrae tanto semántica de alto nivel como detalles de bajo nivel de los tokens de texto y visuales de un VLM congelado para condicionar un modelo generativo de difusión. Demostramos que LAP supera a otras arquitecturas de fusión superficial en la alineación texto-imagen para la generación y la transferencia fiel de información visual del VLM al modelo de difusión, lo cual es clave para la edición. Proponemos Inyección de Reescribición Habilitada por VLM con Inferencia Flexible (VERIFI), que condiciona un transformador de difusión (DiT) únicamente en los tokens de texto generados por el VLM durante la reescritura de prompts dentro del modelo. VERIFI combina la alineación de la distribución de condicionamiento con las capacidades de razonamiento del VLM para aumentar las capacidades y la flexibilidad en la inferencia. Además, el ajuste fino en tareas de edición no solo mejora la alineación texto-imagen para la generación, indicativo de transferencia de conocimiento multimodal, sino que también exhibe capacidades de generalización tremendas. Nuestro modelo, cuando se entrena en la edición de una sola imagen, generaliza de manera zero-shot a múltiples referencias de imágenes, lo que refuerza el diseño de codificador unificado de UniFusion.
La alineación posterior al entrenamiento a menudo reduce la diversidad de los modelos de lenguaje grandes (LLM), lo que conduce a un fenómeno conocido como colapso de modos. A diferencia de trabajos previos que atribuyen este efecto a limitaciones algorítmicas, identificamos un factor fundamental y omnipresente a nivel de datos: el sesgo de tipicidad en los datos de preferencia, mediante el cual los anotadores favorecen sistemáticamente textos familiares como resultado de hallazgos bien establecidos en psicología cognitiva. Formalizamos teóricamente este sesgo, lo verificamos empíricamente en conjuntos de datos de preferencia y demostramos que desempeña un papel central en el colapso de modos. Motivados por este análisis, introducimos el Muestreo Verbalizado (Verbalized Sampling, VS), una estrategia simple y libre de entrenamiento para evitar el colapso de modos. VS solicita al modelo que verbalice una distribución de probabilidad sobre un conjunto de respuestas (por ejemplo, "Genera 5 chistes sobre café y sus probabilidades correspondientes"). Experimentos exhaustivos muestran que VS mejora significativamente el rendimiento en escritura creativa (poemas, historias, chistes), simulación de diálogos, preguntas y respuestas de tipo abierto y generación de datos sintéticos, sin sacrificar la precisión factual ni la seguridad. Por ejemplo, en escritura creativa, VS aumenta la diversidad entre 1.6 y 2.1 veces en comparación con el enfoque de solicitud directa. Además, observamos una tendencia emergente en la que los modelos más capaces se benefician más de VS. En resumen, nuestro trabajo ofrece una nueva perspectiva centrada en los datos sobre el colapso de modos y un remedio práctico en tiempo de inferencia que ayuda a desbloquear la diversidad generativa preentrenada.
El éxito de los modelos de lenguaje basados en Transformers se atribuye ampliamente a su mecanismo de atención de producto escalar, el cual entrelaza un conjunto de principios de diseño clave: la mezcla de información entre posiciones (permitiendo interacciones multi-token), activaciones dependientes de la secuencia (donde los pesos de atención se adaptan a cada entrada), una forma matemática específica (similitudes de producto escalar más ponderación softmax) y el acoplamiento de consultas y claves a estados ocultos en evolución (anclando la atención en la capa actual). Sin embargo, la necesidad de cada uno de estos principios sigue siendo en gran medida no probada. En este trabajo, deconstruimos sistemáticamente la atención diseñando variantes controladas que relajan selectivamente estos principios, aplicándolos tanto de manera uniforme en todas las capas como en arquitecturas híbridas donde solo algunas capas conservan la atención estándar. Nuestro análisis empírico revela que los mecanismos para mezclar tokens son indispensables, ya que su ausencia colapsa los modelos a un comportamiento casi aleatorio, mientras que la forma matemática exacta y la dependencia de la secuencia pueden relajarse sustancialmente, especialmente cuando se preservan solo en un subconjunto de capas. Sorprendentemente, incluso variantes que fallan de manera aislada pueden lograr un rendimiento robusto cuando se intercalan con atención estándar, destacando un efecto cooperativo. Estos hallazgos profundizan nuestra comprensión de lo que realmente sustenta la efectividad de la atención y abren nuevas vías para simplificar los modelos de lenguaje sin sacrificar el rendimiento.
Los modelos de lenguaje de gran escala enfrentan desafíos en tareas agentivas de largo horizonte, ya que su memoria limitada se ve fácilmente abrumada por contextos distractores o irrelevantes. Los métodos existentes de memoria de trabajo suelen depender de mecanismos externos y heurísticos que están desacoplados de la política central del agente. En este trabajo, replanteamos la gestión de la memoria de trabajo como una capacidad intrínseca y aprendible. Proponemos un marco novedoso, Memoria-como-Acción, donde un agente gestiona activamente su memoria de trabajo ejecutando operaciones explícitas de edición como parte de una política unificada. Esta formulación permite que un agente, entrenado mediante aprendizaje por refuerzo, equilibre la curación de la memoria con los objetivos de tarea a largo plazo bajo restricciones de recursos dadas. Sin embargo, tales acciones de edición de memoria rompen el supuesto estándar de un prefijo en continuo crecimiento en las interacciones de los modelos de lenguaje, lo que lleva a lo que llamamos fracturas de trayectoria. Estos cambios no prefijados interrumpen la continuidad causal requerida por los métodos estándar de gradiente de políticas, haciendo que esos métodos sean inaplicables. Para abordar esto, proponemos un nuevo algoritmo, Optimización de Política de Contexto Dinámico, que permite un aprendizaje por refuerzo estable de extremo a extremo segmentando trayectorias en puntos de acción de memoria y aplicando ventajas a nivel de trayectoria a los segmentos de acción resultantes. Nuestros resultados demuestran que optimizar conjuntamente el razonamiento de tareas y la gestión de la memoria de manera integral no solo reduce el consumo computacional general, sino que también mejora el rendimiento de la tarea, impulsado por estrategias adaptativas de curación de contexto diseñadas para las capacidades intrínsecas del modelo.
Un desafío clave al aplicar el aprendizaje por refuerzo (RL) a los modelos de lenguaje de difusión a gran escala (dLLMs) radica en la intratabilidad de sus funciones de verosimilitud, las cuales son esenciales para el objetivo de RL, lo que requiere una aproximación correspondiente en cada paso de entrenamiento. Si bien los métodos existentes aproximan los log-verosimilitudes mediante sus límites inferiores de evidencia (ELBOs) a través de muestreo de Monte Carlo (MC) personalizado, los grafos computacionales hacia adelante de todas las muestras de MC deben retenerse para el cálculo del gradiente de los términos no lineales en el objetivo de RL, lo que resulta en un sobrecarga significativa de memoria. Esta restricción limita los tamaños de muestra factibles, llevando a aproximaciones de verosimilitud imprecisas y, en última instancia, distorsionando el objetivo de RL. Para superar esta limitación, proponemos Boundary-Guided Policy Optimization (BGPO), un algoritmo de RL eficiente en memoria que maximiza un límite inferior especialmente construido del objetivo basado en ELBO. Este límite inferior está cuidadosamente diseñado para satisfacer dos propiedades clave: (1) Linealidad: está formulado como una suma lineal donde cada término depende únicamente de una sola muestra de MC, permitiendo así la acumulación de gradientes entre muestras y asegurando un uso constante de memoria; (2) Equivalencia: tanto el valor como el gradiente de este límite inferior son iguales a los del objetivo basado en ELBO en el entrenamiento on-policy, lo que lo convierte también en una aproximación efectiva para el objetivo original de RL. Estas propiedades permiten que BGPO adopte un tamaño de muestra de MC grande, resultando en aproximaciones de verosimilitud más precisas y una mejor estimación del objetivo de RL, lo que a su vez conduce a un rendimiento mejorado. Los experimentos muestran que BGPO supera significativamente a los algoritmos de RL anteriores para dLLMs en la resolución de problemas matemáticos, generación de código y tareas de planificación.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) en aplicaciones del mundo real requieren acceso a fuentes de conocimiento externas y deben mantenerse receptivos a la información dinámica y en constante cambio del mundo real para abordar consultas de usuarios que buscan información y son intensivas en conocimiento. Los enfoques existentes, como los métodos de generación aumentada por recuperación (RAG, por sus siglas en inglés), agentes de búsqueda y MLLMs equipados con capacidades de búsqueda, a menudo sufren de pipelines rígidos, llamadas de búsqueda excesivas y consultas de búsqueda mal construidas, lo que resulta en ineficiencias y resultados subóptimos. Para abordar estas limitaciones, presentamos DeepMMSearch-R1, el primer MLLM multimodal capaz de realizar búsquedas web bajo demanda, de múltiples turnos, y de elaborar dinámicamente consultas tanto para herramientas de búsqueda de imágenes como de texto. Específicamente, DeepMMSearch-R1 puede iniciar búsquedas web basadas en recortes relevantes de la imagen de entrada, lo que hace que la búsqueda de imágenes sea más efectiva, y puede adaptar iterativamente las consultas de búsqueda de texto basándose en la información recuperada, permitiendo así la autorreflexión y la autocorrección. Nuestro enfoque se basa en un pipeline de entrenamiento de dos etapas: una fase de ajuste fino supervisado de arranque en frío seguida de una optimización de aprendizaje por refuerzo en línea. Para el entrenamiento, introducimos DeepMMSearchVQA, un nuevo conjunto de datos multimodal de preguntas y respuestas visuales (VQA, por sus siglas en inglés) creado a través de un pipeline automatizado mezclado con información del mundo real obtenida de herramientas de búsqueda web. Este conjunto de datos contiene consultas diversas y de múltiples saltos que integran información textual y visual, enseñando al modelo cuándo buscar, qué buscar, qué herramienta de búsqueda usar y cómo razonar sobre la información recuperada. Realizamos experimentos extensos en una variedad de benchmarks intensivos en conocimiento para demostrar la superioridad de nuestro enfoque. Finalmente, analizamos los resultados y proporcionamos insights valiosos para avanzar en la búsqueda web multimodal.
Los modelos de embeddings multimodales buscan generar representaciones unificadas informativas que potencien diversas tareas intermodales. A pesar de los avances prometedores en la evolución desde arquitecturas de doble torre basadas en CLIP hacia grandes modelos de visión y lenguaje, trabajos previos aún enfrentan desafíos inevitables en aplicaciones del mundo real y escenarios empresariales, como el soporte limitado de modalidades, mecanismos de entrenamiento inestables y brechas en dominios industriales. En este trabajo, presentamos SAIL-Embedding, un modelo base de embeddings omni-modal que aborda estos problemas mediante estrategias de entrenamiento y diseños arquitectónicos específicos. En el procedimiento de optimización, proponemos un esquema de entrenamiento multi-etapa para potenciar la efectividad multifacética del aprendizaje de representaciones. Específicamente, el entrenamiento progresivo consciente del contenido busca mejorar la adaptabilidad del modelo a diversas tareas descendentes y dominar una competencia intermodal enriquecida. El entrenamiento de mejora de recomendaciones consciente de la colaboración adapta aún más las representaciones multimodales para escenarios de recomendación, destilando conocimiento desde embeddings de secuencia-a-ítem e ID-a-ítem mientras explora los intereses históricos del usuario. Simultáneamente, desarrollamos la especialización estocástica y la coincidencia de patrones basada en conjuntos de datos para fortalecer la flexibilidad y generalización del entrenamiento del modelo. Los resultados experimentales muestran que SAIL-Embedding alcanza un rendimiento de vanguardia (SOTA) en comparación con otros métodos en diferentes tareas de recuperación. En experimentos en línea a través de varios escenarios del mundo real integrados con nuestro modelo, observamos un aumento significativo en el Lifetime (LT), un indicador crucial para la experiencia de recomendación. Por ejemplo, el modelo logra una ganancia de LT a 7 días de +0.158% y una ganancia de LT a 14 días de +0.144% en el escenario de Douyin-Selected. Para el modelo de clasificación del feed de Douyin, las características de coincidencia producidas por SAIL-Embedding generan una ganancia de AUC de +0.08%.
Los recientes avances en los modelos de visión y lenguaje (VLMs) los han hecho altamente efectivos en tareas de razonamiento. Sin embargo, los principios subyacentes en la construcción de conjuntos de datos de entrenamiento para el razonamiento visual-lingüístico (VL) siguen siendo poco comprendidos. En este trabajo, introducimos varios enfoques de curación de datos y estudiamos su impacto en las capacidades de razonamiento VL mediante un control cuidadoso de los entornos de entrenamiento y evaluación. Analizamos los efectos de las fuentes de contexto (pares de imagen y pregunta), implementamos intervenciones específicas en los datos y exploramos la ampliación de imágenes, preguntas y soluciones de cadena de pensamiento (CoT). Nuestros hallazgos revelan que (a) las estrategias de fuentes de contexto afectan significativamente el rendimiento de los VLMs, (b) intervenciones como señales auxiliares de descripciones de imágenes y la inclusión de razonamiento basado únicamente en texto generan mejoras sustanciales, y (c) escalar todas las dimensiones de los datos (por ejemplo, preguntas únicas por imagen y CoTs únicos por par imagen-pregunta) mejora consistentemente la capacidad de razonamiento. Motivados por estas ideas, presentamos HoneyBee, un conjunto de datos de razonamiento CoT a gran escala y de alta calidad con 2.5 millones de ejemplos que consisten en 350,000 pares de imagen-pregunta. Los VLMs entrenados con HoneyBee superan a los modelos de última generación en todos los tamaños de modelo. Por ejemplo, un VLM entrenado con HoneyBee de 3 mil millones de parámetros supera al modelo SOTA y al modelo base en un 7.8% y un 24.8%, respectivamente, en MathVerse. Además, proponemos una estrategia de escalado en tiempo de prueba que reduce el costo de decodificación en un 73% sin sacrificar la precisión. En general, este trabajo presenta estrategias mejoradas para la investigación en la curación de conjuntos de datos de razonamiento VL.
La generación de imágenes multi-instancia (MIG) sigue siendo un desafío significativo para los modelos de difusión modernos debido a limitaciones clave en el control preciso del diseño de objetos y la preservación de la identidad de múltiples sujetos distintos. Para abordar estas limitaciones, presentamos ContextGen, un novedoso marco de Transformador de Difusión para la generación multi-instancia que se guía tanto por el diseño como por imágenes de referencia. Nuestro enfoque integra dos contribuciones técnicas clave: un mecanismo de Anclaje de Diseño Contextual (CLA) que incorpora la imagen de diseño compuesto en el contexto de generación para anclar de manera robusta los objetos en sus posiciones deseadas, y una Atención de Consistencia de Identidad (ICA), un mecanismo de atención innovador que aprovecha las imágenes de referencia contextuales para garantizar la consistencia de identidad de múltiples instancias. Reconociendo la falta de conjuntos de datos a gran escala y estructurados jerárquicamente para esta tarea, presentamos IMIG-100K, el primer conjunto de datos con anotaciones detalladas de diseño e identidad. Experimentos extensivos demuestran que ContextGen establece un nuevo estado del arte, superando a los métodos existentes en precisión de control, fidelidad de identidad y calidad visual general.
El progreso en la inteligencia artificial se ve obstaculizado por la falta de un lenguaje de programación con todas las características necesarias. Bibliotecas como PyTorch y TensorFlow ofrecen diferenciación automática e implementación eficiente en GPU, pero son complementos de Python, un lenguaje que nunca fue diseñado para la IA. Su falta de soporte para el razonamiento automatizado y la adquisición de conocimiento ha llevado a una serie larga y costosa de intentos improvisados para añadir estas funcionalidades. Por otro lado, lenguajes de IA como LISP y Prolog carecen de escalabilidad y soporte para el aprendizaje. Este artículo propone la lógica tensorial, un lenguaje que resuelve estos problemas al unificar la IA neuronal y simbólica a un nivel fundamental. El único constructo en la lógica tensorial es la ecuación tensorial, basada en la observación de que las reglas lógicas y la suma de Einstein son esencialmente la misma operación, y todo lo demás puede reducirse a ellas. Demuestro cómo implementar de manera elegante formas clave de IA neuronal, simbólica y estadística en lógica tensorial, incluyendo transformadores, razonamiento formal, máquinas de kernel y modelos gráficos. Lo más importante es que la lógica tensorial abre nuevas direcciones, como el razonamiento sólido en el espacio de embeddings. Esto combina la escalabilidad y capacidad de aprendizaje de las redes neuronales con la confiabilidad y transparencia del razonamiento simbólico, y podría ser la base para una adopción más amplia de la IA.
Comprender la dinámica de una escena física implica razonar sobre las diversas formas en que puede cambiar potencialmente, especialmente como resultado de interacciones locales. Presentamos el Flow Poke Transformer (FPT), un marco novedoso para predecir directamente la distribución del movimiento local, condicionado a interacciones dispersas denominadas "pokes". A diferencia de los métodos tradicionales que generalmente solo permiten un muestreo denso de una única realización de la dinámica de la escena, FPT proporciona una representación interpretable y directamente accesible del movimiento multimodal de la escena, su dependencia de las interacciones físicas y las incertidumbres inherentes de la dinámica de la escena. También evaluamos nuestro modelo en varias tareas posteriores para permitir comparaciones con métodos previos y resaltar la flexibilidad de nuestro enfoque. En la generación de movimiento facial denso, nuestro modelo genérico preentrenado supera a las líneas base especializadas. FPT puede ajustarse en tareas fuertemente fuera de distribución, como conjuntos de datos sintéticos, para permitir mejoras significativas sobre los métodos en el dominio en la estimación del movimiento de objetos articulados. Además, predecir distribuciones de movimiento explícitas directamente permite que nuestro método logre un rendimiento competitivo en tareas como la segmentación de partes móviles a partir de pokes, lo que demuestra aún más la versatilidad de nuestro FPT. El código y los modelos están disponibles públicamente en https://compvis.github.io/flow-poke-transformer.
La edición de imágenes basada en instrucciones ofrece una forma poderosa e intuitiva de manipular imágenes mediante lenguaje natural. Sin embargo, depender únicamente de instrucciones textuales limita el control detallado sobre el alcance de las ediciones. Presentamos Kontinuous Kontext, un modelo de edición impulsado por instrucciones que proporciona una nueva dimensión de control sobre la intensidad de la edición, permitiendo a los usuarios ajustar las modificaciones de manera gradual, desde ningún cambio hasta un resultado completamente realizado, de forma suave y continua. Kontinuous Kontext extiende un modelo de edición de imágenes de última generación para aceptar una entrada adicional: un valor escalar de intensidad de edición que se combina con la instrucción de edición, permitiendo un control explícito sobre el alcance de la modificación. Para incorporar esta información escalar, entrenamos una red de proyección ligera que mapea el valor escalar de entrada y la instrucción de edición a coeficientes en el espacio de modulación del modelo. Para entrenar nuestro modelo, sintetizamos un conjunto de datos diverso de cuádruples imagen-edición-instrucción-intensidad utilizando modelos generativos existentes, seguido de una etapa de filtrado para garantizar calidad y consistencia. Kontinuous Kontext ofrece un enfoque unificado para un control detallado sobre la intensidad de la edición en operaciones diversas como estilización, cambios de atributos, materiales, fondos y formas, sin requerir entrenamiento específico para cada atributo.
Estudiamos cómo los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) "piensan" a través de su espacio de representación. Proponemos un marco geométrico novedoso que modela el razonamiento de un LLM como flujos — trayectorias de incrustación que evolucionan donde la lógica avanza. Desentrañamos la estructura lógica de la semántica empleando las mismas proposiciones de deducción natural con portadores semánticos variados, lo que nos permite probar si los LLMs internalizan la lógica más allá de la forma superficial. Esta perspectiva conecta el razonamiento con cantidades geométricas como posición, velocidad y curvatura, permitiendo un análisis formal en los espacios de representación y conceptos. Nuestra teoría establece: (1) el razonamiento de los LLMs corresponde a flujos suaves en el espacio de representación, y (2) las declaraciones lógicas actúan como controladores locales de las velocidades de estos flujos. Utilizando proxies de representación aprendidos, diseñamos experimentos controlados para visualizar y cuantificar los flujos de razonamiento, proporcionando validación empírica de nuestro marco teórico. Nuestro trabajo sirve tanto como una base conceptual como herramientas prácticas para estudiar fenómenos de razonamiento, ofreciendo una nueva lente para la interpretabilidad y el análisis formal del comportamiento de los LLMs.
En un flujo de diseño ideal, el diseño de la interfaz de usuario (UI) está entrelazado con la investigación de usuarios para validar decisiones, aunque los estudios a menudo se ven limitados por recursos durante las primeras etapas de exploración. Los avances recientes en modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) ofrecen una oportunidad prometedora para actuar como evaluadores tempranos, ayudando a los diseñadores a reducir opciones antes de realizar pruebas formales. A diferencia de trabajos previos que enfatizan el comportamiento del usuario en dominios específicos, como el comercio electrónico, con métricas como clics o conversiones, nos centramos en evaluaciones subjetivas de usuarios en interfaces variadas. Investigamos si los MLLMs pueden imitar las preferencias humanas al evaluar interfaces individuales y compararlas. Utilizando datos de una plataforma de crowdsourcing, comparamos GPT-4, Claude y Llama en 30 interfaces y examinamos su alineación con los juicios humanos en múltiples factores de UI. Nuestros resultados muestran que los MLLMs se aproximan a las preferencias humanas en algunas dimensiones, pero divergen en otras, destacando tanto su potencial como sus limitaciones para complementar la investigación temprana en experiencia de usuario (UX).
La modelización simbólica del mundo requiere inferir y representar las dinámicas transicionales de un entorno como un programa ejecutable. Trabajos previos se han centrado en entornos mayormente deterministas con abundantes datos de interacción, mecánicas simples y guía humana. Nosotros abordamos un escenario más realista y desafiante: el aprendizaje en un entorno complejo y estocástico donde el agente tiene solo "una vida" para explorar un entorno hostil sin guía humana. Presentamos OneLife, un marco que modela las dinámicas del mundo mediante leyes programáticas activadas condicionalmente dentro de un marco de programación probabilística. Cada ley opera a través de una estructura de precondición-efecto, activándose en estados del mundo relevantes. Esto crea un gráfico de cálculo dinámico que dirige la inferencia y la optimización solo a través de leyes relevantes, evitando problemas de escalabilidad cuando todas las leyes contribuyen a predicciones sobre un estado complejo y jerárquico, y permitiendo el aprendizaje de dinámicas estocásticas incluso con una activación escasa de reglas. Para evaluar nuestro enfoque bajo estas demandantes restricciones, introducimos un nuevo protocolo de evaluación que mide (a) la clasificación de estados, la capacidad de distinguir estados futuros plausibles de los implausibles, y (b) la fidelidad de estados, la capacidad de generar estados futuros que se asemejen estrechamente a la realidad. Desarrollamos y evaluamos nuestro marco en Crafter-OO, nuestra reimplementación del entorno Crafter que expone un estado simbólico estructurado y orientado a objetos, y una función de transición pura que opera únicamente sobre ese estado. OneLife puede aprender con éxito dinámicas clave del entorno a partir de una interacción mínima y no guiada, superando a una línea base sólida en 16 de los 23 escenarios probados. También evaluamos la capacidad de planificación de OneLife, con simulaciones que identifican con éxito estrategias superiores. Nuestro trabajo establece una base para la construcción autónoma de modelos programáticos del mundo en entornos desconocidos y complejos.
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) han abierto nuevas posibilidades en términos de resolución de problemas, mediante la creación de un proceso de pensamiento en lenguaje natural antes de responder a una consulta. Si bien sus capacidades son bien conocidas en tareas de matemáticas y codificación, su impacto en la tarea de traducción automática (MT, por sus siglas en inglés) sigue siendo poco explorado. En este trabajo, exploramos los beneficios de la generación de tokens intermedios al realizar MT en múltiples pares de idiomas con diferentes niveles de recursos y en diversas configuraciones. Descubrimos que los "tokens de pensamiento" no ayudan a los LRMs a desempeñarse mejor en MT. Este resultado se generaliza a modelos ajustados para razonar antes de traducir utilizando una cadena de pensamiento (CoT, por sus siglas en inglés) destilada, inspirada en las prácticas de los traductores humanos. Específicamente, ajustar un modelo con explicaciones sintéticas de CoT que detallan cómo traducir paso a paso no supera el ajuste estándar de entrada-salida. Sin embargo, construir los tokens intermedios combinando los resultados de estrategias modulares de indicación específicas para la traducción sí resulta en mejoras. Nuestros hallazgos subrayan que la contribución de los tokens intermedios durante el ajuste depende en gran medida de la presencia de intentos de traducción en ellos. En términos más generales, nuestros resultados sugieren que utilizar un profesor para refinar traducciones objetivo o para expandir corpus paralelos es más impactante que destilar sus explicaciones de CoT en modelos de MT "pensantes".
Presentamos el Decaimiento de Pesos Cauteloso (CWD, por sus siglas en inglés), una modificación de una sola línea, independiente del optimizador, que aplica el decaimiento de pesos únicamente a las coordenadas de los parámetros cuyos signos coinciden con la actualización del optimizador. A diferencia del decaimiento desacoplado estándar, que optimiza implícitamente un objetivo regularizado o restringido, el CWD preserva la función de pérdida original y admite una interpretación de dos niveles: induce un comportamiento de modo deslizante al alcanzar la variedad estacionaria, permitiéndole buscar puntos estacionarios localmente Pareto-óptimos del objetivo no modificado. En la práctica, el CWD es un cambio directo para optimizadores como AdamW, Lion y Muon, sin requerir nuevos hiperparámetros o ajustes adicionales. Para el preentrenamiento de modelos de lenguaje y la clasificación en ImageNet, el CWD mejora consistentemente la pérdida final y la precisión en escalas de millones a miles de millones de parámetros.
Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) están fundamentalmente limitados por la longitud del contexto en tareas de horizonte prolongado. Presentamos Context-Folding, un marco que permite a los agentes gestionar activamente su contexto de trabajo. Un agente puede ramificarse de manera procedimental en una subtrayectoria para manejar una subtarea y luego plegarla una vez completada, colapsando los pasos intermedios mientras retiene un resumen conciso del resultado. Para hacer que este comportamiento sea aprendible, desarrollamos un marco de aprendizaje por refuerzo de extremo a extremo, FoldGRPO, con recompensas de proceso específicas para fomentar una descomposición efectiva de tareas y una gestión del contexto. En tareas complejas de horizonte prolongado (Deep Research y SWE), nuestro agente de plegado iguala o supera las líneas base de ReAct mientras utiliza un contexto activo 10 veces más pequeño y supera significativamente a los modelos que dependen de la gestión del contexto basada en resúmenes.
Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han aplicado al descubrimiento de ecuaciones científicas, aprovechando su conocimiento científico integrado para la generación de hipótesis. Sin embargo, los métodos actuales suelen limitar a los LLMs al papel de proponentes de ecuaciones dentro de algoritmos de búsqueda como la programación genética. En este artículo, presentamos SR-Scientist, un marco que eleva al LLM de un simple proponente de ecuaciones a un científico de IA autónomo que escribe código para analizar datos, implementa la ecuación como código, la somete a evaluación y optimiza la ecuación basándose en la retroalimentación experimental. Específicamente, integramos el intérprete de código en un conjunto de herramientas para el análisis de datos y la evaluación de ecuaciones. Se instruye al agente para optimizar la ecuación utilizando estas herramientas a largo plazo con un mínimo de pipelines definidos por humanos. Los resultados empíricos muestran que SR-Scientist supera a los métodos de referencia por un margen absoluto del 6% al 35% en conjuntos de datos que abarcan cuatro disciplinas científicas. Además, demostramos la robustez de nuestro método frente al ruido, la generalización de las ecuaciones descubiertas a datos fuera del dominio y su precisión simbólica. Asimismo, desarrollamos un marco de aprendizaje por refuerzo de extremo a extremo para mejorar las capacidades del agente.
Estudiamos el ajuste fino mediante aprendizaje por refuerzo (RL) de agentes basados en grandes modelos de lenguaje (LLM) para el uso de herramientas en tareas de múltiples turnos de largo horizonte, donde la longitud del contexto rápidamente se convierte en un cuello de botella fundamental. Los pipelines de RL existentes pueden sufrir de degradación en el seguimiento de instrucciones, costos excesivos en la ejecución y, más importante aún, límites estrictos de contexto. Para abordar estos desafíos, introducimos la gestión de contexto basada en resúmenes durante el entrenamiento. En concreto, comprime periódicamente el historial de uso de herramientas mediante resúmenes generados por el LLM que retienen información relevante para la tarea, manteniendo un contexto compacto mientras permite que el agente escale más allá de la ventana de contexto fija. Basándonos en esta formulación, derivamos una representación de gradiente de política que permite de manera fluida que las infraestructuras estándar de RL para LLM optimicen tanto los comportamientos de uso de herramientas como las estrategias de resumen de forma end-to-end. Instanciamos este marco con Optimización de Política Aumentada con Resúmenes (SUPO), un algoritmo de RL para LLM que permite el entrenamiento de largo horizonte más allá de un límite de contexto fijo. Los experimentos en tareas interactivas de llamadas a funciones y búsqueda demuestran que SUPO mejora significativamente la tasa de éxito mientras mantiene la misma o incluso una menor longitud de contexto de trabajo en comparación con los métodos base. También demostramos que, para tareas de búsqueda complejas, SUPO puede mejorar aún más el rendimiento en evaluación al escalar el número máximo de rondas de resumen en tiempo de prueba más allá del utilizado en el entrenamiento. Nuestros resultados establecen la gestión de contexto basada en resúmenes como un enfoque fundamentado y escalable para entrenar agentes de RL más allá de un límite fijo de longitud de contexto.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) prometen acelerar el descubrimiento científico mediante la interpretación de procedimientos experimentales complejos. Sin embargo, sus verdaderas capacidades son poco comprendidas, ya que los puntos de referencia existentes descuidan la naturaleza detallada y de largo plazo del trabajo de laboratorio auténtico, especialmente en entornos de laboratorio húmedo. Para cerrar esta brecha, presentamos ExpVid, el primer punto de referencia diseñado para evaluar sistemáticamente a los MLLMs en videos de experimentos científicos. Curando a partir de publicaciones de videos revisadas por pares, ExpVid presenta una nueva jerarquía de tareas de tres niveles que refleja el proceso científico: (1) Percepción detallada de herramientas, materiales y acciones; (2) Comprensión Procedimental del orden y la completitud de los pasos; y (3) Razonamiento Científico que conecta el experimento completo con sus conclusiones publicadas. Nuestro pipeline de anotación centrado en la visión, que combina la generación automatizada con la validación multidisciplinaria de expertos, asegura que las tareas requieran un fundamento visual. Evaluamos 19 MLLMs líderes en ExpVid y encontramos que, aunque sobresalen en el reconocimiento de grano grueso, tienen dificultades para desambiguar detalles finos, rastrear cambios de estado a lo largo del tiempo y vincular procedimientos experimentales con resultados científicos. Nuestros resultados revelan una brecha de rendimiento notable entre los modelos propietarios y los de código abierto, particularmente en el razonamiento de alto orden. ExpVid no solo proporciona una herramienta de diagnóstico, sino que también traza una hoja de ruta para el desarrollo de MLLMs capaces de convertirse en socios confiables en la experimentación científica.
La contaminación de datos representa una amenaza significativa para la evaluación confiable de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Este problema surge cuando muestras de referencia pueden aparecer inadvertidamente en los conjuntos de entrenamiento, comprometiendo la validez del rendimiento reportado. Si bien se han desarrollado métodos de detección para las etapas de preentrenamiento y ajuste fino supervisado, existe una brecha crítica de investigación para la fase cada vez más relevante del aprendizaje por refuerzo (RL, por sus siglas en inglés) posterior al entrenamiento. A medida que el RL posterior al entrenamiento se vuelve fundamental para avanzar en el razonamiento de los LLMs, la ausencia de métodos especializados de detección de contaminación en este paradigma representa una vulnerabilidad crítica. Para abordar esto, realizamos el primer estudio sistemático de detección de datos en el escenario de RL posterior al entrenamiento y proponemos el método de Autocrítica. Nuestro enfoque se basa en una observación clave: después de la fase de RL, la distribución de entropía de las salidas de los LLMs tiende a colapsar en modos altamente específicos y dispersos. La Autocrítica busca identificar el colapso subyacente de la política, es decir, la convergencia del modelo hacia un camino de razonamiento estrecho, que causa esta reducción de entropía. Para facilitar esta investigación, también presentamos RL-MIA, un punto de referencia construido para simular este escenario específico de contaminación. Experimentos exhaustivos demuestran que la Autocrítica supera significativamente a los métodos de referencia en múltiples modelos y tareas de contaminación, logrando una mejora en el AUC de hasta un 30%. Mientras que los métodos existentes se acercan a una suposición aleatoria para la contaminación en la fase de RL, nuestro método hace posible la detección.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) existentes enfrentan un aumento en los costos de inferencia debido a los tokens visuales adicionales introducidos por las entradas de imágenes. En este trabajo, proponemos el Aprendizaje de Consistencia Visual (ViCO), un algoritmo de entrenamiento novedoso que permite al modelo representar imágenes de diversas complejidades semánticas utilizando diferentes cantidades de tokens visuales. La idea clave detrás de nuestro método es emplear múltiples conectores MLP, cada uno con una tasa de compresión de imagen diferente, para reducir la resolución de los tokens visuales en función de la complejidad semántica de la imagen. Durante el entrenamiento, minimizamos la divergencia KL entre las respuestas condicionadas a diferentes conectores MLP. En el momento de la inferencia, introducimos un enrutador de imágenes, denominado Enrutador de Resolución Visual (ViR), que selecciona automáticamente la tasa de compresión adecuada para cada parche de imagen. En comparación con las estrategias dinámicas de alta resolución existentes, que ajustan el número de tokens visuales en función de las resoluciones de las imágenes, nuestro método adapta dinámicamente el número de tokens visuales según la complejidad semántica. Los resultados experimentales demuestran que nuestro método puede reducir el número de tokens visuales hasta en un 50% mientras mantiene las capacidades de percepción, razonamiento y OCR del modelo. Esperamos que este trabajo contribuya al desarrollo de MLLMs más eficientes. El código y los modelos se publicarán para facilitar futuras investigaciones.
Los avances recientes en el razonamiento de cadena larga de pensamiento (CoT, por sus siglas en inglés) han priorizado en gran medida la precisión de las respuestas y la eficiencia de tokens, pasando por alto aspectos críticos para la confiabilidad. Argumentamos que los sistemas de razonamiento utilizables deben ser confiables, caracterizados por tres propiedades: interpretabilidad, fidelidad y fiabilidad. Con este fin, proponemos ReFIne, un nuevo marco de entrenamiento que integra el ajuste fino supervisado con GRPO para fomentar que los modelos: (i) mejoren la interpretabilidad al producir trazas estructuradas basadas en etiquetas con planificación de alto nivel que sean más fáciles de seguir para los humanos; (ii) aumenten la fidelidad al revelar explícitamente la información decisiva que guía cada solución, con referencias transversales consistentes; y (iii) promuevan la fiabilidad al proporcionar autoevaluaciones tanto de la solidez de la derivación como de la confianza en la respuesta final. Aplicamos ReFIne a los modelos Qwen3 en múltiples escalas (1.7B/4B/8B) y evaluamos en puntos de referencia matemáticos de diversa dificultad. Nuestros resultados experimentales muestran que los modelos ReFIne generan trazas de razonamiento más claras y mejor estructuradas (interpretabilidad +44.0%), exponen de manera más fiel su proceso de decisión subyacente (fidelidad +18.8%) y ofrecen estimaciones de confianza informativas (fiabilidad +42.4%). Estos hallazgos destacan una dirección importante pero pasada por alto: los modelos de razonamiento deben optimizarse no solo para la precisión, sino también para dimensiones más amplias de confiabilidad. Nuestro código está disponible en: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine.
La predicción de series temporales (TSF, por sus siglas en inglés) sigue siendo un problema desafiante y en gran medida no resuelto en el aprendizaje automático, a pesar de los esfuerzos recientes significativos que aprovechan los Modelos de Lenguaje de Gran Escala (LLMs), los cuales dependen predominantemente de arquitecturas Transformer. La evidencia empírica muestra consistentemente que incluso los Transformers más potentes a menudo no superan a modelos mucho más simples, por ejemplo, modelos lineales, en tareas de TSF; sin embargo, una comprensión teórica rigurosa de este fenómeno sigue siendo limitada. En este artículo, proporcionamos un análisis teórico de las limitaciones de los Transformers para TSF a través de la lente de la teoría de Aprendizaje en Contexto (ICL, por sus siglas en inglés). Específicamente, bajo datos AR(p), establecemos que: (1) los modelos de Autoatención Lineal (LSA, por sus siglas en inglés) no pueden lograr un error cuadrático medio (MSE) esperado más bajo que los modelos lineales clásicos para la predicción en contexto; (2) a medida que la longitud del contexto tiende a infinito, LSA recupera asintóticamente el predictor lineal óptimo; y (3) bajo inferencia de estilo Cadena de Pensamiento (CoT, por sus siglas en inglés), las predicciones colapsan a la media exponencialmente. Validamos empíricamente estos hallazgos a través de experimentos cuidadosamente diseñados. Nuestra teoría no solo arroja luz sobre varios fenómenos previamente poco explorados, sino que también ofrece ideas prácticas para diseñar arquitecturas de predicción más efectivas. Esperamos que nuestro trabajo anime a la comunidad de investigación en general a revisitar las limitaciones teóricas fundamentales de TSF y a evaluar críticamente la aplicación directa de arquitecturas cada vez más sofisticadas sin un escrutinio más profundo.
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) muestran que extender la longitud de las cadenas de razonamiento mejora significativamente el rendimiento en tareas complejas. Si bien revelar estas trazas de razonamiento ayuda a los usuarios a seguir, verificar y aprender mejor del proceso de resolución de problemas del modelo, también las hace altamente vulnerables a la destilación no autorizada. Para mitigar este riesgo, los proveedores de modelos propietarios suelen adoptar estrategias de protección agresivas, como reemplazar el razonamiento detallado con resúmenes breves, lo que priva a los usuarios de información intermedia valiosa. Para abordar este dilema, proponemos PART, una reformulación antidestilación que preserva la información de las trazas de razonamiento. Motivados por la diferencia entre cómo los humanos comprenden las trazas de razonamiento y cómo los LLMs las explotan para el ajuste fino supervisado, diseñamos una reformulación simple pero efectiva en dos pasos: eliminar los comportamientos de autodiálogo y reordenar las subconclusiones. Un pequeño modelo auxiliar se entrena para realizar esta reformulación, incurriendo en un sobrecargo computacional mínimo. Experimentos extensivos demuestran que PART interrumpe consistentemente la destilación en modelos estudiantes de diferentes tamaños y tipos en varios benchmarks de razonamiento. Por ejemplo, al entrenar con trazas reformuladas, incluso el rendimiento de un modelo estudiante grande de 32B disminuye de 54.17 a 46.88 en AIME 2024, lo que corresponde a una degradación del 13.5%.
Los proveedores de chatbots (por ejemplo, OpenAI) dependen de esquemas de suscripción por niveles para generar ingresos, ofreciendo modelos básicos para usuarios gratuitos y modelos avanzados para suscriptores de pago. Sin embargo, se considera que un esquema más granular de pago por desbloqueo de funciones premium (por ejemplo, matemáticas, programación) sería más viable económicamente para los proveedores. Dicho esquema requiere una técnica de bloqueo de funciones (FLoTE, por sus siglas en inglés) que sea (i) efectiva para rechazar funciones bloqueadas, (ii) que preserve la utilidad de las funciones desbloqueadas, (iii) robusta contra evasiones o el uso no autorizado de credenciales, y (iv) escalable para múltiples funciones y usuarios. No obstante, las FLoTEs existentes (por ejemplo, modelos bloqueados por contraseña) no son robustas ni escalables. Presentamos Locket, la primera FLoTE robusta y escalable para habilitar esquemas de pago por desbloqueo. Locket utiliza un enfoque novedoso de fusión para adjuntar adaptadores a un modelo de lenguaje grande (LLM) con el fin de rechazar funciones no autorizadas. Nuestra evaluación exhaustiva demuestra que Locket es efectivo (100% de rechazo en funciones bloqueadas), preserva la utilidad (leq 7% de degradación en funciones desbloqueadas), robusto (leq 5% de tasa de éxito en ataques) y escalable para múltiples funciones y clientes.
Las recientes barreras de seguridad basadas en razonamiento para Modelos de Razonamiento de Gran Escala (LRMs, por sus siglas en inglés), como la alineación deliberativa, han demostrado una fuerte defensa contra los ataques de jailbreak. Al aprovechar la capacidad de razonamiento de los LRMs, estas barreras ayudan a los modelos a evaluar la seguridad de las entradas del usuario antes de generar respuestas finales. La poderosa capacidad de razonamiento puede analizar la intención de la consulta de entrada y se negará a asistir una vez que detecte la intención dañina oculta por los métodos de jailbreak. Dichas barreras han mostrado un aumento significativo en la defensa, como las tasas de rechazo casi perfectas en la serie de código abierto gpt-oss. Desafortunadamente, encontramos que estas potentes barreras basadas en razonamiento pueden ser extremadamente vulnerables a manipulaciones sutiles de los mensajes de entrada y, una vez secuestradas, pueden llevar a resultados aún más perjudiciales. Específicamente, primero descubrimos un aspecto sorprendentemente frágil de estas barreras: simplemente agregar unos pocos tokens de plantilla al mensaje de entrada puede eludir con éxito las barreras aparentemente poderosas y generar respuestas explícitas y dañinas. Para explorar más a fondo, introducimos un conjunto de métodos de jailbreak que subvierten las barreras basadas en razonamiento. Nuestros ataques abarcan configuraciones de caja blanca, gris y negra, y van desde manipulaciones de plantilla sin esfuerzo hasta optimización completamente automatizada. Junto con el potencial de implementación escalable, estos métodos también logran tasas de éxito de ataque alarmantemente altas (por ejemplo, superando el 90% en 5 puntos de referencia diferentes en la serie gpt-oss, tanto en modelos locales como en servicios de API en línea). Las evaluaciones en varios LRMs de código abierto líderes confirman que estas vulnerabilidades son sistémicas, subrayando la necesidad urgente de técnicas de alineación más robustas para los LRMs de código abierto, con el fin de prevenir el uso malicioso. El código está disponible en https://chenxshuo.github.io/bag-of-tricks.
Presentamos SynthID-Image, un sistema basado en aprendizaje profundo para la marca de agua invisible en imágenes generadas por IA. Este artículo documenta los requisitos técnicos, los modelos de amenazas y los desafíos prácticos de implementar dicho sistema a escala de internet, abordando los requisitos clave de efectividad, fidelidad, robustez y seguridad. SynthID-Image ha sido utilizado para marcar más de diez mil millones de imágenes y fotogramas de video en los servicios de Google, y su correspondiente servicio de verificación está disponible para evaluadores de confianza. Para mayor exhaustividad, presentamos una evaluación experimental de una variante de modelo externo, SynthID-O, que está disponible a través de asociaciones. Comparamos SynthID-O con otros métodos de marca de agua post-hoc de la literatura, demostrando un rendimiento de vanguardia tanto en calidad visual como en robustez frente a perturbaciones comunes de imágenes. Si bien este trabajo se centra en medios visuales, las conclusiones sobre implementación, restricciones y modelado de amenazas se generalizan a otras modalidades, incluido el audio. Este artículo proporciona una documentación exhaustiva para la implementación a gran escala de sistemas de procedencia de medios basados en aprendizaje profundo.
El preentrenamiento contrastivo audio-lenguaje genera representaciones conjuntas potentes, aunque una brecha persistente entre las modalidades de audio y texto limita los beneficios de acoplar codificadores multimodales con modelos de lenguaje grandes (LLM, por sus siglas en inglés). Presentamos Diffusion-Link, un módulo de conexión de modalidades basado en difusión que mapea generativamente los embeddings de audio a la distribución de embeddings de texto. El módulo se entrena en el embedding de salida del codificador multimodal congelado y se implementa como una red ligera con tres bloques residuales de MLP. Para evaluar el efecto de Diffusion-Link en el acoplamiento de codificadores multimodales con LLM, realizamos pruebas en la Tarea de Subtitulación Automática de Audio (AAC, por sus siglas en inglés); hasta donde sabemos, esta es la primera aplicación de conexión de modalidades basada en difusión a AAC. Reportamos dos resultados. (1) Análisis de la brecha de modalidad: en términos de similitud y criterios geométricos, Diffusion-Link reduce la brecha de modalidad más que los métodos previos basados en difusión y muestra una migración colectiva de los embeddings de audio hacia la distribución de texto. (2) AAC en tareas posteriores: al conectar Diffusion-Link al mismo modelo base multimodal LLM, se logra un rendimiento de vanguardia en AudioCaps tanto en subtitulación zero-shot como supervisada completa, sin conocimiento externo, con ganancias relativas de hasta el 52.5% y 7.5%, respectivamente. Estos hallazgos demuestran que cerrar la brecha de modalidad es crucial para un acoplamiento efectivo entre codificadores multimodales y LLM, y que la conexión de modalidades basada en difusión ofrece una dirección prometedora más allá de los diseños centrados en la recuperación de conocimiento. El código se publicará tras la aceptación en https://github.com/DevKiHyun/Diffusion-Link.
Los agentes de Investigación Profunda (DR, por sus siglas en inglés) basados en Modelos de Lenguaje de Gran Escala (LLMs) pueden realizar investigaciones complejas y de múltiples pasos al descomponer tareas, recuperar información en línea y sintetizar informes detallados. Sin embargo, el mal uso de los LLMs con capacidades tan poderosas puede generar riesgos aún mayores. Esto es especialmente preocupante en dominios de alto impacto e intensivos en conocimiento, como la bioseguridad, donde los DR pueden generar un informe profesional que contenga conocimiento prohibido detallado. Lamentablemente, hemos encontrado tales riesgos en la práctica: simplemente enviar una consulta dañina, que un LLM independiente rechaza directamente, puede provocar un informe detallado y peligroso de los agentes DR. Esto resalta los riesgos elevados y subraya la necesidad de un análisis de seguridad más profundo. Sin embargo, los métodos de "jailbreak" diseñados para LLMs no logran exponer estos riesgos únicos, ya que no se dirigen a la capacidad de investigación de los agentes DR. Para abordar esta brecha, proponemos dos estrategias novedosas de "jailbreak": Inyección de Plan, que introduce subobjetivos maliciosos en el plan del agente; y Secuestro de Intención, que reformula consultas dañinas como preguntas de investigación académica. Realizamos extensos experimentos en diferentes LLMs y varios puntos de referencia de seguridad, incluyendo indicaciones prohibidas generales y de bioseguridad. Estos experimentos revelan 3 hallazgos clave: (1) La alineación de los LLMs a menudo falla en los agentes DR, donde indicaciones dañinas enmarcadas en términos académicos pueden secuestrar la intención del agente; (2) La planificación y ejecución de múltiples pasos debilita la alineación, revelando vulnerabilidades sistémicas que las salvaguardas a nivel de indicación no pueden abordar; (3) Los agentes DR no solo evitan rechazos, sino que también producen contenido más coherente, profesional y peligroso, en comparación con los LLMs independientes. Estos resultados demuestran una desalineación fundamental en los agentes DR y exigen mejores técnicas de alineación adaptadas a los agentes DR. El código y los conjuntos de datos están disponibles en https://chenxshuo.github.io/deeper-harm.
Los modelos generativos de eliminación de ruido existentes se basan en la resolución de ecuaciones diferenciales estocásticas (SDE) o ecuaciones diferenciales ordinarias (ODE) en tiempo inverso discretizadas. En este artículo, identificamos un problema pasado por alto pero generalizado en esta familia de modelos: una desalineación entre el nivel de ruido predefinido y el nivel de ruido real codificado en los estados intermedios durante el muestreo. Nos referimos a esta desalineación como *desplazamiento de ruido*. A través de un análisis empírico, demostramos que el desplazamiento de ruido está ampliamente presente en los modelos de difusión modernos y exhibe un sesgo sistemático, lo que conduce a una generación subóptima debido tanto a la generalización fuera de distribución como a actualizaciones de eliminación de ruido inexactas. Para abordar este problema, proponemos *Guía de Conciencia del Ruido* (Noise Awareness Guidance, NAG), un método de corrección simple pero efectivo que guía explícitamente las trayectorias de muestreo para que permanezcan consistentes con el programa de ruido predefinido. Además, introducimos una variante de NAG sin clasificador, que entrena conjuntamente un modelo condicionado por ruido y un modelo no condicionado mediante la técnica de *dropout* condicionado por ruido, eliminando así la necesidad de clasificadores externos. Experimentos exhaustivos, que incluyen generación en ImageNet y diversas tareas de ajuste fino supervisado, muestran que NAG mitiga consistentemente el desplazamiento de ruido y mejora sustancialmente la calidad de generación de los modelos de difusión principales.
Los modelos de lenguaje basados en difusión (dLLMs, por sus siglas en inglés) han surgido como una alternativa prometedora a los modelos de lenguaje autoregresivos (AR), aprovechando la generación basada en eliminación de ruido para permitir un paralelismo inherente. Aunque cada vez más modelos dLLM de código abierto están emergiendo, su adopción generalizada sigue limitada por la falta de un marco de inferencia estandarizado y eficiente. Presentamos dInfer, un marco eficiente y extensible para la inferencia de dLLM. dInfer descompone la canalización de inferencia en cuatro componentes modulares—modelo, gestor de iteraciones de difusión, estrategia de decodificación y gestor de caché KV—e integra algoritmos novedosos para cada componente junto con optimizaciones a nivel de sistema. A través de esta combinación de innovaciones algorítmicas y mejoras del sistema, dInfer logra ganancias sustanciales en eficiencia sin comprometer la calidad de la salida en LLaDA-MoE. Con un tamaño de lote de 1, supera los 1,100 tokens por segundo en HumanEval y promedia más de 800 tokens por segundo en seis puntos de referencia utilizando 8 GPUs H800. En comparación con sistemas anteriores, dInfer ofrece una aceleración de 10 veces sobre Fast-dLLM mientras mantiene un rendimiento similar del modelo. Incluso en comparación con el modelo AR (con un número comparable de parámetros de activación y rendimiento) QWen2.5-3B, que está altamente optimizado con el último motor de inferencia vLLM, dInfer aún ofrece una aceleración de 2 a 3 veces. La implementación de dInfer está disponible como código abierto en https://github.com/inclusionAI/dInfer.