Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos FlashWorld, un modelo generativo que produce escenas 3D a partir de una sola imagen o un prompt de texto en cuestión de segundos, siendo 10~100 veces más rápido que trabajos anteriores mientras mantiene una calidad de renderizado superior. Nuestro enfoque se aleja del paradigma convencional orientado a múltiples vistas (MV-oriented), que genera imágenes multivista para una posterior reconstrucción 3D, hacia un enfoque orientado a 3D donde el modelo produce directamente representaciones de Gaussianas 3D durante la generación multivista. Aunque garantiza la consistencia 3D, el método orientado a 3D suele presentar una calidad visual deficiente. FlashWorld incluye una fase de preentrenamiento en modo dual seguida de una fase de postentrenamiento en modo cruzado, integrando efectivamente las fortalezas de ambos paradigmas. Específicamente, aprovechando el conocimiento previo de un modelo de difusión de video, primero preentrenamos un modelo de difusión multivista en modo dual, que soporta conjuntamente los modos de generación orientados a MV y 3D. Para cerrar la brecha de calidad en la generación orientada a 3D, proponemos además una destilación de postentrenamiento en modo cruzado, emparejando la distribución del modo orientado a 3D consistente con el modo orientado a MV de alta calidad. Esto no solo mejora la calidad visual mientras mantiene la consistencia 3D, sino que también reduce los pasos de eliminación de ruido necesarios para la inferencia. Además, proponemos una estrategia para aprovechar grandes cantidades de imágenes de vista única y prompts de texto durante este proceso, mejorando la generalización del modelo a entradas fuera de distribución. Experimentos extensivos demuestran la superioridad y eficiencia de nuestro método.
Los avances recientes en modelos multimodales unificados indican una clara tendencia hacia la generación de contenido integral. Sin embargo, el dominio auditivo sigue siendo un desafío significativo, ya que la música y el habla a menudo se desarrollan de manera aislada, lo que obstaculiza el progreso hacia la síntesis de audio universal. Esta separación se debe a conflictos inherentes en las tareas y a graves desequilibrios en los datos, lo que impide el desarrollo de un modelo de generación de audio verdaderamente unificado. Para abordar este desafío, proponemos UniMoE-Audio, un modelo unificado de generación de habla y música dentro de un novedoso marco de Mezcla de Expertos de Capacidad Dinámica (MoE, por sus siglas en inglés). Arquitectónicamente, UniMoE-Audio introduce una estrategia de enrutamiento Top-P para la asignación dinámica del número de expertos, y un diseño híbrido de expertos que incluye expertos enrutados para conocimientos específicos del dominio, expertos compartidos para características agnósticas del dominio y expertos nulos para la omisión adaptativa de cálculos. Para abordar el desequilibrio de datos, introducimos un plan de entrenamiento en tres etapas: 1) Entrenamiento Independiente de Especialistas aprovecha los conjuntos de datos originales para inculcar conocimientos específicos del dominio en cada "proto-experto" sin interferencias; 2) Integración y Calentamiento de MoE incorpora estos especialistas en la arquitectura de UniMoE-Audio, calentando el módulo de puerta y el experto compartido utilizando un subconjunto de datos equilibrados; y 3) Entrenamiento Conjunto Sinérgico entrena todo el modelo de extremo a extremo en el conjunto de datos completamente equilibrado, fomentando una sinergia mejorada entre dominios. Experimentos extensos muestran que UniMoE-Audio no solo alcanza un rendimiento de vanguardia en los principales puntos de referencia de generación de habla y música, sino que también demuestra un aprendizaje sinérgico superior, mitigando la degradación del rendimiento típicamente observada en el entrenamiento conjunto ingenuo. Nuestros hallazgos destacan el potencial sustancial de la arquitectura MoE especializada y las estrategias de entrenamiento curadas para avanzar en el campo de la generación de audio universal. Página principal: https://mukioxun.github.io/Uni-MoE-site/home.html
El patrón de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sigue siendo opaco, y el aprendizaje por refuerzo (RL, por sus siglas en inglés) suele aplicar un crédito uniforme a toda una generación, difuminando la distinción entre pasos cruciales y rutinarios. Este trabajo posiciona la atención como un sustrato privilegiado que hace legible la lógica interna de los LLMs, no simplemente como un subproducto de la computación, sino como un plano mecanístico del razonamiento mismo. Primero distinguimos las cabezas de atención entre el procesamiento de información local y global, y revelamos que las cabezas localmente enfocadas producen un patrón de diente de sierra cerca de la diagonal que indica fragmentos de frases, mientras que las cabezas globalmente enfocadas exponen tokens que ejercen una amplia influencia descendente sobre tokens futuros. Formalizamos esto con dos métricas: 1) la Distancia Promedio de Atención en Ventana, que mide el alcance de la atención hacia atrás dentro de una ventana recortada; 2) la Influencia de Atención Futura, que cuantifica la importancia global de un token como la atención promedio que recibe de tokens posteriores. En conjunto, estas señales revelan un mecanismo recurrente de preplanificación y anclaje, donde el modelo primero realiza una referencia contextual de largo alcance para generar un token introductorio, que es inmediatamente seguido o coincide con un token ancla semántico que organiza el razonamiento subsiguiente. Aprovechando estas ideas, introducimos tres estrategias novedosas de RL que realizan dinámicamente una asignación de crédito dirigida a nodos críticos (tokens de preplanificación, tokens ancla y su acoplamiento temporal) y mostramos mejoras consistentes en el rendimiento en diversas tareas de razonamiento. Al alinear la optimización con el ritmo intrínseco de razonamiento del modelo, buscamos transformar la optimización opaca en un proceso accionable consciente de la estructura, con la esperanza de ofrecer un paso potencial hacia una optimización más transparente y efectiva del razonamiento de los LLMs.
Los modelos de lenguaje multimodal de gran escala (MLLMs) completamente abiertos actualmente se encuentran rezagados en comparación con sus contrapartes propietarias, principalmente debido a una brecha significativa en la calidad de los datos para el ajuste fino supervisado (SFT). Los conjuntos de datos de código abierto existentes a menudo están plagados de ruido generalizado y un déficit crítico en datos de razonamiento complejo, como el Chain-of-Thought (CoT), lo que dificulta el desarrollo de capacidades avanzadas en los modelos. Para abordar estos desafíos, nuestro trabajo realiza tres contribuciones principales. En primer lugar, presentamos Honey-Data-15M, un nuevo conjunto de datos de SFT que comprende aproximadamente 15 millones de pares de preguntas y respuestas, procesados mediante múltiples técnicas de limpieza y enriquecidos con una novedosa estrategia de enriquecimiento de CoT de doble nivel (corto y largo). En segundo lugar, introducimos HoneyPipe, la pipeline de curación de datos, y su marco subyacente DataStudio, proporcionando a la comunidad una metodología transparente y adaptable para la curación de datos que va más allá de las liberaciones estáticas de conjuntos de datos. Finalmente, para validar nuestro conjunto de datos y pipeline, entrenamos Bee-8B, un modelo de 8B en Honey-Data-15M. Los experimentos muestran que Bee-8B establece un nuevo estado del arte (SOTA) para los MLLMs completamente abiertos, logrando un rendimiento que es competitivo y, en algunos casos, supera a modelos semiabiertos recientes como InternVL3.5-8B. Nuestro trabajo entrega a la comunidad un conjunto de recursos fundamentales, que incluyen: el corpus Honey-Data-15M; la suite completa que comprende HoneyPipe y DataStudio; recetas de entrenamiento; un sistema de evaluación; y los pesos del modelo. Este esfuerzo demuestra que un enfoque basado en principios sobre la calidad de los datos es una vía clave para desarrollar MLLMs completamente abiertos que sean altamente competitivos con sus contrapartes semiabiertas.
Los modelos Visual-Language-Action (VLA) reportan tasas de éxito impresionantes en los puntos de referencia de manipulación robótica, sin embargo, estos resultados pueden ocultar debilidades fundamentales en cuanto a robustez. Realizamos un análisis sistemático de vulnerabilidades mediante la introducción de perturbaciones controladas en siete dimensiones: disposición de objetos, ángulos de cámara, estados iniciales del robot, instrucciones de lenguaje, condiciones de iluminación, texturas de fondo y ruido de sensores. Analizamos exhaustivamente múltiples modelos de última generación y revelamos una fragilidad consistente bajo una aparente competencia. Nuestro análisis expone debilidades críticas: los modelos muestran una sensibilidad extrema a factores de perturbación, como los ángulos de cámara y los estados iniciales del robot, con un rendimiento que cae del 95% a menos del 30% bajo perturbaciones modestas. Sorprendentemente, los modelos son en gran medida insensibles a las variaciones del lenguaje, y experimentos adicionales revelan que tienden a ignorar por completo las instrucciones de lenguaje. Nuestros hallazgos desafían la suposición de que las puntuaciones altas en los puntos de referencia equivalen a una verdadera competencia y destacan la necesidad de prácticas de evaluación que midan la confiabilidad bajo variaciones realistas.
Los modelos de generación de video actuales son capaces de producir videos visualmente realistas, pero a menudo no logran adherirse a las leyes físicas, lo que limita su capacidad para generar videos físicamente plausibles y funcionar como "modelos del mundo". Para abordar este problema, proponemos PhysMaster, que captura el conocimiento físico como una representación para guiar a los modelos de generación de video y mejorar su conciencia física. Específicamente, PhysMaster se basa en la tarea de imagen a video, donde se espera que el modelo prediga dinámicas físicamente plausibles a partir de una imagen de entrada. Dado que la imagen de entrada proporciona conocimientos previos físicos, como las posiciones relativas y las interacciones potenciales de los objetos en el escenario, diseñamos PhysEncoder para codificar la información física de la imagen como una condición adicional que inyecta conocimiento físico en el proceso de generación de video. La falta de supervisión adecuada sobre el desempeño físico del modelo, más allá de la mera apariencia, motiva a PhysEncoder a aplicar aprendizaje por refuerzo con retroalimentación humana al aprendizaje de representaciones físicas, lo que aprovecha la retroalimentación de los modelos de generación para optimizar las representaciones físicas mediante Optimización Directa de Preferencias (DPO) de manera integral. PhysMaster ofrece una solución viable para mejorar la conciencia física de PhysEncoder y, por lo tanto, de la generación de video, demostrando su capacidad en una tarea proxy simple y su generalización a una amplia gama de escenarios físicos. Esto implica que nuestro PhysMaster, que unifica soluciones para diversos procesos físicos mediante el aprendizaje de representaciones en el paradigma de aprendizaje por refuerzo, puede actuar como una solución genérica y plug-in para la generación de video con conciencia física y aplicaciones más amplias.
La representación espacio-temporal efectiva es fundamental para modelar, comprender y predecir la dinámica en videos. La unidad básica de un video, el píxel, traza una trayectoria 3D continua a lo largo del tiempo, sirviendo como el elemento primitivo de la dinámica. Basándonos en este principio, proponemos representar cualquier video como un Campo de Trayectorias: un mapeo denso que asigna una función de trayectoria 3D continua en el tiempo a cada píxel en cada fotograma. Con esta representación, presentamos Trace Anything, una red neuronal que predice todo el campo de trayectorias en un único paso de avance. Específicamente, para cada píxel en cada fotograma, nuestro modelo predice un conjunto de puntos de control que parametriza una trayectoria (es decir, un B-spline), obteniendo su posición 3D en instantes de tiempo arbitrarios. Entrenamos el modelo Trace Anything con datos 4D a gran escala, incluyendo datos de nuestra nueva plataforma, y nuestros experimentos demuestran que: (i) Trace Anything alcanza un rendimiento de vanguardia en nuestro nuevo punto de referencia para la estimación de campos de trayectorias y compite favorablemente en puntos de referencia establecidos de seguimiento de puntos; (ii) ofrece ganancias significativas en eficiencia gracias a su paradigma de un solo paso, sin requerir optimización iterativa ni estimadores auxiliares; y (iii) exhibe habilidades emergentes, incluyendo manipulación condicionada por objetivos, predicción de movimiento y fusión espacio-temporal. Página del proyecto: https://trace-anything.github.io/.
Presentamos InteractiveOmni, un modelo unificado y de código abierto de lenguaje multimodal de gran escala para interacción multirronda audiovisual, que abarca desde 4B hasta 8B parámetros, diseñado para liderar el campo de los modelos ligeros al ofrecer capacidades integrales de comprensión multimodal y generación de habla. Para lograrlo, integramos el codificador visual, el codificador de audio, el modelo de lenguaje de gran escala y el decodificador de habla en un modelo unificado para tareas de comprensión y generación. Diseñamos una estrategia de entrenamiento en múltiples etapas para garantizar capacidades robustas de cruce modal, incluyendo preentrenamiento para comprensión multimodal, seguido de posentrenamiento con conversación de habla e interacción audiovisual. Para habilitar una capacidad conversacional a largo plazo similar a la humana, seleccionamos meticulosamente un conjunto de datos de entrenamiento multirronda que mejora la capacidad del modelo para manejar interacciones complejas y multirronda. Para evaluar de manera efectiva las capacidades de memoria multirronda e interacción de habla, construimos el benchmark de memoria multirronda multimodal y el benchmark de interacción de habla multirronda. Los experimentos demuestran que InteractiveOmni supera significativamente a los modelos de código abierto líderes y ofrece una experiencia audiovisual multirronda más inteligente, particularmente en sus capacidades de memoria a largo plazo. Cabe destacar que InteractiveOmni-4B es comparable a modelos mucho más grandes como Qwen2.5-Omni-7B en benchmarks generales, y puede retener el 97% del rendimiento de InteractiveOmni-8B mientras utiliza solo el 50% del tamaño del modelo. Al lograr resultados de vanguardia frente a modelos de tamaño similar en tareas de comprensión de imágenes, audio, video y generación de habla, InteractiveOmni representa una base accesible y de código abierto para los sistemas interactivos inteligentes de próxima generación.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un elemento central para el entrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés), sin embargo, el campo carece de metodologías predictivas de escalabilidad comparables a las establecidas para el preentrenamiento. A pesar del rápido aumento en los presupuestos de cómputo, no existe un entendimiento fundamentado sobre cómo evaluar mejoras algorítmicas para escalar el cómputo en RL. Presentamos el primer estudio sistemático a gran escala, que suma más de 400,000 horas de GPU, que define un marco fundamentado para analizar y predecir la escalabilidad de RL en LLMs. Ajustamos curvas sigmoidales de rendimiento-cómputo para el entrenamiento de RL y realizamos una amplia ablación de elecciones de diseño comunes para analizar sus efectos en el rendimiento asintótico y la eficiencia computacional. Observamos: (1) No todas las recetas producen un rendimiento asintótico similar, (2) Detalles como la agregación de pérdidas, normalización, currículo y algoritmos fuera de política modulan principalmente la eficiencia computacional sin alterar significativamente la asíntota, y (3) Las recetas estables y escalables siguen trayectorias de escalabilidad predecibles, permitiendo la extrapolación a partir de ejecuciones a menor escala. Combinando estas observaciones, proponemos una receta de mejores prácticas, ScaleRL, y demostramos su efectividad al escalar y predecir exitosamente el rendimiento de validación en una única ejecución de RL escalada hasta 100,000 horas de GPU. Nuestro trabajo proporciona tanto un marco científico para analizar la escalabilidad en RL como una receta práctica que acerca el entrenamiento de RL a la predictibilidad lograda durante mucho tiempo en el preentrenamiento.
Mientras que la mayoría de los LLM autorregresivos están limitados a la decodificación token por token, los LLM de difusión (dLLM) han atraído un interés creciente por su potencial para acelerar drásticamente la inferencia mediante la decodificación paralela. A pesar de esta promesa, el supuesto de independencia condicional en los dLLM hace que la decodificación paralela ignore las dependencias entre tokens, lo que inevitablemente degrada la calidad de la generación cuando estas dependencias son fuertes. Sin embargo, los trabajos existentes en gran medida pasan por alto estos desafíos inherentes, y las evaluaciones en benchmarks estándar (por ejemplo, matemáticas y codificación) no son suficientes para capturar la degradación de calidad causada por la decodificación paralela. Para abordar esta brecha, primero proporcionamos un análisis teórico de la información sobre la decodificación paralela. Luego, realizamos estudios de casos en operaciones sintéticas de listas analíticamente tratables desde perspectivas tanto de distribución de datos como de estrategias de decodificación, ofreciendo insights cuantitativos que resaltan las limitaciones fundamentales de la decodificación paralela. Basándonos en estos insights, proponemos ParallelBench, el primer benchmark diseñado específicamente para dLLM, que incluye tareas realistas que son triviales para humanos y LLM autorregresivos, pero excepcionalmente desafiantes para dLLM bajo decodificación paralela. Utilizando ParallelBench, analizamos sistemáticamente tanto dLLM como LLM autorregresivos, revelando que: (i) los dLLM bajo decodificación paralela pueden sufrir una degradación dramática de calidad en escenarios del mundo real, y (ii) las estrategias actuales de decodificación paralela luchan por adaptar su grado de paralelismo según la dificultad de la tarea, lo que les impide lograr una aceleración significativa sin comprometer la calidad. Nuestros hallazgos subrayan la necesidad urgente de métodos de decodificación innovadores que puedan superar el actual compromiso entre velocidad y calidad. Publicamos nuestro benchmark para ayudar a acelerar el desarrollo de dLLM verdaderamente eficientes.
Los sistemas multiagente (MAS) y el aprendizaje por refuerzo (RL) se utilizan ampliamente para mejorar las capacidades agentivas de los modelos de lenguaje de gran escala (LLMs). MAS mejora el rendimiento en tareas mediante la orquestación basada en roles, mientras que RL utiliza recompensas del entorno para aprender políticas más robustas, como la optimización al estilo GRPO. Sin embargo, la aplicación de RL on-policy a MAS sigue siendo poco explorada y presenta desafíos únicos. Desde el punto de vista algorítmico, los supuestos de agrupación estándar de GRPO se descomponen porque los prompts varían según el rol y el turno. En términos de sistema, la pila de entrenamiento debe soportar rollouts de flujos de trabajo MAS y actualizaciones on-policy tanto para modelos de política única como de múltiples políticas. Proponemos AT-GRPO, que incluye (i) un algoritmo de RL agrupado por agente y turno, adaptado a MAS, y (ii) un sistema de entrenamiento que soporta regímenes de política única y múltiples políticas. En tareas de juegos, planificación, codificación y matemáticas, AT-GRPO ofrece mejoras sustanciales. En planificación de horizonte largo, aumenta la precisión desde un 14,0 a 47,0 por ciento de la línea base de RL de agente único a 96,0 a 99,5 por ciento. También mejora el rendimiento en razonamiento, con ganancias promedio de 3,87 a 7,62 por ciento en tareas de codificación y de 9,0 a 17,93 por ciento en matemáticas. El código y los entornos están disponibles en: https://github.com/pettingllms-ai/PettingLLMs.
Presentamos el Verificador Universal Generativo, un concepto novedoso y un complemento diseñado para el razonamiento multimodal de próxima generación en modelos de visión-lenguaje y modelos multimodales unificados, proporcionando la capacidad fundamental de reflexión y refinamiento sobre los resultados visuales durante el proceso de razonamiento y generación. Este trabajo realiza tres contribuciones principales: (1) Construimos ViVerBench, un benchmark integral que abarca 16 categorías de tareas críticas para evaluar resultados visuales en el razonamiento multimodal. Los resultados muestran que los modelos de visión-lenguaje (VLMs) existentes tienen un rendimiento consistentemente bajo en estas tareas, destacando una brecha sustancial respecto a la capacidad humana en la verificación visual confiable. (2) Diseñamos dos pipelines automatizados para construir datos de verificación visual a gran escala y entrenar OmniVerifier-7B, el primer verificador generativo omnicapaz entrenado para la verificación visual universal, que logra mejoras notables en ViVerBench (+8.3). Durante el entrenamiento, identificamos tres capacidades atómicas en la verificación visual y demostramos cómo se generalizan e interactúan de manera sinérgica. (3) Proponemos OmniVerifier-TTS, un paradigma de escalado secuencial en tiempo de prueba que aprovecha el verificador universal para conectar la generación y edición de imágenes dentro de modelos unificados, mejorando el límite superior de la capacidad generativa mediante una optimización iterativa y detallada. Más allá de la generación, extendemos el verificador universal a escenarios más amplios de razonamiento intercalado en la modelización del mundo. Empíricamente, OmniVerifier-TTS logra mejoras en T2I-ReasonBench (+3.7) y GenEval++ (+4.3), superando a los métodos existentes de escalado en tiempo de prueba en paralelo, como Best-of-N. Al dotar al razonamiento multimodal de una verificación visual confiable, OmniVerifier avanza tanto en la reflexión confiable durante la generación como en el refinamiento escalable en tiempo de prueba, marcando un paso hacia sistemas de razonamiento de próxima generación más confiables y controlables.
Los modelos generativos han sido ampliamente aplicados en la modelización del mundo para la simulación de entornos y la predicción de estados futuros. Con los avances en la conducción autónoma, existe una creciente demanda no solo de la generación de videos de alta fidelidad bajo diversos controles, sino también de la producción de información diversa y significativa, como la estimación de profundidad. Para abordar esto, proponemos CVD-STORM, un modelo de difusión de video de vista cruzada que utiliza un Variational Autoencoder (VAE) de reconstrucción espacio-temporal, capaz de generar videos a largo plazo y de múltiples vistas con capacidades de reconstrucción 4D bajo diversas entradas de control. Nuestro enfoque primero ajusta el VAE con una tarea auxiliar de reconstrucción 4D, mejorando su capacidad para codificar estructuras 3D y dinámicas temporales. Posteriormente, integramos este VAE en el proceso de difusión de video para mejorar significativamente la calidad de la generación. Los resultados experimentales demuestran que nuestro modelo logra mejoras sustanciales tanto en las métricas FID como FVD. Además, el Decodificador de Splatting Gaussiano entrenado conjuntamente reconstruye eficazmente escenas dinámicas, proporcionando información geométrica valiosa para una comprensión integral de la escena.
Presentamos InternVLA-M1, un marco unificado para la localización espacial y el control de robots que avanza hacia la inteligencia escalable y de propósito general en robots que siguen instrucciones. Su idea central es el entrenamiento guiado espacialmente de visión-lenguaje-acción, donde la localización espacial sirve como el vínculo crítico entre las instrucciones y las acciones del robot. InternVLA-M1 emplea un proceso de dos etapas: (i) pre-entrenamiento de localización espacial en más de 2.3 millones de datos de razonamiento espacial para determinar "dónde actuar" al alinear las instrucciones con posiciones visuales independientes de la forma física, y (ii) post-entrenamiento de acción guiada espacialmente para decidir "cómo actuar" generando acciones conscientes de la forma física mediante indicaciones espaciales plug-and-play. Esta receta de entrenamiento guiada espacialmente produce mejoras consistentes: InternVLA-M1 supera a su variante sin guía espacial en un +14.6% en SimplerEnv Google Robot, +17% en WidowX y +4.3% en LIBERO Franka, mientras demuestra una mayor capacidad de razonamiento espacial en predicciones de caja, punto y trazo. Para escalar aún más el seguimiento de instrucciones, construimos un motor de simulación para recopilar 244 mil episodios generalizables de recoger y colocar, logrando una mejora promedio del 6.2% en 200 tareas y más de 3 mil objetos. En recoger y colocar en entornos reales agrupados, InternVLA-M1 mejoró en un 7.3%, y con co-entrenamiento sintético, alcanzó un +20.6% en objetos no vistos y configuraciones novedosas. Además, en escenarios intensivos en razonamiento de largo plazo, superó a trabajos existentes en más del 10%. Estos resultados destacan el entrenamiento guiado espacialmente como un principio unificador para robots generalistas escalables y resilientes. El código y los modelos están disponibles en https://github.com/InternRobotics/InternVLA-M1.
La investigación de vanguardia en Inteligencia Artificial (IA) requiere recursos considerables, incluyendo Unidades de Procesamiento Gráfico (GPUs), datos y recursos humanos. En este artículo, evaluamos la relación entre estos recursos y el avance científico de los modelos fundamentales (FM, por sus siglas en inglés). Revisamos 6517 artículos sobre FM publicados entre 2022 y 2024, y encuestamos a 229 primeros autores sobre el impacto de los recursos computacionales en la producción científica. Encontramos que el aumento en la capacidad de cómputo está correlacionado con las asignaciones de financiamiento nacional y las citaciones, pero nuestros hallazgos no observan correlaciones fuertes con el entorno de investigación (académico o industrial), el dominio o la metodología de estudio. Recomendamos que individuos e instituciones se enfoquen en crear oportunidades de cómputo compartidas y asequibles para reducir las barreras de entrada para investigadores con recursos limitados. Estas medidas pueden ayudar a ampliar la participación en la investigación de FM, fomentar la diversidad de ideas y contribuyentes, y sostener la innovación y el progreso en IA. Los datos estarán disponibles en: https://mit-calc.csail.mit.edu/
En este artículo, afirmamos que la fundamentación visual 3D es la piedra angular del razonamiento espacial y presentamos el Grounded-Spatial Reasoner (GS-Reasoner) para explorar las representaciones espaciales efectivas que cierran la brecha entre ambos. Los modelos de lenguaje grandes (LLM) 3D existentes adolecen de la ausencia de una representación 3D unificada capaz de capturar conjuntamente información semántica y geométrica. Esta deficiencia se manifiesta ya sea en un rendimiento deficiente en la fundamentación o en una dependencia excesiva de módulos externos, lo que finalmente obstaculiza la integración fluida de la fundamentación y el razonamiento espacial. Para abordar esto, proponemos un mecanismo de agrupación de doble vía simple pero efectivo que alinea estrechamente las características geométricas con señales tanto semánticas como posicionales, construyendo una representación 3D unificada basada en parches de imagen que encapsula toda la información esencial sin aumentar el número de tokens de entrada. Aprovechando esta representación holística, GS-Reasoner es el primer LLM 3D que logra una fundamentación autoregresiva completamente sin módulos externos, ofreciendo un rendimiento comparable a los modelos más avanzados y estableciendo un marco unificado y autónomo para el razonamiento espacial 3D. Para cerrar aún más la brecha entre la fundamentación y el razonamiento espacial, presentamos el conjunto de datos Grounded Chain-of-Thought (GCoT). Este conjunto de datos está meticulosamente curado para incluir tanto anotaciones de cajas delimitadoras 3D para objetos referenciados en preguntas de razonamiento como rutas de razonamiento paso a paso que integran la fundamentación como un componente central del proceso de resolución de problemas. Experimentos exhaustivos demuestran que GS-Reasoner logra resultados impresionantes en la fundamentación visual 3D, lo que a su vez mejora significativamente sus capacidades de razonamiento espacial, alcanzando un rendimiento de vanguardia.
Los modelos generalistas exitosos de Visión-Lenguaje-Acción (VLA) dependen de un entrenamiento efectivo en diversas plataformas robóticas con conjuntos de datos heterogéneos, de gran escala y de múltiples encarnaciones. Para facilitar y aprovechar la heterogeneidad en fuentes de datos robóticos ricos y diversos, proponemos un novedoso enfoque de *Soft Prompt* con un mínimo de parámetros añadidos, al integrar conceptos de aprendizaje de *prompts* en el aprendizaje robótico de múltiples encarnaciones e introducir conjuntos separados de incrustaciones aprendibles para cada fuente de datos distinta. Estas incrustaciones funcionan como *prompts* específicos de encarnación, que en conjunto potencian a los modelos VLA para explotar de manera efectiva las características variadas de múltiples encarnaciones. Nuestro nuevo X-VLA, una arquitectura VLA basada en emparejamiento de flujos, se apoya exclusivamente en codificadores *Transformer* estándar con *soft prompts*, disfrutando tanto de escalabilidad como de simplicidad. Evaluado en 6 simulaciones y 3 robots del mundo real, nuestra instanciación de 0.9B, X-VLA-0.9B, logra simultáneamente un rendimiento de vanguardia en una amplia gama de puntos de referencia, demostrando resultados superiores en un amplio espectro de capacidades, desde destreza flexible hasta una rápida adaptación entre encarnaciones, entornos y tareas. Sitio web: https://thu-air-dream.github.io/X-VLA/
Los modelos universales de incrustación multimodal son fundamentales para diversas tareas. Los enfoques existentes suelen emplear la minería de negativos dentro del lote mediante la medición de la similitud de pares consulta-candidato. Sin embargo, estos métodos a menudo tienen dificultades para capturar diferencias semánticas sutiles entre los candidatos y carecen de diversidad en las muestras negativas. Además, las incrustaciones muestran una capacidad discriminativa limitada para distinguir negativos falsos y difíciles. En este artículo, aprovechamos las capacidades avanzadas de comprensión de los MLLM para mejorar el aprendizaje de representaciones y presentamos un nuevo modelo de Incrustación Multimodal Universal (UniME-V2). Nuestro enfoque primero construye un conjunto potencial de negativos difíciles mediante recuperación global. Luego, introducimos el mecanismo MLLM-como-Juez, que utiliza MLLM para evaluar la alineación semántica de los pares consulta-candidato y generar puntuaciones de coincidencia semántica suave. Estas puntuaciones sirven como base para la minería de negativos difíciles, mitigando el impacto de los negativos falsos y permitiendo la identificación de negativos difíciles diversos y de alta calidad. Además, las puntuaciones de coincidencia semántica se utilizan como etiquetas suaves para mitigar la restricción rígida de mapeo uno a uno. Al alinear la matriz de similitud con la matriz de puntuaciones de coincidencia semántica suave, el modelo aprende distinciones semánticas entre los candidatos, mejorando significativamente su capacidad discriminativa. Para mejorar aún más el rendimiento, proponemos UniME-V2-Reranker, un modelo de reranking entrenado en nuestros negativos difíciles extraídos mediante un enfoque de optimización conjunta por pares y por lista. Realizamos experimentos exhaustivos en el benchmark MMEB y múltiples tareas de recuperación, demostrando que nuestro método alcanza un rendimiento de vanguardia en promedio en todas las tareas.
Este estudio introduce un método de Pre-Entrenamiento de Clasificación de Degradación Enmascarada (MaskDCPT), diseñado para facilitar la clasificación de tipos de degradación en imágenes de entrada, lo que conduce a un pre-entrenamiento integral para la restauración de imágenes. A diferencia de los métodos de pre-entrenamiento convencionales, MaskDCPT utiliza el tipo de degradación de la imagen como una supervisión extremadamente débil, mientras aprovecha simultáneamente la reconstrucción de la imagen para mejorar el rendimiento y la robustez. MaskDCPT incluye un codificador y dos decodificadores: el codificador extrae características de la imagen de entrada de baja calidad enmascarada. El decodificador de clasificación utiliza estas características para identificar el tipo de degradación, mientras que el decodificador de reconstrucción tiene como objetivo reconstruir una imagen de alta calidad correspondiente. Este diseño permite que el pre-entrenamiento se beneficie tanto del modelado de imágenes enmascaradas como del aprendizaje contrastivo, resultando en una representación generalizada adecuada para tareas de restauración. Gracias a la sencillez y potencia de MaskDCPT, el codificador pre-entrenado puede utilizarse para abordar la restauración universal de imágenes y lograr un rendimiento sobresaliente. La implementación de MaskDCPT mejora significativamente el rendimiento tanto para redes neuronales convolucionales (CNNs) como para Transformers, con un aumento mínimo de 3.77 dB en PSNR en la tarea de restauración integral 5D y una reducción del 34.8% en PIQE en comparación con la línea base en escenarios de degradación del mundo real. También muestra una fuerte generalización para tipos y niveles de degradación previamente no vistos. Además, hemos creado y publicado el conjunto de datos UIR-2.5M, que incluye 2.5 millones de muestras de restauración emparejadas en 19 tipos de degradación y más de 200 niveles de degradación, incorporando tanto datos sintéticos como del mundo real. El conjunto de datos, el código fuente y los modelos están disponibles en https://github.com/MILab-PKU/MaskDCPT.
Al emplear modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para recuperar documentos y generar respuestas en lenguaje natural, los motores generativos, como Google AI Overview y ChatGPT, ofrecen experiencias de usuario significativamente mejoradas y se han convertido rápidamente en la nueva forma de búsqueda. Su rápida adopción también impulsa la necesidad de la Optimización de Motores Generativos (GEO, por sus siglas en inglés), ya que los proveedores de contenido están ansiosos por obtener mayor tracción a través de ellos. En este artículo, presentamos AutoGEO, un marco para aprender automáticamente las preferencias de los motores generativos al utilizar contenidos recuperados para la generación de respuestas y reescribir contenidos web para obtener mayor tracción. AutoGEO primero solicita a los LLMs de vanguardia que expliquen las preferencias de los motores generativos y extrae reglas de preferencia significativas de estas explicaciones. Luego, utiliza estas reglas de preferencia como ingeniería de contexto para AutoGEO_API, un sistema GEO basado en prompts, y como recompensas basadas en reglas para entrenar AutoGEO_Mini, un modelo GEO rentable. Los experimentos en el estándar GEO-Bench y dos nuevos benchmarks construidos utilizando consultas reales de usuarios demuestran la efectividad de AutoGEO para mejorar la tracción del contenido mientras se preserva la utilidad de la búsqueda. Los análisis confirman la robustez de las reglas aprendidas y su capacidad para capturar preferencias únicas en diversos dominios, así como la capacidad de los sistemas AutoGEO para integrarlas en la optimización de contenidos. El código se ha publicado en https://github.com/cxcscmu/AutoGEO.
Los modelos multimodales unificados buscan habilitar conjuntamente la comprensión y generación visual, sin embargo, los puntos de referencia actuales rara vez examinan su verdadera integración. Las evaluaciones existentes tratan las dos capacidades de forma aislada o pasan por alto tareas que inherentemente las acoplan. Para abordar esta brecha, presentamos Uni-MMMU, un punto de referencia integral y consciente de la disciplina que despliega sistemáticamente la sinergia bidireccional entre generación y comprensión en ocho dominios centrados en el razonamiento, incluyendo ciencia, programación, matemáticas y acertijos. Cada tarea está acoplada bidireccionalmente, exigiendo que los modelos (i) aprovechen la comprensión conceptual para guiar una síntesis visual precisa, o (ii) utilicen la generación como un andamiaje cognitivo para el razonamiento analítico. Uni-MMMU incorpora pasos intermedios de razonamiento verificables, verdades únicas y un protocolo de puntuación reproducible tanto para salidas textuales como visuales. A través de una evaluación extensa de modelos unificados, de solo generación y de solo comprensión de última generación, revelamos disparidades sustanciales de rendimiento y dependencias cruzadas entre modalidades, ofreciendo nuevas perspectivas sobre cuándo y cómo estas capacidades se refuerzan mutuamente, y estableciendo una base confiable para el avance de modelos unificados.
La comprensión detallada entre visión y lenguaje requiere una alineación precisa entre el contenido visual y las descripciones lingüísticas, una capacidad que sigue siendo limitada en los modelos actuales, especialmente en entornos no anglófonos. Aunque modelos como CLIP funcionan bien en la alineación global, a menudo tienen dificultades para capturar detalles específicos en atributos de objetos, relaciones espaciales y expresiones lingüísticas, con un soporte limitado para la comprensión bilingüe. Para abordar estos desafíos, presentamos FG-CLIP 2, un modelo bilingüe de visión y lenguaje diseñado para avanzar en la alineación detallada tanto para el inglés como para el chino. Nuestro enfoque aprovecha una supervisión detallada, incluyendo la correspondencia entre regiones y texto y el modelado de descripciones largas, junto con múltiples objetivos discriminativos. Además, introducimos la pérdida de Contraste Intra-modal Textual (TIC) para distinguir mejor las descripciones semánticamente similares. Entrenado con una mezcla cuidadosamente seleccionada de datos a gran escala en inglés y chino, FG-CLIP 2 logra un rendimiento bilingüe potente. Para permitir una evaluación rigurosa, presentamos un nuevo punto de referencia para la comprensión multimodal en chino, que incluye la recuperación de descripciones largas y la clasificación de cuadros delimitadores. Experimentos extensos en 29 conjuntos de datos a través de 8 tareas muestran que FG-CLIP 2 supera a los métodos existentes, alcanzando resultados de vanguardia en ambos idiomas. Publicamos el modelo, el código y el punto de referencia para facilitar futuras investigaciones sobre la alineación detallada bilingüe.
La fusión de modelos, típicamente en modelos Instruct y Thinking, ha demostrado un rendimiento notable para el razonamiento eficiente. En este artículo, revisamos sistemáticamente el método de fusión más simple que interpola dos pesos directamente. En particular, observamos que la interpolación de modelos sigue un paradigma evolutivo de tres etapas con comportamientos distintos en la trayectoria de razonamiento. Estas dinámicas proporcionan una guía fundamentada para navegar el equilibrio entre rendimiento y costo. Los resultados empíricos demuestran que un modelo interpolado estratégicamente supera sorprendentemente a las líneas base de fusión de modelos sofisticadas tanto en eficiencia como en efectividad. Validamos aún más nuestros hallazgos con extensos estudios de ablación en capas, módulos y estrategias de decodificación del modelo. En última instancia, este trabajo desmitifica la interpolación de modelos y ofrece un marco práctico para diseñar modelos con capacidades de razonamiento precisamente dirigidas. El código está disponible en https://github.com/wutaiqiang/MI{Github}.
Los avances recientes en los modelos de lenguaje de gran escala (LLMs) se han centrado en el escalado durante el tiempo de prueba para mejorar el razonamiento mediante un mayor cómputo en la inferencia, aunque a menudo a costa de la eficiencia. Revisamos el comportamiento durante el tiempo de prueba y descubrimos un fenómeno simple pero poco explorado: la incertidumbre en el razonamiento está altamente localizada—solo un pequeño subconjunto de tokens de alta entropía afecta predominantemente la corrección de la salida. Motivados por esto, proponemos la Intervención Mínima en Tiempo de Prueba (MTI), un marco libre de entrenamiento que mejora la precisión y estabilidad del razonamiento con un sobrecosto mínimo. MTI incluye: (i) Intervención selectiva con CFG, aplicando guía libre de clasificadores solo en posiciones inciertas; y (ii) Guía ligera con indicaciones negativas, reutilizando la caché KV del modelo principal para aproximar la decodificación incondicional de manera eficiente. MTI produce mejoras consistentes en tareas generales, de programación y STEM—por ejemplo, un +1.35% de mejora promedio en ocho benchmarks para Qwen3-8B-Base y un +5% en AIME2024 usando Qwen3-32B-Reasoning—manteniéndose altamente eficiente.
Los transformadores de solo decodificador se han convertido en la arquitectura estándar para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) debido a su sólido rendimiento. Estudios recientes sugieren que, en los LLMs preentrenados, las capas iniciales, intermedias y finales pueden desempeñar roles distintos: las capas iniciales se centran en comprender el contexto de la entrada, las capas intermedias manejan el procesamiento específico de la tarea y las capas finales convierten las representaciones abstractas en tokens de salida. Nuestra hipótesis es que, una vez que las representaciones han sido procesadas por las capas iniciales e intermedias, los estados ocultos resultantes pueden encapsular suficiente información para apoyar la generación de múltiples tokens utilizando solo las capas finales, eliminando la necesidad de atravesar repetidamente las capas iniciales e intermedias. Nos referimos a este paradigma de inferencia como Decodificación Directa de Múltiples Tokens (DMTD, por sus siglas en inglés). A diferencia de la decodificación especulativa, nuestro método no introduce parámetros adicionales, rutinas auxiliares ni verificación posterior a la generación. A pesar de haber sido entrenado en un conjunto de datos limitado, un modelo Qwen3-4B ajustado con DMTD ya ha demostrado resultados prometedores, logrando una aceleración de hasta 2x con solo una mínima pérdida de rendimiento. Además, como se muestra en nuestro análisis de escalabilidad, se espera que su rendimiento mejore aún más con conjuntos de datos de entrenamiento más grandes.
La atención dispersa entrenable ha surgido como una solución prometedora para abordar el cuello de botella en la eficiencia de decodificación de los modelos de lenguaje grandes (LLM) en el procesamiento de contextos largos, ahorrando significativamente accesos a la memoria mientras impacta mínimamente el rendimiento de las tareas. Sin embargo, los métodos existentes de atención dispersa dejan sin resolver una limitación crucial: el tamaño de la caché de clave-valor (KV) permanece sin reducir, lo que restringe los tamaños de los lotes en la GPU y limita el rendimiento de la decodificación, especialmente en la inferencia por lotes a gran escala. En este artículo, demostramos que la atención dispersa entrenable exhibe naturalmente una fuerte localidad en la selección de tokens a través de pasos de decodificación adyacentes, lo que permite la descarga de la caché KV sin alterar el cálculo subyacente de la atención. Sin embargo, la localidad inherente sigue siendo insuficiente para lograr una descarga eficiente, ya que la transferencia de pares KV seleccionados entre la CPU y la GPU continúa dominando el costo total de la decodificación. Basándonos en esta idea, presentamos NOSA, un marco de atención dispersa entrenable diseñado para admitir nativamente la descarga de la caché KV. NOSA introduce restricciones explícitas de localidad al descomponer la selección de tokens en componentes conscientes e inconscientes de la consulta, reduciendo así las transferencias de KV mientras se preserva el mismo cálculo de atención utilizado durante el entrenamiento. Preentrenamos un modelo de 1B parámetros con NOSA y realizamos extensas pruebas comparativas, demostrando que preserva un rendimiento casi sin pérdidas mientras logra una mejora de hasta 2.3 veces en el rendimiento de la decodificación en comparación con la línea base de atención dispersa entrenable estándar (InfLLM-V2).
Las políticas de manipulación robótica a menudo tienen dificultades para generalizar a objetos novedosos, lo que limita su utilidad en el mundo real. En contraste, la ciencia cognitiva sugiere que los niños desarrollan habilidades de manipulación diestra y generalizable al dominar un pequeño conjunto de juguetes simples y luego aplicar ese conocimiento a objetos más complejos. Inspirados por esto, estudiamos si capacidades de generalización similares también pueden ser alcanzadas por robots. Nuestros resultados indican que los robots pueden aprender a agarrar de manera generalizable utilizando objetos ensamblados al azar que están compuestos por solo cuatro primitivas de forma: esferas, cuboides, cilindros y anillos. Demostramos que el entrenamiento con estos "juguetes" permite una generalización robusta a objetos del mundo real, obteniendo un fuerte rendimiento de cero disparos. Crucialmente, encontramos que la clave para esta generalización es una representación visual centrada en el objeto inducida por nuestro mecanismo propuesto de agrupación de detección. Evaluado tanto en simulación como en robots físicos, nuestro modelo alcanza una tasa de éxito del 67% en el agarre en el mundo real en el conjunto de datos YCB, superando enfoques de última generación que dependen de datos sustancialmente más específicos del dominio. Además, estudiamos cómo escala el rendimiento de generalización de cero disparos al variar el número y la diversidad de juguetes de entrenamiento y las demostraciones por juguete. Creemos que este trabajo ofrece un camino prometedor hacia el aprendizaje escalable y generalizable en la manipulación robótica. Videos de demostración, código, puntos de control y nuestro conjunto de datos están disponibles en nuestra página del proyecto: https://lego-grasp.github.io/.
Los modelos de conducción autónoma de extremo a extremo entrenados únicamente con aprendizaje por imitación (IL, por sus siglas en inglés) suelen presentar una generalización deficiente. Por el contrario, el aprendizaje por refuerzo (RL, por sus siglas en inglés) fomenta la exploración mediante la maximización de recompensas, pero enfrenta desafíos como la ineficiencia en el uso de muestras y una convergencia inestable. Una solución natural es combinar IL y RL. Más allá del paradigma convencional de dos etapas (preentrenamiento con IL seguido de ajuste fino con RL), proponemos CoIRL-AD, un marco de políticas duales competitivo que permite la interacción entre agentes de IL y RL durante el entrenamiento. CoIRL-AD introduce un mecanismo basado en competencia que facilita el intercambio de conocimientos mientras evita conflictos en los gradientes. Los experimentos en el conjunto de datos nuScenes muestran una reducción del 18% en la tasa de colisiones en comparación con los métodos de referencia, junto con una mayor generalización y un mejor rendimiento en escenarios de cola larga. El código está disponible en: https://github.com/SEU-zxj/CoIRL-AD.
Los avances recientes en sistemas multiagente impulsados por modelos de lenguaje de gran escala han demostrado una notable inteligencia colectiva a través de una comunicación efectiva. Sin embargo, los enfoques existentes enfrentan dos desafíos principales: (i) Modelado ineficaz de la colaboración grupal, ya que dependen de representaciones de aristas por pares en estructuras de grafos, lo que limita su capacidad para capturar relaciones entre múltiples agentes; y (ii) Limitada adaptabilidad a la tarea en el diseño de topologías de comunicación, lo que genera un costo excesivo de comunicación para tareas simples y una coordinación insuficiente para escenarios complejos. Estos problemas restringen la escalabilidad y el despliegue práctico de marcos de colaboración adaptativos. Para abordar estos desafíos, proponemos HyperAgent, un marco basado en hipergrafos que optimiza las topologías de comunicación y captura eficazmente los patrones de colaboración grupal utilizando representaciones directas de hiperaristas. A diferencia de los enfoques basados en aristas, HyperAgent utiliza hiperaristas para vincular múltiples agentes dentro de la misma subtarea y emplea capas convolucionales de hipergrafos para lograr una agregación de información en un solo paso en grupos de colaboración. Además, incorpora un marco de autoencoder variacional con regularización de dispersión para ajustar dinámicamente las topologías de hipergrafos según la complejidad de la tarea. Los experimentos destacan la superioridad de HyperAgent tanto en rendimiento como en eficiencia. Por ejemplo, en GSM8K, HyperAgent alcanza un 95.07% de precisión mientras reduce el consumo de tokens en un 25.33%, demostrando el potencial de la optimización basada en hipergrafos para la comunicación multiagente.
Los sistemas de razonamiento basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han alcanzado recientemente un rendimiento de nivel medalla de oro en la competencia IMO 2025, redactando pruebas matemáticas en las que, para obtener la máxima calificación, cada paso no solo debe ser correcto, sino también estar suficientemente fundamentado. Para entrenar razonadores basados en LLM en entornos tan desafiantes y de final abierto, son requisitos previos esenciales verificadores robustos capaces de detectar errores a nivel de paso. Presentamos Hard2Verify, un punto de referencia de verificación a nivel de paso anotado por humanos, producido con más de 500 horas de trabajo humano. Hard2Verify está diseñado para evaluar rigurosamente a los verificadores a nivel de paso en la frontera: los verificadores deben proporcionar anotaciones a nivel de paso o identificar el primer error en las respuestas generadas por LLM de vanguardia para preguntas matemáticas recientes, desafiantes y de final abierto. Evaluamos 29 críticos generativos y modelos de recompensa de procesos, demostrando que, más allá de algunos destacados, los verificadores de código abierto están rezagados respecto a los modelos de código cerrado. Posteriormente, analizamos qué impulsa el bajo rendimiento en la verificación a nivel de paso, los impactos de escalar el cómputo de los verificadores, así como preguntas fundamentales como la autoverificación y la dinámica entre verificación y generación.
El objetivo de Multi-turn Text-to-SQL es traducir las expresiones conversacionales de un usuario a SQL ejecutable, manteniendo la coherencia del diálogo y su anclaje al esquema objetivo. Sin embargo, la mayoría de los sistemas existentes consideran esta tarea simplemente como una traducción de texto y siguen un paradigma de corto alcance, generando una consulta por turno sin ejecución, verificación explícita ni refinamiento, lo que resulta en salidas no ejecutables o incoherentes. Presentamos MTSQL-R1, un marco de entrenamiento agencial para Multi-turn Text-to-SQL de largo alcance. Planteamos la tarea como un Proceso de Decisión de Markov (MDP) en el que un agente interactúa con (i) una base de datos para obtener retroalimentación de ejecución y (ii) una memoria de diálogo persistente para la verificación de coherencia, realizando un ciclo iterativo de proponer para ejecutar -> verificar -> refinar hasta que se superen todas las verificaciones. Los experimentos en COSQL y SPARC demuestran que MTSQL-R1 supera consistentemente a las líneas base sólidas, destacando la importancia de la verificación impulsada por el entorno y el refinamiento guiado por la memoria para el análisis semántico conversacional. Las recetas completas (incluyendo código, modelos entrenados, registros, trayectorias de razonamiento, etc.) se publicarán después de la revisión interna para contribuir a la investigación comunitaria.
Los sistemas de modelos de lenguaje de gran escala (LLM) multiagente se están adoptando cada vez más para tareas complejas de procesamiento de lenguaje que requieren comunicación y coordinación entre agentes. Sin embargo, estos sistemas suelen sufrir una sobrecarga significativa debido al reprocesamiento repetido de contextos superpuestos entre agentes. En las canalizaciones típicas, una vez que un agente recibe un mensaje de su predecesor, el contexto completo, incluidas las interacciones previas, debe reprocesarse desde cero, lo que conduce a un procesamiento ineficiente. Si bien el almacenamiento en caché de clave-valor (KV) es una solución efectiva para evitar cálculos redundantes en entornos de un solo agente donde los prefijos permanecen inalterados, no puede reutilizarse directamente en escenarios multiagente debido a la divergencia de prefijos introducida por extensiones de contexto específicas de cada agente. Identificamos que el desafío central radica en la variación de desplazamientos de las cachés KV entre agentes. Para abordar esto, proponemos KVCOMM, un marco sin entrenamiento que permite un prefilling eficiente en la inferencia multiagente mediante la reutilización de cachés KV y la alineación de los desplazamientos de caché para contextos superpuestos bajo diversos prefijos. KVCOMM estima y ajusta las cachés KV para contenido compartido haciendo referencia a un conjunto de ejemplos almacenados en caché, denominados anclas, que registran las desviaciones observadas en las cachés bajo diferentes prefijos. El conjunto de anclas se mantiene y actualiza en línea, permitiendo una adaptación dinámica a distintas solicitudes de usuarios y estructuras de contexto. KVCOMM logra una tasa de reutilización superior al 70% en diversas cargas de trabajo multiagente, incluyendo generación aumentada con recuperación, razonamiento matemático y tareas de codificación colaborativa, todo ello sin degradación de la calidad. En particular, cuando cada agente completamente conectado recibe 1K tokens de entrada con 512 tokens de prefijo y 512 tokens de salida en un entorno de cinco agentes, KVCOMM alcanza una aceleración de hasta 7.8x en comparación con la canalización de prefilling estándar, reduciendo el TTFT de ~430 ms a ~55 ms.
Los rastreadores y los generadores de video resuelven problemas estrechamente relacionados: los primeros analizan el movimiento, mientras que los segundos lo sintetizan. Demostramos que esta conexión permite que los modelos de difusión de video preentrenados realicen seguimiento de puntos en modo zero-shot simplemente indicándoles que marquen visualmente los puntos a medida que se mueven en el tiempo. Colocamos un marcador de color distintivo en el punto de consulta y luego regeneramos el resto del video a partir de un nivel intermedio de ruido. Esto propaga el marcador a través de los fotogramas, trazando la trayectoria del punto. Para asegurar que el marcador permanezca visible en esta generación contrafactual, a pesar de que tales marcadores son poco probables en videos naturales, utilizamos el fotograma inicial sin editar como un prompt negativo. A través de experimentos con múltiples modelos de difusión de video condicionados por imágenes, encontramos que estas pistas "emergentes" superan a las de métodos zero-shot previos y persisten a través de oclusiones, logrando a menudo un rendimiento competitivo con modelos especializados de auto-supervisión.
El entrenamiento de alineación tiene compensaciones: ayuda a los modelos de lenguaje (LM, por sus siglas en inglés) a mejorar en razonamiento y seguimiento de instrucciones, pero podría resultar en una pérdida de habilidades como la creatividad y la calibración, áreas en las que los modelos base no alineados suelen ser mejores. Nuestro objetivo es aprovechar lo mejor de ambos mundos mediante la colaboración de modelos, donde diferentes modelos en la pipeline de entrenamiento colaboran y se complementan entre sí. Dado que las respuestas de los LM presentan habilidades entrelazadas que favorecen a diferentes modelos, proponemos la Generación por Conmutación (Switch Generation), donde versiones preentrenadas y alineadas de los modelos se turnan para "hablar" en una secuencia de respuestas. Específicamente, entrenamos un LM conmutador aprendiendo de los resultados de elegir diferentes modelos para generar el siguiente segmento en diversas consultas y contextos. Durante la inferencia, el LM conmutador guía a diferentes puntos de control de modelos para generar dinámicamente el siguiente segmento donde sus fortalezas son más necesarias. Experimentos exhaustivos con 8 líneas base de colaboración de modelos y 18 conjuntos de datos muestran que 1) la colaboración de modelos supera consistentemente a los modelos individuales en 16 de las 18 tareas, y 2) la Generación por Conmutación supera a las líneas base en un 12.9% en promedio. Un análisis adicional revela que la Generación por Conmutación descubre habilidades compositivas para resolver problemas en los que los modelos individuales tienen dificultades y se generaliza a modelos y tareas no vistos, reutilizando y reorientando subproductos en costosas pipelines de entrenamiento de modelos que de otro modo serían descartados.
Los sistemas multiagente impulsados por modelos de lenguaje de gran escala destacan en tareas complejas mediante la colaboración coordinada, pero enfrentan altas tasas de fallos en escenarios de búsqueda profunda de múltiples turnos. Los métodos existentes de atribución temporal tienen dificultades para diagnosticar con precisión las causas raíz, especialmente cuando los errores se propagan a través de múltiples agentes. Los intentos de automatizar la atribución de fallos mediante el análisis de secuencias de acciones siguen siendo ineficaces debido a su incapacidad para considerar las dependencias de información que abarcan a varios agentes. Este artículo identifica dos desafíos principales: (i) distinguir los síntomas de las causas raíz en la propagación de errores multiagente, y (ii) rastrear las dependencias de información más allá del orden temporal. Para abordar estos problemas, presentamos GraphTracer, un marco que redefine la atribución de fallos mediante el análisis de flujos de información. GraphTracer construye Grafos de Dependencia de Información (IDGs) para capturar explícitamente cómo los agentes hacen referencia y se basan en salidas previas. Localiza las causas raíz al rastrear estas estructuras de dependencia en lugar de depender de secuencias temporales. GraphTracer también utiliza la generación de datos sintéticos consciente del grafo para apuntar a nodos críticos, creando escenarios de fallos realistas. Las evaluaciones en el benchmark Who\&When y la integración en sistemas de producción demuestran que GraphTracer-8B logra hasta un 18.18\% más de precisión en la atribución en comparación con los modelos más avanzados y permite mejoras de rendimiento del 4.8\% al 14.2\% en marcos multiagente implementados, estableciendo una solución robusta para la depuración de sistemas multiagente.
Con el auge de los modelos de lenguaje de razonamiento y los métodos de escalado en tiempo de prueba como paradigma para mejorar el rendimiento de los modelos, a menudo se requiere un cómputo sustancial para generar múltiples secuencias candidatas a partir de la misma instrucción. Esto permite explorar diferentes caminos de razonamiento hacia la solución correcta, pero asigna el mismo presupuesto de cómputo para cada instrucción. Basándonos en la suposición de que diferentes instrucciones tienen distintos grados de complejidad y, por lo tanto, diferentes necesidades de cómputo, proponemos EAGer, un método de generación sin entrenamiento que aprovecha la incertidumbre del modelo a través de la distribución de entropía por token para reducir el cómputo redundante y, al mismo tiempo, mejorar el rendimiento general. EAGer permite ramificarse hacia múltiples caminos de razonamiento solo en presencia de tokens de alta entropía, y luego reasigna el presupuesto de cómputo ahorrado a los casos donde la exploración de caminos alternativos es más necesaria. Encontramos que, en múltiples modelos de código abierto en benchmarks de razonamiento complejo como AIME 2025, EAGer puede reasignar el presupuesto sin acceder a las etiquetas objetivo, logrando el mejor equilibrio entre eficiencia y rendimiento en términos de longitud de razonamiento y Pass@k. Cuando las etiquetas objetivo son accesibles, EAGer genera hasta un 65% menos de tokens (ahorrando así cómputo) y logra una mejora de hasta un 37% en Pass@k en comparación con el Muestreo Paralelo Completo.
Los modelos de lenguaje de gran contexto modernos (LLMs) tienen un buen desempeño en los benchmarks sintéticos de "aguja en un pajar" (NIAH, por sus siglas en inglés), pero estas pruebas pasan por alto cómo los contextos ruidosos surgen de la recuperación sesgada y los flujos de trabajo agentivos. Argumentamos que la ingeniería de pajares es necesaria para construir contextos largos y ruidosos que capturen fielmente factores clave del mundo real —distracciones provenientes de recuperadores heterogéneos sesgados y errores en cascada en flujos de trabajo agentivos— para evaluar la robustez de los modelos en contextos largos. Lo implementamos a través de HaystackCraft, un nuevo benchmark NIAH construido sobre la red completa de hipervínculos de Wikipedia en inglés con preguntas de múltiples saltos. HaystackCraft evalúa cómo las estrategias de recuperación heterogéneas (por ejemplo, dispersas, densas, híbridas y basadas en grafos) afectan la composición de distractores, el orden del pajar y el desempeño posterior de los LLMs. Además, HaystackCraft extiende NIAH a entornos dinámicos y dependientes de LLMs que simulan operaciones agentivas, donde los modelos refinan consultas, reflexionan sobre sus razonamientos previos y deciden cuándo detenerse. Los experimentos con 15 modelos de gran contexto muestran que (1) aunque los recuperadores densos más potentes pueden introducir distractores más desafiantes, el reordenamiento basado en grafos mejora simultáneamente la efectividad de la recuperación y mitiga los distractores más perjudiciales; (2) en pruebas agentivas, incluso modelos avanzados como Gemini 2.5 Pro y GPT-5 sufren fallos en cascada debido a distractores autogenerados o tienen dificultades para realizar paradas tempranas. Estos resultados resaltan los desafíos persistentes en el razonamiento agentivo de contextos largos y establecen a HaystackCraft como un banco de pruebas valioso para futuros avances.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran habilidades lingüísticas a nivel humano o incluso superiores, modelando eficazmente estructuras sintácticas, aunque los módulos computacionales específicos responsables de ello siguen sin estar claros. Una pregunta clave es si las capacidades conductuales de los LLMs surgen de mecanismos similares a los del cerebro humano. Para abordar estas cuestiones, presentamos la Sonda de Etiquetado de Frecuencia Jerárquica (HFTP, por sus siglas en inglés), una herramienta que utiliza análisis en el dominio de la frecuencia para identificar componentes neuronales de los LLMs (por ejemplo, neuronas individuales de Perceptrones Multicapa (MLP)) y regiones corticales (a través de grabaciones intracraneales) que codifican estructuras sintácticas. Nuestros resultados muestran que modelos como GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1 y GLM-4 procesan la sintaxis en capas análogas, mientras que el cerebro humano depende de regiones corticales distintas para diferentes niveles sintácticos. El análisis de similitud representacional revela una alineación más fuerte entre las representaciones de los LLMs y el hemisferio izquierdo del cerebro (dominante en el procesamiento del lenguaje). Notablemente, los modelos actualizados exhiben tendencias divergentes: Gemma 2 muestra una mayor similitud con el cerebro que Gemma, mientras que Llama 3.1 muestra menos alineación con el cerebro en comparación con Llama 2. Estos hallazgos ofrecen nuevas perspectivas sobre la interpretabilidad de las mejoras conductuales de los LLMs, planteando preguntas sobre si estos avances están impulsados por mecanismos similares o no a los humanos, y establecen a HFTP como una herramienta valiosa que conecta la lingüística computacional y la neurociencia cognitiva. Este proyecto está disponible en https://github.com/LilTiger/HFTP.
Con la llegada de DeepSeek-R1, ha surgido una nueva ola de métodos de aprendizaje por refuerzo (RL, por sus siglas en inglés) que parecen desbloquear un razonamiento matemático más sólido. Sin embargo, un análisis más detallado del ecosistema de código abierto revela una limitación crítica: con un número suficiente de muestras (por ejemplo, pass@1024), muchos modelos base existentes ya resuelven casi todas las preguntas en puntos de referencia matemáticos ampliamente utilizados, como MATH-500 y AIME 2024. Esto sugiere que los métodos de ajuste fino basados en RL predominantes en la literatura sobre razonamiento en modelos de lenguaje grandes (LLM) principalmente refinan modos de solución existentes en lugar de descubrir otros completamente nuevos. Este refinamiento contrasta con la promesa más amplia del RL: fomentar la exploración y adquirir nuevas habilidades. Para superar esta meseta, presentamos MATH-Beyond (MATH-B), un punto de referencia diseñado deliberadamente para superar a los modelos de código abierto comunes de hasta 8B parámetros, incluso bajo presupuestos de muestreo grandes. Mejorar el rendimiento en nuestro punto de referencia mediante RL requiere métodos que aprendan a razonar de maneras que vayan más allá de las capacidades del modelo base en muestreos repetidos. Dado que los problemas se extraen de subconjuntos de los conjuntos de datos DAPO-Math-17K y DeepScaleR, siguen siendo temáticamente equivalentes a las matemáticas estándar de nivel secundario. Validando nuestra premisa, modelos ajustados con RL, como Nemotron-Research-Reasoning-Qwen-1.5B y DeepScaleR-1.5B-Preview, tienen un rendimiento deficiente en MATH-B en pass@1024, lo que muestra cómo los enfoques existentes no logran abordar instancias más difíciles. Esperamos que MATH-B catalice enfoques de RL impulsados por la exploración que fomenten capacidades de razonamiento más profundas. Publicamos MATH-B en https://huggingface.co/datasets/brendel-group/MATH-Beyond.
La inferencia remota permite que dispositivos ligeros aprovechen modelos potentes en la nube. Sin embargo, la latencia de la red de comunicación hace que las predicciones se vuelvan obsoletas y no sean adecuadas para tareas en tiempo real. Para abordar este problema, presentamos Dedelayed, un método correctivo de retraso que mitiga los retrasos arbitrarios en la inferencia remota, permitiendo que el dispositivo local genere salidas de baja latencia en tiempo real. Nuestro método emplea un modelo local ligero que procesa el fotograma actual y fusiona características que un modelo remoto más pesado calcula a partir de fotogramas pasados. En videos del conjunto de datos de conducción BDD100K, Dedelayed mejora la precisión de la segmentación semántica en comparación con el mejor de los enfoques locales o remotos en todos los retrasos realistas de la red de comunicación superiores a 33 ms. Sin incurrir en retrasos adicionales, mejora la precisión en 6.4 mIoU en comparación con la inferencia completamente local y en 9.8 mIoU en comparación con la inferencia remota, para un retraso de ida y vuelta de 100 ms. La ventaja aumenta bajo retrasos más prolongados y escenas de mayor movimiento, ya que la inferencia dividida con mitigación de retraso mantiene la precisión de manera más efectiva, ofreciendo claras ventajas para tareas en tiempo real que deben permanecer alineadas con el estado actual del mundo.
Los modelos de razonamiento mejoran su capacidad para resolver problemas mediante el escalado en tiempo de inferencia, asignando más recursos computacionales a través de presupuestos de tokens más largos. Identificar qué trazas de razonamiento tienen más probabilidades de éxito sigue siendo una oportunidad clave: predecir de manera confiable los caminos productivos puede reducir sustancialmente el desperdicio de cómputo y mejorar la eficiencia general. Introducimos señales de Trayectoria Latente que caracterizan la evolución temporal de las representaciones internas de un modelo durante la generación de tokens intermedios de razonamiento. Al medir el cambio general en las representaciones latentes entre el inicio y el final del razonamiento, el cambio acumulado a través de los pasos intermedios, y el grado en que estos cambios avanzan hacia el estado final, demostramos que estas señales predicen la precisión de la solución de manera más confiable que tanto las métricas entre capas como las medidas de confianza basadas en la salida. Cuando se utilizan para guiar la selección de respuestas entre múltiples generaciones muestreadas, las señales de Trayectoria Latente hacen que el escalado en tiempo de prueba sea más efectivo y eficiente que la votación por mayoría, reduciendo el uso de tokens hasta en un 70% mientras se preserva e incluso mejora la precisión en un 2.6% en promedio. Además, estas señales predictivas a menudo emergen temprano en la traza de razonamiento, permitiendo la selección temprana y la asignación de recursos computacionales a los candidatos más prometedores. Nuestros hallazgos contribuyen no solo con estrategias prácticas para la eficiencia en tiempo de inferencia, sino también con una perspectiva más profunda de interpretabilidad sobre cómo los procesos de razonamiento se representan y diferencian en el espacio latente.
El surgimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha abierto nuevas oportunidades para la creación de personajes no jugadores (NPCs) dinámicos en entornos de juegos, permitiendo tanto la ejecución de tareas funcionales como la generación de diálogos coherentes con la personalidad del personaje. En este artículo, nosotros (Tu_Character_lab) informamos sobre nuestra participación en el Desafío de Diálogo con Personalidad Basado en Sentido Común (CPDC) 2025, Ronda 2, el cual evalúa agentes en tres categorías: diálogo orientado a tareas, diálogo consciente del contexto y su integración. Nuestro enfoque combina dos estrategias complementarias: (i) técnicas de *prompting* ligero en la categoría de API, incluyendo un método de *prompting* de "Deflanderización" para suprimir el exceso de interpretación de roles y mejorar la fidelidad en la ejecución de tareas, y (ii) modelos de gran escala ajustados en la categoría de GPU, utilizando Qwen3-14B con ajuste supervisado (SFT) y Adaptación de Bajo Rango (LoRA). Nuestras mejores presentaciones obtuvieron el 2º puesto en la Tarea 1, el 2º puesto en la Tarea 3 (categoría API) y el 4º puesto en la Tarea 3 (categoría GPU).
El razonamiento no se trata únicamente de resolver problemas, sino también de evaluar qué problemas vale la pena resolver. Las evaluaciones de los sistemas de inteligencia artificial (IA) se han centrado principalmente en la resolución de problemas, históricamente mediante el estudio de cómo los modelos juegan partidas de ajedrez o Go. En este artículo, abogamos por un nuevo paradigma que evalúe la capacidad de los sistemas de IA para evaluar juegos. En primer lugar, introducimos un formalismo para evaluar dichas evaluaciones. Luego, utilizamos un conjunto de datos a gran escala que incluye más de 100 juegos de mesa novedosos y más de 450 juicios humanos para comparar las evaluaciones producidas por modelos modernos de lenguaje y razonamiento con las de personas y agentes computacionales simbólicos. Consideramos dos tipos de consultas evaluativas: la valoración de la recompensa (o equidad) y la diversión de los juegos. Estas consultas abarcan dos dimensiones relevantes para el diseño de evaluaciones de IA: la complejidad computacional de la consulta y la dificultad de cuantificarla. Nuestros resultados muestran que los modelos de razonamiento están generalmente más alineados con las personas en sus evaluaciones de juegos que los modelos de lenguaje no razonantes. Sin embargo, observamos una relación no monótona: a medida que los modelos se acercan al óptimo teórico del juego, su ajuste a los datos humanos se debilita. También observamos una mayor "irregularidad" entre los modelos al evaluar la diversión, en línea con la mayor dificultad de cuantificar esta consulta. En todas las consultas y juegos, los modelos de razonamiento muestran un uso de recursos altamente variable e impredecible al evaluar consultas, lo que señala la importancia de incorporar un meta-razonamiento más racional en cuanto a recursos en los modelos de lenguaje y razonamiento.