Artículos de investigación en IA seleccionados diariamente con traducciones
Los grandes modelos de lenguaje aprovechan datos de texto a escala de internet, sin embargo, la IA encarnada sigue limitada por los costos prohibitivos de la recopilación de trayectorias físicas. Los entornos de escritorio —particularmente los videojuegos— ofrecen una alternativa convincente: proporcionan interacciones sensoriomotoras ricas a escala mientras mantienen el acoplamiento estructurado entre observación y acción, esencial para el aprendizaje encarnado. Presentamos D2E (Desktop to Embodied AI), un marco que demuestra que las interacciones en escritorio pueden servir como un sustrato efectivo de preentrenamiento para tareas de IA encarnada en robótica. A diferencia de trabajos previos que se mantuvieron específicos de dominio (por ejemplo, VPT para Minecraft) o mantuvieron los datos como propiedad privada (por ejemplo, SIMA), D2E establece una canalización completa desde la recopilación escalable de datos en escritorio hasta la transferencia verificada en dominios encarnados. Nuestro marco consta de tres componentes: (1) el OWA Toolkit, que unifica diversas interacciones de escritorio en un formato estandarizado con una compresión de 152x, (2) el Generalist-IDM, que logra una fuerte generalización zero-shot en juegos no vistos mediante la predicción de eventos basada en marcas de tiempo, permitiendo el etiquetado pseudo-masivo a escala de internet, y (3) VAPT, que transfiere representaciones preentrenadas en escritorio a tareas de manipulación física y navegación. Utilizando más de 1,300 horas de datos (259 horas de demostraciones humanas y más de 1,000 horas de gameplay pseudo-etiquetado), logramos una tasa de éxito total del 96.6% en el benchmark de manipulación LIBERO y del 83.3% en el de navegación CANVAS. Esto valida que los primitivos sensoriomotores en interacciones digitales exhiben suficiente invarianza para transferirse de manera significativa a tareas físicas encarnadas, estableciendo el preentrenamiento en escritorio como un paradigma práctico para la robótica. Haremos público todo nuestro trabajo, incluyendo el OWA Toolkit, los conjuntos de datos recopilados por humanos y pseudo-etiquetados, y los modelos entrenados con VAPT, disponibles en https://worv-ai.github.io/d2e/.
La comprensión y generación centradas en la cámara son dos pilares fundamentales de la inteligencia espacial, aunque generalmente se estudian de manera aislada. Presentamos Puffin, un modelo multimodal unificado centrado en la cámara que amplía la conciencia espacial a lo largo de la dimensión de la cámara. Puffin integra regresión de lenguaje y generación basada en difusión para interpretar y crear escenas desde puntos de vista arbitrarios. Para cerrar la brecha de modalidad entre las cámaras y el lenguaje visual, introducimos un paradigma novedoso que trata la cámara como lenguaje, permitiendo pensar con la cámara. Esto guía al modelo a alinear señales visuales espacialmente fundamentadas con terminología fotográfica mientras razona en un contexto geométrico. Puffin se entrena con Puffin-4M, un conjunto de datos a gran escala de 4 millones de tripletas de lenguaje visual-cámara. Incorporamos tanto parámetros globales de la cámara como mapas de cámara a nivel de píxel, lo que permite una generación espacial flexible y confiable. Los experimentos demuestran que Puffin supera en rendimiento a los modelos especializados en generación y comprensión centradas en la cámara. Con ajustes de instrucción, Puffin se generaliza a diversas tareas de vista cruzada, como la imaginación espacial, la exploración del mundo y la orientación fotográfica. Publicaremos el código, los modelos, la canalización del conjunto de datos y el punto de referencia para avanzar en la investigación de la inteligencia espacial multimodal.
Este trabajo presenta la primera investigación a gran escala sobre la construcción de un modelo de lenguaje grande (LLM) bilingüe completamente abierto para un idioma no inglés, específicamente el coreano, entrenado predominantemente con datos sintéticos. Introducimos KORMo-10B, un modelo de 10.8 mil millones de parámetros entrenado desde cero en un corpus coreano-inglés en el que el 68.74% de la porción en coreano es sintética. A través de experimentación sistemática, demostramos que los datos sintéticos, cuando se curan cuidadosamente con una cobertura lingüística equilibrada y estilos de instrucción diversos, no causan inestabilidad o degradación durante el preentrenamiento a gran escala. Además, el modelo logra un rendimiento comparable al de los modelos multilingües de referencia de peso abierto contemporáneos en una amplia gama de pruebas de razonamiento, conocimiento y seguimiento de instrucciones. Nuestros experimentos revelan dos hallazgos clave: (1) los datos sintéticos pueden sostener de manera confiable el preentrenamiento a largo plazo sin colapso del modelo, y (2) el ajuste bilingüe de instrucciones permite un razonamiento y coherencia discursiva casi nativos en coreano. Al liberar completamente todos los componentes, incluidos datos, código, recetas de entrenamiento y registros, este trabajo establece un marco transparente para el desarrollo de modelos completamente abiertos (FOMs) impulsados por datos sintéticos en entornos de bajos recursos y sienta un precedente reproducible para futuras investigaciones en LLM multilingües.
A medida que el volumen de investigación revisada por pares aumenta, los académicos dependen cada vez más de plataformas sociales para el descubrimiento, mientras que los autores invierten un esfuerzo considerable en promover su trabajo para garantizar visibilidad y citas. Para agilizar este proceso y reducir la dependencia del esfuerzo humano, presentamos la Promoción Automática (AutoPR), una tarea novedosa que transforma artículos de investigación en contenido público preciso, atractivo y oportuno. Para permitir una evaluación rigurosa, lanzamos PRBench, un punto de referencia multimodal que vincula 512 artículos revisados por pares con publicaciones promocionales de alta calidad, evaluando los sistemas en tres ejes: Fidelidad (precisión y tono), Compromiso (orientación al público y atractivo) y Alineación (optimización de tiempo y canal). También presentamos PRAgent, un marco de múltiples agentes que automatiza AutoPR en tres etapas: extracción de contenido con preparación multimodal, síntesis colaborativa para resultados pulidos y adaptación específica de la plataforma para optimizar normas, tono y etiquetado para maximizar el alcance. En comparación con las canalizaciones directas de LLM en PRBench, PRAgent demuestra mejoras sustanciales, incluyendo un aumento del 604% en el tiempo total de visualización, un incremento del 438% en "me gusta" y al menos un aumento de 2.9x en el compromiso general. Los estudios de ablación muestran que el modelado de plataformas y la promoción dirigida contribuyen más a estas ganancias. Nuestros resultados posicionan a AutoPR como un problema de investigación manejable y medible, y proporcionan una hoja de ruta para la comunicación académica automatizada escalable y de impacto.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) podrían impulsar asistentes en tiempo real y agentes autónomos, pero enfrentan un desafío crítico: comprender flujos de video casi infinitos sin aumentar la latencia y el uso de memoria. Procesar videos completos con atención plena conlleva costos computacionales cuadráticos y un rendimiento deficiente en videos largos. Por otro lado, los métodos simples de ventana deslizante también tienen fallas, ya que o bien rompen la coherencia o sufren de alta latencia debido a la recomputación redundante. En este artículo, presentamos StreamingVLM, un modelo diseñado para la comprensión estable y en tiempo real de entradas visuales infinitas. Nuestro enfoque es un marco unificado que alinea el entrenamiento con la inferencia en streaming. Durante la inferencia, mantenemos una caché KV compacta reutilizando estados de "attention sinks", una ventana corta de tokens visuales recientes y una ventana larga de tokens de texto recientes. Esta capacidad de streaming se inculca mediante una simple estrategia de ajuste fino supervisado (SFT, por sus siglas en inglés) que aplica atención completa en fragmentos de video cortos y superpuestos, lo que imita efectivamente el patrón de atención en tiempo de inferencia sin entrenar en contextos prohibitivamente largos. Para la evaluación, construimos Inf-Streams-Eval, un nuevo punto de referencia con videos que promedian más de dos horas y que requiere una alineación densa y por segundo entre fotogramas y texto. En Inf-Streams-Eval, StreamingVLM logra una tasa de victoria del 66.18% frente a GPT-4O mini y mantiene un rendimiento estable y en tiempo real de hasta 8 FPS en una sola NVIDIA H100. Notablemente, nuestra estrategia SFT también mejora las habilidades generales de VQA (respuesta a preguntas visuales) sin ningún ajuste fino específico para VQA, mejorando el rendimiento en LongVideoBench en +4.30 y en OVOBench Realtime en +5.96. El código está disponible en https://github.com/mit-han-lab/streaming-vlm.
Los modelos de difusión recientes logran un rendimiento de vanguardia en la generación de imágenes, pero a menudo sufren de inconsistencias semánticas o alucinaciones. Si bien diversos métodos de guía en tiempo de inferencia pueden mejorar la generación, suelen operar de manera indirecta al depender de señales externas o modificaciones arquitectónicas, lo que introduce una sobrecarga computacional adicional. En este artículo, proponemos la Guía de Amplificación Tangencial (TAG, por sus siglas en inglés), un método de guía más eficiente y directo que opera únicamente sobre señales de trayectoria sin modificar el modelo de difusión subyacente. TAG aprovecha una muestra intermedia como base de proyección y amplifica los componentes tangenciales de los puntajes estimados con respecto a esta base para corregir la trayectoria de muestreo. Formalizamos este proceso de guía mediante una expansión de Taylor de primer orden, lo que demuestra que la amplificación del componente tangencial dirige el estado hacia regiones de mayor probabilidad, reduciendo así las inconsistencias y mejorando la calidad de las muestras. TAG es un módulo plug-and-play, independiente de la arquitectura, que mejora la fidelidad del muestreo por difusión con una adición computacional mínima, ofreciendo una nueva perspectiva sobre la guía en modelos de difusión.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un éxito notable, y sus expansiones multimodales (MLLMs) desbloquean aún más capacidades que abarcan imágenes, videos y otras modalidades más allá del texto. Sin embargo, a pesar de este cambio, los enfoques de optimización de prompts, diseñados para reducir la carga de la creación manual de prompts mientras maximizan el rendimiento, siguen limitados al texto, lo que finalmente restringe el potencial completo de los MLLMs. Motivados por esta brecha, introducimos el nuevo problema de la optimización multimodal de prompts, que amplía la definición previa de optimización de prompts al espacio multimodal definido por los pares de prompts textuales y no textuales. Para abordar este problema, proponemos el Optimizador de Prompts Multimodal (MPO, por sus siglas en inglés), un marco unificado que no solo realiza la optimización conjunta de prompts multimodales mediante actualizaciones que preservan la alineación, sino que también guía el proceso de selección de prompts candidatos aprovechando evaluaciones previas como priors en una estrategia de selección basada en enfoques bayesianos. A través de experimentos exhaustivos en diversas modalidades que van más allá del texto, como imágenes, videos e incluso moléculas, demostramos que el MPO supera a los principales métodos de optimización basados únicamente en texto, estableciendo la optimización multimodal de prompts como un paso crucial para materializar el potencial de los MLLMs.
Las capacidades encarnadas se refieren a un conjunto de habilidades fundamentales para que un agente pueda percibir, comprender e interactuar con el mundo físico. Si bien los modelos de lenguaje multimodal de gran escala (MLLMs) muestran potencial como agentes encarnados, una evaluación exhaustiva y sistemática de sus capacidades encarnadas sigue siendo poco explorada, ya que los puntos de referencia existentes se centran principalmente en dominios específicos como la planificación o la comprensión espacial. Para cerrar esta brecha, presentamos BEAR, un punto de referencia integral y detallado que evalúa los MLLMs en capacidades encarnadas atómicas. BEAR comprende 4,469 entradas intercaladas de imagen-video-texto en 14 dominios y 6 categorías, incluyendo tareas desde el señalamiento de bajo nivel, la comprensión de trayectorias, el razonamiento espacial, hasta la planificación de alto nivel. Los resultados de la evaluación extensiva de 20 MLLMs representativos revelan sus limitaciones persistentes en todos los dominios de capacidades encarnadas. Para abordar esta deficiencia, proponemos BEAR-Agent, un agente conversable multimodal que integra modelos de visión preentrenados para fortalecer la percepción, la comprensión 3D y las capacidades de planificación de los MLLMs. Esto mejora sustancialmente el rendimiento de los MLLMs en diversas capacidades encarnadas en BEAR, obteniendo una ganancia absoluta del 9.12% y una mejora relativa del 17.5% en GPT-5. Además, nuestros experimentos indican que mejorar las capacidades encarnadas de los MLLMs puede beneficiar las tareas encarnadas en entornos simulados. Sitio web del proyecto: https://bear-official66.github.io/
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable a través del aprendizaje por imitación en vastos corpus de texto, pero este paradigma crea una brecha entre el entrenamiento y la generación, limitando el razonamiento robusto. El aprendizaje por refuerzo (RL, por sus siglas en inglés) ofrece una solución más eficiente en términos de datos capaz de cerrar esta brecha, aunque su aplicación se ha visto limitada por un cuello de botella crítico: los conjuntos de datos de RL existentes son órdenes de magnitud más pequeños y menos diversos que los corpus de preentrenamiento a escala web. Para abordar esto, presentamos la pipeline Webscale-RL, un motor de datos escalable que convierte sistemáticamente documentos de preentrenamiento a gran escala en millones de pares pregunta-respuesta diversos y verificables para RL. Utilizando esta pipeline, construimos el conjunto de datos Webscale-RL, que contiene 1.2 millones de ejemplos en más de 9 dominios. Nuestros experimentos muestran que el modelo entrenado con este conjunto de datos supera significativamente al preentrenamiento continuo y a líneas base sólidas de refinamiento de datos en una serie de benchmarks. Notablemente, el entrenamiento con RL utilizando nuestro conjunto de datos resulta sustancialmente más eficiente, alcanzando el rendimiento del preentrenamiento continuo con hasta 100 veces menos tokens. Nuestro trabajo presenta un camino viable hacia la escalabilidad del RL a niveles de preentrenamiento, permitiendo modelos de lenguaje más capaces y eficientes.
Las plataformas de evaluación de modelos mediante crowdsourcing, como Chatbot Arena, permiten la evaluación en tiempo real desde perspectivas humanas para valorar la calidad de las respuestas de los modelos. En el ámbito de la codificación, examinar manualmente la calidad del contenido generado por LLM es extremadamente desafiante, ya que requiere comprender fragmentos extensos de código crudo y simular deliberadamente la ejecución del código. Para abordar esto, presentamos BigCodeArena, una plataforma abierta de evaluación humana para la generación de código respaldada por un entorno de ejecución integral y en tiempo real. Construida sobre Chatbot Arena, BigCodeArena permite la ejecución de código generado por LLM y facilita la interacción humana con el proceso de ejecución y sus resultados. Recopilamos más de 14,000 sesiones de conversación centradas en código en bruto, abarcando 10 LLM ampliamente utilizados, 10 lenguajes y 8 tipos de entornos de ejecución. Entre estas conversaciones, identificamos más de 4,700 muestras de múltiples turnos con preferencias humanas comparativas. Un análisis más profundo revela preferencias poco exploradas de los LLM en dominios específicos caracterizados por tareas, lenguajes y frameworks. Para examinar sistemáticamente las capacidades de comprensión y generación de código de los LLM más avanzados, creamos dos benchmarks basados en los datos recopilados: BigCodeReward y AutoCodeArena. Para BigCodeReward, procesamos las 4,700 conversaciones y evaluamos la consistencia entre los modelos de recompensa y las preferencias humanas. La evaluación muestra que la mayoría de los LLM tienen un rendimiento superior al juzgar preferencias de codificación cuando los resultados de ejecución están disponibles. Inspirados por estos hallazgos, proponemos AutoCodeArena, un benchmark automático de calificación Elo diseñado para evaluar la calidad de codificación de los LLM sin intervención humana. Descubrimos que los LLM propietarios como GPT-5, Claude-Sonnet-4 y Claude-Opus-4 siguen liderando en rendimiento de generación de código entre los modelos emergentes recientes.
Las tendencias recientes en el escalado en tiempo de prueba para modelos de razonamiento (por ejemplo, OpenAI o1, DeepSeek-R1) han llevado a mejoras notables a través de largas cadenas de pensamiento (Chain-of-Thought, CoT). Sin embargo, los benchmarks existentes se centran principalmente en tareas inmediatas y de un solo horizonte, sin evaluar adecuadamente la capacidad de los modelos para comprender y responder a escenarios complejos y de largo horizonte. Para abordar esta evaluación incompleta de los Modelos de Razonamiento a Gran Escala (Large Reasoning Models, LRMs), proponemos R-HORIZON, un método diseñado para estimular comportamientos de razonamiento de largo horizonte en LRMs mediante la composición de consultas. Basándonos en R-HORIZON, construimos un benchmark de razonamiento de largo horizonte, que comprende tareas complejas de razonamiento de múltiples pasos con problemas interdependientes que abarcan horizontes de razonamiento extensos. A través de una evaluación exhaustiva de los LRMs utilizando el benchmark R-HORIZON, encontramos que incluso los LRMs más avanzados sufren una degradación significativa en su rendimiento. Nuestro análisis revela que los LRMs exhiben una longitud efectiva de razonamiento limitada y tienen dificultades para asignar adecuadamente el presupuesto de pensamiento entre múltiples problemas. Reconociendo estas limitaciones, utilizamos R-HORIZON para construir datos de razonamiento de largo horizonte para el aprendizaje por refuerzo con recompensas verificadas (Reinforcement Learning with Verified Rewards, RLVR). En comparación con el entrenamiento con datos de un solo horizonte, RLVR con R-HORIZON no solo mejora sustancialmente el rendimiento en tareas de razonamiento de múltiples horizontes, sino que también promueve la precisión en tareas de razonamiento estándar, con un aumento de 7.5 en AIME2024. Estos resultados posicionan a R-HORIZON como un paradigma escalable, controlable y de bajo costo para mejorar y evaluar las capacidades de razonamiento de largo horizonte de los LRMs.
Los modelos de lenguaje de gran escala que realizan razonamiento exhiben comportamientos de razonamiento complejos a través de la generación extendida de cadenas de pensamiento, lo que crea una sobrecarga sin precedentes en la caché de clave-valor (KV) durante la fase de decodificación. Los métodos existentes de compresión de la caché KV tienen un rendimiento inferior en modelos de razonamiento: los métodos que descartan tokens rompen la integridad del razonamiento al eliminar información crítica, mientras que los métodos que reasignan cabezas comprimen erróneamente las cabezas críticas para el razonamiento, ya que están diseñados para tareas de recuperación, lo que resulta en una degradación significativa del rendimiento a medida que aumentan las tasas de compresión. Nuestra hipótesis es que las cabezas KV exhiben heterogeneidad funcional en los modelos de razonamiento: algunas cabezas son críticas para la consistencia de la cadena de pensamiento, mientras que otras son comprimibles. Para validar y explotar esta idea, proponemos RLKV, un marco novedoso de identificación de cabezas críticas para el razonamiento, que utiliza aprendizaje por refuerzo para optimizar directamente la relación entre el uso de la caché de cada cabeza y la calidad del razonamiento. Como RLKV genera recompensas a partir de muestras generadas durante el entrenamiento, identifica naturalmente las cabezas relevantes para los comportamientos de razonamiento. Luego, asignamos la caché KV completa a estas cabezas mientras aplicamos una caché KV comprimida constante a las demás para una inferencia eficiente. Nuestros experimentos revelan que solo una pequeña fracción de las cabezas de atención es esencial para el razonamiento, lo que permite que nuestro enfoque de compresión KV supere a los métodos base mientras logra una reducción del 20-50% en la caché con un rendimiento casi sin pérdidas en comparación con los resultados sin compresión.
Con el actual auge en las exploraciones de razonamiento espacial, los investigadores han logrado avances significativos en la comprensión de escenas interiores, pero aún enfrentan dificultades en diversas aplicaciones como la robótica y la conducción autónoma. Este artículo tiene como objetivo avanzar en el razonamiento espacial a todas las escalas en diversos escenarios abordando dos desafíos clave: 1) la fuerte dependencia de escaneos 3D de interiores y anotaciones manuales intensivas en mano de obra para la creación de conjuntos de datos; 2) la ausencia de un modelado efectivo de escenas a todas las escalas, lo que a menudo conduce a un sobreajuste a escenas individuales. En este trabajo, presentamos una solución holística que integra un sistema de conocimiento estructurado para el razonamiento espacial, un modelado consciente de la escala y un paradigma de entrenamiento progresivo, como el primer intento, hasta donde sabemos, de ampliar la inteligencia espacial a todas las escalas de los MLLMs. Utilizando una canalización automatizada específica para tareas y guiada por especialistas, hemos curado más de 38K escenas de video en 5 escalas espaciales para crear SpaceVista-1M, un conjunto de datos que comprende aproximadamente 1M pares de preguntas y respuestas espaciales que abarcan 19 tipos de tareas diversas. Si bien los modelos especializados pueden inyectar conocimiento útil del dominio, no son confiables para la evaluación. Luego, construimos un punto de referencia a todas las escalas con anotaciones precisas mediante la grabación manual, recuperación y ensamblaje de datos basados en video. Sin embargo, el entrenamiento ingenuo con SpaceVista-1M a menudo produce resultados subóptimos debido al potencial conflicto de conocimiento. En consecuencia, presentamos SpaceVista-7B, un modelo de razonamiento espacial que acepta entradas densas más allá de la semántica y utiliza la escala como ancla para expertos conscientes de la escala y recompensas progresivas. Finalmente, evaluaciones exhaustivas en 5 puntos de referencia, incluido nuestro SpaceVista-Bench, demuestran un rendimiento competitivo, mostrando una fuerte generalización en todas las escalas y escenarios. Nuestro conjunto de datos, modelo y punto de referencia se publicarán en https://peiwensun2000.github.io/mm2km.
La evaluación de los modelos modernos de aprendizaje automático se ha vuelto prohibitivamente costosa. Puntos de referencia como LMMs-Eval y HELM requieren miles de horas de GPU por modelo. La evaluación costosa reduce la inclusividad, ralentiza el ciclo de innovación y empeora el impacto ambiental. El enfoque típico sigue dos pasos. Primero, seleccionar un subconjunto de datos de referencia. Segundo, entrenar un mapeo desde la precisión en este subconjunto hasta el resultado final de la prueba. El inconveniente es que la selección de referencia depende de la agrupación, que puede ser compleja y sensible a las decisiones de diseño. Argumentamos que promover la diversidad entre las muestras no es esencial; lo que importa es seleccionar muestras que maximicen la diversidad en las respuestas del modelo. Nuestro método, Condensación de Muestras Diversificadas (DISCO), selecciona las k muestras con mayores desacuerdos entre los modelos. Esto utiliza estadísticas codiciosas y por muestra en lugar de agrupación global. El enfoque es conceptualmente más simple. Desde un punto de vista teórico, el desacuerdo entre modelos proporciona una regla óptima en términos de teoría de la información para dicha selección codiciosa. DISCO muestra mejoras empíricas sobre métodos anteriores, logrando resultados de vanguardia en la predicción de rendimiento en MMLU, Hellaswag, Winogrande y ARC. El código está disponible aquí: https://github.com/arubique/disco-public.
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) se ha convertido en un enfoque estándar para mejorar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de razonamiento, con la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) ampliamente utilizada en la práctica. Sin embargo, GRPO desperdicia una cantidad considerable de recursos computacionales en grupos negativos: grupos en los que ninguna respuesta muestreada es correcta generan una ventaja nula y, por lo tanto, ningún gradiente. Nos preguntamos si es posible aprovechar los grupos negativos sin supervisión adicional. Partiendo de un objetivo de máxima verosimilitud (MLE, por sus siglas en inglés) en el modelado de recompensas, demostramos que el gradiente de MLE es equivalente a un gradiente de política para una función de valor modificada. Esta función de valor añade una penalización ponderada por la confianza en respuestas incorrectas, imponiendo penalizaciones mayores en errores más confiados. Nos referimos a esto como Estimación de Verosimilitud con Muestras Negativas (LENS, por sus siglas en inglés). LENS modifica GRPO para asignar recompensas no nulas y dependientes de la confianza a generaciones incorrectas, haciendo que los grupos negativos sean informativos y convirtiendo muestras previamente desperdiciadas en actualizaciones de gradiente útiles. En el benchmark MATH con Llama-3.1-8B y Qwen-2.5-3B, la variante propuesta supera consistentemente la línea base de GRPO, con ganancias significativas en ítems más difíciles. Estos resultados demuestran una forma práctica y fundamentada de "rescatar" grupos negativos, mejorando la eficiencia y el rendimiento en RLVR.
Los recientes avances en los modelos de razonamiento multimodal a gran escala (MLRMs, por sus siglas en inglés) han mejorado sustancialmente su capacidad para resolver tareas complejas tanto textuales como visuales. Sin embargo, estos modelos tienden a sobrepensar en problemas simples, produciendo trazas de razonamiento innecesariamente largas, mientras que subexploran en los desafiantes, lo que lleva a soluciones perdidas. Para abordar este desequilibrio, proponemos ARES, un marco unificado de código abierto para el razonamiento adaptativo que asigna dinámicamente el esfuerzo de exploración según la dificultad de la tarea. Nuestro enfoque está motivado por dos hallazgos empíricos clave: (i) aunque la entropía de un solo token es ruidosa, los tokens de alta entropía en ventana (HWE, por sus siglas en inglés) (entropías a nivel de token promediadas bajo una ventana deslizante) pueden capturar de manera confiable momentos críticos para el razonamiento; y (ii) reducir el uso de HWE beneficia a los problemas fáciles, mientras que aumentarlo es esencial para resolver los difíciles. Basándonos en estas ideas, ARES introduce una canalización de entrenamiento en dos etapas. En la etapa de Arranque Frío Adaptativo, seleccionamos datos multimodales y textuales emparejados con trazas de razonamiento de longitud proporcional a la dificultad del problema, dotando al modelo de una conciencia inicial de la dificultad. En la segunda etapa, desarrollamos la Optimización de Política de Entropía Adaptativa (AEPO, por sus siglas en inglés), que utiliza tokens HWE como desencadenantes de exploración para decidir cuándo explorar, y una recompensa de entropía jerárquica con control dinámico de KL para decidir cuánto explorar. Experimentos extensos demuestran que ARES logra un rendimiento superior y una eficiencia de razonamiento en diversos puntos de referencia matemáticos, lógicos y multimodales, al tiempo que reduce la brecha con los sistemas comerciales líderes bajo costos de inferencia significativamente más bajos.
La capacidad de usar, comprender y crear herramientas es un sello distintivo de la inteligencia humana, permitiendo una interacción sofisticada con el mundo físico. Para que cualquier agente inteligente de propósito general alcance una verdadera versatilidad, también debe dominar estas habilidades fundamentales. Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) aprovechan su amplio conocimiento común para la planificación de alto nivel en IA encarnada y en modelos posteriores de Visión-Lenguaje-Acción (VLA), el alcance de su verdadera comprensión de las herramientas físicas sigue sin cuantificarse. Para cerrar esta brecha, presentamos PhysToolBench, el primer punto de referencia dedicado a evaluar la comprensión de herramientas físicas por parte de los MLLMs. Nuestro punto de referencia está estructurado como un conjunto de datos de Respuesta Visual a Preguntas (VQA, por sus siglas en inglés) que comprende más de 1,000 pares de imagen-texto. Evalúa capacidades en tres niveles de dificultad distintos: (1) Reconocimiento de Herramientas: Requiere el reconocimiento de la función principal de una herramienta. (2) Comprensión de Herramientas: Prueba la capacidad de comprender los principios subyacentes del funcionamiento de una herramienta. (3) Creación de Herramientas: Desafía al modelo a crear una nueva herramienta a partir de objetos circundantes cuando las opciones convencionales no están disponibles. Nuestra evaluación exhaustiva de 32 MLLMs, que abarca modelos propietarios, de código abierto, especializados en IA encarnada y modelos base en VLAs, revela una deficiencia significativa en la comprensión de herramientas. Además, proporcionamos un análisis en profundidad y proponemos soluciones preliminares. El código y el conjunto de datos están disponibles públicamente.
Los avances recientes han llevado las fronteras de la IA desde tareas de reconocimiento de patrones hacia problemas que requieren razonamiento paso a paso, de estilo Sistema 2, especialmente con modelos de lenguaje grandes. Sin embargo, a diferencia del aprendizaje, donde los conceptos de generalización y evaluación fuera de distribución (OoD) están bien formalizados, no existe una definición o métrica clara y consistente para la capacidad de razonamiento. Proponemos la generalización de Complejidad Fuera de Distribución (Complejidad OoD) como un marco y configuración de problema para definir y medir el razonamiento. Un modelo exhibe generalización de Complejidad OoD cuando mantiene su rendimiento en instancias de prueba cuya complejidad mínima requerida para la solución, ya sea representacional (estructura de solución más rica) o computacional (más pasos de razonamiento/longitud del programa), excede la de todos los ejemplos de entrenamiento. Formalizamos la complejidad mediante la complejidad de Kolmogorov de la descripción de la solución y proxies operacionales (por ejemplo, conteos de objetos/relaciones; conteos de pasos de razonamiento), aclarando cómo la Complejidad OoD difiere de la longitud y la OoD composicional. Esta perspectiva unifica el aprendizaje y el razonamiento: muchos casos resolubles con procesamiento de estilo Sistema 1 a baja complejidad se vuelven de estilo Sistema 2 bajo presión de complejidad, mientras que el Sistema 2 puede verse como generalización sobre estructuras de solución. Traducimos esta perspectiva a la práctica con recomendaciones para operacionalizar la Complejidad OoD en toda la pila: incorporar la complejidad en el diseño de puntos de referencia y métricas de evaluación, reconsiderar la supervisión para enfocarse en trazas de solución, buscar y diseñar sesgos inductivos para la generalización de Complejidad OoD, abordar efectos secundarios del aprendizaje para razonar, como atajos espurios, robustez semántica, olvido catastrófico y calibración paso a paso. Dado que la Complejidad OoD no puede resolverse simplemente escalando los datos, el progreso hacia un razonamiento robusto requerirá arquitecturas y regímenes de entrenamiento que modelen y asignen explícitamente la computación con respecto a la complejidad.
La tarea de predicción de ocupación 3D ha experimentado un progreso notable en los últimos años, desempeñando un papel crucial en los sistemas de conducción autónoma basados en visión. Mientras que los métodos tradicionales se limitan a categorías semánticas fijas, los enfoques recientes han avanzado hacia la predicción de características alineadas con texto para permitir consultas de texto de vocabulario abierto en escenas del mundo real. Sin embargo, existe un compromiso en el modelado de escenas alineadas con texto: la representación gaussiana dispersa tiene dificultades para capturar objetos pequeños en la escena, mientras que la representación densa incurre en un sobrecosto computacional significativo. Para abordar estas limitaciones, presentamos PG-Occ, un innovador Marco de Transformador Gaussiano Progresivo que permite la predicción de ocupación 3D de vocabulario abierto. Nuestro marco emplea una densificación progresiva en línea, una estrategia de avance que mejora gradualmente la representación gaussiana 3D para capturar detalles finos de la escena. Al mejorar iterativamente la representación, el marco logra una comprensión de la escena cada vez más precisa y detallada. Otra contribución clave es la introducción de una estrategia de muestreo consciente de la anisotropía con fusión espacio-temporal, que asigna de manera adaptativa campos receptivos a gaussianas en diferentes escalas y etapas, permitiendo una agregación de características más efectiva y una captura de información de la escena más rica. A través de evaluaciones extensas, demostramos que PG-Occ alcanza un rendimiento de vanguardia con una mejora relativa del 14.3% en mIoU sobre el método de mejor rendimiento anterior. El código y los modelos preentrenados se publicarán en nuestra página del proyecto: https://yanchi-3dv.github.io/PG-Occ.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado avances notables en razonamiento, a menudo mediante ajuste fino supervisado (SFT). Sin embargo, el SFT es intensivo en recursos, ya que depende de grandes conjuntos de datos cuidadosamente seleccionados, demostraciones muestreadas por rechazo y una optimización uniforme en todos los tokens, a pesar de que solo una fracción de ellos tiene un valor de aprendizaje significativo. En este trabajo, exploramos una idea contraintuitiva: ¿pueden los modelos de lenguaje más pequeños (SLMs) enseñar a los modelos de lenguaje más grandes (LLMs) al revelar momentos de razonamiento de alto valor que reflejen la fortaleza única de estos últimos? Proponemos LightReasoner, un marco novedoso que aprovecha la divergencia conductual entre un modelo experto más fuerte (LLM) y un modelo amateur más débil (SLM). LightReasoner opera en dos etapas: (1) una etapa de muestreo que identifica momentos críticos de razonamiento y construye ejemplos de supervisión que capturan la ventaja del experto mediante el contraste experto-amateur, y (2) una etapa de ajuste fino que alinea el modelo experto con estos ejemplos destilados, amplificando sus fortalezas de razonamiento. En siete benchmarks matemáticos, LightReasoner mejora la precisión hasta en un 28,1%, mientras reduce el tiempo de consumo en un 90%, los problemas muestreados en un 80% y el uso de tokens ajustados en un 99%, todo ello sin depender de etiquetas de verdad absoluta. Al convertir SLMs más débiles en señales de enseñanza efectivas, LightReasoner ofrece un enfoque escalable y eficiente en recursos para avanzar en el razonamiento de los LLMs. El código está disponible en: https://github.com/HKUDS/LightReasoner.
Los modelos de difusión controlables actuales suelen depender de arquitecturas fijas que modifican las activaciones intermedias para inyectar guías condicionadas en una nueva modalidad. Este enfoque utiliza una estrategia de condicionamiento estático para un proceso de eliminación de ruido dinámico y multi-etapa, lo que limita la capacidad del modelo para adaptar su respuesta a medida que la generación evoluciona desde una estructura gruesa hasta detalles finos. Presentamos TC-LoRA (LoRA Condicional Modulado Temporalmente), un nuevo paradigma que permite un control dinámico y consciente del contexto al condicionar directamente los pesos del modelo. Nuestro marco utiliza una hiperred para generar adaptadores LoRA sobre la marcha, ajustando las modificaciones de pesos para la red principal congelada en cada paso de difusión según el tiempo y la condición del usuario. Este mecanismo permite que el modelo aprenda y ejecute una estrategia explícita y adaptativa para aplicar guías condicionales durante todo el proceso de generación. A través de experimentos en diversos dominios de datos, demostramos que este control dinámico y paramétrico mejora significativamente la fidelidad generativa y la adherencia a condiciones espaciales en comparación con métodos estáticos basados en activaciones. TC-LoRA establece un enfoque alternativo en el que la estrategia de condicionamiento del modelo se modifica mediante una adaptación funcional más profunda de sus pesos, permitiendo que el control se alinee con las demandas dinámicas de la tarea y la etapa generativa.
Presentamos MRMR, el primer benchmark multidisciplinario multimodal de recuperación de información a nivel experto que requiere razonamiento intensivo. MRMR contiene 1.502 consultas que abarcan 23 dominios, con documentos positivos verificados cuidadosamente por expertos humanos. En comparación con benchmarks anteriores, MRMR introduce tres avances clave. Primero, desafía a los sistemas de recuperación en diversas áreas de especialización, permitiendo una comparación granular de modelos entre dominios. Segundo, las consultas son intensivas en razonamiento, con imágenes que requieren una interpretación más profunda, como el diagnóstico de láminas microscópicas. Además, introducimos la Recuperación por Contradicción, una tarea novedosa que exige a los modelos identificar conceptos conflictivos. Finalmente, las consultas y documentos se construyen como secuencias intercaladas de imágenes y texto. A diferencia de benchmarks anteriores limitados a imágenes individuales o documentos unimodales, MRMR ofrece un escenario realista con consultas multi-imagen y documentos de corpus de modalidad mixta. Realizamos una evaluación exhaustiva de 4 categorías de sistemas de recuperación multimodal y 14 modelos de vanguardia en MRMR. El modelo de incrustación de texto Qwen3-Embedding con subtítulos generados por LLM para imágenes alcanza el mayor rendimiento, destacando un margen sustancial para mejorar los modelos de recuperación multimodal. Aunque los últimos modelos multimodales como Ops-MM-Embedding tienen un desempeño competitivo en consultas de dominio experto, se quedan cortos en tareas intensivas en razonamiento. Creemos que MRMR allana el camino para avanzar en la recuperación multimodal en escenarios más realistas y desafiantes.
Los modelos de razonamiento han mostrado recientemente avances notables en dominios como las matemáticas y la programación. Sin embargo, sus habilidades de nivel experto en matemáticas y programación contrastan marcadamente con su desempeño en tareas interactivas de largo plazo, como la navegación web y el uso de computadoras o teléfonos. Inspirados por la literatura sobre cognición humana, argumentamos que los agentes de IA actuales necesitan "ensayo y error vicario" —la capacidad de simular mentalmente futuros alternativos antes de actuar— para mejorar su comprensión y desempeño en entornos interactivos complejos. Presentamos Dyna-Mind, un marco de entrenamiento de dos etapas que enseña explícitamente a los agentes (V)LM a integrar dicha simulación en su razonamiento. En la etapa 1, introducimos Razonamiento con Simulaciones (ReSim), que entrena al agente para generar trazas de razonamiento estructuradas a partir de árboles de búsqueda expandidos construidos con experiencias reales recopiladas a través de interacciones con el entorno. ReSim, por tanto, fundamenta el razonamiento del agente en dinámicas fieles del mundo y lo dota de la capacidad de anticipar estados futuros en su razonamiento. En la etapa 2, proponemos Dyna-GRPO, un método de aprendizaje por refuerzo en línea para fortalecer aún más la capacidad de simulación y toma de decisiones del agente utilizando tanto recompensas de resultados como estados intermedios como retroalimentación de ejecuciones reales. Los experimentos en dos puntos de referencia sintéticos (Sokoban y ALFWorld) y uno realista (AndroidWorld) demuestran que (1) ReSim infunde efectivamente la capacidad de simulación en los agentes de IA, y (2) Dyna-GRPO aprovecha las señales de resultados y nivel de interacción para aprender políticas más efectivas para tareas de largo plazo que requieren planificación intensiva. En conjunto, estos resultados destacan el papel central de la simulación para permitir que los agentes de IA razonen, planifiquen y actúen de manera más efectiva en entornos cada vez más desafiantes.
La síntesis de vistas dinámicas ha experimentado avances significativos, aunque la reconstrucción de escenas a partir de videos casuales no calibrados sigue siendo un desafío debido a la optimización lenta y la estimación compleja de parámetros. En este trabajo, presentamos Instant4D, un sistema de reconstrucción monocular que aprovecha una representación nativa 4D para procesar eficientemente secuencias de video casuales en cuestión de minutos, sin cámaras calibradas ni sensores de profundidad. Nuestro método comienza con la recuperación geométrica mediante SLAM visual profundo, seguido de una poda de la malla para optimizar la representación de la escena. Nuestro diseño reduce significativamente la redundancia mientras mantiene la integridad geométrica, reduciendo el tamaño del modelo a menos del 10% de su huella original. Para manejar eficientemente la dinámica temporal, introducimos una representación simplificada de Gaussianas 4D, logrando una aceleración de 30x y reduciendo el tiempo de entrenamiento a menos de dos minutos, manteniendo un rendimiento competitivo en varios benchmarks. Nuestro método reconstruye un solo video en menos de 10 minutos en el conjunto de datos Dycheck o para un video típico de 200 fotogramas. Además, aplicamos nuestro modelo a videos en entornos no controlados, demostrando su generalización. El sitio web de nuestro proyecto está disponible en https://instant4d.github.io/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado avances notables en razonamiento matemático y lógico, sin embargo, la estadística, como una disciplina distinta e integradora, sigue siendo poco explorada en los esfuerzos de evaluación comparativa. Para abordar esta brecha, presentamos StatEval, el primer punto de referencia integral dedicado a la estadística, que abarca tanto la amplitud como la profundidad en diferentes niveles de dificultad. StatEval consta de 13,817 problemas fundamentales que cubren los planes de estudio de pregrado y posgrado, junto con 2374 tareas de demostración a nivel de investigación extraídas de revistas líderes. Para construir este punto de referencia, diseñamos una canalización escalable de múltiples agentes con validación humana en el bucle que automatiza la extracción, reescritura y control de calidad a gran escala, asegurando al mismo tiempo el rigor académico. Además, proponemos un marco de evaluación robusto adaptado tanto a tareas computacionales como basadas en demostraciones, permitiendo una evaluación detallada de la capacidad de razonamiento. Los resultados experimentales revelan que, mientras los modelos de código cerrado como GPT5-mini obtienen menos del 57\% en problemas de nivel de investigación, los modelos de código abierto tienen un rendimiento significativamente más bajo. Estos hallazgos resaltan los desafíos únicos del razonamiento estadístico y las limitaciones de los LLMs actuales. Esperamos que StatEval sirva como un punto de referencia riguroso para avanzar en la inteligencia estadística de los modelos de lenguaje de gran escala. Todos los datos y el código están disponibles en nuestra plataforma web: https://stateval.github.io/.
La robustez del reconocimiento automático del habla (ASR, por sus siglas en inglés) frente a cambios de dominio es crucial, ya que los sistemas del mundo real se enfrentan a acentos y dominios no vistos con datos etiquetados limitados. Aunque el pseudoetiquetado ofrece una solución práctica, a menudo introduce errores sistemáticos específicos del acento que el filtrado no logra corregir. Nos preguntamos: ¿Cómo podemos corregir estos sesgos recurrentes sin disponer de la verdad de campo del dominio objetivo? Proponemos una corrección simple en el espacio de parámetros: en un dominio fuente que contiene tanto datos reales como pseudoetiquetados, se ajustan dos modelos de ASR a partir de la misma inicialización, uno con etiquetas de verdad de campo y otro con pseudoetiquetas, y la diferencia de sus pesos forma un vector de corrección que captura los sesgos de las pseudoetiquetas. Cuando este vector se aplica a un modelo objetivo pseudoetiquetado, mejora el reconocimiento, logrando una reducción relativa de hasta un 35% en la Tasa de Error de Palabras (WER, por sus siglas en inglés) en AfriSpeech-200 a través de diez acentos africanos utilizando el modelo pequeño de Whisper.
Los modelos tradicionales de aprendizaje multimodal buscan representaciones unificadas para tareas como la respuesta visual a preguntas, pero dependen en gran medida de conjuntos de datos emparejados. Sin embargo, una pregunta pasada por alto pero potencialmente poderosa es: ¿se pueden aprovechar datos multimodales auxiliares no emparejados para mejorar directamente el aprendizaje de representaciones en una modalidad objetivo? Presentamos UML: Unpaired Multimodal Learner, un paradigma de entrenamiento agnóstico a la modalidad en el que un único modelo procesa alternativamente entradas de diferentes modalidades mientras comparte parámetros entre ellas. Este diseño explota la suposición de que diferentes modalidades son proyecciones de una realidad subyacente compartida, permitiendo que el modelo se beneficie de la estructura cruzada entre modalidades sin requerir pares explícitos. Teóricamente, bajo supuestos lineales de generación de datos, demostramos que los datos auxiliares no emparejados pueden producir representaciones estrictamente más informativas sobre el proceso generador de datos que el entrenamiento unimodal. Empíricamente, mostramos que el uso de datos no emparejados de modalidades auxiliares —como texto, audio o imágenes— mejora consistentemente el rendimiento en tareas unimodales diversas, como el procesamiento de imágenes y audio. Nuestra página del proyecto: https://unpaired-multimodal.github.io/
Los agentes DeepResearch representan un paradigma transformador de la IA, realizando investigaciones de nivel experto mediante razonamiento sofisticado e integración de múltiples herramientas. Sin embargo, evaluar estos sistemas sigue siendo un desafío crítico debido a escenarios de investigación abiertos y benchmarks existentes que se centran en capacidades aisladas en lugar del desempeño holístico. A diferencia de las tareas tradicionales de LLM, los sistemas DeepResearch deben sintetizar fuentes diversas, generar insights y presentar hallazgos coherentes, capacidades que resisten una verificación simple. Para abordar esta brecha, presentamos DeepResearch-ReportEval, un marco integral diseñado para evaluar sistemas DeepResearch a través de sus resultados más representativos: informes de investigación. Nuestro enfoque mide sistemáticamente tres dimensiones: calidad, redundancia y factualidad, utilizando una metodología innovadora de LLM-como-Juez que logra una fuerte concordancia experta. Contribuimos con un benchmark estandarizado de 100 consultas curadas que abarcan 12 categorías del mundo real, permitiendo una comparación sistemática de capacidades. Nuestra evaluación de cuatro sistemas comerciales líderes revela filosofías de diseño distintas y compensaciones de rendimiento, estableciendo insights fundamentales a medida que DeepResearch evoluciona de asistentes de información hacia socios de investigación inteligentes. El código fuente y los datos están disponibles en: https://github.com/HKUDS/DeepResearch-Eval.
Los protocolos de control de IA sirven como mecanismo de defensa para evitar que agentes de LLM no confiables causen daño en entornos autónomos. Trabajos previos abordan esto como un problema de seguridad, realizando pruebas de estrés con exploits que utilizan el contexto de despliegue para completar sutilmente tareas secundarias dañinas, como la inserción de puertas traseras. En la práctica, la mayoría de los protocolos de control de IA se basan fundamentalmente en monitores de LLM, que pueden convertirse en un punto central de fallo. Estudiamos ataques adaptativos por parte de un modelo no confiable que conoce el protocolo y el modelo monitor, lo cual es plausible si el modelo no confiable fue entrenado con un corte de conocimiento posterior o puede buscar esta información de manera autónoma. Instanciamos un vector de ataque adaptativo simple mediante el cual el atacante incrusta inyecciones de prompts conocidas públicamente o de tipo zero-shot en las salidas del modelo. Utilizando esta táctica, los modelos de vanguardia evaden consistentemente diversos monitores y completan tareas maliciosas en dos principales benchmarks de control de IA. El ataque funciona universalmente contra los protocolos actuales que dependen de un monitor. Además, el reciente protocolo Defer-to-Resample incluso resulta contraproducente, ya que su remuestreo amplifica la inyección de prompt y la reformula efectivamente como un ataque de tipo best-of-n. En general, los ataques adaptativos a los modelos monitores representan un punto ciego importante en los protocolos de control actuales y deberían convertirse en un componente estándar de las evaluaciones para futuros mecanismos de control de IA.
El escalado paralelo en tiempo de prueba (TTS, por sus siglas en inglés) es un enfoque fundamental para mejorar los modelos de lenguaje de gran escala (LLMs), típicamente mediante el muestreo de múltiples cadenas de pensamiento basadas en tokens en paralelo y la agregación de resultados a través de votación o búsqueda. Los avances recientes en razonamiento latente, donde el razonamiento intermedio se desarrolla en espacios vectoriales continuos, ofrecen una alternativa más eficiente al Chain-of-Thought explícito. Sin embargo, sigue siendo una incógnita si dichos modelos latentes pueden beneficiarse de manera similar del TTS paralelo, principalmente debido a la ausencia de mecanismos de muestreo en espacios continuos y la falta de señales probabilísticas para la agregación avanzada de trayectorias. Este trabajo habilita el TTS paralelo para modelos de razonamiento latente al abordar los problemas mencionados. Para el muestreo, introducimos dos estrategias estocásticas inspiradas en la incertidumbre: Monte Carlo Dropout y Ruido Gaussiano Aditivo. Para la agregación, diseñamos un Modelo de Recompensa Latente (LatentRM) entrenado con un objetivo contrastivo paso a paso para puntuar y guiar el razonamiento latente. Experimentos extensos y análisis de visualización muestran que ambas estrategias de muestreo escalan efectivamente con el cómputo y exhiben dinámicas de exploración distintas, mientras que LatentRM permite una selección efectiva de trayectorias. En conjunto, nuestras exploraciones abren una nueva dirección para la inferencia escalable en espacios continuos. El código está disponible en https://github.com/YRYangang/LatentTTS.
Los modelos de generación de descripciones (captioners) zero-shot son propuestas recientes que utilizan representaciones visión-lenguaje en un espacio común para describir imágenes sin depender de datos emparejados de imagen-texto. Para generar una descripción de una imagen, estos modelos decodifican textualmente una característica de imagen alineada con texto, pero limitan su alcance a representaciones globales y descripciones de la imagen completa. Presentamos , un marco unificado para la generación de descripciones zero-shot que cambia de un paradigma centrado en la imagen a uno centrado en parches, permitiendo la descripción de regiones arbitrarias sin necesidad de supervisión a nivel de región. En lugar de depender de representaciones globales de la imagen, tratamos los parches individuales como unidades atómicas de descripción y los agregamos para describir regiones arbitrarias, desde parches individuales hasta áreas no contiguas e imágenes completas. Analizamos los componentes clave que permiten a los modelos de descripción latente funcionar en nuestro nuevo marco propuesto. Los experimentos demuestran que arquitecturas que producen características visuales densas y significativas, como DINO, son fundamentales para alcanzar un rendimiento de vanguardia en múltiples tareas de descripción basadas en regiones. En comparación con otros modelos de referencia y competidores de última generación, nuestros modelos logran un mejor rendimiento en tareas zero-shot de descripción densa, de conjuntos de regiones y en una nueva tarea de descripción de trazas, destacando la efectividad de las representaciones semánticas basadas en parches para la generación escalable de descripciones. Página del proyecto en https://paciosoft.com/Patch-ioner/.
La revisión por pares es la piedra angular de la publicación científica, aunque adolece de inconsistencias, subjetividad de los revisores y desafíos de escalabilidad. Presentamos ReviewerToo, un marco modular para estudiar e implementar la revisión por pares asistida por inteligencia artificial, con el fin de complementar el juicio humano con evaluaciones sistemáticas y consistentes. ReviewerToo permite experimentos sistemáticos con perfiles especializados de revisores y criterios de evaluación estructurados, y puede integrarse parcial o totalmente en los flujos de trabajo de conferencias reales. Validamos ReviewerToo en un conjunto de datos cuidadosamente seleccionado de 1,963 envíos de artículos de ICLR 2025, donde nuestros experimentos con el modelo gpt-oss-120b alcanzan un 81.8% de precisión en la tarea de clasificar un artículo como aceptado/rechazado, en comparación con el 83.9% del revisor humano promedio. Además, las revisiones generadas por ReviewerToo son calificadas como de mayor calidad que el promedio humano por un juez basado en un modelo de lenguaje grande (LLM), aunque aún quedan por detrás de las contribuciones más sólidas de los expertos. Nuestro análisis destaca los dominios en los que los revisores de IA sobresalen (por ejemplo, verificación de hechos, cobertura de literatura) y aquellos en los que tienen dificultades (por ejemplo, evaluación de la novedad metodológica y contribuciones teóricas), subrayando la necesidad continua de la experiencia humana. Con base en estos hallazgos, proponemos pautas para integrar la IA en los procesos de revisión por pares, mostrando cómo la IA puede mejorar la consistencia, cobertura y equidad, mientras deja los juicios evaluativos complejos en manos de expertos en el dominio. Nuestro trabajo sienta las bases para sistemas híbridos y sistemáticos de revisión por pares que escalen con el crecimiento de la publicación científica.
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) potenciados por Aprendizaje por Refuerzo con Recompensa de Verificador (RLVR, por sus siglas en inglés) han demostrado un gran poder en la resolución de problemas, aunque a menudo provocan sobrepensamiento: un razonamiento excesivo y divagante que incrementa el costo computacional. Diseños previos de penalización en RLVR logran reducir el consumo de tokens, pero frecuentemente perjudican el rendimiento del modelo, lo cual surge de la excesiva simplicidad de la supervisión a nivel de tokens. En este artículo, argumentamos que la granularidad de la supervisión juega un papel crucial en equilibrar la eficiencia y la precisión, y proponemos la Penalización de Segmentos Relativos por Grupos (GRSP, por sus siglas en inglés), un método a nivel de pasos para regularizar el razonamiento. Dado que análisis preliminares muestran que los segmentos de razonamiento están fuertemente correlacionados con el consumo de tokens y el rendimiento del modelo, diseñamos un mecanismo de ponderación consciente de la longitud a través de clusters de segmentos. Experimentos extensivos demuestran que GRSP logra una eficiencia superior en el uso de tokens sin comprometer significativamente la precisión, especialmente en problemas más difíciles. Además, GRSP estabiliza el entrenamiento de RL y escala efectivamente a través de diferentes tamaños de modelos.
Los modelos de lenguaje hablado en tiempo real (SLMs, por sus siglas en inglés) enfrentan dificultades para aprovechar el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) debido a la latencia prohibitiva de generar todo el proceso de pensamiento de manera secuencial. Habilitar a los SLMs para que piensen mientras hablan, de manera similar a los humanos, está atrayendo una atención creciente. Presentamos, por primera vez, Habla con Ritmo Mental (MPS, por sus siglas en inglés), un marco inspirado en el cerebro que permite un razonamiento de alta fidelidad en tiempo real. Similar a cómo los humanos utilizan regiones cerebrales distintas para pensar y responder, proponemos un enfoque de doble cerebro, empleando un "Cerebro de Formulación" para el razonamiento de alto nivel que guía y establece el ritmo de un "Cerebro de Articulación" separado para la generación fluida del habla. Esta división del trabajo elimina el cambio de modo, preservando la integridad del proceso de razonamiento. Los experimentos muestran que MPS supera significativamente a los métodos existentes de pensar-mientras-se-habla y logra un rendimiento de razonamiento comparable a los modelos que precalculan el CoT completo antes de hablar, mientras reduce drásticamente la latencia. Bajo una configuración de latencia cero, el método propuesto alcanza una precisión del 92.8% en la tarea de razonamiento matemático Spoken-MQA y obtiene una puntuación de 82.5 en la tarea de conversación hablada URO-Bench. Nuestro trabajo efectivamente cierra la brecha entre el razonamiento de alta calidad y la interacción en tiempo real.
Los agentes basados en modelos de lenguaje de gran escala (LLMs) enfrentan dificultades con el ensayo y error irreflexivo y la generación de acciones alucinatorias debido a la falta de planificación global en tareas de horizonte largo. En este artículo, presentamos un marco de planificación y ejecución y proponemos EAGLET, un método de entrenamiento de planificadores eficiente y efectivo para mejorar las habilidades de planificación del agente ejecutor sin esfuerzo humano. Específicamente, entrenamos un planificador global plug-and-play mediante un proceso de dos pasos: primero sintetizamos planes de alta calidad a partir de un LLM avanzado utilizando nuestra estrategia de filtrado de consenso homólogo propuesta, y aplicamos ajuste fino como un arranque en frío. Además, mejoramos aún más el planificador con una etapa de aprendizaje por refuerzo basada en reglas utilizando una nueva recompensa de ganancia de capacidad del ejecutor, asegurando que pueda manejar instrucciones de tareas de diversa dificultad. Los experimentos en tres tareas de agentes de horizonte largo muestran que los agentes ejecutores equipados con nuestro planificador superan a los métodos existentes, logrando un nuevo rendimiento de vanguardia. Mientras tanto, EAGLET reduce los costos de entrenamiento en 8 veces en comparación con los baselines basados en RL, y no requiere esfuerzo manual ni datos de entrenamiento adicionales, ofreciendo una solución eficiente y efectiva.
Como un nuevo paradigma en la generación de contenido visual, los modelos autoregresivos de texto a imagen sufren de una inferencia lenta debido a su proceso secuencial de decodificación token por token, que a menudo requiere miles de pasos hacia adelante del modelo para generar una sola imagen. Para abordar esta ineficiencia, proponemos el Decodificado Especulativo Jacobi-Desruido (SJD2), un marco que incorpora el proceso de desruido en iteraciones de Jacobi para permitir la generación paralela de tokens en modelos autoregresivos. Nuestro método introduce un paradigma de predicción del siguiente token limpio que permite a los modelos autoregresivos preentrenados aceptar embeddings de tokens perturbados con ruido y predecir los siguientes tokens limpios mediante un ajuste fino de bajo costo. Este paradigma de desruido guía al modelo hacia trayectorias de Jacobi más estables. Durante la inferencia, nuestro método inicializa secuencias de tokens con ruido gaussiano y realiza predicciones iterativas del siguiente token limpio en el espacio de embeddings. Empleamos un criterio probabilístico para verificar y aceptar múltiples tokens en paralelo, y refinamos los tokens no aceptados para la siguiente iteración con la trayectoria de desruido. Los experimentos muestran que nuestro método puede acelerar la generación al reducir los pasos hacia adelante del modelo mientras mantiene la calidad visual de las imágenes generadas.
La Segmentación de Objetos en Video Referenciada (RVOS, por sus siglas en inglés) tiene como objetivo segmentar el objeto al que se refiere la frase de consulta en el video. La mayoría de los métodos existentes requieren entrenamiento de extremo a extremo con anotaciones de máscaras densas, lo que puede ser computacionalmente costoso y menos escalable. En este trabajo, reconsideramos el problema de RVOS y buscamos investigar la clave para esta tarea. Basándonos en modelos de segmentación fundamentales existentes, descomponemos la tarea de RVOS en factores de referencia, video y segmentación, y proponemos un marco de Generación y Selección de Indicaciones Temporales (Tenet) para abordar los factores de referencia y video, dejando el problema de segmentación a los modelos fundamentales. Para adaptar eficientemente los modelos de segmentación fundamentales basados en imágenes a la segmentación de objetos en video referenciada, aprovechamos detectores y rastreadores de objetos disponibles para producir indicaciones temporales asociadas con la frase de referencia. Aunque se pueden producir indicaciones temporales de alta calidad, no pueden identificarse fácilmente a partir de puntuaciones de confianza. Para abordar este problema, proponemos el Aprendizaje de Preferencias de Indicaciones para evaluar la calidad de las indicaciones temporales producidas. Al tomar tales indicaciones para instruir a los modelos de segmentación fundamentales basados en imágenes, podremos producir máscaras de alta calidad para el objeto referido, permitiendo una adaptación eficiente del modelo a la segmentación de objetos en video referenciada. Los experimentos en puntos de referencia de RVOS demuestran la efectividad del marco Tenet.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y los marcos agentes emergentes están comenzando a transformar la biología de células individuales al permitir el razonamiento en lenguaje natural, la anotación generativa y la integración de datos multimodales. Sin embargo, el progreso sigue siendo fragmentado entre las modalidades de datos, las arquitecturas y los estándares de evaluación. LLM4Cell presenta la primera revisión unificada de 58 modelos base y agentes desarrollados para la investigación de células individuales, abarcando las modalidades de RNA, ATAC, multiómica y espacial. Categorizamos estos métodos en cinco familias—base, puente de texto, espacial, multimodal, epigenómica y agentes—y los mapeamos a ocho tareas analíticas clave, incluyendo anotación, modelado de trayectorias y perturbaciones, y predicción de respuesta a fármacos. Basándonos en más de 40 conjuntos de datos públicos, analizamos la idoneidad de los puntos de referencia, la diversidad de datos y las limitaciones éticas o de escalabilidad, y evaluamos los modelos en 10 dimensiones del dominio que cubren fundamentos biológicos, alineación multiómica, equidad, privacidad y explicabilidad. Al vincular conjuntos de datos, modelos y dominios de evaluación, LLM4Cell ofrece la primera visión integrada de la inteligencia de células individuales impulsada por el lenguaje y describe los desafíos abiertos en interpretabilidad, estandarización y desarrollo de modelos confiables.
Los modelos de lenguaje de gran escala (LLMs) presentan desafíos significativos de implementación debido a sus enormes requisitos computacionales y de memoria. Si bien el pruning semi-estructurado, particularmente la esparsidad 2:4, ofrece un camino hacia la aceleración práctica en hardware, los métodos existentes a menudo incurren en una degradación sustancial del rendimiento. Para cerrar esta brecha, presentamos ARMOR: (Adaptive Representation with Matrix-factORization), un novedoso algoritmo de pruning post-entrenamiento de una sola pasada. En lugar de podar los pesos directamente, ARMOR factoriza cada matriz de pesos en un núcleo esparso 2:4 envuelto por dos matrices diagonales por bloques de bajo costo. Estos envoltorios actúan como correctores de error de pre y post-transformación eficientes, ofreciendo una mayor flexibilidad para preservar la calidad del modelo en comparación con las técnicas convencionales de pruning 2:4. El núcleo esparso y los envoltorios diagonales por bloques se seleccionan mediante un algoritmo de descenso coordenado por bloques que minimiza una pérdida proxy por capa. Teóricamente, demostramos que esta optimización está garantizada para converger a una solución con una pérdida proxy menor o igual que los algoritmos de pruning más avanzados. Los experimentos en las familias de modelos Llama (Touvron et al., 2023; Dubey et al., 2024) y Qwen (Yang et al., 2025) muestran que ARMOR supera consistentemente y de manera significativa a los métodos de pruning 2:4 más avanzados en una amplia gama de tareas posteriores y evaluaciones de perplejidad. ARMOR logra este rendimiento superior mientras mantiene las aceleraciones de inferencia y las reducciones sustanciales en el uso de memoria del pruning 2:4, estableciendo un equilibrio más efectivo entre la compresión del modelo y la precisión en las tareas.
Los agentes robóticos del mundo real deben actuar bajo observabilidad parcial y horizontes temporales extensos, donde indicios clave pueden aparecer mucho antes de que afecten la toma de decisiones. Sin embargo, la mayoría de los enfoques modernos dependen únicamente de información instantánea, sin incorporar insights del pasado. Los modelos recurrentes estándar o los transformadores tienen dificultades para retener y aprovechar dependencias a largo plazo: las ventanas de contexto truncan el historial, mientras que las extensiones de memoria simples fallan ante la escala y la dispersión. Proponemos ELMUR (External Layer Memory with Update/Rewrite), una arquitectura transformadora con memoria externa estructurada. Cada capa mantiene incrustaciones de memoria, interactúa con ellas mediante atención cruzada bidireccional y las actualiza a través de un módulo de memoria LRU (Least Recently Used) utilizando reemplazo o mezcla convexa. ELMUR extiende los horizontes efectivos hasta 100,000 veces más allá de la ventana de atención y logra una tasa de éxito del 100% en una tarea sintética de laberinto T con corredores de hasta un millón de pasos. En POPGym, supera a los modelos de referencia en más de la mitad de las tareas. En las tareas de manipulación con recompensas dispersas MIKASA-Robo y observaciones visuales, casi duplica el rendimiento de los modelos de referencia sólidos. Estos resultados demuestran que la memoria externa estructurada y local por capas ofrece un enfoque simple y escalable para la toma de decisiones bajo observabilidad parcial.
¿Cómo podemos enseñar nuevas habilidades a los modelos multimodales grandes (LMMs) sin borrar sus capacidades previas? Estudiamos el ajuste secuencial en cinco habilidades objetivo mientras monitoreamos la capacidad general en ocho puntos de referencia retenidos a través de tres familias de modelos. Observamos que el aparente "olvido" en tareas retenidas después de un ajuste estrecho puede recuperarse parcialmente en etapas posteriores. Rastreamos este comportamiento a un cambio medible en la distribución de tokens de salida, manifestado a través de una sonda de sesgo de conteo simple que co-varía con el olvido. Guiados por esta perspectiva, identificamos dos recetas de ajuste simples y robustas que aprenden fuertemente mientras limitan la deriva: (i) actualizar solo las capas de proyección de auto-atención, y (ii) actualizar solo la compuerta y proyección ascendente de la MLP mientras se congela la proyección descendente. A través de modelos y tareas, estas elecciones ofrecen fuertes ganancias en el objetivo mientras preservan en gran medida el rendimiento en las tareas retenidas. El código está disponible en https://github.com/jessemelpolio/LMM_CL.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han logrado avances notables en razonamiento, aunque en ocasiones generan respuestas subóptimas para los usuarios en tareas como redacción, búsqueda de información o provisión de orientación práctica. Las prácticas convencionales de alineación suelen asumir que maximizar la recompensa del modelo también maximiza el bienestar del usuario, pero esta suposición frecuentemente falla en la práctica: los modelos pueden sobre-explicar o generar razonamientos excesivamente verbosos cuando los usuarios prefieren respuestas concisas. Estos comportamientos se asemejan al dilema del prisionero, donde elecciones individualmente racionales conducen a resultados socialmente subóptimos. El desafío fundamental es la falta de un mecanismo de toma de decisiones basado en principios que beneficie mutuamente tanto al LLM como al usuario. Proponemos Alineación Teórica de Juegos (GTAlign, por sus siglas en inglés), un marco de alineación que integra la toma de decisiones basada en teoría de juegos tanto en el razonamiento como en el entrenamiento. Durante el razonamiento, el modelo trata explícitamente la interacción usuario-LLM como un juego estratégico: construye matrices de pagos dentro de su cadena de razonamiento para estimar el bienestar tanto para sí mismo como para el usuario, y luego selecciona acciones que son mutuamente beneficiosas. Durante el entrenamiento, introducimos una recompensa de bienestar mutuo que refuerza respuestas cooperativas, alineando el comportamiento del modelo con resultados socialmente eficientes. Además, presentamos una técnica de inferencia que aprovecha el razonamiento teórico de juegos para adaptar dinámicamente la respuesta del LLM cuando cambian las políticas de precios del servicio de LLM. Experimentos extensivos demuestran que GTAlign mejora sustancialmente la eficiencia del razonamiento, la calidad de las respuestas y el bienestar mutuo en comparación con los métodos de referencia en diversas tareas. El código está disponible en https://github.com/ulab-uiuc/GTAlign.
Las narrativas personales son historias que los autores construyen para dar sentido a sus experiencias. El estilo, la forma distintiva en que los autores utilizan el lenguaje para expresarse, es fundamental para cómo estas narrativas transmiten experiencias subjetivas. Sin embargo, existe una falta de un marco formal para analizar sistemáticamente estas elecciones estilísticas. Presentamos un enfoque novedoso que formaliza el estilo en las narrativas personales como patrones en las elecciones lingüísticas que los autores hacen al comunicar experiencias subjetivas. Nuestro marco integra tres dominios: la lingüística funcional establece el lenguaje como un sistema de elecciones significativas, la informática proporciona métodos para extraer y analizar automáticamente patrones secuenciales, y estos patrones se vinculan con observaciones psicológicas. Utilizando modelos de lenguaje, extraemos automáticamente características lingüísticas como procesos, participantes y circunstancias. Aplicamos nuestro marco a cientos de narrativas de sueños, incluyendo un estudio de caso sobre un veterano de guerra con trastorno de estrés postraumático. El análisis de sus narrativas revela patrones distintivos, particularmente cómo los procesos verbales dominan sobre los mentales, ilustrando la relación entre las elecciones lingüísticas y los estados psicológicos.
Los enfoques actuales de estimación de profundidad monocular autosupervisada (MDE, por sus siglas en inglés) enfrentan limitaciones de rendimiento debido a una extracción insuficiente de conocimiento semántico-espacial. Para abordar este desafío, proponemos Hybrid-depth, un marco novedoso que integra sistemáticamente modelos fundacionales (por ejemplo, CLIP y DINO) para extraer conocimientos visuales previos y adquirir información contextual suficiente para MDE. Nuestro enfoque introduce un marco de aprendizaje progresivo de lo general a lo específico: 1) En primer lugar, agregamos características multigranulares de CLIP (semántica global) y DINO (detalles espaciales locales) bajo la guía de lenguaje contrastivo. Se diseña una tarea proxy que compara parches de imágenes cercanos y lejanos para reforzar la alineación de características conscientes de la profundidad utilizando indicaciones de texto; 2) A continuación, basándonos en las características generales, integramos información de la pose de la cámara y alineación de lenguaje a nivel de píxeles para refinar las predicciones de profundidad. Este módulo se integra perfectamente con las canalizaciones existentes de MDE autosupervisadas (por ejemplo, Monodepth2, ManyDepth) como un codificador de profundidad plug-and-play, mejorando la estimación continua de profundidad. Al agregar el contexto semántico de CLIP y los detalles espaciales de DINO mediante la guía del lenguaje, nuestro método aborda eficazmente los desajustes en la granularidad de las características. Experimentos exhaustivos en el benchmark KITTI demuestran que nuestro método supera significativamente a los métodos de última generación (SOTA) en todas las métricas, lo que también beneficia tareas posteriores como la percepción BEV. El código está disponible en https://github.com/Zhangwenyao1/Hybrid-depth.
Los Modelos de Lenguaje de Gran Escala (LLMs) requieren una edición eficiente del conocimiento (KE, por sus siglas en inglés) para actualizar información factual, sin embargo, los métodos existentes muestran un deterioro significativo en la recuperación factual de múltiples saltos (multi-hop). Esta falla es particularmente aguda cuando las ediciones involucran sujetos intermedios implícitos dentro de las cadenas de razonamiento. Mediante un análisis causal, revelamos que esta limitación surge de una omisión en cómo el conocimiento encadenado se representa y utiliza dinámicamente a nivel neuronal. Descubrimos que, durante el razonamiento de múltiples saltos, los sujetos implícitos funcionan como neuronas de consulta (query neurons), que activan secuencialmente las neuronas de valor (value neurons) correspondientes a través de las capas del transformador para acumular información hacia la respuesta final, un aspecto dinámico que trabajos previos de KE han pasado por alto. Guiados por esta comprensión, proponemos ACE: Edición de Conocimiento Controlada por Atribución para la Recuperación Factual de Múltiples Saltos, un marco que aprovecha la atribución a nivel neuronal para identificar y editar estas rutas críticas de consulta-valor (Q-V). ACE ofrece una solución fundamentada mecánicamente para la KE de múltiples saltos, superando empíricamente a los métodos más avanzados en un 9.44% en GPT-J y un 37.46% en Qwen3-8B. Nuestro análisis revela además patrones de activación más detallados en Qwen3 y demuestra que la interpretabilidad semántica de las neuronas de valor está orquestada por la acumulación impulsada por consultas. Estos hallazgos establecen una nueva vía para avanzar en las capacidades de KE basada en la comprensión fundamentada de los mecanismos internos de razonamiento.
La personalización de modelos de difusión permite a los usuarios generar nuevas imágenes que incorporan un sujeto dado, ofreciendo un mayor control que un simple texto descriptivo. Estos modelos suelen presentar dificultades cuando terminan recreando únicamente la imagen del sujeto, ignorando el texto descriptivo. Observamos que un método popular de personalización, el IP-Adapter, genera automáticamente máscaras que segmentan de manera definitiva el sujeto del fondo durante la inferencia. Proponemos utilizar esta máscara generada automáticamente en una segunda pasada para enmascarar los tokens de la imagen, restringiéndolos al sujeto y no al fondo, lo que permite que el texto descriptivo atienda al resto de la imagen. Para textos descriptivos que mencionan ubicaciones y lugares, esto produce imágenes que representan con precisión el sujeto mientras coinciden definitivamente con el texto. Comparamos nuestro método con otros métodos de personalización en tiempo de prueba y encontramos que nuestro método muestra una alta alineación tanto con el texto descriptivo como con la imagen de origen.