Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de los avances en la IA científica, aún falta un marco coherente para la Inteligencia General Científica (SGI, por sus siglas en inglés): la capacidad de concebir, investigar y razonar de forma autónoma a través de dominios científicos. Presentamos una definición operativa de SGI basada en el Modelo de Indagación Práctica (PIM: Deliberación, Concepción, Acción, Percepción) y la operacionalizamos mediante cuatro tareas alineadas con el quehacer científico: investigación profunda, generación de ideas, experimentos secos/húmedos y razonamiento experimental. SGI-Bench comprende más de 1,000 muestras interdisciplinarias curadas por expertos, inspiradas en las 125 Grandes Preguntas de la revista Science, permitiendo la evaluación sistemática de los LLMs más avanzados. Los resultados revelan deficiencias: coincidencia exacta baja (10-20%) en investigación profunda a pesar de una alineación a nivel de pasos; ideas que carecen de viabilidad y detalle; alta capacidad de ejecución de código pero baja precisión en los resultados de ejecución en experimentos secos; baja fidelidad de secuencia en protocolos húmedos; y desafíos persistentes en el razonamiento comparativo multimodal. Además, introducimos el Aprendizaje por Refuerzo en Tiempo de Prueba (TTRL), que optimiza las recompensas de novedad aumentadas por recuperación durante la inferencia, mejorando la novedad de las hipótesis sin necesidad de una respuesta de referencia. En conjunto, nuestra definición basada en el PIM, nuestro punto de referencia centrado en flujos de trabajo y nuestras percepciones empíricas establecen una base para sistemas de IA que participen genuinamente en el descubrimiento científico.
La generalización robótica depende de la inteligencia física: la capacidad de razonar sobre cambios de estado, interacciones ricas en contacto y planificación de largo horizonte bajo una percepción y acción egocéntricas. Sin embargo, la mayoría de los Modelos de Lenguaje Visual (VLM) se entrenan principalmente con datos en tercera persona, creando una discrepancia fundamental de punto de vista para los robots humanoides. Escalar la recolección de datos egocéntricos robóticos sigue siendo impráctico debido al alto costo y la diversidad limitada, mientras que los videos egocéntricos humanos a gran escala ofrecen una alternativa escalable que captura naturalmente un contexto de interacción rico y una estructura causal. El desafío clave es convertir videos egocéntricos en bruto en una supervisión de entrenamiento de embodimiento estructurada y confiable. En consecuencia, proponemos un pipeline de traducción Egocéntrico-a-Embodiment (Egocentric2Embodiment) que transforma videos en primera persona en una supervisión de VQA multinivel, impulsada por esquemas, con base de evidencia forzada y consistencia temporal, permitiendo la construcción a escala del conjunto de datos Egocentric2Embodiment (E2E-3M). Un cerebro embodido consciente de lo egocéntrico, denominado PhysBrain, se obtiene entrenando con el conjunto de datos E2E-3M. PhysBrain exhibe una comprensión egocéntrica sustancialmente mejorada, particularmente para la planificación en EgoThink. Proporciona una inicialización consciente de lo egocéntrico que permite un ajuste fino de VLA más eficiente en muestras y mayores tasas de éxito en SimplerEnv (53.9%), demostrando una transferencia efectiva de la supervisión egocéntrica humana al control robótico descendente.
A pesar del rendimiento superior de los Modelos de Gran Razonamiento (LRMs), sus comportamientos de razonamiento suelen ser contraintuitivos, lo que conduce a capacidades de razonamiento subóptimas. Para formalizar teóricamente los comportamientos de razonamiento deseados, este artículo presenta las Leyes del Razonamiento (LoRe), un marco unificado que caracteriza los patrones intrínsecos de razonamiento en los LRMs. Primero proponemos la *ley de cómputo* con la hipótesis de que el cómputo del razonamiento debe escalar linealmente con la complejidad de la pregunta. Más allá del cómputo, extendemos LoRe con una *ley de precisión* suplementaria. Dado que la complejidad de la pregunta es difícil de cuantificar en la práctica, examinamos estas hipótesis mediante dos propiedades de las leyes: la monotonicidad y la composicionalidad. Por lo tanto, presentamos LoRe-Bench, un benchmark que mide sistemáticamente estas dos propiedades tratables para modelos de gran razonamiento. La evaluación muestra que la mayoría de los modelos de razonamiento exhiben una monotonicidad razonable pero carecen de composicionalidad. En respuesta, desarrollamos un enfoque efectivo de ajuste fino que impone la composicionalidad de la ley de cómputo. Estudios empíricos exhaustivos demuestran que un mejor cumplimiento de las leyes de cómputo produce una mejora constante en el rendimiento del razonamiento en múltiples benchmarks, y descubre efectos sinérgicos entre propiedades y leyes. Página del proyecto: https://lore-project.github.io/
Los modelos de lenguaje grande han logrado recientemente avances significativos en la generación de demostraciones matemáticas rigurosas. Por el contrario, utilizar LLMs para la demostración de teoremas en lenguajes formales (como Lean) sigue siendo un desafío y computacionalmente costoso, particularmente al abordar problemas de nivel universitario y superiores. En este trabajo, presentamos Seed-Prover 1.5, un modelo de demostración formal de teoremas entrenado mediante aprendizaje por refuerzo agéntico a gran escala, junto con un flujo de trabajo eficiente de escalado en tiempo de prueba (TTS). A través de extensas interacciones con Lean y otras herramientas, el modelo acumula experiencia continuamente durante el proceso de RL, mejorando sustancialmente la capacidad y eficiencia de la demostración formal de teoremas. Además, aprovechando los avances recientes en demostración en lenguaje natural, nuestro flujo de trabajo TTS cierra eficientemente la brecha entre los lenguajes natural y formal. En comparación con los métodos de vanguardia, Seed-Prover 1.5 logra un rendimiento superior con un presupuesto computacional más pequeño. Resuelve el 88% de PutnamBench (nivel universitario), el 80% de Fate-H (nivel de posgrado) y el 33% de Fate-X (nivel de doctorado). Notablemente, utilizando nuestro sistema, resolvimos 11 de los 12 problemas del Putnam 2025 en menos de 9 horas. Nuestros hallazgos sugieren que escalar el aprendizaje a partir de la experiencia, impulsado por retroalimentación formal de alta calidad, tiene un inmenso potencial para el futuro del razonamiento matemático formal.
Los Modelos de Difusión Latente (LDM) modernos suelen operar en espacios latentes de Autoencoders Variacionales (VAE) de bajo nivel, optimizados principalmente para la reconstrucción a nivel de píxeles. Para unificar la generación y la comprensión visual, una tendencia emergente es adoptar características de alta dimensión de codificadores de representación como latentes generativos. Sin embargo, identificamos empíricamente dos obstáculos fundamentales en este paradigma: (1) el espacio de características discriminativas carece de regularización compacta, lo que hace que los modelos de difusión sean propensos a latentes fuera del manifold que conducen a estructuras de objetos inexactas; y (2) la inherente debilidad del codificador en la reconstrucción a nivel de píxel impide que el generador aprenda geometría y textura finamente detalladas de forma precisa. En este artículo, proponemos un marco sistemático para adaptar características de codificadores orientados a la comprensión para tareas generativas. Introducimos un objetivo de reconstrucción semántica-pixel para regularizar el espacio latente, permitiendo comprimir tanto la información semántica como los detalles finos en una representación altamente compacta (96 canales con submuestreo espacial de 16x16). Este diseño garantiza que el espacio latente siga siendo semánticamente rico y logre una reconstrucción de imágenes de vanguardia, manteniéndose lo suficientemente compacto para una generación precisa. Aprovechando esta representación, diseñamos un modelo unificado de Texto a Imagen (T2I) y edición de imágenes. Al compararlo con varios espacios de características, demostramos que nuestro enfoque logra una reconstrucción de vanguardia, una convergencia más rápida y mejoras sustanciales de rendimiento tanto en tareas T2I como de edición, validando que los codificadores de representación pueden adaptarse eficazmente como componentes generativos robustos.
A pesar de los avances en los Modelos de Lenguaje Multimodales (MLLM), su capacidad para razonar sobre estructuras 3D y dinámicas temporales sigue siendo limitada, restringida por una percepción 4D débil y una comprensión temporal insuficiente. Los puntos de referencia existentes para Respuesta a Preguntas sobre Video 3D y 4D (VQA) también enfatizan escenas estáticas y carecen de indicaciones a nivel regional. Abordamos estos problemas mediante la introducción de: (a) 4D-RGPT, un MLLM especializado diseñado para capturar representaciones 4D a partir de entradas de video con una percepción temporal mejorada; (b) Perceptual 4D Distillation (P4D), un marco de entrenamiento que transfiere representaciones 4D desde un modelo experto congelado a 4D-RGPT para una percepción 4D integral; y (c) R4D-Bench, un punto de referencia para escenas dinámicas con conciencia de profundidad que incluye indicaciones a nivel regional, construido mediante un proceso híbrido automatizado y verificado por humanos. Nuestro modelo 4D-RGPT logra mejoras notables tanto en los puntos de referencia existentes de VQA 4D como en el nuevo punto de referencia R4D-Bench.
El método LLM-como-Juez ha sido ampliamente adoptado como técnica de evaluación y ha servido como recompensa supervisada en el entrenamiento de modelos. Sin embargo, los puntos de referencia existentes para LLM-como-Juez dependen principalmente de verdades fundamentales anotadas por humanos, lo que introduce un sesgo humano que socava la evaluación de la fiabilidad e impone limitaciones de escalabilidad. Para superar estas limitaciones, presentamos Sage, un novedoso conjunto de evaluación que valora la calidad de los modelos LLM como jueces sin necesidad de anotación humana alguna. Inspirado en los axiomas de la teoría de la elección racional, Sage introduce dos nuevas perspectivas para medir LLM-como-Juez: la autocoherencia local (estabilidad de preferencias por pares) y la coherencia lógica global (transitividad a través de un conjunto completo de preferencias). Hemos creado un conjunto de datos de 650 preguntas combinando problemas estructurados de evaluación con consultas de usuarios del mundo real. Nuestros experimentos demuestran tanto la estabilidad de nuestras métricas como su alta correlación con puntos de referencia supervisados como LLMBar y RewardBench2, lo que confirma la fiabilidad de Sage como suite de evaluación para la robustez y precisión de LLM-como-Juez. Basándonos en Sage, revelamos que los modelos LLM más avanzados actuales presentan problemas significativos de fiabilidad cuando actúan como jueces, tanto en entornos de puntuación como de comparación por pares; incluso los modelos con mejor rendimiento, Gemini-2.5-Pro y GPT-5, no logran mantener preferencias consistentes en casi una cuarta parte de los casos difíciles. Atribuimos esto a un nuevo fenómeno denominado preferencia situacional, que explica por qué las rúbricas o criterios explícitos pueden ayudar al modelo a juzgar de manera consistente entre pares de respuestas. Nuestro análisis adicional muestra que el ajuste fino de LLM-como-Juez es un método viable para mejorar el rendimiento, y que tanto el juez basado en paneles como el razonamiento profundo pueden mejorar la coherencia del juicio. También encontramos una inconsistencia sustancial en los juicios humanos, lo que indica que la anotación humana podría no ser un estándar de oro fiable.
Presentamos RadarGen, un modelo de difusión para sintetizar nubes de puntos de radar automotriz realistas a partir de imágenes multicámara. RadarGen adapta la difusión eficiente en espacios latentes de imagen al dominio del radar representando las mediciones de radar en forma de vista de pájaro (BEV), que codifica la estructura espacial junto con atributos de sección transversal radar (RCS) y Doppler. Una etapa ligera de recuperación reconstruye las nubes de puntos a partir de los mapas generados. Para alinear mejor la generación con la escena visual, RadarGen incorpora señales de profundidad, semánticas y de movimiento alineadas en BEV, extraídas de modelos base preentrenados, que guían el proceso estocástico de generación hacia patrones de radar físicamente plausibles. El condicionamiento por imágenes hace que el enfoque sea ampliamente compatible, en principio, con conjuntos de datos visuales existentes y frameworks de simulación, ofreciendo una dirección escalable para la simulación generativa multimodal. Las evaluaciones en datos de conducción a gran escala muestran que RadarGen captura las distribuciones características de las mediciones de radar y reduce la brecha con los modelos de percepción entrenados con datos reales, marcando un paso hacia la simulación generativa unificada entre modalidades de sensado.
La localización visual, que consiste en ubicar objetos a partir de descripciones en lenguaje natural, representa un puente crítico entre la comprensión del lenguaje y la visión. Aunque los modelos de lenguaje multimodal (MLLM) logran puntuaciones impresionantes en los benchmarks existentes, persiste una pregunta fundamental: ¿pueden los MLLM realmente anclar el lenguaje en la visión con una sofisticación similar a la humana, o simplemente están haciendo coincidencia de patrones en conjuntos de datos simplificados? Los benchmarks actuales no logran capturar la complejidad del mundo real, donde los humanos navegan sin esfuerzo a través de referencias ambiguas y reconocen cuándo la localización es imposible. Para evaluar rigurosamente las verdaderas capacidades de los MLLM, presentamos GroundingME, un benchmark que desafía sistemáticamente a los modelos en cuatro dimensiones críticas: (1) Discriminativa, distinguiendo objetos muy similares, (2) Espacial, comprendiendo descripciones relacionales complejas, (3) Limitada, manejando oclusiones u objetos minúsculos, y (4) de Rechazo, reconociendo consultas no localizables. Mediante una cuidadosa curación que combina generación automatizada con verificación humana, creamos 1.005 ejemplos desafiantes que reflejan la complejidad del mundo real. La evaluación de 25 MLLM de vanguardia revela una profunda brecha de capacidad: el mejor modelo alcanza solo un 45,1% de precisión, mientras que la mayoría obtiene un 0% en las tareas de rechazo, alucinando objetos de forma refleja en lugar de reconocer su ausencia, lo que plantea serias preocupaciones de seguridad para su despliegue. Exploramos dos estrategias de mejora: (1) el escalado en tiempo de prueba, que selecciona la respuesta óptima analizando la trayectoria de pensamiento para mejorar la localización compleja hasta en un 2,9%, y (2) el entrenamiento con mezcla de datos, que enseña a los modelos a reconocer consultas no localizables, aumentando la precisión en rechazo del 0% al 27,9%. Por lo tanto, GroundingME sirve tanto como una herramienta de diagnóstico que revela las limitaciones actuales de los MLLM como una hoja de ruta hacia la localización visual a nivel humano.
Comprender las diferencias arquitectónicas en los modelos de lenguaje es un desafío, especialmente a escalas de preentrenamiento académico (por ejemplo, 1.3B parámetros, 100B tokens), donde los resultados suelen estar dominados por el ruido y la aleatoriedad. Para superar esto, introducimos tareas de preentrenamiento sintéticas controladas que aíslan y evalúan las capacidades fundamentales del modelo. Dentro de este marco, descubrimos las CAPAS CANÓNICAS: componentes arquitectónicos ligeros —llamados así por el término musical "canon"— que promueven el flujo horizontal de información entre tokens vecinos. Las capas canónicas calculan sumas ponderadas de las representaciones de tokens cercanos y se integran perfectamente en Transformers, atención lineal, modelos de espacio de estados o cualquier arquitectura secuencial. Presentamos 12 resultados clave. Esto incluye cómo las capas canónicas mejoran la profundidad de razonamiento (por ejemplo, al doble), la amplitud de razonamiento, la manipulación de conocimiento, etc. Permiten que arquitecturas débiles como NoPE igualen a RoPE, y que la atención lineal rivalice con modelos lineales de vanguardia como Mamba2/GDN —validado tanto mediante tareas sintéticas como mediante preentrenamiento real a escala académica. Este entorno de pruebas sintético ofrece una ruta económica y fundamentada para aislar capacidades centrales del modelo que a menudo quedan oscurecidas a escalas académicas. Equipado con datos infinitos de alta calidad, incluso podría PREDECIR cómo se comportarán las arquitecturas futuras a medida que mejoren los pipelines de entrenamiento —por ejemplo, mediante mejor curación de datos o post-entrenamiento basado en RL— desbloqueando un razonamiento más profundo e inferencia jerárquica.
Los modelos Visión-Lenguaje-Acción (VLA) están impulsando una revolución en la robótica, permitiendo que las máquinas comprendan instrucciones e interactúen con el mundo físico. Este campo está experimentando una explosión de nuevos modelos y conjuntos de datos, lo que hace que mantenerse al día sea a la vez emocionante y desafiante. Esta revisión ofrece una guía clara y estructurada del panorama de los VLA. La hemos diseñado para seguir la ruta de aprendizaje natural de un investigador: comenzamos con los Módulos básicos de cualquier modelo VLA, trazamos la historia a través de los principales Hitos y luego profundizamos en los desafíos centrales que definen la frontera de investigación reciente. Nuestra principal contribución es un desglose detallado de los cinco mayores desafíos en: (1) Representación, (2) Ejecución, (3) Generalización, (4) Seguridad, y (5) Datos y Evaluación. Esta estructura refleja la hoja de ruta de desarrollo de un agente generalista: establecer el bucle fundamental de percepción-acción, escalar capacidades a través de diversas materializaciones y entornos, y finalmente garantizar un despliegue confiable, todo ello respaldado por la infraestructura de datos esencial. Para cada uno de ellos, revisamos los enfoques existentes y destacamos oportunidades futuras. Posicionamos este artículo tanto como una guía fundamental para los recién llegados como una hoja de ruta estratégica para investigadores experimentados, con el doble objetivo de acelerar el aprendizaje e inspirar nuevas ideas en inteligencia corporeizada. Se mantiene una versión en vivo de esta revisión, con actualizaciones continuas, en nuestra {página del proyecto} https://suyuz1.github.io/Survery/.
El aprendizaje por refuerzo (RL) ha reaparecido como un enfoque natural para entrenar agentes de LLM interactivos en entornos del mundo real. Sin embargo, la aplicación directa del ampliamente utilizado algoritmo de Optimización de Políticas de Grupo Relativo (GRPO) a tareas de múltiples turnos expone limitaciones notables, particularmente en escenarios que requieren razonamiento de largo horizonte. Para abordar estos desafíos, investigamos estrategias de estimación de ventaja más estables y efectivas, especialmente para configuraciones de múltiples turnos. Primero exploramos la Optimización de Políticas Proximales (PPO) como una alternativa y encontramos que es más robusta que GRPO. Para mejorar aún más el PPO en escenarios de múltiples turnos, presentamos turn-PPO, una variante que opera en una formulación MDP a nivel de turno, en contraposición al MDP a nivel de token comúnmente utilizado. Nuestros resultados en los conjuntos de datos WebShop y Sokoban demuestran la efectividad de turn-PPO, tanto con como sin componentes de razonamiento largo.
Los Modelos de Lenguaje Grandes para Video (Video-LLM) están mejorando rápidamente, sin embargo, los puntos de referencia actuales de Respuesta a Preguntas sobre Video (VideoQA) a menudo permiten que las preguntas se respondan a partir de una única pista destacada, evaluando insuficientemente el razonamiento que debe agregar múltiples evidencias visuales separadas temporalmente. Presentamos HERBench, un punto de referencia de VideoQA diseñado específicamente para evaluar la integración de múltiples evidencias a lo largo del tiempo. Cada pregunta requiere agregar al menos tres pistas evidenciales no superpuestas en segmentos de video distintos, de modo que ni los conocimientos previos lingüísticos ni una sola instantánea son suficientes. HERBench comprende 26.000 preguntas de opción múltiple con cinco opciones, organizadas en doce tareas composicionales que exploran la vinculación de identidades, las relaciones entre entidades, el ordenamiento temporal, la verificación de co-ocurrencia y el conteo. Para hacer medible la demanda de evidencia, introducimos el Conjunto Mínimo de Fotogramas Requeridos (MRFS), el número mínimo de fotogramas que un modelo debe fusionar para responder correctamente, y demostramos que HERBench impone una demanda sustancialmente mayor que los conjuntos de datos anteriores (MRFS medio de 5.5 frente a 2.6-4.2). La evaluación de 13 Video-LLM de última generación en HERBench revela fallos generalizados: las precisiones del 31-42% están solo ligeramente por encima del nivel base de acierto aleatorio del 20%. Desglosamos este fallo en dos cuellos de botella críticos: (1) un déficit de recuperación, donde los selectores de fotogramas pasan por alto evidencia clave, y (2) un déficit de fusión, donde los modelos fallan en integrar información incluso cuando se proporciona toda la evidencia necesaria. Al hacer que la evidencia a través del tiempo sea tanto inevitable como cuantificable, HERBench establece un objetivo fundamentado para avanzar hacia una comprensión de video robusta y composicional.
Los recientes avances en modelos del mundo han mejorado significativamente la simulación de entornos interactivos. Los métodos existentes se clasifican principalmente en dos categorías: (1) modelos de generación de mundos estáticos, que construyen entornos 3D sin agentes activos, y (2) modelos de entidades controlables, que permiten que una única entidad realice acciones limitadas en un entorno por lo demás incontrolable. En este trabajo presentamos AniX, que aprovecha el realismo y la base estructural de la generación de mundos estáticos mientras extiende los modelos de entidades controlables para admitir personajes especificados por el usuario capaces de realizar acciones de final abierto. Los usuarios pueden proporcionar una escena 3DGS y un personaje, luego dirigir al personaje mediante lenguaje natural para realizar diversos comportamientos, desde locomoción básica hasta interacciones centradas en objetos, mientras exploran libremente el entorno. AniX sintetiza clips de video temporalmente coherentes que preservan la fidelidad visual con la escena y el personaje proporcionados, formulado como un problema de generación de video autoregresivo condicional. Desarrollado sobre un generador de video preentrenado, nuestra estrategia de entrenamiento mejora significativamente la dinámica del movimiento mientras mantiene la generalización entre acciones y personajes. Nuestra evaluación cubre una amplia gama de aspectos, incluida la calidad visual, la consistencia del personaje, la controllabilidad de las acciones y la coherencia a largo plazo.
Presentamos a Bolmo, la primera familia de modelos de lenguaje (ML) competitivos completamente abiertos a nivel de byte en las escalas de 1B y 7B de parámetros. A diferencia de investigaciones previas sobre ML a nivel de byte, que se centran predominantemente en el entrenamiento desde cero, entrenamos a Bolmo mediante la "byteificación" de ML existentes a nivel de subpalabra. La byteificación permite superar las limitaciones de la tokenización por subpalabras —como la comprensión insuficiente de caracteres y las restricciones de eficiencia debidas al vocabulario fijo de subpalabras— mientras se rinde al nivel de los principales ML a nivel de subpalabra. Bolmo está específicamente diseñado para la byteificación: nuestra arquitectura resuelve un desajuste entre la expresividad de las arquitecturas previas a nivel de byte y los ML a nivel de subpalabra, lo que hace posible emplear un objetivo de destilación exacta efectivo entre Bolmo y el modelo de subpalabras fuente. Esto permite convertir un ML a nivel de subpalabra en un ML a nivel de byte invirtiendo menos del 1% del presupuesto típico de tokens de preentrenamiento. Bolmo supera sustancialmente a todos los ML previos a nivel de byte de tamaño comparable, y supera a los ML fuente a nivel de subpalabra en comprensión de caracteres y, en algunos casos, en programación, al tiempo que se acerca al rendimiento de los ML originales en otras tareas. Además, mostramos que Bolmo puede alcanzar velocidades de inferencia competitivas con los ML a nivel de subpalabra al entrenarse con ratios de compresión de tokens más altos, y puede ser post-entrenado de forma económica y efectiva aprovechando el ecosistema existente alrededor del ML de subpalabras fuente. Nuestros resultados convierten finalmente a los ML a nivel de byte en una opción práctica y competitiva frente a los ML a nivel de subpalabra en un amplio conjunto de casos de uso.
Los benchmarks como SWE-bench han estandarizado la evaluación de Modelos de Lenguaje a Gran Escala (LLMs) en tareas de ingeniería de software a nivel de repositorio. Sin embargo, estos esfuerzos siguen limitados por la curación manual, conjuntos de datos estáticos y un enfoque en correcciones de errores basadas en Python. Presentamos SWE-Bench++, un marco automatizado que genera tareas de codificación a nivel de repositorio a partir de proyectos de código abierto en GitHub. A diferencia de los enfoques sintéticos, nuestra canalización aprovecha *pull requests* en vivo para cubrir tanto correcciones de errores como solicitudes de funcionalidades en 11 lenguajes. SWE-Bench++ convierte los *pull requests* (PRs) de GitHub en tareas reproducibles y basadas en ejecución mediante cuatro etapas: obtención programática, síntesis de entornos, extracción de oráculos de prueba y aseguramiento de calidad. Un paso final de síntesis de trayectorias guiadas por pistas convierte las instancias en las que los modelos más potentes fallan en trayectorias de entrenamiento. Nuestro benchmark inicial consta de 11.133 instancias de 3.971 repositorios en 11 lenguajes. En un subconjunto de 1.782 instancias de este benchmark, los modelos más potentes de la actualidad obtienen los siguientes resultados: claude-sonnet-4.5 logra un 36,20% en *pass@10*, gpt-5-2025-08-07 un 34,57%, gemini/gemini-2.5-pro un 24,92% y gpt-4o un 16,89%. Además, demostramos la utilidad de nuestro conjunto de datos mostrando que el ajuste fino en instancias de SWE-Bench++ produce mejoras medibles en el benchmark SWE-bench Multilingüe. SWE-Bench++ proporciona un benchmark escalable y multilingüe para evaluar y mejorar la generación de código a nivel de repositorio.
El aprendizaje por refuerzo (RL) ha permitido entrenar agentes basados en modelos de lenguaje grandes (LLM) para interactuar con el entorno y resolver tareas secuenciales de largo horizonte. Sin embargo, estos agentes entrenados con RL a menudo presentan dificultades en tareas que requieren exploración activa y no logran adaptarse eficientemente a partir de experiencias de prueba y error. En este artículo, presentamos LaMer, un marco general de Meta-RL que permite a los agentes LLM explorar activamente y aprender de la retroalimentación del entorno durante la fase de prueba. LaMer consta de dos componentes clave: (i) un marco de entrenamiento transversal entre episodios para fomentar la exploración y la optimización de recompensas a largo plazo; y (ii) una adaptación de políticas en contexto mediante reflexión, que permite al agente adaptar su política a partir de señales de retroalimentación de la tarea sin actualizaciones de gradiente. Los experimentos en diversos entornos muestran que LaMer mejora significativamente el rendimiento respecto a los baselines de RL, con ganancias del 11%, 14% y 19% en Sokoban, Buscaminas y Webshop, respectivamente. Además, LaMer también demuestra una mejor generalización a tareas más desafiantes o previamente no vistas en comparación con los agentes entrenados con RL. En conjunto, nuestros resultados demuestran que el Meta-RL proporciona un enfoque fundamentado para inducir exploración en agentes de lenguaje, permitiendo una adaptación más robusta a entornos novedosos mediante estrategias de exploración aprendidas.
El modelado visual autorregresivo (VAR) se aparta del paradigma de predicción del siguiente token de los modelos autorregresivos (AR) tradicionales mediante la predicción de la siguiente escala, lo que permite una generación de imágenes de alta calidad. Sin embargo, el paradigma VAR sufre de un aumento pronunciado en la complejidad computacional y el tiempo de ejecución en pasos a gran escala. Aunque los métodos de aceleración existentes reducen el tiempo de ejecución para pasos a gran escala, dependen de una selección manual de pasos y pasan por alto la importancia variable de las diferentes etapas en el proceso de generación. Para abordar este desafío, presentamos StageVAR, un estudio sistemático y un marco de aceleración consciente de las etapas para modelos VAR. Nuestro análisis muestra que los primeros pasos son críticos para preservar la coherencia semántica y estructural y deben permanecer intactos, mientras que los pasos posteriores principalmente refinan detalles y pueden ser podados o aproximados para lograr aceleración. Basándonos en estas observaciones, StageVAR introduce una estrategia de aceleración plug-and-play que explota la irrelevancia semántica y las propiedades de bajo rango en los cálculos de etapas tardías, sin requerir entrenamiento adicional. Nuestro StageVAR propuesto logra una aceleración de hasta 3.4x con solo una caída de 0.01 en GenEval y una disminución de 0.26 en DPG, superando consistentemente los métodos de aceleración baseline existentes. Estos resultados destacan el diseño consciente de las etapas como un principio poderoso para la generación eficiente de imágenes autorregresivas visuales.
Los Modelos de Lenguaje Grandes Multimodales (MLLM) presentan dificultades para mantener un rendimiento fiable bajo degradaciones visuales extremas del mundo real, lo que limita su robustez práctica. Los MLLM robustos existentes se basan predominantemente en estrategias de entrenamiento/adaptación implícitas que se centran únicamente en la generalización del codificador visual, adoleciendo de una interpretabilidad limitada y una optimización aislada. Para superar estas limitaciones, proponemos Robust-R1, un marco novedoso que modela explícitamente las degradaciones visuales mediante cadenas de razonamiento estructurado. Nuestro enfoque integra: (i) ajuste fino supervisado para sentar bases de razonamiento conscientes de la degradación, (ii) alineación basada en recompensas para percibir con precisión los parámetros de degradación, y (iii) escalado dinámico de la profundidad del razonamiento adaptado a la intensidad de la degradación. Para facilitar este enfoque, presentamos un conjunto de datos especializado de 11K ejemplos que incluye degradaciones realistas sintetizadas a lo largo de cuatro etapas críticas del procesamiento visual del mundo real, cada una anotada con cadenas estructuradas que conectan parámetros de degradación, influencia perceptual, cadena de razonamiento semántico prístina y conclusión. Evaluaciones exhaustivas demuestran una robustez de vanguardia: Robust-R1 supera a todos los modelos de referencia generales y robustos en el benchmark de degradación del mundo real R-Bench, manteniendo al mismo tiempo un rendimiento anti-degradación superior bajo degradaciones adversarias multi-intensidad en MMMB, MMStar y RealWorldQA.
Los recientes avances en generación de escenas 3D producen resultados visualmente atractivos, pero las representaciones actuales dificultan los flujos de trabajo de los artistas que requieren escenas de mallas texturizadas 3D modificables para efectos visuales y desarrollo de videojuegos. A pesar de los avances significativos, los métodos actuales de reconstrucción de escenas con mallas texturizadas distan mucho de estar listos para artistas, adoleciendo de descomposición incorrecta de objetos, relaciones espaciales inexactas y fondos faltantes. Presentamos 3D-RE-GEN, un marco composicional que reconstruye una sola imagen en objetos 3D texturizados y un fondo. Demostramos que combinar modelos de última generación de dominios específicos logra un rendimiento de última generación en reconstrucción de escenas, abordando los requisitos de los artistas. Nuestra canalización de reconstrucción integra modelos para detección de activos, reconstrucción y colocación, llevando a ciertos modelos más allá de sus dominios originalmente previstos. La obtención de objetos ocluidos se trata como una tarea de edición de imágenes con modelos generativos para inferir y reconstruir con razonamiento a nivel de escena bajo iluminación y geometría consistentes. A diferencia de los métodos actuales, 3D-RE-GEN genera un fondo integral que restringe espacialmente los objetos durante la optimización y proporciona una base para tareas realistas de iluminación y simulación en efectos visuales y videojuegos. Para obtener disposiciones físicamente realistas, empleamos una novedosa optimización diferenciable de 4-GDL que alinea los objetos reconstruidos con el plano del suelo estimado. 3D-RE-GEN logra un rendimiento de última generación en reconstrucción de escenas 3D a partir de una sola imagen, produciendo escenas coherentes y modificables mediante generación composicional guiada por recuperación precisa de cámara y optimización espacial.
La comprensión multimodal de vídeos de larga duración requiere integrar visión, habla y audio ambiental con un razonamiento coherente de largo alcance. Los puntos de referencia existentes enfatizan la duración temporal o la riqueza multimodal, pero rara vez ambas, y aunque algunos incorporan preguntas abiertas y métricas avanzadas, se basan principalmente en la precisión de puntuación única, lo que oculta los modos de fallo. Presentamos LongShOTBench, un punto de referencia diagnóstico con preguntas abiertas impulsadas por intención; diálogos de uno y varios turnos; y tareas que requieren razonamiento multimodal y uso de herramientas agentivas a través de vídeo, audio y habla. Cada ítem incluye una respuesta de referencia y una rúbrica graduada para una evaluación interpretable y trazable. LongShOTBench se produce mediante una canalización escalable y validada por humanos para garantizar cobertura y reproducibilidad. Todas las muestras en LongShOTBench están verificadas y corregidas por humanos. Además, presentamos LongShOTAgent, un sistema agentivo que analiza vídeos largos mediante preprocesamiento, búsqueda y refinamiento iterativo. En LongShOTBench, los MLLMs de vanguardia muestran grandes brechas: Gemini-2.5-Flash alcanza un 52.95%, los modelos de código abierto se mantienen por debajo del 30%, y LongShOTAgent logra un 44.66%. Estos resultados subrayan la dificultad de la comprensión de vídeos largos del mundo real. LongShOTBench proporciona una base práctica y reproducible para evaluar y mejorar los MLLMs. Todos los recursos están disponibles en GitHub: https://github.com/mbzuai-oryx/longshot.
Los modelos de Texto a Imagen (TTI) generan imágenes basándose en indicaciones textuales, que a menudo dejan ciertos aspectos de la imagen deseada ambiguos. Al enfrentarse a estas ambigüedades, se ha demostrado que los modelos TTI exhiben sesgos en sus interpretaciones. Estos sesgos pueden tener impactos sociales, por ejemplo, al mostrar solo una determinada raza para una ocupación indicada. También pueden afectar la experiencia del usuario al crear redundancia dentro de un conjunto de imágenes generadas en lugar de abarcar diversas posibilidades. Aquí presentamos MineTheGap: un método para extraer automáticamente indicaciones que provoquen que un modelo TTI genere resultados sesgados. Nuestro método va más allá de simplemente detectar el sesgo para una indicación dada. Más bien, aprovecha un algoritmo genético para refinar iterativamente un conjunto de indicaciones, buscando aquellas que expongan sesgos. Este proceso de optimización es guiado por una nueva puntuación de sesgo, que clasifica los sesgos según su gravedad, tal como validamos en un conjunto de datos con sesgos conocidos. Para una indicación dada, esta puntuación se obtiene comparando la distribución de imágenes generadas con la distribución de textos generados por un Modelo de Lenguaje Grande (LLM) que constituyen variaciones de la indicación. El código y los ejemplos están disponibles en la página web del proyecto.