Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en generación de vídeo han revelado un fenómeno inesperado: los modelos de vídeo basados en difusión exhiben capacidades de razonamiento no triviales. Trabajos previos atribuyen esto a un mecanismo de Cadena-de-Fotogramas (CoF), donde se asume que el razonamiento se desarrolla secuencialmente a través de los fotogramas del vídeo. En este trabajo, cuestionamos esta suposición y descubrimos un mecanismo fundamentalmente diferente. Demostramos que el razonamiento en los modelos de vídeo surge principalmente a lo largo de los pasos de desruido de la difusión. Mediante análisis cualitativos y experimentos de sondeo dirigidos, encontramos que los modelos exploran múltiples soluciones candidatas en los primeros pasos de desruido y convergen progresivamente hacia una respuesta final, un proceso que denominamos Cadena-de-Pasos (CoS). Más allá de este mecanismo central, identificamos varios comportamientos de razonamiento emergentes críticos para el rendimiento del modelo: (1) memoria de trabajo, que permite la referencia persistente; (2) autocorrección y mejora, que permite recuperarse de soluciones intermedias incorrectas; y (3) percepción antes que acción, donde los pasos iniciales establecen una base semántica y los pasos posteriores realizan manipulaciones estructuradas. Durante un paso de difusión, descubrimos además una especialización funcional auto-evolucionada dentro de los Transformadores de Difusión, donde las capas iniciales codifican estructura perceptual densa, las capas medias ejecutan el razonamiento y las capas posteriores consolidan las representaciones latentes. Motivados por estas observaciones, presentamos una sencilla estrategia libre de entrenamiento como prueba de concepto, demostrando cómo se puede mejorar el razonamiento mediante el ensamblaje de trayectorias latentes de modelos idénticos con diferentes semillas aleatorias. En general, nuestro trabajo proporciona una comprensión sistemática de cómo emerge el razonamiento en los modelos de generación de vídeo, ofreciendo una base para guiar futuras investigaciones hacia un mejor aprovechamiento de la dinámica de razonamiento inherente de los modelos de vídeo como un nuevo sustrato para la inteligencia.
Los modelos lingüísticos grandes de código recientes han logrado avances notables en tareas de programación general. Sin embargo, su rendimiento se degrada significativamente en escenarios industriales que requieren razonamiento sobre semántica de hardware, construcciones lingüísticas especializadas y restricciones estrictas de recursos. Para abordar estos desafíos, presentamos InCoder-32B (Codificador Industrial-32B), el primer modelo base de código de 32.000 millones de parámetros que unifica la inteligencia de código en diseño de chips, optimización de kernels GPU, sistemas embebidos, optimización de compiladores y modelado 3D. Mediante la adopción de una arquitectura eficiente, entrenamos InCoder-32B desde cero con pre-entrenamiento general de código, temple con código industrial seleccionado, entrenamiento intermedio que extiende progresivamente el contexto de 8K a 128K tokens con datos sintéticos de razonamiento industrial, y post-entrenamiento con verificación basada en ejecución. Realizamos una evaluación exhaustiva en 14 benchmarks generales de código principales y 9 benchmarks industriales que abarcan 4 dominios especializados. Los resultados muestran que InCoder-32B logra un rendimiento altamente competitivo en tareas generales, estableciendo al mismo tiempo sólidas líneas base de código abierto en dominios industriales.
Los grandes modelos lingüísticos omni-modales (OLMs) redefinen la interacción humano-máquina al integrar de forma nativa audio, visión y texto. Sin embargo, los puntos de referencia existentes para OLMs permanecen anclados a tareas estáticas centradas en la precisión, dejando un vacío crítico en la evaluación de la interactividad social, la capacidad fundamental para navegar las señales dinámicas en diálogos naturales. Para ello, proponemos SocialOmni, un punto de referencia integral que operacionaliza la evaluación de esta interactividad conversacional en tres dimensiones principales: (i) separación e identificación del hablante (quién está hablando), (ii) control del momento de la interrupción (cuándo interrumpir) y (iii) generación natural de interrupciones (cómo formular la interrupción). SocialOmni incluye 2.000 muestras de percepción y un conjunto de diagnóstico controlado de 209 instancias de generación de interacciones con restricciones temporales y contextuales estrictas, complementado con escenarios controlados de inconsistencia audiovisual para probar la robustez de los modelos. Evaluamos 12 OLMs líderes, lo que revela una variación significativa en sus capacidades de interacción social entre modelos. Además, nuestro análisis revela un desacoplamiento pronunciado entre la precisión perceptiva de un modelo y su capacidad para generar interrupciones contextualmente apropiadas, lo que indica que las métricas centradas en la comprensión por sí solas son insuficientes para caracterizar la competencia social conversacional. Más alentadoramente, estos diagnósticos de SocialOmni producen señales accionables para cerrar la brecha entre percepción e interacción en futuros OLMs.
Presentamos MiroThinker-1.7, un nuevo agente de investigación diseñado para tareas complejas de razonamiento de horizonte largo. Sobre esta base, presentamos además MiroThinker-H1, que extiende el agente con capacidades de razonamiento de alto rendimiento para una resolución de problemas multi-etapa más confiable. En particular, MiroThinker-1.7 mejora la fiabilidad de cada paso de interacción mediante una etapa de entrenamiento intermedio agéntico que enfatiza la planificación estructurada, el razonamiento contextual y la interacción con herramientas. Esto permite una interacción multi-etapa más efectiva y un razonamiento sostenido en tareas complejas. MiroThinker-H1 incorpora además la verificación directamente en el proceso de razonamiento a nivel tanto local como global. Las decisiones de razonamiento intermedias pueden evaluarse y refinarse durante la inferencia, mientras se audita la trayectoria general de razonamiento para garantizar que las respuestas finales estén respaldadas por cadenas coherentes de evidencia. En diversos benchmarks que cubren investigación en la web abierta, razonamiento científico y análisis financiero, MiroThinker-H1 logra un rendimiento de vanguardia en tareas de investigación profunda, manteniendo al mismo tiempo resultados sólidos en dominios especializados. También liberamos MiroThinker-1.7 y MiroThinker-1.7-mini como modelos de código abierto, ofreciendo capacidades competitivas de agente de investigación con una eficiencia significativamente mejorada.
Presentamos Qianfan-OCR, un modelo de visión y lenguaje de extremo a extremo con 4.000 millones de parámetros que unifica el análisis de documentos, el análisis de diseño (layout) y la comprensión de documentos en una única arquitectura. Realiza conversión directa de imagen a Markdown y admite diversas tareas basadas en instrucciones (prompts), incluyendo extracción de tablas, comprensión de gráficos, preguntas y respuestas sobre documentos (document QA) y extracción de información clave. Para abordar la pérdida del análisis de diseño explícito en el OCR de extremo a extremo, proponemos Layout-as-Thought (Diseño como Pensamiento), una fase opcional de razonamiento activada por tokens de pensamiento especiales que genera representaciones estructuradas del diseño —cajas delimitadoras (bounding boxes), tipos de elementos y orden de lectura— antes de producir las salidas finales, recuperando así las capacidades de anclaje al diseño (layout grounding) y mejorando la precisión en diseños complejos. Qianfan-OCR ocupa el primer puesto entre los modelos de extremo a extremo en OmniDocBench v1.5 (93.12) y OlmOCR Bench (79.8), logra resultados competitivos en OCRBench, CCOCR, DocVQA y ChartQA en comparación con modelos de lenguaje y visión (VLM) generales de escala comparable, y alcanza la puntuación promedio más alta en los benchmarks públicos de extracción de información clave, superando a Gemini-3.1-Pro, Seed-2.0 y Qwen3-VL-235B. El modelo es de acceso público a través de la plataforma Qianfan de Baidu AI Cloud.
Los recientes avances en modelos multimodales de razonamiento a gran escala (MLRM) han mejorado significativamente el rendimiento en tareas de respuesta visual a preguntas. Sin embargo, observamos que las palabras de transición (por ejemplo, porque, sin embargo, y espera) están estrechamente asociadas con alucinaciones y tienden a exhibir estados de alta entropía. Sostenemos que la información contextual adecuada para el razonamiento puede extraerse directamente de la distribución de probabilidad de tokens. Inspirados por la teoría de representación superpuesta, proponemos aprovechar el razonamiento latente superpuesto para integrar múltiples semánticas candidatas y mantener trayectorias de razonamiento latentes. La hipótesis es que la dependencia de entradas textuales discretas puede llevar al modelo hacia un razonamiento explícito secuencial, subutilizando señales contextuales densas durante las etapas de razonamiento de alta entropía. Por lo tanto, proponemos construir representaciones semánticas ricas a partir de las distribuciones de probabilidad de tokens para mejorar el razonamiento en contexto. Con este objetivo, presentamos Latent Entropy-Aware Decoding (LEAD), una estrategia de decodificación plug-and-play eficiente que aprovecha el contexto semántico para lograr un razonamiento confiable. El núcleo de nuestro método reside en el cambio de modo de razonamiento consciente de la entropía. El modelo emplea incrustaciones continuas ponderadas por probabilidad bajo estados de alta entropía y transiciona de vuelta a incrustaciones de tokens discretos a medida que la entropía disminuye. Además, proponemos una estrategia de inyección de anclajes visuales guiada por previos que incentiva al modelo a enfocarse en información visual. Experimentos exhaustivos demuestran que LEAD mitiga efectivamente las alucinaciones en varios MLRM en múltiples benchmarks.
La simulación de interacciones robot-mundo es un pilar fundamental de la Inteligencia Artificial Corporeizada. Recientemente, algunos trabajos han mostrado potencial al aprovechar generaciones de vídeo para trascender las rígidas restricciones visuales/físicas de los simuladores tradicionales. Sin embargo, operan principalmente en espacio 2D o están guiados por señales ambientales estáticas, ignorando la realidad fundamental de que las interacciones robot-mundo son eventos espacio-temporales 4D inherentes que requieren un modelado interactivo preciso. Para restaurar esta esencia 4D mientras se garantiza un control preciso del robot, presentamos Kinema4D, un nuevo simulador robótico generativo 4D condicionado por acciones que desglosa la interacción robot-mundo en: i) Representación 4D precisa de los controles del robot: impulsamos un robot 3D basado en URDF mediante cinemática, produciendo una trayectoria de control robótico 4D precisa. ii) Modelado generativo 4D de las reacciones ambientales: proyectamos la trayectoria robótica 4D en un mapa de puntos como señal visual espacio-temporal, controlando el modelo generativo para sintetizar la dinámica reactiva de entornos complejos en secuencias sincronizadas de RGB/mapa de puntos. Para facilitar el entrenamiento, hemos creado un conjunto de datos a gran escala llamado Robo4D-200k, que comprende 201,426 episodios de interacción robótica con anotaciones 4D de alta calidad. Experimentos exhaustivos demuestran que nuestro método simula efectivamente interacciones físicamente plausibles, geométricamente consistentes y agnósticas a la corporeización que reflejan fielmente diversas dinámicas del mundo real. Por primera vez, muestra capacidad potencial de transferencia *zero-shot*, proporcionando una base de alta fidelidad para avanzar en la próxima generación de simulación corporeizada.
Los recientes avances en transformadores de difusión de video han permitido el desarrollo de modelos de mundo para videojuegos interactivos que permiten a los usuarios explorar entornos generados durante horizontes temporales prolongados. Sin embargo, los enfoques existentes tienen dificultades con el control preciso de las acciones y la consistencia 3D a largo plazo. La mayoría de los trabajos anteriores tratan las acciones del usuario como señales de condicionamiento abstractas, pasando por alto el acoplamiento geométrico fundamental entre las acciones y el mundo 3D, por el cual las acciones inducen movimientos relativos de la cámara que se acumulan en una pose de cámara global dentro de un mundo 3D. En este artículo, establecemos la pose de la cámara como una representación geométrica unificadora para fundamentar conjuntamente el control de acciones inmediatas y la consistencia 3D a largo plazo. Primero, definimos un espacio de acción continuo basado en la física y representamos las entradas del usuario en el álgebra de Lie para derivar poses de cámara precisas de 6 grados de libertad, que se inyectan en el modelo generativo mediante un incorporador de cámara para garantizar una alineación precisa de la acción. En segundo lugar, utilizamos las poses globales de la cámara como índices espaciales para recuperar observaciones pasadas relevantes, permitiendo la revisión geométricamente consistente de ubicaciones durante la navegación de largo horizonte. Para respaldar esta investigación, presentamos un conjunto de datos a gran escala que comprende 3.000 minutos de juego humano auténtico anotado con trayectorias de cámara y descripciones textuales. Experimentos exhaustivos demuestran que nuestro enfoque supera sustancialmente a los modelos de mundo para videojuegos interactivos más avanzados en cuanto a capacidad de control de acciones, calidad visual a largo plazo y consistencia espacial 3D.
El paradigma predominante para mejorar los modelos de lenguaje a gran escala se basa en el entrenamiento offline con anotaciones humanas o entornos simulados, dejando sin explotar por completo la rica experiencia acumulada durante el despliegue en el mundo real. Proponemos el Aprendizaje Experiencial en Línea (OEL, por sus siglas en inglés), un marco que permite a los modelos de lenguaje mejorar continuamente a partir de su propia experiencia de despliegue. OEL opera en dos etapas: primero, se extrae y acumula conocimiento experiencial transferible de las trayectorias de interacción recopiladas en el lado del usuario; segundo, este conocimiento se consolida en los parámetros del modelo mediante destilación contextual *on-policy*, sin requerir acceso al entorno del usuario. Las dos etapas se iteran para formar un bucle de aprendizaje en línea, donde el modelo mejorado recopila trayectorias de mayor calidad que generan un conocimiento experiencial más rico para rondas posteriores. Evaluamos OEL en entornos de juegos basados en texto a través de múltiples escalas de modelos y variantes tanto con razonamiento como sin él. OEL logra mejoras consistentes a lo largo de iteraciones sucesivas, mejorando tanto la precisión de la tarea como la eficiencia de tokens, al tiempo que preserva el rendimiento fuera de distribución. Nuestro análisis muestra además que el conocimiento experiencial extraído es significativamente más efectivo que las trayectorias brutas, y que la consistencia *on-policy* entre la fuente de conocimiento y el modelo de política es crítica para un aprendizaje efectivo.
El análisis Text-to-SQL ha logrado un progreso notable bajo el supuesto de Esquema Completo. Sin embargo, esta premisa falla en entornos empresariales reales donde las bases de datos contienen cientos de tablas con metadatos masivos y ruidosos. En lugar de inyectar el esquema completo de antemano, un agente debe identificar y verificar activamente solo el subconjunto relevante, dando lugar al escenario de Esquema Desconocido que estudiamos en este trabajo. Para abordarlo, proponemos TRUST-SQL (Razonamiento Veraz con Esquema Desconocido mediante Herramientas). Formulamos la tarea como un Proceso de Decisión Markoviano Parcialmente Observable donde nuestro agente autónomo emplea un protocolo estructurado de cuatro fases para fundamentar el razonamiento en metadatos verificados. Crucialmente, este protocolo proporciona un límite estructural para nuestra novedosa estrategia GRPO de Doble Vía. Al aplicar ventajas enmascaradas a nivel de token, esta estrategia aísla las recompensas de exploración de los resultados de ejecución para resolver la asignación de crédito, logrando una mejora relativa del 9.9% sobre el GRPO estándar. Experimentos exhaustivos en cinco benchmarks demuestran que TRUST-SQL logra una mejora absoluta promedio del 30.6% y 16.6% para las variantes de 4B y 8B respectivamente sobre sus modelos base. Notablemente, a pesar de operar completamente sin metadatos precargados, nuestro marco iguala o supera consistentemente líneas base sólidas que dependen del prellenado de esquemas.
La integración de los Modelos de Lenguaje a Gran Escala (LLM) en el dominio financiero está impulsando un cambio de paradigma, desde la recuperación pasiva de información hacia una interacción dinámica y agéntica. Si bien el aprendizaje de herramientas de propósito general ha experimentado un auge en la creación de puntos de referencia, el sector financiero, caracterizado por altos riesgos, estricto cumplimiento normativo y rápida volatilidad de los datos, sigue estando críticamente desatendido. Las evaluaciones financieras existentes se centran predominantemente en el análisis textual estático o en preguntas y respuestas basadas en documentos, ignorando la compleja realidad de la ejecución de herramientas. Por el contrario, los puntos de referencia generales de herramientas carecen del rigor específico del dominio requerido para las finanzas, a menudo basándose en entornos simulados o en un número insignificante de API financieras. Para cerrar esta brecha, presentamos FinToolBench, el primer punto de referencia ejecutable del mundo real dedicado a evaluar agentes de aprendizaje de herramientas financieras. A diferencia de trabajos anteriores limitados a un puñado de herramientas simuladas, FinToolBench establece un ecosistema realista que acopla 760 herramientas financieras ejecutables con 295 consultas rigurosas que requieren el uso de herramientas. Proponemos un novedoso marco de evaluación que va más allá del éxito binario de la ejecución, evaluando a los agentes en dimensiones críticas para las finanzas: puntualidad, tipo de intención y alineación con el dominio regulatorio. Además, presentamos FATR, una línea base de razonamiento y recuperación de herramientas consciente del ámbito financiero que mejora la estabilidad y el cumplimiento normativo. Al proporcionar el primer banco de pruebas para la ejecución financiera agéntica y auditable, FinToolBench establece un nuevo estándar para la IA confiable en las finanzas. El manifiesto de herramientas, el entorno de ejecución y el código de evaluación serán de código abierto para facilitar la investigación futura.
Muchas aplicaciones de grandes modelos de lenguaje requieren condicionarse sobre contextos largos. Los Transformers suelen soportar esto almacenando una gran caché KV por capa de activaciones pasadas, lo que incurre en una sobrecarga de memoria sustancial. Una alternativa deseable es la memoria compresiva: leer un contexto una vez, almacenarlo en un estado compacto y responder muchas consultas a partir de ese estado. Estudiamos esto en un escenario de eliminación de contexto, donde el modelo debe generar una respuesta sin acceso al contexto original en el momento de la inferencia. Introducimos GradMem, que escribe el contexto en la memoria mediante una optimización por muestra en tiempo de prueba. Dado un contexto, GradMem realiza unos pocos pasos de descenso de gradiente sobre un pequeño conjunto de tokens de memoria de prefijo, manteniendo los pesos del modelo congelados. GradMem optimiza explícitamente una pérdida de reconstrucción de contexto auto-supervisada a nivel de modelo, resultando en una operación de escritura impulsada por la pérdida con corrección iterativa de errores, a diferencia de los métodos de solo forward. En la recuperación asociativa clave-valor, GradMem supera a los escritores de memoria de solo forward con el mismo tamaño de memoria, y los pasos de gradiente adicionales escalan la capacidad mucho más efectivamente que las escrituras forward repetidas. Además, mostramos que GradMem se transfiere más allá de los benchmarks sintéticos: con modelos de lenguaje preentrenados, obtiene resultados competitivos en tareas de lenguaje natural que incluyen variantes de bAbI y SQuAD, dependiendo únicamente de la información codificada en la memoria.
Si bien los modelos recientes de Flow Matching evitan los cuellos de botella de reconstrucción de los autoencoders latentes al operar directamente en el espacio de píxeles, la falta de continuidad semántica en el múltiple de píxeles entrelaza severamente las rutas de transporte óptimo. Esto induce graves conflictos de trayectoria cerca de las intersecciones, produciendo soluciones subóptimas. En lugar de eludir este problema mediante representaciones latentes con pérdida de información, desentrelazamos directamente las trayectorias en el espacio de píxeles proponiendo los Transformadores de Difusión con Puntos de Referencia (WiT). WiT factoriza el campo vectorial continuo mediante puntos de referencia semánticos intermedios proyectados desde modelos de visión preentrenados. De este modo, desenreda eficazmente las trayectorias de generación al dividir el transporte óptimo en segmentos de prior-a-punto y punto-a-píxel. Específicamente, durante el proceso iterativo de eliminación de ruido, un generador ligero infiere dinámicamente estos puntos de referencia intermedios a partir del estado ruidoso actual. Estos condicionan continuamente al transformador de difusión principal mediante el mecanismo Just-Pixel AdaLN, dirigiendo la evolución hacia el siguiente estado y produciendo finalmente los píxeles RGB finales. Evaluado en ImageNet 256x256, WiT supera a sólidos modelos de referencia en espacio de píxeles, acelerando la convergencia del entrenamiento JiT en 2.2x. El código se publicará en https://github.com/hainuo-wang/WiT.git.
Los Modelos Multimodales Unificados (UMMs) a menudo se ven limitados por el pre-entrenamiento de sus componentes de generación visual, que normalmente depende de paradigmas ineficientes y de datos escasos y de alta calidad de pares texto-imagen. En este artículo, analizamos sistemáticamente las estrategias de pre-entrenamiento para la generación visual de UMMs e identificamos estos dos problemas como los principales cuellos de botella. Para abordarlos, proponemos *Image-Only Training for UMMs* (IOMM), un marco de entrenamiento eficiente en datos de dos etapas. La primera etapa pre-entrena el componente generativo visual exclusivamente con abundantes datos no etiquetados de solo imágenes, eliminando así la dependencia de datos pareados para esta fase costosa. La segunda etapa ajusta el modelo (*fine-tuning*) utilizando una mezcla de imágenes no etiquetadas y un pequeño conjunto seleccionado de pares texto-imagen, lo que conduce a una mejor alineación con las instrucciones y a una mayor calidad generativa. Experimentación exhaustiva demuestra que IOMM no solo mejora la eficiencia del entrenamiento, sino que también logra un rendimiento de vanguardia (SOTA). Por ejemplo, nuestro modelo IOMM-B (3.6B) fue entrenado desde cero usando solo ~1050 horas de GPU H800 (dedicando la gran mayoría, 1000 horas, a la eficiente etapa de pre-entrenamiento con solo imágenes). Alcanza 0.89 en GenEval y 0.55 en WISE, superando a líneas base sólidas como BAGEL-7B (0.82 & 0.55) y BLIP3-o-4B (0.84 & 0.50). El código está disponible en https://github.com/LINs-lab/IOMM.
Las evaluaciones de juegos con LLM multiagente y multiturno a menudo presentan una varianza sustancial entre ejecuciones. En interacciones de horizonte largo, las pequeñas desviaciones iniciales se acumulan a lo largo de los turnos y se amplifican debido al acoplamiento multiagente. Esto sesga las estimaciones de la tasa de victorias y hace que las clasificaciones sean poco fiables en torneos repetidos. La elección del *prompt* empeora aún más esta situación al producir políticas efectivas diferentes. Abordamos tanto la inestabilidad como el bajo rendimiento con MEMO (Optimización de contexto de modelo aumentado con memoria), un marco de autojuego que optimiza el contexto en tiempo de inferencia mediante el acoplamiento de retención y exploración. La retención mantiene un banco de memoria persistente que almacena percepciones estructuradas de las trayectorias de autojuego y las inyecta como *priors* durante partidas posteriores. La exploración ejecuta una evolución de *prompts* estilo torneo con selección consciente de la incertidumbre mediante TrueSkill, y utiliza *replay* prioritario para revisitar estados decisivos y poco frecuentes. En cinco juegos basados en texto, MEMO aumenta la tasa media de victorias del 25.1% al 49.5% para GPT-4o-mini y del 20.9% al 44.3% para Qwen-2.5-7B-Instruct, utilizando 2,000 juegos de autojuego por tarea. La varianza entre ejecuciones también disminuye, proporcionando clasificaciones más estables frente a variaciones de *prompts*. Estos resultados sugieren que el rendimiento y la robustez de los juegos multiagente con LLM tienen un margen de mejora sustancial mediante la optimización del contexto. MEMO logra las mayores mejoras en juegos de negociación y de información imperfecta, mientras que el aprendizaje por refuerzo sigue siendo más efectivo en entornos de información perfecta.
Si bien los modelos de lenguaje grande (LLM) han evolucionado hasta convertirse en agentes que utilizan herramientas, siguen siendo frágiles en interacciones de largo horizonte. A diferencia del razonamiento matemático, donde los errores a menudo son rectificables mediante retroceso, los fallos en el uso de herramientas frecuentemente inducen efectos secundarios irreversibles, lo que hace que la verificación precisa a nivel de paso sea crítica. Sin embargo, los puntos de referencia existentes a nivel de proceso se limitan predominantemente a dominios matemáticos de mundo cerrado, sin capturar la naturaleza dinámica y abierta de la ejecución de herramientas. Para cerrar esta brecha, presentamos AgentProcessBench, el primer punto de referencia dedicado a evaluar la efectividad a nivel de paso en trayectorias realistas aumentadas con herramientas. El benchmark comprende 1,000 trayectorias diversas y 8,509 anotaciones de pasos etiquetadas por humanos con un 89.1% de acuerdo inter-anotadores. Presenta un esquema de etiquetado ternario para capturar la exploración y una regla de propagación de errores para reducir la ambigüedad en el etiquetado. Experimentos extensos revelan hallazgos clave: (1) los modelos de política más débiles exhiben ratios inflados de pasos correctos debido a una terminación anticipada; (2) distinguir entre acciones neutrales y erróneas sigue siendo un desafío significativo para los modelos actuales; y (3) las señales derivadas del proceso aportan un valor complementario a la supervisión por resultados, mejorando significativamente la escalabilidad en tiempo de prueba. Esperamos que AgentProcessBench pueda impulsar futuras investigaciones en modelos de recompensa y allanar el camino hacia agentes generales. El código y los datos están disponibles en https://github.com/RUCBM/AgentProcessBench.
La traducción automática (TA) de alta calidad puede escalar a cientos de idiomas, estableciendo un listón muy alto para los sistemas multilingües. Sin embargo, en comparación con los aproximadamente 7.000 idiomas del mundo, los sistemas actuales aún ofrecen una cobertura limitada: unos 200 idiomas en el lado objetivo (destino), y quizás unos cientos más en el lado fuente, soportados gracias a la transferencia cross-lingüe. Incluso estos números han sido difíciles de evaluar debido a la falta de benchmarks y métricas fiables. Presentamos Traducción Automática Omnilíngüe (OMT), el primer sistema de TA que da soporte a más de 1.600 idiomas. Esta escala es posible gracias a una estrategia de datos integral que combina grandes corpus multilingües públicos con conjuntos de datos recién creados, incluyendo el bitexto MeDLEY, curado manualmente. Exploramos dos formas de especializar un Modelo de Lenguaje Grande (LLM) para traducción automática: como un modelo de solo decodificación (OMT-LLaMA) o como un módulo en una arquitectura codificador-decodificador (OMT-NLLB). Es notable que todos nuestros modelos de 1B a 8B de parámetros igualan o superan el rendimiento en TA de un LLM baseline de 70B, revelando una clara ventaja por especialización y permitiendo una calidad de traducción sólida en entornos con recursos computacionales limitados. Además, nuestra evaluación de traducciones del inglés a 1.600 idiomas muestra que, si bien los modelos baseline pueden interpretar idiomas con poco soporte, frecuentemente fallan al generarlos con una fidelidad significativa; los modelos OMT-LLaMA expanden sustancialmente el conjunto de idiomas para los que es factible una generación coherente. Adicionalmente, los modelos OMT mejoran en la transferencia cross-lingüe, estando cerca de resolver la parte de "comprensión" del rompecabezas en la TA para los 1.600 idiomas evaluados. Nuestro *leaderboard* y los principales conjuntos de datos de evaluación creados por humanos (BOUQuET y Met-BOUQuET) están evolucionando dinámicamente hacia la Omnilinguidad y son de libre acceso.
Los modelos de lenguaje grande (LLM) con razonamiento en cadena de pensamiento logran un rendimiento de vanguardia en tareas complejas de resolución de problemas, pero sus trazas de razonamiento verbosas y sus grandes requisitos de contexto los hacen poco prácticos para su implementación en dispositivos de borde. Estos desafíos incluyen altos costos de generación de tokens, grandes huellas de caché KV e ineficiencias al destilar capacidades de razonamiento en modelos más pequeños para dispositivos móviles. Los enfoques existentes a menudo dependen de destilar trazas de razonamiento de modelos más grandes a modelos más pequeños, las cuales son verbosas y estilísticamente redundantes, algo indeseable para la inferencia en el dispositivo. En este trabajo, proponemos un enfoque liviano para habilitar el razonamiento en LLM pequeños utilizando adaptadores LoRA combinados con ajuste fino supervisado. Además, introducimos la aplicación de un presupuesto forzado mediante aprendizaje por refuerzo en estos adaptadores, reduciendo significativamente la longitud de la respuesta con una pérdida mínima de precisión. Para abordar la decodificación limitada por memoria, explotamos el escalado paralelo en tiempo de prueba, mejorando la precisión con un aumento menor de la latencia. Finalmente, presentamos un mecanismo dinámico de conmutación de adaptadores que activa el razonamiento solo cuando es necesario y una estrategia de compartición de la caché KV durante la codificación del prompt, reduciendo el tiempo hasta el primer token para la inferencia en el dispositivo. Los experimentos en Qwen2.5-7B demuestran que nuestro método logra un razonamiento eficiente y preciso bajo estrictas restricciones de recursos, haciendo práctico el razonamiento de LLM para escenarios móviles. Los videos que demuestran nuestra solución ejecutándose en dispositivos móviles están disponibles en nuestra página del proyecto.
Las habilidades de agente, paquetes de conocimiento procedimental estructurado inyectados en tiempo de inferencia, se utilizan cada vez más para aumentar a los agentes de LLM en tareas de ingeniería de software. Sin embargo, su utilidad real en entornos de desarrollo integral sigue sin estar clara. Presentamos SWE-Skills-Bench, el primer benchmark basado en requisitos que aísla la utilidad marginal de las habilidades de agente en la ingeniería de software (SWE) del mundo real. Empareja 49 habilidades públicas de SWE con repositorios auténticos de GitHub anclados en commits específicos y documentos de requisitos con criterios de aceptación explícitos, generando aproximadamente 565 instancias de tareas en seis subdominios de SWE. Introducimos un marco de verificación determinista que mapea los criterios de aceptación de cada tarea a pruebas basadas en ejecución, permitiendo una evaluación pareada controlada con y sin la habilidad. Nuestros resultados muestran que los beneficios de la inyección de habilidades son mucho más limitados de lo que su rápida adopción sugiere: 39 de 49 habilidades no producen ninguna mejora en la tasa de aprobación, y la ganancia promedio es de solo +1,2%. La sobrecarga de tokens varía desde ahorros modestos hasta un aumento del 451%, mientras que las tasas de aprobación permanecen inalteradas. Solo siete habilidades especializadas producen mejoras significativas (hasta +30%), mientras que tres degradan el rendimiento (hasta -10%) debido a instrucciones con desajustes de versión que entran en conflicto con el contexto del proyecto. Estos hallazgos sugieren que las habilidades de agente son una intervención limitada cuya utilidad depende en gran medida del ajuste al dominio, el nivel de abstracción y la compatibilidad contextual. SWE-Skills-Bench proporciona un banco de pruebas para evaluar el diseño, selección e implementación de habilidades en agentes de ingeniería de software. SWE-Skills-Bench está disponible en https://github.com/GeniusHTX/SWE-Skills-Bench.
Presentamos SegviGen, un marco que readapta modelos generativos 3D nativos para la segmentación de partes en 3D. Las metodologías existentes o bien trasladan *priors* 2D robustos a 3D mediante destilación o agregación de máscaras multi-vista, sufriendo a menudo de inconsistencias entre vistas y bordes difusos, o bien exploran la segmentación discriminativa 3D nativa, que normalmente requiere grandes volúmenes de datos 3D anotados y recursos de entrenamiento sustanciales. En contraste, SegviGen aprovecha los *priors* estructurados codificados en un modelo generativo 3D preentrenado para inducir la segmentación mediante una colorización distintiva de las partes, estableciendo un marco novedoso y eficiente para la segmentación de partes. Específicamente, SegviGen codifica un activo 3D y predice colores indicativos de partes en los vóxeles activos de una reconstrucción alineada geométricamente. Soporta segmentación interactiva de partes, segmentación completa y segmentación completa con guía 2D en un marco unificado. Experimentos exhaustivos demuestran que SegviGen supera el estado del arte anterior en un 40% en segmentación interactiva de partes y en un 15% en segmentación completa, utilizando solo el 0.32% de los datos de entrenamiento etiquetados. Esto demuestra que los *priors* generativos 3D preentrenados se transfieren eficazmente a la segmentación de partes 3D, permitiendo un rendimiento sólido con supervisión limitada. Consulte nuestra página del proyecto en https://fenghora.github.io/SegviGen-Page/.
La Superresolución de Video (VSR) tiene como objetivo restaurar fotogramas de video de alta calidad a partir de estimaciones de baja resolución (LR). Sin embargo, la mayoría de los enfoques VSR existentes se comportan como cajas negras en el momento de la inferencia: los usuarios no pueden corregir de manera fiable artefactos inesperados, sino que solo pueden aceptar lo que el modelo produce. En este artículo, proponemos un novedoso marco de VSR interactivo denominado SparkVSR que convierte a los fotogramas clave dispersos en una señal de control simple y expresiva. Específicamente, los usuarios pueden primero superresolver un pequeño conjunto de fotogramas clave utilizando cualquier modelo de superresolución de imagen (ISR) disponible, luego SparkVSR propaga los previos de los fotogramas clave a toda la secuencia de video mientras se mantiene anclado por el movimiento del video LR original. Concretamente, introducimos una canalización de entrenamiento de dos etapas latente-píxel condicionada por fotogramas clave que fusiona las latentes del video LR con las latentes de los fotogramas clave de alta resolución (HR) codificados de forma dispersa para aprender una propagación robusta entre espacios y refinar los detalles perceptuales. En el momento de la inferencia, SparkVSR admite una selección flexible de fotogramas clave (especificación manual, extracción de fotogramas-I del códec o muestreo aleatorio) y un mecanismo de guía libre de referencia que equilibra continuamente la adherencia a los fotogramas clave y la restauración ciega, garantizando un rendimiento robusto incluso cuando los fotogramas clave de referencia están ausentes o son imperfectos. Los experimentos en múltiples benchmarks de VSR demuestran una mejora en la consistencia temporal y una fuerte calidad de restauración, superando a los baselines hasta en un 24,6 %, 21,8 % y 5,6 % en CLIP-IQA, DOVER y MUSIQ, respectivamente, permitiendo una superresolución de video controlable y impulsada por fotogramas clave. Además, demostramos que SparkVSR es un marco genérico de procesamiento de video interactivo y condicionado por fotogramas clave, ya que puede aplicarse directamente a tareas no vistas, como la restauración de películas antiguas y la transferencia de estilo de video. Nuestra página del proyecto está disponible en: https://sparkvsr.github.io/
Presentamos una formalización completa en Lean 4 de la caracterización del equilibrio en el sistema de Vlasov-Maxwell-Landau (VML), que describe el movimiento de un plasma cargado. El proyecto demuestra el ciclo completo de investigación matemática asistida por IA: un modelo de razonamiento de IA (Gemini DeepThink) generó la demostración a partir de una conjetura, una herramienta de codificación agente (Claude Code) la tradujo a Lean a partir de instrucciones en lenguaje natural, un demostrador especializado (Aristotle) cerró 111 lemas, y el núcleo de Lean verificó el resultado. Un único matemático supervisó el proceso durante 10 días con un coste de 200 dólares, sin escribir una sola línea de código. Todo el proceso de desarrollo es público: las 229 instrucciones humanas y los 213 commits de git están archivados en el repositorio. Informamos lecciones detalladas sobre los modos de fallo de la IA —como la deriva de hipótesis, los errores de alineación de definiciones y los comportamientos de evitación de los agentes— y sobre lo que funcionó: la división abstracta/concreta de la demostración, la autorrevisión adversarial y el papel crucial de la revisión humana de las definiciones clave y los enunciados de los teoremas. Cabe destacar que la formalización se completó antes de que terminara el borrador final del artículo de matemáticas correspondiente.
El manejo de contextos largos sigue siendo un desafío central para los modelos de lenguaje: incluso con ventanas de contexto extendidas, los modelos a menudo fallan en extraer, razonar y utilizar de manera confiable la información a lo largo de contextos extensos. Trabajos recientes como los Modelos de Lenguaje Recursivos (RLM) han abordado este desafío mediante un enfoque agéntico que descompone contextos largos en sub-llamadas recursivas a través de interacción programática durante la inferencia. Si bien son prometedores, el éxito de los RLM depende críticamente de cómo se seleccionan estos programas de interacción con el contexto, un aspecto que ha permanecido en gran medida inexplorado. En este artículo, estudiamos este problema e introducimos SRLM, un marco que aumenta la interacción programática con el contexto mediante la Auto-Reflexión consciente de la incertidumbre. SRLM aprovecha tres señales intrínsecas: la auto-consistencia, la longitud del razonamiento y la confianza verbalizada. Estas sirven como indicadores complementarios de la incertidumbre interna del modelo, y el modelo las utiliza para evaluar y comparar programas candidatos de interacción con el contexto. Experimentos exhaustivos en diversos conjuntos de datos de referencia, longitudes de contexto y modelos base, muestran que SRLM supera consistentemente a los métodos de última generación, logrando una mejora de hasta el 22% sobre RLM bajo el mismo presupuesto de tiempo. Nuestros hallazgos demuestran que la recursión en sí misma no es el principal impulsor del rendimiento en RLM, y que una búsqueda programática simple con auto-reflexión puede igualar o superar a RLM sin requerir mecanismos de auto-consulta o recursión explícita. Encontramos que para longitudes de contexto dentro de la ventana del modelo, los RLM con recursión a menudo degradan el rendimiento en comparación con el modelo base, mientras que SRLM produce ganancias consistentes tanto en contextos cortos como largos. También encontramos que RLM es menos efectivo en tareas de naturaleza semánticamente intensiva, donde la búsqueda programática heurística es insuficiente y se requiere una comprensión contextual más amplia, mientras que la auto-reflexión en SRLM proporciona una señal semántica que guía mejor el razonamiento en estos escenarios.
La reconstrucción en tiempo real a partir de vídeo monocular no calibrado sigue siendo un desafío, ya que requiere tanto una estimación de pose de alta precisión como un refinamiento en línea computacionalmente eficiente en entornos dinámicos. Si bien el acoplamiento de modelos fundacionales 3D con frameworks SLAM es un paradigma prometedor, persiste un cuello de botella crítico: la mayoría de los modelos fundacionales multivisión estiman las poses de manera secuencial, produciendo correspondencias a nivel de píxel que carecen de la precisión necesaria para una optimización geométrica rigurosa. Para abordar esto, presentamos M^3, que aumenta el modelo fundacional de multivisión con un cabezal de correspondencia dedicado para facilitar correspondencias densas de grano fino y lo integra en un SLAM robusto basado en *Gaussian Splatting* monocular. M^3 mejora aún más la estabilidad del seguimiento mediante la incorporación de supresión de áreas dinámicas y alineación intrínseca de inferencia cruzada. Experimentos exhaustivos en diversos benchmarks de interiores y exteriores demuestran una precisión de vanguardia tanto en la estimación de pose como en la reconstrucción de escenas. Notablemente, M^3 reduce el RMSE del ATE en un 64,3% en comparación con VGGT-SLAM 2.0 y supera a ARTDECO en 2,11 dB de PSNR en el conjunto de datos ScanNet++.
La evaluación confiable es esencial para desarrollar e implementar modelos de lenguaje grandes, pero en la práctica a menudo requiere un esfuerzo manual sustancial: los profesionales deben identificar puntos de referencia adecuados, reproducir bases de código de evaluación heterogéneas, configurar mapeos de esquemas de conjuntos de datos e interpretar métricas agregadas. Para abordar estos desafíos, presentamos One-Eval, un sistema de evaluación agéntico que convierte solicitudes de evaluación en lenguaje natural en flujos de trabajo evaluables, trazables y personalizables. One-Eval integra (i) NL2Bench para la estructuración de intenciones y la planificación personalizada de puntos de referencia, (ii) BenchResolve para la resolución de puntos de referencia, la adquisición automática de conjuntos de datos y la normalización de esquemas para garantizar la ejecutabilidad, y (iii) Métricas e Informes para la selección de métricas conscientes de la tarea y la generación de informes orientados a la decisión más allá de las puntuaciones escalares. El sistema incorpora además puntos de control con intervención humana para revisión, edición y reversión, preservando trazas de evidencia de muestras para depuración y auditabilidad. Los experimentos muestran que One-Eval puede ejecutar evaluaciones integrales a partir de diversas solicitudes en lenguaje natural con un esfuerzo de usuario mínimo, apoyando una evaluación más eficiente y reproducible en entornos industriales. Nuestro marco está disponible públicamente en https://github.com/OpenDCAI/One-Eval.
Con el rápido avance de los modelos de visión y lenguaje, un número creciente de estudios ha explorado su potencial para las tareas de generación de SVG. Aunque los enfoques existentes mejoran el rendimiento mediante la construcción de grandes conjuntos de datos de SVG y la introducción de tokens específicos para SVG, aún adolecen de una generalización limitada, rutas redundantes en las salidas de código y una falta de razonamiento explícito. En este trabajo, presentamos CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), un marco unificado que introduce un mecanismo de cadena de pensamiento para exponer explícitamente el proceso de razonamiento del modelo durante la generación de SVG. Para respaldar este razonamiento estructurado, construimos SVG-Sophia, un conjunto de datos de alta calidad que contiene 145K muestras en las tareas de refinamiento de código SVG, Texto-a-SVG e Imagen-a-SVG. Al entrenar al modelo para generar código SVG estructurado a nivel de grupo, CTRL-S mejora significativamente la coherencia estructural y la fidelidad visual. Además, adoptamos el algoritmo GRPO y diseñamos un marco de optimización de recompensas múltiples, incorporando recompensas de DINO, similitud imagen-texto, formato y eficiencia de código. A través de la optimización conjunta de recompensas múltiples y el entrenamiento multitarea, nuestro enfoque mejora sistemáticamente las capacidades generales de generación. Experimentos exhaustivos demuestran que CTRL-S supera a los métodos existentes, logrando mayores tasas de éxito en las tareas, una calidad de código SVG superior y una excepcional fidelidad visual.
El muestreo de una distribución categórica es matemáticamente simple, pero en la decodificación con vocabularios grandes, a menudo desencadena tráfico de memoria adicional y kernels extra después de la capa LM (cabeza del modelo de lenguaje). Presentamos FlashSampling, una primitiva de muestreo exacta que fusiona el muestreo en la multiplicación de matrices (matmul) de la cabeza LM y nunca materializa el tensor de logits en la memoria de alto ancho de banda (HBM). El método es simple: calcular los logits por bloques (tile-by-tile) en el chip, añadir ruido de Gumbel, mantener solo un maximizador por fila y por bloque de vocabulario, y finalizar con una pequeña reducción sobre los bloques. El kernel fusionado y en bloques es exacto porque la operación argmax se descompone sobre una partición; las variantes agrupadas para entornos en línea y de paralelismo de tensores son exactas gracias a la factorización jerárquica de la distribución categórica. En las GPU H100, H200, B200 y B300, FlashSampling acelera las cargas de trabajo de decodificación a nivel de kernel, y en experimentos de vLLM de extremo a extremo, reduce el tiempo por token de salida hasta en un 19% en los modelos que probamos. Estos resultados demuestran que el muestreo exacto, sin aproximación alguna, puede integrarse en la propia multiplicación de matrices, convirtiendo un paso de postprocesamiento limitado por el ancho de banda en un epílogo ligero. Página del proyecto: https://github.com/FlashSampling/FlashSampling.
Una visión predominante en el aprendizaje robótico sostiene que la simulación por sí sola no es suficiente; se cree ampliamente que una transferencia efectiva de simulación a realidad requiere al menos cierta recolección de datos del mundo real o un ajuste específico de la tarea para salvar la brecha entre los entornos simulados y físicos. Nosotros cuestionamos ese supuesto. Demostramos que, con datos de entrenamiento sintéticos simulados a una escala suficientemente grande y diversos, la transferencia *zero-shot* al mundo real no solo es posible, sino también efectiva para la manipulación tanto estática como móvil. Presentamos MolmoBot-Engine, una pipeline completamente de código abierto para la generación procedural de datos a través de robots, tareas y diversos entornos simulados en MolmoSpaces. Junto con ella, publicamos MolmoBot-Data, un conjunto de datos de 1.8 millones de trayectorias expertas para la manipulación de objetos articulados y tareas de pick-and-place. Entrenamos tres clases de políticas: MolmoBot, un modelo de visión y lenguaje multi-frame basado en Molmo2 con un cabezal de acción de *flow-matching*; MolmoBot-Pi0, que replica la arquitectura π₀ para permitir una comparación directa; y MolmoBot-SPOC, una política ligera adecuada para implementación en el *edge* y susceptible de ajuste mediante RL. Evaluamos en dos plataformas robóticas: la Franka FR3 para tareas de manipulación en mesas y el manipulador móvil Rainbow Robotics RB-Y1 para apertura de puertas, manipulación de cajones, interacción con armarios y pick-and-place móvil. Sin ningún ajuste en el mundo real, nuestras políticas logran una transferencia *zero-shot* a objetos y entornos no vistos. En tareas de pick-and-place en mesa, MolmoBot alcanza una tasa de éxito del 79.2% en evaluaciones del mundo real a través de 4 configuraciones, superando a π₀.₅, que logró un 39.2%. Nuestros resultados demuestran que la generación procedural de entornos combinada con activos articulados diversos puede producir políticas de manipulación robustas que generalizan ampliamente al mundo real. Blog técnico: https://allenai.org/blog/molmobot-robot-manipulation
La supervisión precisa de procesos sigue siendo un desafío crítico para la manipulación robótica de largo horizonte. Un cuello de botella principal es que los actuales MLLMs de video, entrenados principalmente bajo un paradigma de Ajuste Fino Supervisado (SFT), funcionan como "Observadores" pasivos que reconocen eventos en curso en lugar de evaluar el estado actual en relación con el objetivo final de la tarea. En este artículo, presentamos PRIMO R1 (Monitorización Inducida por Razonamiento de Procesos), un marco de trabajo de 7B que transforma los MLLMs de video en "Críticos" activos. Aprovechamos el Aprendizaje por Refuerzo basado en resultados para incentivar la generación explícita de Cadenas de Pensamiento para la estimación del progreso. Además, nuestra arquitectura construye una entrada temporal estructurada anclando explícitamente la secuencia de video entre imágenes del estado inicial y del estado actual. Respaldado por el Conjunto de Datos y Benchmark PRIMO propuesto, experimentos exhaustivos en diversos entornos de dominio interno y escenarios humanoides del mundo real de dominio externo demuestran que PRIMO R1 logra un rendimiento de vanguardia. Cuantitativamente, nuestro modelo de 7B logra una reducción del 50% en el error absoluto medio de los baselines de razonamiento especializados, demostrando mejoras significativas de precisión relativa respecto a MLLMs generales de escala 72B. Además, PRIMO R1 exhibe una fuerte generalización zero-shot en tareas difíciles de detección de fallos. Establecemos un rendimiento de vanguardia en el benchmark RoboFail con un 67.0% de precisión, superando a modelos de código cerrado como OpenAI o1 en un 6.0%.
Los modelos generativos nativos 3D han logrado una fidelidad y velocidad notables, pero adolecen de una limitación crítica: la incapacidad de prescribir articulaciones estructurales precisas, donde el control estructural preciso dentro del espacio 3D nativo sigue estando poco explorado. Este artículo propone SK-Adapter, un marco de trabajo sencillo y a la vez altamente eficiente y eficaz que desbloquea la manipulación esquelética precisa para la generación 3D nativa. Yendo más allá de los prompts de texto o imagen, que pueden ser ambiguos para estructuras precisas, tratamos el esqueleto 3D como una señal de control de primera clase. SK-Adapter es una red adaptadora estructural ligera que codifica coordenadas articulares y topología en tokens aprendibles, los cuales se inyectan en el backbone congelado de generación 3D mediante atención cruzada. Este diseño inteligente permite al modelo no solo "atender" efectivamente a restricciones estructurales 3D específicas, sino también preservar sus conocimientos generativos originales. Para salvar la brecha de datos, contribuimos con el conjunto de datos Objaverse-TMS, un conjunto de datos a gran escala de 24k pares texto-malla-esqueleto. Experimentos exhaustivos confirman que nuestro método logra un control estructural robusto mientras preserva la calidad geométrica y textural del modelo base, superando significativamente a los métodos de referencia existentes. Además, extendemos esta capacidad a la edición local 3D, permitiendo la edición específica por región de activos existentes con guía esquelética, lo cual era inalcanzable por métodos anteriores. Página del proyecto: https://sk-adapter.github.io/
A pesar de que la investigación interdisciplinaria conduce a un impacto mayor y a más largo plazo, la mayoría de los trabajos permanece confinada a silos académicos de un solo dominio. Los enfoques recientes basados en IA para el descubrimiento científico son prometedores para la investigación interdisciplinaria, pero muchos priorizan el diseño rápido de experimentos y soluciones, omitiendo los procesos de razonamiento colaborativo y exploratorio que impulsan los avances interdisciplinarios creativos. Como resultado, los esfuerzos previos priorizan en gran medida automatizar el descubrimiento científico en lugar de aumentar los procesos de razonamiento que subyacen a la disrupción científica. Presentamos Idea-Catalyst, un marco novedoso que identifica sistemáticamente perspectivas interdisciplinarias para apoyar el razonamiento creativo tanto en humanos como en modelos de lenguaje grandes. Partiendo de un objetivo de investigación abstracto, Idea-Catalyst está diseñado para asistir la etapa de lluvia de ideas, evitando explícitamente el anclaje prematuro en soluciones específicas. El marco incorpora características metacognitivas clave del razonamiento interdisciplinario: (a) definir y evaluar objetivos de investigación, (b) conciencia de las oportunidades y los desafíos no resueltos de un dominio, y (c) exploración estratégica de ideas interdisciplinarias basada en el potencial de impacto. Concretamente, Idea-Catalyst descompone un objetivo abstracto (por ejemplo, mejorar la colaboración humano-IA) en preguntas de investigación centrales del dominio objetivo que guían el análisis del progreso y los desafíos abiertos dentro de ese dominio. Estos desafíos se reformulan como problemas conceptuales independientes del dominio, permitiendo la recuperación de disciplinas externas (por ejemplo, Psicología, Sociología) que abordan problemas análogos. Al sintetizar y recontextualizar las perspectivas de estos dominios de vuelta al dominio objetivo, Idea-Catalyst clasifica los dominios fuente por su potencial interdisciplinario. Empíricamente, esta integración dirigida mejora la novedad promedio en un 21% y la perspicacia en un 16%, manteniéndose a la vez fundamentada en el problema de investigación original.
Si bien los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) muestran un rendimiento prometedor en la interpretación automatizada de electrocardiogramas, no está claro si realmente realizan un razonamiento paso a paso genuino o simplemente se basan en claves visuales superficiales. Para investigar esto, presentamos ECG-Reasoning-Benchmark, un novedoso marco de evaluación de múltiples turnos que comprende más de 6.400 muestras para evaluar sistemáticamente el razonamiento paso a paso en 17 diagnósticos centrales de ECG. Nuestra evaluación exhaustiva de los modelos más avanzados revela una falla crítica en la ejecución de la deducción lógica multi-etapa. Aunque los modelos poseen el conocimiento médico para recuperar los criterios clínicos de un diagnóstico, exhiben tasas de éxito cercanas a cero (6% de Finalización) en mantener una cadena de razonamiento completa, fallando principalmente en fundamentar los hallazgos de ECG correspondientes en la evidencia visual real de la señal del ECG. Estos resultados demuestran que los MLLMs actuales eluden la verdadera interpretación visual, exponiendo un defecto crítico en los paradigmas de entrenamiento existentes y subrayando la necesidad de una IA médica robusta y centrada en el razonamiento. El código y los datos están disponibles en https://github.com/Jwoo5/ecg-reasoning-benchmark.
Trabajos recientes han dejado claro que la vía residual no es un mero recurso de optimización; forma parte de la maquinaria de representación del modelo. Estamos de acuerdo, pero argumentamos que la forma más clara de organizar este espacio de diseño es mediante una visión de dos ejes del Transformer. Un decodificador evoluciona la información a lo largo de dos dimensiones ordenadas: la posición en la secuencia y la profundidad de las capas. La autoatención ya proporciona una mezcla adaptativa a lo largo del eje de la secuencia, mientras que el flujo residual generalmente realiza una suma fija a lo largo del eje de profundidad. Si fijamos una posición de token y tratamos el índice de capa como la variable ordenada, entonces una lectura de atención residual causal en profundidad es exactamente el mismo operador local que la autoatención causal de ventana deslizante corta (ShortSWA), excepto que se escribe sobre la profundidad en lugar de sobre la secuencia. Esta es la dualidad central del flujo residual detrás de Transformer^2. Esta perspectiva también aclara la literatura reciente. ELC-BERT y DenseFormer ya muestran que una agregación aprendida sobre la profundidad puede superar a la acumulación residual uniforme, mientras que Vertical Attention, DeepCrossAttention (DCA), MUDDFormer y Attention Residuals avanzan más hacia un enrutamiento explícito basado en atención sobre capas anteriores. Sin embargo, el punto clave es que la dualidad a nivel de operador no implica simetría a nivel de sistema. Para los modelos autoregresivos a gran escala, ShortSWA en el eje de secuencia suele ser la ubicación más amigable con el hardware porque reutiliza kernels de ventana deslizante del lado del token, diseños de caché KV y ejecución por fragmentos. Si el objetivo es, en cambio, cambiar el atajo en sí, el Aprendizaje Delta Profundo (DDL) es la intervención más limpia porque modifica directamente el operador residual en lugar de añadir una ruta de recuperación entre capas separada. Por lo tanto, nuestra recomendación es simple: use DDL cuando el atajo es el objeto de interés, y use ShortSWA en el eje de secuencia cuando el objetivo es una mezcla adaptativa local.
La difusión en espacio de píxeles ha reaparecido recientemente como una alternativa sólida a la difusión latente, permitiendo una generación de alta calidad sin auto codificadores preentrenados. Sin embargo, los modelos estándar de difusión en espacio de píxeles reciben una supervisión semántica relativamente débil y no están diseñados explícitamente para capturar estructuras visuales de alto nivel. Métodos recientes de alineación de representaciones (por ejemplo, REPA) sugieren que las características visuales preentrenadas pueden mejorar sustancialmente el entrenamiento de difusión, y la co-difuminación visual ha surgido como una dirección prometedora para incorporar dichas características en el proceso generativo. No obstante, los enfoques de co-difuminación existentes a menudo entrelazan múltiples decisiones de diseño, lo que dificulta identificar qué elecciones son verdaderamente esenciales. Por lo tanto, presentamos V-Co, un estudio sistemático de la co-difuminación visual en un marco unificado basado en JiT (Just-in-Time). Este entorno controlado nos permite aislar los ingredientes que hacen efectiva la co-difuminación visual. Nuestro estudio revela cuatro ingredientes clave para una co-difuminación visual efectiva. Primero, preservar el cálculo específico de características permitiendo una interacción flexible entre flujos motiva una arquitectura completamente de doble flujo. Segundo, una guía efectiva libre de clasificador (CFG) requiere una predicción incondicional estructuralmente definida. Tercero, la mejor manera de proporcionar una supervisión semántica más fuerte es mediante una pérdida híbrida de deriva perceptual. Cuarto, una co-difuminación estable requiere además una calibración adecuada entre flujos, que logramos mediante un reescalado de características basado en RMS. En conjunto, estos hallazgos ofrecen una receta simple para la co-difuminación visual. Los experimentos en ImageNet-256 muestran que, con tamaños de modelo comparables, V-Co supera la línea base subyacente de difusión en espacio de píxeles y métodos previos sólidos de difusión en píxeles, utilizando además menos épocas de entrenamiento, lo que ofrece una guía práctica para futuros modelos generativos alineados con representaciones.
La estilización basada en difusión ha avanzado significativamente, sin embargo, los métodos existentes se limitan a transformaciones guiadas por el color, descuidando semánticas complejas y detalles materiales. Presentamos StyleExpert, un marco semántico-contextual basado en la Mezcla de Expertos (MoE). Nuestro marco emplea un codificador de estilo unificado, entrenado en nuestro conjunto de datos a gran escala de trillizos contenido-estilo-estilizado, para incorporar diversos estilos en un espacio latente consistente. Esta incrustación se utiliza luego para condicionar un mecanismo de compuerta sensible a la similitud, que enruta dinámicamente los estilos a expertos especializados dentro de la arquitectura MoE. Aprovechando esta arquitectura MoE, nuestro método maneja con destreza diversos estilos que abarcan múltiples niveles semánticos, desde texturas superficiales hasta semánticas profundas. Experimentos exhaustivos demuestran que StyleExpert supera a los enfoques existentes en la preservación de la semántica y los detalles materiales, al mismo tiempo que generaliza a estilos no vistos. Nuestro código e imágenes recopiladas están disponibles en la página del proyecto: https://hh-lg.github.io/StyleExpert-Page/.
El paradigma dominante para mejorar el razonamiento matemático en modelos de lenguaje se basa en el Aprendizaje por Refuerzo con recompensas verificables. Sin embargo, los métodos existentes tratan cada instancia del problema de forma aislada, sin aprovechar las estrategias reutilizables que emergen y se acumulan durante el entrenamiento. Para ello, presentamos ARISE (Razonamiento del Agente mediante la Evolución Intrínseca de Habilidades), un marco de aprendizaje por refuerzo jerárquico en el que una política compartida opera tanto para gestionar habilidades a alto nivel como para generar respuestas a bajo nivel (denominados Gestor de Habilidades y Trabajador, respectivamente). El Gestor mantiene una biblioteca de habilidades escalonada mediante un proceso de generación dedicado que realiza una resumen estructurado de las trazas de solución exitosas (después de la ejecución), mientras emplea un mecanismo de selección guiado por políticas para recuperar habilidades relevantes y condicionar futuras ejecuciones (antes de la ejecución). Un diseño de recompensa jerárquico guía la co-evolución de la capacidad de razonamiento y la calidad de la biblioteca. Los experimentos con dos modelos base y siete benchmarks que abarcan tanto matemáticas de competición como Omni-MATH muestran que ARISE supera consistentemente a los algoritmos de la familia GRPO y a los baselines aumentados con memoria, con ganancias particularmente notables en tareas fuera de distribución. Los estudios de ablación confirman que cada componente contribuye a las mejoras observadas y que la calidad de la biblioteca y el rendimiento del razonamiento mejoran conjuntamente durante el entrenamiento. El código está disponible en https://github.com/Skylanding/ARISE.
Los recientes avances en agentes multimodales han mejorado la interacción con computadoras y el uso de herramientas, pero la mayoría de los sistemas existentes siguen siendo reactivos, optimizando acciones de forma aislada sin razonar sobre estados futuros u objetivos a largo plazo. Esto limita la coherencia en la planificación e impide que los agentes resuelvan de manera confiable tareas de alto nivel y múltiples pasos. Presentamos TraceR1, un marco de aprendizaje por refuerzo de dos etapas que entrena explícitamente el razonamiento anticipatorio mediante la predicción de trayectorias a corto plazo antes de la ejecución. La primera etapa realiza aprendizaje por refuerzo a nivel de trayectoria con recompensas que garantizan la coherencia global en las secuencias de acciones predichas. La segunda etapa aplica un ajuste fino por refuerzo fundamentado, utilizando retroalimentación de ejecución de agentes de herramientas congelados para refinar la precisión y ejecutabilidad a nivel de paso. TraceR1 se evalúa en siete benchmarks, cubriendo uso de computadoras en línea, benchmarks de uso de computadoras sin conexión y tareas de razonamiento con herramientas multimodales, donde logra mejoras sustanciales en estabilidad de planificación, robustez de ejecución y generalización sobre enfoques reactivos y baselines de una sola etapa. Estos resultados demuestran que el razonamiento anticipatorio de trayectorias es un principio clave para construir agentes multimodales que puedan razonar, planificar y actuar efectivamente en entornos complejos del mundo real.
La memoria persistente es una capacidad fundamental para los agentes de IA, sin embargo, los fundamentos matemáticos de la recuperación de memoria, la gestión del ciclo de vida y la coherencia permanecen inexplorados. Los sistemas actuales emplean similitud coseno para la recuperación, decaimiento heurístico para la relevancia, y no ofrecen una detección formal de contradicciones. Establecemos fundamentos de geometría de la información mediante tres contribuciones. Primero, una métrica de recuperación derivada de la estructura de información de Fisher de familias gaussianas diagonales, que satisface los axiomas de métrica riemanniana, es invariante bajo estadísticos suficientes y computable en tiempo O(d). Segundo, el ciclo de vida de la memoria formulado como dinámicas de Langevin riemannianas con existencia y unicidad probadas de la distribución estacionaria mediante la ecuación de Fokker-Planck, reemplazando el decaimiento manual con garantías de convergencia fundamentadas. Tercero, un modelo de haz celular donde las clases de cohomología no triviales de primer orden corresponden precisamente a contradicciones irreconciliables entre contextos de memoria. En el benchmark LoCoMo, las capas matemáticas producen +12.7 puntos porcentuales sobre líneas base de ingeniería en seis conversaciones, alcanzando +19.9 pp en los diálogos más desafiantes. Una arquitectura de recuperación de cuatro canales logra 75% de precisión sin dependencia de la nube. Los resultados aumentados con cloud alcanzan 87.7%. Una configuración cero-LLM satisface los requisitos de soberanía de datos de la Ley de IA de la UE por diseño arquitectónico. Hasta donde sabemos, este es el primer trabajo que establece fundamentos de geometría de la información, teoría de haces y dinámica estocástica para sistemas de memoria de agentes de IA.
La toma de decisiones en el mundo real, desde la evaluación del cumplimiento fiscal hasta el diagnóstico médico, requiere la agregación de múltiples fuentes de evidencia ruidosas y potencialmente contradictorias. Los enfoques existentes carecen de una cuantificación explícita de la incertidumbre (métodos de agregación neuronal) o dependen de predicados discretos diseñados manualmente (marcos de lógica probabilística), lo que limita la escalabilidad para datos no estructurados. Presentamos Factores Posteriores Latentes (LPF), un marco que transforma las posteriores latentes de un Autoencoder Variacional (VAE) en factores de verosimilitud blandos para la inferencia en Redes de Suma-Producto (SPN), permitiendo un razonamiento probabilístico manejable sobre evidencia no estructurada mientras preserva estimaciones de incertidumbre calibradas. Instanciamos LPF como LPF-SPN (inferencia estructurada basada en factores) y LPF-Learned (agregación aprendida de extremo a extremo), permitiendo una comparación rigurosa entre el razonamiento probabilístico explícito y la agregación aprendida bajo una representación compartida de la incertidumbre. En ocho dominios (siete sintéticos y el benchmark FEVER), LPF-SPN logra una alta precisión (hasta 97.8%), un bajo error de calibración (ECE 1.4%) y un fuerte ajuste probabilístico, superando sustancialmente al aprendizaje profundo evidencial, los LLM y líneas base basadas en grafos sobre 15 semillas aleatorias. Contribuciones: (1) Un marco que conecta las representaciones de incertidumbre latente con el razonamiento probabilístico estructurado. (2) Arquitecturas duales que permiten la comparación controlada de paradigmas de razonamiento. (3) Metodología de entrenamiento reproducible con selección de semillas. (4) Evaluación frente a líneas base de EDL, BERT, R-GCN y modelos de lenguaje grandes. (5) Validación cruzada de dominios. (6) Garantías formales en un artículo complementario.
Presentamos una caracterización teórica completa de Factores Posteriores Latentes (LPF), un marco fundamentado para agregar múltiples elementos de evidencia heterogéneos en tareas de predicción probabilística. El razonamiento con múltiples evidencias surge de manera ubicua en dominios de alto riesgo, incluyendo el diagnóstico médico, la evaluación de riesgos financieros, el análisis de casos legales y el cumplimiento normativo; sin embargo, los enfoques existentes carecen de garantías formales o no manejan escenarios multi-evidencia a nivel arquitectónico. LPF codifica cada elemento de evidencia en una posterior latente Gaussiana mediante un autoencoder variacional, convierte las posteriores en factores blandos a través de marginalización Monte Carlo, y agrega los factores mediante inferencia exacta en Redes de Suma-Producto (LPF-SPN) o mediante un agregador neuronal entrenado (LPF-Aprendido). Demostramos siete garantías formales que abarcan los desiderátum clave para una IA confiable: Preservación de la Calibración (ECE <= épsilon + C/sqrt(K_eff)); Error Monte Carlo que decae como O(1/sqrt(M)); un límite PAC-Bayes no vacuo con una brecha entrenamiento-prueba de 0.0085 en N=4200; operación dentro de 1.12x del límite inferior teórico de la información; degradación gradual como O(épsilon*delta*sqrt(K)) bajo corrupción, manteniendo un 88% de rendimiento con la mitad de la evidencia reemplazada de manera adversarial; decaimiento de la calibración de O(1/sqrt(K)) con R²=0.849; y una descomposición exacta de la incertidumbre epistémica-aleatoria con un error inferior al 0.002%. Todos los teoremas se validan empíricamente en conjuntos de datos controlados que abarcan hasta 4,200 ejemplos de entrenamiento. Nuestro marco teórico establece a LPF como una base para una IA multi-evidencia confiable en aplicaciones críticas para la seguridad.
Presentamos VAREX (Extracción de Esquemas VARiados), un benchmark para evaluar modelos de fundación multimodales en la extracción de datos estructurados de formularios gubernamentales. VAREX emplea un pipeline de Anotación Inversa que llena programáticamente plantillas PDF con valores sintéticos, produciendo una verdad de referencia determinística validada mediante una garantía de calidad trifásica. El benchmark comprende 1.777 documentos con 1.771 esquemas únicos distribuidos en tres categorías estructurales, cada uno proporcionado en cuatro modalidades de entrada: texto plano, texto que preserva el diseño (alineado con espacios en blanco para aproximar posiciones de columna), imagen del documento, o una combinación de texto e imagen. A diferencia de benchmarks existentes que evalúan a partir de una única representación de entrada, VAREX proporciona cuatro modalidades controladas por documento, permitiendo una ablación sistemática de cómo el formato de entrada afecta la precisión de la extracción, una capacidad ausente en benchmarks anteriores. Evaluamos 20 modelos, desde modelos propietarios de vanguardia hasta modelos abiertos pequeños, prestando especial atención a modelos de <=4B de parámetros adecuados para despliegues con restricciones de coste y latencia. Los resultados revelan que (1) por debajo de 4B de parámetros, el cumplimiento de la salida estructurada —no la capacidad de extracción— es un cuello de botella dominante; en particular, el eco del esquema (modelos que producen estructura conforme al esquema en lugar de los valores extraídos) reduce las puntuaciones entre 45 y 65 pp (puntos porcentuales) en los modelos afectados; (2) el ajuste fino específico para extracción en modelos de 2B produce ganancias de +81 pp, demostrando que el déficit en el seguimiento de instrucciones es abordable sin aumentar la escala; (3) el texto que preserva el diseño proporciona la mayor ganancia de precisión (+3-18 pp), superando a las pistas visuales a nivel de píxel; y (4) el benchmark discrimina más efectivamente a los modelos en la banda de precisión del 60-95%. El conjunto de datos y el código de evaluación están disponibles públicamente.
La resolución de problemas mediante el uso de herramientas bajo restricciones explícitas constituye un escenario altamente desafiante pero inevitable para los grandes modelos de lenguaje (LLMs), que requiere capacidades como la invocación de funciones, el seguimiento de instrucciones y la autorrefinación. Sin embargo, el progreso se ha visto obstaculizado por la ausencia de evaluaciones dedicadas. Para abordar esto, presentamos CCTU, un benchmark para evaluar el uso de herramientas por parte de LLMs bajo restricciones complejas. CCTU se basa en una taxonomía de 12 categorías de restricciones que abarcan cuatro dimensiones (es decir, recurso, comportamiento, conjunto de herramientas y respuesta). El benchmark comprende 200 casos de prueba cuidadosamente seleccionados y desafiantes en diversos escenarios de uso de herramientas, cada uno de los cuales involucra un promedio de siete tipos de restricciones y una longitud promedio de prompt superior a 4.700 tokens. Para permitir una evaluación confiable, desarrollamos un módulo ejecutable de validación de restricciones que realiza una validación a nivel de paso y hace cumplir el cumplimiento durante las interacciones multiturno entre los modelos y sus entornos. Evaluamos nueve LLMs de vanguardia en modos tanto de pensamiento como de no pensamiento. Los resultados indican que cuando se requiere una adherencia estricta a todas las restricciones, ningún modelo alcanza una tasa de finalización de tareas superior al 20%. Un análisis más profundo revela que los modelos violan las restricciones en más del 50% de los casos, particularmente en las dimensiones de recurso y respuesta. Además, los LLMs demuestran una capacidad limitada para la autorrefinación incluso después de recibir comentarios detallados sobre las violaciones de restricciones, lo que resalta un cuello de botella crítico en el desarrollo de agentes robustos de uso de herramientas. Para facilitar la investigación futura, publicamos los datos y el código.
Los modelos de visión base (VFMs) basados en Transformers para Visión (ViTs) han logrado un rendimiento notable en diversas tareas de visión, pero sufren de una complejidad cuadrática que limita su escalabilidad a secuencias largas. Los enfoques de atención lineal existentes para ViTs normalmente se entrenan desde cero, requiriendo recursos computacionales sustanciales, mientras que los métodos basados en linealización desarrollados para decodificadores de modelos de lenguaje grande no se transfieren bien a los ViTs. Para abordar estos desafíos, proponemos ViT-AdaLA, un marco novedoso para adaptar y transferir efectivamente el conocimiento previo de los VFMs a ViTs de atención lineal. ViT-AdaLA consta de tres etapas: alineación de atención, alineación de características y ajuste fino supervisado. En la etapa de alineación de atención, alineamos la atención lineal básica con la atención original basada en softmax en cada bloque para aproximar el comportamiento de la atención softmax. Sin embargo, los errores residuales de aproximación se acumulan inevitablemente a través de las capas. Mitigamos esto ajustando finamente el ViT linealizado para alinear sus características de la capa final con las de un profesor VFM con softmax congelado. Finalmente, el conocimiento previo adaptado se transfiere a tareas posteriores mediante ajuste fino supervisado. Experimentos exhaustivos en tareas de clasificación y segmentación demuestran la efectividad y generalidad de ViT-AdaLA sobre varias contrapartes de atención lineal state-of-the-art.
La comprensión de seres humanos a partir de nubes de puntos LiDAR es una de las tareas más críticas en la conducción autónoma debido a su estrecha relación con la seguridad peatonal, aunque sigue siendo un desafío ante la presencia de diversas interacciones humano-objeto y fondos desordenados. Sin embargo, los métodos existentes ignoran en gran medida el potencial de aprovechar las interacciones humano-objeto para construir marcos robustos de estimación de posturas humanas en 3D. Dos desafíos principales motivan la incorporación de la interacción humano-objeto. Primero, estas interacciones introducen ambigüedad espacial entre puntos humanos y de objetos, lo que frecuentemente genera predicciones erróneas de puntos clave humanos 3D en regiones de interacción. Segundo, existe un severo desequilibrio de clases en la cantidad de puntos entre partes corporales que interactúan y las que no, observándose regiones de interacción frecuente como manos y pies de forma esparcida en datos LiDAR. Para abordar estos desafíos, proponemos un marco de Aprendizaje de Interacción Humano-Objeto (HOIL) para una estimación robusta de posturas humanas 3D a partir de nubes de puntos LiDAR. Para mitigar la ambigüedad espacial, presentamos un aprendizaje contrastivo consciente de la interacción humano-objeto (HOICL) que mejora efectivamente la discriminación de características entre puntos humanos y de objetos, particularmente en regiones de interacción. Para aliviar el desequilibrio de clases, introducimos un agrupamiento guiado por partes y consciente del contacto (CPPool) que reasigna adaptativamente la capacidad representativa comprimiendo puntos sobrerrepresentados mientras preserva puntos informativos de partes corporales en interacción. Adicionalmente, presentamos una refinación temporal opcional basada en contacto que perfecha estimaciones erróneas de puntos clave por fotograma utilizando señales de contacto a lo largo del tiempo. Como resultado, nuestro HOIL aprovecha efectivamente la interacción humano-objeto para resolver la ambigüedad espacial y el desequilibrio de clases en regiones de interacción. Los códigos serán liberados.
Los modelos de difusión enmascarada (MDM) exhiben una generalización superior cuando se aprenden mediante un esquema de enmascaramiento parcial (Prime). Este enfoque convierte los tokens en sub-tokens y modela el proceso de difusión a nivel de sub-token. Identificamos dos limitaciones del marco MDM-Prime. Primero, carecemos de herramientas para guiar la elección del hiperparámetro de la granularidad del token en el sub-tokenizador. Segundo, encontramos que la forma funcional del sub-tokenizador degrada significativamente la estimación de verosimilitud cuando se combina con tokenizadores comúnmente utilizados como la Codificación por Pares de Bytes (BPE). Para abordar estas limitaciones, estudiamos la estrechez del límite variacional en MDM-Prime y desarrollamos MDM-Prime-v2, un modelo de lenguaje de difusión enmascarada que incorpora Codificación Binaria y Mezcla de Índices. Nuestro análisis de escalado revela que MDM-Prime-v2 es 21.8 veces más eficiente en cómputo que los modelos autoregresivos (ARM). En comparaciones óptimas de cómputo, MDM-Prime-v2 alcanza una perplejidad de 7.77 en OpenWebText, superando a ARM (12.99), MDM (18.94) y MDM-Prime (13.41). Al extender el tamaño del modelo a 1.1B de parámetros, nuestro modelo demuestra además una precisión cero-shot superior en varias tareas de razonamiento de sentido común.
Los métodos existentes de generación de escenas 3D basados en difusión operan principalmente en espacios latentes de imágenes/videos 2D, lo que hace inherentemente difícil mantener la consistencia geométrica y de apariencia entre vistas. Para cerrar esta brecha, presentamos OneWorld, un marco que realiza la difusión directamente dentro de un espacio de representación 3D coherente. El elemento central de nuestro enfoque es el Autoencoder de Representación Unificada 3D (3D-URAE); este aprovecha modelos fundacionales 3D preentrenados y aumenta su naturaleza centrada en la geometría inyectando apariencia y destilando semántica en un espacio latente 3D unificado. Además, introducimos una pérdida de consistencia de Correspondencia Cruzada de Vistas (CVC) a nivel de token para imponer explícitamente una alineación estructural entre vistas, y proponemos el Forzado de Deriva en la Variedad (MDF) para mitigar el sesgo de exposición entrenamiento-inferencia y conformar una variedad 3D robusta mediante la mezcla de representaciones originales y desviadas. Experimentos exhaustivos demuestran que OneWorld genera escenas 3D de alta calidad con una consistencia entre vistas superior en comparación con los métodos state-of-the-art basados en 2D. Nuestro código estará disponible en https://github.com/SensenGao/OneWorld.
Presentamos Polyglot-Lion, una familia de modelos compactos de reconocimiento automático del habla (ASR) multilingüe diseñados para el panorama lingüístico de Singapur, que abarca inglés, mandarín, tamil y malayo. Nuestros modelos se obtuvieron mediante el ajuste fino de Qwen3-ASR-0.6B y Qwen3-ASR-1.7B exclusivamente en corpus de voz de acceso público, utilizando una estrategia de muestreo equilibrado que iguala el número de enunciados de entrenamiento por idioma y omite deliberadamente el condicionamiento por etiqueta de idioma para que el modelo aprenda a identificar los idiomas de forma implícita a partir del audio. En 12 puntos de referencia que abarcan los cuatro idiomas objetivo, Polyglot-Lion-1.7B logra una tasa de error promedio de 14.85, siendo competitivo con MERaLiON-2-10B-ASR (14.32) —un modelo 6 veces más grande— mientras incurre en un coste de entrenamiento de 81 dólares en una sola GPU RTX PRO 6000, en comparación con los 18,862 dólares del baseline de 128 GPU. El rendimiento de inferencia es aproximadamente 20 veces más rápido que el de MERaLiON, con 0.10 s/muestra frente a 2.02 s/muestra. Estos resultados demuestran que el ajuste fino lingüísticamente equilibrado de modelos preentrenados de escala moderada puede producir ASR multilingüe listo para implementación a una fracción del coste de sistemas especializados más grandes.
Los modelos de difusión operan en un modo reflexivo del Sistema 1, limitados por un programa de muestreo fijo e independiente del contenido. Esta rigidez surge de la maldición de la dimensionalidad del estado, donde la explosión combinatoria de estados posibles en el manifold de ruido de alta dimensión hace que la planificación explícita de trayectorias sea intratable y conduce a una asignación computacional sistemáticamente ineficiente. Para abordar este problema, presentamos Chain-of-Trajectories (CoTj), un marco de trabajo que no requiere entrenamiento y permite la planificación deliberativa del Sistema 2. El elemento central de CoTj es el ADN de Difusión, una firma de baja dimensión que cuantifica la dificultad de eliminación de ruido en cada etapa y sirve como proxy para el espacio de estados de alta dimensión, permitiéndonos reformular el muestreo como una planificación en grafos sobre un grafo acíclico dirigido. A través de un paradigma Predecir-Planificar-Ejecutar, CoTj asigna dinámicamente el esfuerzo computacional a las fases generativas más desafiantes. Los experimentos realizados con múltiples modelos generativos demuestran que CoTj descubre trayectorias conscientes del contexto, mejorando la calidad y estabilidad de los resultados mientras reduce el cómputo redundante. Este trabajo establece una nueva base para el modelado de difusión basado en planificación y consciente de los recursos. El código está disponible en https://github.com/UnicomAI/CoTj.
Los sistemas de Generación Aumentada por Recuperación (RAG) enfrentan desafíos con preguntas complejas y de múltiples saltos, y se han propuesto marcos agentivos como Search-R1 (Jin et al., 2025), que opera de manera iterativa, para abordar estas complejidades. Sin embargo, estos enfoques pueden introducir ineficiencias, incluyendo la recuperación repetitiva de información ya procesada y dificultades para contextualizar efectivamente los resultados recuperados dentro del prompt de generación actual. Dichos problemas pueden conducir a turnos de recuperación innecesarios, razonamiento subóptimo, respuestas inexactas y un mayor consumo de tokens. En este artículo, investigamos modificaciones en tiempo de prueba a la canalización de Search-R1 para mitigar estas deficiencias identificadas. Específicamente, exploramos la integración de dos componentes y su combinación: un módulo de contextualización para integrar mejor la información relevante de los documentos recuperados en el razonamiento, y un módulo de desduplicación que reemplaza documentos previamente recuperados por los siguientes más relevantes. Evaluamos nuestros enfoques utilizando los conjuntos de datos HotpotQA (Yang et al., 2018) y Natural Questions (Kwiatkowski et al., 2019), reportando la puntuación de coincidencia exacta (EM), una evaluación de corrección de respuestas usando un LLM-como-juez, y el número promedio de turnos. Nuestra variante de mejor rendimiento, que utiliza GPT-4.1-mini para la contextualización, logra un aumento del 5.6% en la puntuación EM y reduce el número de turnos en un 10.5% en comparación con la línea base de Search-R1, demostrando una mayor precisión en las respuestas y una mejora en la eficiencia de la recuperación.
Presentamos HistoAtlas, un atlas computacional pan-cáncer que extrae 38 características histómicas interpretables de 6.745 muestras histológicas de H&E diagnósticas en 21 tipos de cáncer del TCGA, y vincula sistemáticamente cada característica con la supervivencia, la expresión génica, las mutaciones somáticas y los subtipos inmunes. Todas las asociaciones están ajustadas por covariables, corregidas por pruebas múltiples y clasificadas en niveles de solidez de la evidencia. El atlas recupera biología conocida, desde la infiltración inmune y el pronóstico hasta la proliferación y la señalización de quinasas, al mismo tiempo que descubre señales inmunes específicas de compartimento y subtipos morfológicos con resultados divergentes. Cada resultado es espacialmente trazable hasta los compartimentos tisulares y células individuales, estadísticamente calibrado y consultable abiertamente. HistoAtlas permite el descubrimiento sistemático de biomarcadores a gran escala a partir de H&E de rutina, sin necesidad de tinciones especializadas o secuenciación. Los datos y un atlas web interactivo están disponibles gratuitamente en https://histoatlas.com.
Los modelos de lenguaje químico (CLM) han surgido como competidores prometedores frente a los modelos clásicos de aprendizaje automático más populares para las tareas de predicción de propiedades moleculares (MPP). Sin embargo, un número creciente de estudios ha reportado resultados inconsistentes y contradictorios respecto al rendimiento de los CLM en diversas tareas de evaluación comparativa de MPP. En este estudio, realizamos y analizamos cientos de experimentos meticulosamente controlados para investigar sistemáticamente los efectos de varios factores, como el tamaño del conjunto de datos, el tamaño del modelo y la estandarización, en el rendimiento del pre-entrenamiento y el ajuste fino de los CLM para MPP. Ante la ausencia de leyes de escalabilidad bien establecidas para modelos de lenguaje enmascarado de solo codificación, nuestro objetivo es aportar evidencia numérica exhaustiva y una comprensión más profunda de los mecanismos subyacentes que afectan al rendimiento de los CLM en tareas de MPP, algunos de los cuales parecen estar completamente pasados por alto en la literatura.
El cercamiento de tierras a gran escala para megadesarrollos especulativos constituye un proceso espacial de no equilibrio cuya velocidad, topología e irreversibilidad permanecen escasamente cuantificadas. Estudiamos el megadesarrollo costero Pantai Indah Kapuk 2 (PIK2), al norte de Yakarta, Indonesia, utilizando ocho años (2017-2024) de datos de uso/cobertura del suelo (UCS) de Sentinel-2 con resolución de 10 metros. El paisaje se proyecta sobre un símplex de probabilidad marxiano que divide los píxeles terrestres en fracciones de Bienes Comunes, Agraria y Capital. Las distancias geodésicas de Fisher-Rao (FR) en este símplex identifican un pulso de transformación de 0.405 rad/año durante 2019-2020, coincidiendo con una importante actividad constructiva. El análisis de cadenas de Markov absorbentes arroja tiempos de absorción esperados hacia el entorno construido de 46.0 años para tierras de cultivo y 38.1 años para cobertura arbórea, con una tasa de auto-retención agrupada del área construida del 96.4%. El análisis de percolación revela que un componente gigante conectado, que contiene entre el 89% y el 95% de todos los píxeles construidos, persiste en probabilidades de ocupación p en el intervalo [0.096, 0.162], muy por debajo del umbral de percolación aleatoria p_c ≈ 0.593, lo que indica un crecimiento espacial planificado en lugar de estocástico. La dimensión fractal por conteo de cajas del límite urbano aumenta de d_f = 1.316 a 1.397, consistente con una expansión de la frontera cada vez más irregular. Estos resultados sugieren que las herramientas de geometría de la información y mecánica estadística pueden caracterizar con precisión cuantitativa las firmas cinemáticas y topológicas de la acumulación espacial capitalista.