Artículos de investigación en IA seleccionados diariamente con traducciones
La etiqueta "de extremo a extremo" para los LLM es un nombre inapropiado. En la práctica, estos modelos dependen de un proceso de decodificación no diferenciable que requiere una laboriosa sintonización manual de hiperparámetros como la temperatura y el top-p. Este artículo presenta AutoDeco, una arquitectura novedosa que permite una generación verdaderamente "de extremo a extremo" al aprender a controlar su propia estrategia de decodificación. Aumentamos el transformador estándar con cabezales ligeros que, en cada paso, predicen dinámicamente valores de temperatura y top-p específicos del contexto junto con los logits del siguiente token. Este enfoque transforma la decodificación en un proceso paramétrico a nivel de token, permitiendo que el modelo autorregule su estrategia de muestreo dentro de una única pasada hacia adelante. A través de experimentos exhaustivos en ocho puntos de referencia, demostramos que AutoDeco no solo supera significativamente a las estrategias de decodificación por defecto, sino que también logra un rendimiento comparable a una línea de base ajustada por oráculo derivada de "manipular el conjunto de prueba", un límite superior práctico para cualquier método estático. Crucialmente, descubrimos una capacidad emergente para el control de la decodificación basada en instrucciones: el modelo aprende a interpretar comandos en lenguaje natural (por ejemplo, "genera con baja aleatoriedad") y ajusta su temperatura y top-p predichos token por token, abriendo un nuevo paradigma para la decodificación de LLM dirigible e interactiva.
Presentamos Kimi Linear, una arquitectura híbrida de atención lineal que, por primera vez, supera a la atención completa en comparaciones equitativas en diversos escenarios, incluyendo regímenes de escalado de contexto corto, contexto largo y aprendizaje por refuerzo (RL). En su núcleo se encuentra Kimi Delta Attention (KDA), un módulo de atención lineal expresivo que extiende Gated DeltaNet con un mecanismo de compuerta más granular, permitiendo un uso más efectivo de la memoria limitada de RNN de estado finito. Nuestro algoritmo personalizado por fragmentos (chunkwise) logra una alta eficiencia hardware mediante una variante especializada de las matrices de transición Diagonal-Plus-Low-Rank (DPLR), lo que reduce sustancialmente el cómputo en comparación con la formulación DPLR general, manteniéndose más consistente con la regla delta clásica. Preentrenamos un modelo Kimi Linear con 3B parámetros activados y 48B parámetros totales, basado en una combinación por capas de KDA y Multi-Head Latent Attention (MLA). Nuestros experimentos muestran que, con una receta de entrenamiento idéntica, Kimi Linear supera a MLA completo por un margen considerable en todas las tareas evaluadas, mientras reduce el uso de la caché KV hasta en un 75% y logra un rendimiento de decodificación hasta 6 veces mayor para un contexto de 1M. Estos resultados demuestran que Kimi Linear puede ser un reemplazo directo (drop-in) para arquitecturas de atención completa con un rendimiento y eficiencia superiores, incluyendo tareas con longitudes de entrada y salida más largas. Para apoyar futuras investigaciones, hacemos de código abierto el núcleo KDA y las implementaciones vLLM, y publicamos los puntos de control del modelo preentrenado y ajustado por instrucciones.
Presentamos Emu3.5, un modelo del mundo multimodal a gran escala que predice nativamente el siguiente estado a través de la visión y el lenguaje. Emu3.5 se pre-entrena de extremo a extremo con un objetivo unificado de predicción del siguiente token en un corpus de datos intercalados de visión y lenguaje que contiene más de 10 billones de tokens, derivados principalmente de fotogramas secuenciales y transcripciones de vídeos de internet. El modelo acepta de forma natural entradas intercaladas de visión y lenguaje y genera salidas intercaladas de visión y lenguaje. Emu3.5 se post-entrena adicionalmente con aprendizaje por refuerzo a gran escala para mejorar el razonamiento y la generación multimodal. Para mejorar la eficiencia de la inferencia, proponemos la Adaptación por Difusión Discreta (DiDA), que convierte la decodificación token por token en una predicción paralela bidireccional, acelerando la inferencia por imagen aproximadamente 20 veces sin sacrificar el rendimiento. Emu3.5 exhibe fuertes capacidades multimodales nativas, que incluyen generación de visión y lenguaje de largo horizonte, generación de cualquier cosa a imagen (X2I) y generación compleja de imágenes ricas en texto. También exhibe habilidades generalizables de modelado del mundo, permitiendo la exploración del mundo espaciotemporalmente consistente y la manipulación corporizada en mundo abierto a través de diversos escenarios y tareas. Para comparar, Emu3.5 logra un rendimiento comparable a Gemini 2.5 Flash Image (Nano Banana) en tareas de generación y edición de imágenes y demuestra resultados superiores en un conjunto de tareas de generación intercalada. Liberamos Emu3.5 como código abierto en https://github.com/baaivision/Emu3.5 para apoyar la investigación comunitaria.
El ChatGPT Atlas de OpenAI introduce nuevas capacidades de interacción web, permitiendo al modelo analizar páginas web, procesar intenciones de usuario y ejecutar entradas de cursor y teclado directamente en el navegador. Si bien ha demostrado su capacidad para tareas de recuperación de información, su rendimiento en entornos dinámicos e interactivos sigue estando menos explorado. En este estudio, realizamos una evaluación temprana de las capacidades de interacción web de Atlas utilizando juegos basados en navegador como escenarios de prueba, incluyendo T-Rex Runner de Google, Sudoku, Flappy Bird y Stein.world. Empleamos puntuaciones de rendimiento en el juego como métricas cuantitativas para evaluar el desempeño en diferentes tipos de tareas. Nuestros resultados muestran que Atlas tiene un rendimiento sólido en tareas de razonamiento lógico como Sudoku, completando puzzles significativamente más rápido que los puntos de referencia humanos, pero tiene dificultades considerables en juegos en tiempo real que requieren sincronización precisa y control motor, a menudo sin poder superar los obstáculos iniciales. Estos hallazgos sugieren que, aunque Atlas demuestra un procesamiento analítico competente, persisten limitaciones notables en entornos web dinámicos que requieren interacción en tiempo real. El sitio web de nuestro proyecto puede consultarse en https://atlas-game-eval.github.io.
Los Modelos de Lenguaje Grandes (LLM) a menudo tienen dificultades con problemas que requieren razonamiento de múltiples pasos. Para los modelos de código abierto a pequeña escala, el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) falla cuando las soluciones correctas raramente se muestrean incluso después de muchos intentos, mientras que el Fine-Tuning Supervisado (SFT) tiende a sobreajustar demostraciones largas mediante una imitación rígida token por token. Para abordar esta brecha, proponemos el Aprendizaje por Refuerzo Supervisado (SRL), un marco que reformula la resolución de problemas como la generación de una secuencia de "acciones" lógicas. SRL entrena al modelo para generar un monólogo de razonamiento interno antes de comprometerse con cada acción. Proporciona recompensas más suaves basadas en la similitud entre las acciones del modelo y las acciones expertas extraídas del conjunto de datos de SFT de manera escalonada. Esta supervisión ofrece señales de aprendizaje más ricas incluso cuando todas las ejecuciones son incorrectas, al mismo tiempo que fomenta un razonamiento flexible guiado por demostraciones expertas. Como resultado, SRL permite a los modelos pequeños aprender problemas desafiantes que antes eran inalcanzables para SFT o RLVR. Además, inicializar el entrenamiento con SRL antes de refinar con RLVR produce el rendimiento general más sólido. Más allá de los puntos de referencia de razonamiento, SRL se generaliza efectivamente a tareas de ingeniería de software agéntico, estableciéndolo como un marco de entrenamiento robusto y versátil para LLMs orientados al razonamiento.
Si bien las representaciones visuales preentrenadas han impulsado significativamente el aprendizaje por imitación, a menudo son agnósticas a la tarea, ya que permanecen congeladas durante el aprendizaje de políticas. En este trabajo, exploramos el uso de modelos de difusión de texto a imagen preentrenados para obtener representaciones visuales adaptativas para el control robótico, sin ajustar el modelo en sí. Sin embargo, encontramos que aplicar condiciones textuales de forma ingenua —una estrategia exitosa en otros dominios de visión— produce ganancias mínimas o incluso negativas en tareas de control. Atribuimos esto a la brecha de dominio entre los datos de entrenamiento del modelo de difusión y los entornos de control robótico, lo que nos lleva a proponer condiciones que consideren la información visual específica y dinámica requerida para el control. Con este fin, proponemos ORCA, que introduce indicaciones de tarea adaptables al entorno de control e indicaciones visuales que capturan detalles específicos de cada fotograma. Al facilitar representaciones adaptativas mediante nuestras nuevas condiciones, nuestro método logra un rendimiento de vanguardia en varios benchmarks de control robótico, superando significativamente a métodos anteriores.
La construcción de agentes que generalicen entre entornos web, de escritorio y móviles sigue siendo un desafío abierto, ya que los sistemas anteriores dependen de interfaces específicas del entorno que limitan el despliegue multiplataforma. Presentamos Surfer 2, una arquitectura unificada que opera únicamente a partir de observaciones visuales y logra un rendimiento de vanguardia en los tres entornos. Surfer 2 integra una gestión jerárquica del contexto, una planificación y ejecución desacopladas, y una auto-verificación con recuperación adaptativa, lo que permite una operación confiable en horizontes de tareas largos. Nuestro sistema alcanza una precisión del 97.1% en WebVoyager, 69.6% en WebArena, 60.1% en OSWorld y 87.1% en AndroidWorld, superando a todos los sistemas anteriores sin una ajuste fino específico por tarea. Con múltiples intentos, Surfer 2 supera el rendimiento humano en todos los puntos de referencia. Estos resultados demuestran que la orquestación sistemática amplifica las capacidades de los modelos fundacionales y permite el control informático de propósito general únicamente mediante la interacción visual, al mismo tiempo que plantea la necesidad de un modelo de lenguaje visual de próxima generación para lograr una relación costo-eficiencia Pareto-óptima.
Los modelos recientes de generación de vídeo pueden producir vídeos de alta fidelidad y coherencia temporal, lo que indica que pueden codificar un conocimiento sustancial del mundo. Más allá de la síntesis realista, también exhiben comportamientos emergentes indicativos de percepción visual, modelado y manipulación. Sin embargo, una pregunta importante sigue en el aire: ¿Están los modelos de vídeo preparados para servir como razonadores de cero disparos en escenarios desafiantes de razonamiento visual? En este trabajo, realizamos un estudio empírico para investigar exhaustivamente esta pregunta, centrándonos en el destacado y popular Veo-3. Evaluamos su comportamiento de razonamiento en 12 dimensiones, incluyendo lógica espacial, geométrica, física, temporal y corporeizada, caracterizando sistemáticamente tanto sus fortalezas como sus modos de fallo. Para estandarizar este estudio, organizamos los datos de evaluación en MME-CoF, un benchmark compacto que permite una evaluación profunda y minuciosa del razonamiento en Cadena de Fotogramas (CoF). Nuestros hallazgos revelan que, si bien los modelos de vídeo actuales demuestran patrones de razonamiento prometedores en coherencia espacial de horizonte corto, grounding de grano fino y dinámicas localmente consistentes, siguen siendo limitados en el razonamiento causal de horizonte largo, las restricciones geométricas estrictas y la lógica abstracta. En general, aún no son confiables como razonadores autónomos de cero disparos, pero exhiben señales alentadoras como motores visuales complementarios junto con modelos de razonamiento dedicados. Página del proyecto: https://video-cof.github.io
Presentamos AMO-Bench, un benchmark avanzado de razonamiento matemático con dificultad a nivel olímpico o incluso superior, que comprende 50 problemas elaborados manualmente. Los benchmarks existentes han aprovechado ampliamente las competiciones matemáticas de nivel preuniversitario para evaluar las capacidades de razonamiento matemático de los modelos de lenguaje grandes (LLMs). Sin embargo, muchas competiciones matemáticas existentes se están volviendo menos efectivas para evaluar los LLMs de primer nivel debido a la saturación del rendimiento (por ejemplo, AIME24/25). Para abordar esto, AMO-Bench introduce desafíos más rigurosos al garantizar que los 50 problemas (1) sean validados cruzadamente por expertos para cumplir al menos con los estándares de dificultad de la Olimpiada Internacional de Matemáticas (IMO), y (2) sean problemas completamente originales para evitar posibles filtraciones de rendimiento por memorización de datos. Además, cada problema en AMO-Bench requiere solo una respuesta final en lugar de una demostración, permitiendo una evaluación automática y robusta. Los resultados experimentales en 26 LLMs con AMO-Bench muestran que incluso el modelo con mejor rendimiento alcanza solo un 52.4% de precisión, con la mayoría de los LLMs por debajo del 40%. Más allá de estos pobres resultados, nuestro análisis adicional revela una tendencia prometedora de escalado con el aumento del cómputo en tiempo de prueba en AMO-Bench. Estos resultados resaltan el margen significativo de mejora en el razonamiento matemático de los LLMs actuales. Publicamos AMO-Bench para facilitar más investigación hacia el avance de las habilidades de razonamiento de los modelos de lenguaje. https://amo-bench.github.io/
Imaginamos una nueva era de la IA, denominada organización agentica, donde los agentes resuelven problemas complejos mediante trabajo colaborativo y concurrente, permitiendo resultados que trascienden la inteligencia individual. Para materializar esta visión, presentamos el pensamiento asíncrono (AsyncThink) como un nuevo paradigma de razonamiento con modelos de lenguaje grandes, que organiza el proceso de pensamiento interno en estructuras ejecutables concurrentemente. Específicamente, proponemos un protocolo de pensamiento donde un organizador asigna dinámicamente subconsultas a trabajadores, fusiona conocimiento intermedio y produce soluciones coherentes. Más importante aún, la estructura de pensamiento en este protocolo puede optimizarse adicionalmente mediante aprendizaje por refuerzo. Los experimentos demuestran que AsyncThink logra una latencia de inferencia 28% menor comparado con el pensamiento paralelo, mientras mejora la precisión en razonamiento matemático. Además, AsyncThink generaliza sus capacidades aprendidas de pensamiento asíncrono, abordando efectivamente tareas no vistas sin entrenamiento adicional.
A pesar de los recientes avances en la generación de movimiento humano en 3D (MoGen) en los benchmarks estándar, los modelos existentes aún se enfrentan a un cuello de botella fundamental en su capacidad de generalización. En contraste, campos generativos adyacentes, notablemente la generación de vídeo (ViGen), han demostrado una generalización notable en el modelado de conductas humanas, resaltando perspectivas transferibles que el MoGen puede aprovechar. Motivados por esta observación, presentamos un marco integral que transfiere sistemáticamente el conocimiento del ViGen al MoGen a través de tres pilares clave: datos, modelado y evaluación. En primer lugar, presentamos ViMoGen-228K, un conjunto de datos a gran escala que comprende 228.000 muestras de movimiento de alta calidad que integra datos ópticos MoCap de alta fidelidad con movimientos anotados semánticamente de vídeos web y muestras sintetizadas generadas por modelos ViGen de vanguardia. El conjunto de datos incluye tanto pares texto-movimiento como trillizos texto-vídeo-movimiento, expandiendo sustancialmente la diversidad semántica. En segundo lugar, proponemos ViMoGen, un transformador de difusión basado en emparejamiento de flujos que unifica *priors* de datos MoCap y modelos ViGen mediante un condicionamiento multimodal con puertas. Para mejorar la eficiencia, desarrollamos además ViMoGen-light, una variante destilada que elimina las dependencias de la generación de vídeo mientras preserva una fuerte generalización. Finalmente, presentamos MBench, un benchmark jerárquico diseñado para una evaluación de grano fino en la calidad del movimiento, la fidelidad al prompt y la capacidad de generalización. Experimentos exhaustivos muestran que nuestro marco supera significativamente a los enfoques existentes tanto en evaluaciones automáticas como humanas. El código, los datos y el benchmark estarán disponibles públicamente.
Existen dos métodos predominantes para construir escenas 3D: la generación procedural y la elevación desde 2D. Entre ellos, la elevación basada en panorámicas ha surgido como una técnica prometedora, aprovechando potentes priors generativos 2D para producir entornos 3D inmersivos, realistas y diversos. En este trabajo, avanzamos esta técnica para generar escenas 3D listas para gráficos, aptas para renderizado basado en física (PBR), relighting y simulación. Nuestra idea clave es readaptar modelos generativos 2D para la percepción panorámica de geometría, texturas y materiales PBR. A diferencia de los enfoques de elevación 2D existentes que enfatizan la generación de apariencia e ignoran la percepción de propiedades intrínsecas, presentamos OmniX, un marco versátil y unificado. Basado en una estructura adaptadora multimodal ligera y eficiente, OmniX reutiliza priors generativos 2D para una amplia gama de tareas de visión panorámica, incluyendo percepción, generación y completado panorámico. Además, construimos un extenso dataset sintético de panorámicas que contiene panoramas multimodales de alta calidad de diversas escenas interiores y exteriores. Experimentos exhaustivos demuestran la efectividad de nuestro modelo en la percepción visual panorámica y la generación de escenas 3D listas para gráficos, abriendo nuevas posibilidades para la generación inmersiva y físicamente realista de mundos virtuales.
Los modelos generativos actuales de texto a imagen se entrenan con grandes conjuntos de datos no seleccionados para permitir capacidades de generación diversas. Sin embargo, esto no se alinea bien con las preferencias de los usuarios. Recientemente, se han diseñado modelos de recompensa específicos para realizar una selección *post-hoc* de las imágenes generadas y alinearlas con una recompensa, típicamente la preferencia del usuario. Este descarte de datos informativos, junto con la optimización para una única recompensa, tiende a perjudicar la diversidad, la fidelidad semántica y la eficiencia. En lugar de este postprocesado, proponemos condicionar el modelo en múltiples modelos de recompensa durante el entrenamiento para permitir que el modelo aprenda las preferencias del usuario directamente. Demostramos que esto no solo mejora drásticamente la calidad visual de las imágenes generadas, sino que también acelera significativamente el entrenamiento. Nuestro método propuesto, denominado MIRO, logra un rendimiento de vanguardia en el benchmark compositivo GenEval y en las puntuaciones de preferencia del usuario (PickAScore, ImageReward, HPSv2).
Los dispositivos portátiles como las gafas inteligentes están transformando la forma en que las personas interactúan con su entorno, permitiendo a los usuarios buscar información sobre entidades en su campo visual. La Generación Aumentada por Recuperación Multimodal (MM-RAG) desempeña un papel clave para respaldar este tipo de consultas, pero aún no existe un punto de referencia integral para esta tarea, especialmente en escenarios de dispositivos portátiles. Para llenar este vacío, presentamos CRAG-MM: un punto de referencia integral de RAG para conversaciones multimodales y de múltiples turnos. CRAG-MM contiene un conjunto diverso de 6.5K trillizos (imagen, pregunta, respuesta) y 2K conversaciones multiturno basadas en visión a través de 13 dominios, incluyendo 6.2K imágenes egocéntricas diseñadas para simular capturas de dispositivos portátiles. Construimos las preguntas cuidadosamente para reflejar escenarios y desafíos del mundo real, incluyendo cinco tipos de problemas de calidad de imagen, seis tipos de preguntas, popularidad variable de entidades, diferente dinamismo de la información y distintos turnos de conversación. Diseñamos tres tareas: aumento de fuente única, aumento de múltiples fuentes y conversaciones multiturno, cada una acompañada de un corpus de recuperación asociado y APIs para recuperación de imágenes-KG y recuperación de páginas web. Nuestra evaluación muestra que los enfoques simples de RAG logran solo un 32% y 43% de veracidad en las preguntas y respuestas de turno único y multiturno de CRAG-MM, respectivamente, mientras que las soluciones industriales de vanguardia tienen una calidad similar (32%/45%), lo que subraya un amplio margen de mejora. El benchmark ha sido sede del KDD Cup 2025, atrayendo alrededor de 1K participantes y 5K envíos, y las soluciones ganadoras mejoraron el rendimiento de la línea base en un 28%, destacando su impacto temprano en el avance del campo.
Los Registros de Salud Electrónicos (RSE) contienen información rica pero compleja, y su análisis automatizado es crucial para la toma de decisiones clínicas. A pesar de los recientes avances de los modelos de lenguaje grandes (LLM) en los flujos de trabajo clínicos, su capacidad para analizar RSE sigue siendo limitada debido a una cobertura estrecha de tareas y a la falta de capacidades de razonamiento orientadas a RSE. Este artículo pretende cerrar esta brecha; específicamente, presentamos EHR-Ins, un conjunto de datos de instrucciones de razonamiento sobre RSE a gran escala y exhaustivo, que comprende 300k casos de razonamiento de alta calidad y 4M casos de no razonamiento en 42 tareas distintas de RSE. Su innovación central es un marco impulsado por un grafo de pensamiento que permite generar datos de razonamiento de alta calidad a escala. Sobre esta base, desarrollamos EHR-R1, una serie de LLM potenciados para el razonamiento con hasta 72B parámetros, diseñados específicamente para el análisis de RSE. Mediante un paradigma de entrenamiento multietapa, que incluye adaptación de dominio, mejora del razonamiento y aprendizaje por refuerzo, EHR-R1 adquiere sistemáticamente conocimiento del dominio y diversas capacidades de razonamiento, permitiendo un análisis de RSE preciso y robusto. Por último, presentamos EHR-Bench, un nuevo punto de referencia creado a partir de MIMIC-IV, que abarca 42 tareas, para evaluar de manera integral el razonamiento y la predicción en escenarios de RSE. En los experimentos, demostramos que el EHR-R1 resultante supera consistentemente a los LLM comerciales y de código abierto más avanzados (incluyendo DeepSeek-V3 y GPT-4o), superando a GPT-4o por más de 30 puntos en MIMIC-Bench y logrando un AUROC en zero-shot un 10% mayor en EHRSHOT. En conjunto, EHR-Ins, EHR-R1 y EHR-Bench han avanzado significativamente el desarrollo hacia un análisis de RSE más fiable y clínicamente relevante.
La IA documental ha avanzado rápidamente y está atrayendo una atención creciente. Sin embargo, aunque la mayoría de los esfuerzos se han centrado en el análisis de diseño de documentos (DLA), su contraparte generativa, la generación de diseño de documentos, sigue estando poco explorada. Un obstáculo principal reside en la escasez de diseños diversos: los artículos académicos con estructuras de estilo Manhattan dominan los estudios existentes, mientras que géneros del mundo real como periódicos y revistas permanecen severamente subrepresentados. Para abordar esta brecha, hemos creado OmniLayout-1M, el primer conjunto de datos a escala millonaria de diseños de documentos diversos, que cubre seis tipos de documentos comunes y comprende diseños contemporáneos recopilados de múltiples fuentes. Además, dado que los métodos existentes luchan en dominios complejos y a menudo fallan en organizar secuencias largas de manera coherente, presentamos OmniLayout-LLM, un modelo de 0.5B con un paradigma de aprendizaje diseñado en dos etapas de Coarse-to-Fine: 1) aprender principios de diseño universales de OmniLayout-1M con definiciones de categorías generales, y 2) transferir el conocimiento a un dominio específico con anotaciones detalladas. Experimentos exhaustivos demuestran que nuestro enfoque logra un rendimiento sólido en múltiples dominios del conjunto de datos M⁶Doc, superando sustancialmente tanto a los expertos existentes en generación de diseños como a varios LLMs de propósito general más recientes. Nuestro código, modelos y conjunto de datos serán publicados abiertamente.
A medida que los agentes de LLM avanzan, median cada vez más en decisiones económicas, desde el descubrimiento de productos hasta las transacciones, en nombre de los usuarios. Estas aplicaciones prometen beneficios, pero también plantean numerosas interrogantes sobre la responsabilidad de los agentes y su valor para los usuarios. Abordar estas cuestiones requiere comprender cómo se comportan los agentes en condiciones de mercado realistas. Sin embargo, investigaciones previas han evaluado principalmente a los agentes en entornos restringidos, como mercados de tarea única (por ejemplo, negociación) o interacciones estructuradas entre dos agentes. Los mercados del mundo real son fundamentalmente diferentes: exigen que los agentes manejen diversas actividades económicas y se coordinen dentro de ecosistemas grandes y dinámicos, donde múltiples agentes con comportamientos opacos pueden participar en diálogos abiertos. Para cerrar esta brecha, investigamos mercados agentes bilaterales donde los agentes Asistentes representan a los consumidores y los agentes de Servicio representan a empresas competidoras. Para estudiar estas interacciones de forma segura, desarrollamos Magentic-Marketplace, un entorno simulado donde los Asistentes y los Servicios pueden operar. Este entorno nos permite estudiar dinámicas clave del mercado: la utilidad que logran los agentes, los sesgos conductuales, la vulnerabilidad a la manipulación y cómo los mecanismos de búsqueda moldean los resultados del mercado. Nuestros experimentos muestran que los modelos de vanguardia pueden aproximarse al bienestar óptimo, pero solo bajo condiciones de búsqueda ideales. El rendimiento se degrada abruptamente con la escala, y todos los modelos exhiben un severo sesgo por la primera propuesta, creando ventajas de 10 a 30 veces para la velocidad de respuesta sobre la calidad. Estos hallazgos revelan cómo emergen los comportamientos en distintas condiciones de mercado, informando el diseño de mercados agentes justos y eficientes.
La generación 3D basada en partes tiene un gran potencial para diversas aplicaciones. Los generadores de partes anteriores que representan las partes mediante tokens implícitos de conjuntos vectoriales a menudo adolecen de detalles geométricos insuficientes. Otra línea de trabajo adopta una representación explícita de vóxeles pero comparte una malla de vóxeles global entre todas las partes; esto suele provocar que las partes pequeñas ocupen muy pocos vóxeles, lo que conduce a una calidad degradada. En este artículo, proponemos FullPart, un marco novedoso que combina ambos paradigmas, implícito y explícito. Primero deriva la disposición de las cajas delimitadoras mediante un proceso de difusión implícito de conjuntos vectoriales de cajas, una tarea que la difusión implícita maneja eficazmente ya que los tokens de caja contienen pocos detalles geométricos. Luego, genera partes detalladas, cada una dentro de su propia malla de vóxeles de resolución completa fija. En lugar de compartir un espacio global de baja resolución, cada parte en nuestro método -incluso las pequeñas- se genera a resolución completa, permitiendo la síntesis de detalles intrincados. Además, introducimos una estrategia de codificación por punto central para abordar el problema de desalineación al intercambiar información entre partes de diferentes tamaños reales, manteniendo así la coherencia global. Además, para abordar la escasez de datos de partes confiables, presentamos PartVerse-XL, el mayor conjunto de datos de partes 3D anotado manualmente hasta la fecha, con 40K objetos y 320K partes. Experimentos exhaustivos demuestran que FullPart logra resultados de vanguardia en generación de partes 3D. Liberaremos todo el código, datos y modelo para beneficiar la investigación futura en generación de partes 3D.
Los Modelos Multimodales Grandes (LMMs) son cada vez más capaces de responder preguntas médicas que requieren razonamiento conjunto sobre imágenes y texto, sin embargo, el entrenamiento de sistemas generales de VQA médica se ve obstaculizado por la falta de grandes corpus de alta calidad y de uso abierto. Presentamos MedVLSynther, un marco generador-verificador guiado por rúbrica que sintetiza ítems de VQA de opción múltiple de alta calidad directamente a partir de la literatura biomédica abierta, condicionando sobre figuras, leyendas y referencias en el texto. El generador produce enunciados autocontenidos y opciones paralelas, mutuamente excluyentes, bajo un esquema JSON comprobable por máquina; un verificador multietapa aplica compuertas esenciales (autocontención, respuesta correcta única, validez clínica, consistencia imagen-texto), otorga puntos positivos de granularidad fina y penaliza modos de fallo comunes antes de la aceptación. La aplicación de este pipeline a PubMed Central produce MedSynVQA: 13,087 preguntas auditadas sobre 14,803 imágenes que abarcan 13 modalidades de imagen y 28 regiones anatómicas. El entrenamiento de LMMs de pesos abiertos con aprendizaje por refuerzo utilizando recompensas verificables mejora la precisión en seis benchmarks de VQA médica, logrando promedios de 55.85 (3B) y 58.15 (7B), con hasta 77.57 en VQA-RAD y 67.76 en PathVQA, superando a LMMs médicos robustos. Las ablaciones verifican que tanto la generación como la verificación son necesarias y que más datos verificados ayudan consistentemente, y un análisis de contaminación dirigido no detecta filtración de los conjuntos de evaluación. Al operar completamente sobre literatura abierta y modelos de pesos abiertos, MedVLSynther ofrece una ruta auditable, reproducible y que preserva la privacidad hacia datos de entrenamiento de VQA médica escalables.
Las IA han logrado avances rápidos en benchmarks de investigación sobre conocimiento y razonamiento, pero aún no está claro cómo estas mejoras se traducen en valor económico y automatización. Para medir esto, presentamos el Índice de Trabajo Remoto (RLI), un benchmark multisectorial amplio que comprende proyectos del mundo real con valor económico, diseñado para evaluar el desempeño integral de agentes en entornos prácticos. Los agentes de IA obtienen resultados cercanos al mínimo en el RLI, con la agente de mayor rendimiento logrando una tasa de automatización del 2.5%. Estos resultados ayudan a fundamentar las discusiones sobre automatización con IA en evidencia empírica, estableciendo una base común para rastrear sus impactos y permitiendo que los actores involucrados naveguen proactivamente la automatización laboral impulsada por IA.
Este trabajo investiga si los modelos lingüísticos de pequeña escala pueden beneficiarse del ajuste por instrucciones. Comparamos conjuntos de datos de ajuste para conversación y respuesta a preguntas, aplicados mediante un currículo fusionado o secuencial, utilizando modelos de solo decodificador con 100 y 140 millones de parámetros. La evaluación abarca escenarios de ajuste fino (SuperGLUE) y de cero disparos (BLiMP, EWoK, WUGs, seguimiento de entidades y correlación psicolingüística). Los resultados muestran que el ajuste por instrucciones produce ganancias pequeñas pero consistentes en escenarios de ajuste fino, con currículos secuenciales superando a los datos fusionados; sin embargo, las mejoras no se transfieren consistentemente a tareas de cero disparos, lo que sugiere una disyuntiva entre la adaptación centrada en la interacción y la generalización lingüística amplia. Estos resultados destacan tanto el potencial como las limitaciones de adaptar estrategias de aprendizaje inspiradas en humanos a modelos lingüísticos de bajos recursos, y apuntan hacia enfoques híbridos basados en currículos para mejorar la generalización bajo límites de entrenamiento ecológicos.
Los modelos de lenguaje grande (LLM) actuales que utilizan herramientas se entrenan con conjuntos de datos estáticos, lo que les permite interactuar con herramientas externas y realizar razonamientos multi-etapa integrando herramientas, generando así trayectorias de llamadas a herramientas. Sin embargo, estos modelos imitan cómo se resuelve una consulta en una rutina genérica de llamadas a herramientas, lo que les impide explorar soluciones alternativas y demuestra un rendimiento limitado en entornos dinámicos y evolutivos de llamadas a herramientas. En este trabajo, proponemos PORTool, un método de aprendizaje por refuerzo (RL) que incentiva a un LLM que utiliza herramientas a explorar diversas trayectorias que conduzcan a la respuesta correcta. Específicamente, este método comienza generando múltiples rollouts para una consulta dada, algunos de los cuales comparten los primeros pasos de llamadas a herramientas, formando así una estructura arbórea. A continuación, asignamos recompensas a cada paso, basándonos en su capacidad para producir una respuesta correcta y realizar llamadas a herramientas exitosas. Un paso compartido entre diferentes trayectorias recibe la misma recompensa, mientras que pasos diferentes bajo la misma bifurcación reciben recompensas distintas. Finalmente, estas recompensas a nivel de paso se utilizan para calcular ventajas relativas a la bifurcación, combinadas con ventajas relativas a la trayectoria, para entrenar al LLM en el uso de herramientas. Los experimentos utilizan 17 herramientas para abordar consultas de usuarios, cubriendo tanto temas sensibles al tiempo como invariantes en el tiempo. Realizamos estudios de ablación para justificar sistemáticamente la necesidad y la robustez del diseño de las recompensas paso a paso. Además, comparamos el PORTool propuesto con otros enfoques de entrenamiento y demostramos mejoras significativas en la precisión final y en el número de pasos de llamadas a herramientas.
Los Modelos de Lenguaje a Gran Escala (LLM) ofrecen un rendimiento de vanguardia en tareas de comprensión y generación de lenguaje natural. Sin embargo, el despliegue de los principales modelos comerciales para tareas especializadas, como el comercio electrónico, a menudo se ve obstaculizado por los altos costes computacionales, la latencia y los gastos operativos. Este artículo investiga la viabilidad de modelos más pequeños y de pesos abiertos como una alternativa eficiente en recursos. Presentamos una metodología para optimizar un modelo Llama 3.2 de mil millones de parámetros para el reconocimiento de intenciones en comercio electrónico multilingüe. El modelo fue ajustado mediante Adaptación de Bajo Rango Cuantizada (QLoRA) en un conjunto de datos generado sintéticamente diseñado para imitar consultas de usuarios del mundo real. Posteriormente, aplicamos técnicas de cuantización posterior al entrenamiento, creando versiones optimizadas para GPU (GPTQ) y para CPU (GGUF). Nuestros resultados demuestran que el modelo especializado de 1B alcanza un 99% de precisión, igualando el rendimiento del modelo GPT-4.1, significativamente más grande. Un análisis detallado del rendimiento reveló compensaciones críticas dependientes del hardware: mientras que GPTQ de 4 bits redujo el uso de VRAM en un 41%, paradójicamente ralentizó la inferencia en un 82% en una arquitectura GPU antigua (NVIDIA T4) debido a la sobrecarga de descuantización. Por el contrario, los formatos GGUF en una CPU lograron una aceleración de hasta 18x en el rendimiento de inferencia y una reducción de más del 90% en el consumo de RAM en comparación con la línea base FP16. Concluimos que los modelos pequeños de pesos abiertos, debidamente optimizados, no son solo una alternativa viable, sino más adecuada para aplicaciones específicas de dominio, ya que ofrecen una precisión de vanguardia a una fracción del coste computacional.
La auto-mejora ha surgido como un paradigma predominante para avanzar en las capacidades de razonamiento de los grandes modelos de visión y lenguaje (LVLM, por sus siglas en inglés), donde los modelos exploran y aprenden de trayectorias exitosas de forma iterativa. Sin embargo, identificamos un problema crítico durante este proceso: el modelo sobresale en generar trayectorias de alta calidad para consultas simples (es decir, datos de cabeza) pero tiene dificultades con las más complejas (es decir, datos de cola). Esto conduce a una optimización desequilibrada que impulsa al modelo a priorizar habilidades de razonamiento simples, mientras obstaculiza su capacidad para abordar tareas de razonamiento más complejas. A lo largo de las iteraciones, este desequilibrio se vuelve cada vez más pronunciado —una dinámica que denominamos "efecto Mateo"— lo que finalmente impide una mejora adicional del modelo y conduce a cuellos de botella en el rendimiento. Para contrarrestar este desafío, introducimos cuatro estrategias eficientes desde dos perspectivas: remodelación de la distribución y remuestreo de trayectorias, para lograr un reequilibrio cabeza-cola durante el proceso de exploración y aprendizaje de la auto-mejora. Experimentos exhaustivos en los modelos Qwen2-VL-7B-Instruct e InternVL2.5-4B en tareas de razonamiento visual demuestran que nuestros métodos mejoran consistentemente las capacidades de razonamiento visual, superando a la auto-mejora básica por 3.86 puntos en promedio.
Los grandes modelos de lenguaje han demostrado capacidades de razonamiento notables en diversas tareas de lenguaje natural. Sin embargo, los avances comparables en el descubrimiento científico son más limitados, ya que la comprensión de fenómenos físicos complejos requiere representaciones multifacéticas que van mucho más allá del lenguaje por sí solo. Un ejemplo convincente es el diseño de materiales funcionales como las MOF, críticos para aplicaciones de impacto como la captura de carbono y el almacenamiento de hidrógeno. Navegar por su vasto e intrincado espacio de diseño mediante representaciones basadas en lenguaje interpretables por LLM es un desafío debido a las numerosas disposiciones atómicas tridimensionales posibles y las estrictas reglas reticulares de la geometría y topología de coordinación. A pesar de los prometedores resultados iniciales en el descubrimiento asistido por LLM para sistemas de materiales más simples, el diseño de MOF sigue dependiendo en gran medida de la experiencia humana tácita, raramente codificada únicamente en información textual. Para superar esta barrera, presentamos L2M3OF, el primer LLM multimodal para MOF. L2M3OF integra el aprendizaje de representaciones cristalinas con la comprensión del lenguaje para procesar conjuntamente las modalidades estructural, textual y de conocimiento. L2M3OF emplea un codificador de cristales preentrenado con una capa de proyección ligera para comprimir la información estructural en un espacio de tokens, permitiendo una alineación eficiente con instrucciones de lenguaje. Para facilitar el entrenamiento y la evaluación, hemos creado una base de datos de estructura-propiedad-conocimiento de materiales cristalinos y comparamos L2M3OF con LLM cerrados de última generación como GPT-5, Gemini-2.5-Pro y DeepSeek-R1. Los experimentos muestran que L2M3OF supera a los principales LLM cerrados basados en texto en tareas de predicción de propiedades y generación de conocimiento, a pesar de utilizar muchos menos parámetros. Estos resultados subrayan la importancia de los enfoques multimodales para la comprensión de materiales porosos y establecen a L2M3OF como una base para los sistemas de IA de próxima generación en el descubrimiento de materiales.
Diseñar estructuras de enzimas con funcionalidad específica para sustratos es un desafío crítico en la ingeniería de proteínas computacional. Los modelos generativos actuales sobresalen en el diseño de proteínas, pero enfrentan limitaciones en cuanto a datos de unión, control específico de sustrato y flexibilidad para la generación de novo de estructuras de enzimas. Para abordar esto, presentamos EnzyBind, un conjunto de datos con 11,100 pares enzima-sustrato validados experimentalmente, específicamente seleccionados de PDBbind. Sobre esta base, proponemos EnzyControl, un método que permite el control funcional y específico del sustrato en la generación de estructuras de enzimas. Nuestro enfoque genera estructuras de enzimas condicionadas a sitios catalíticos anotados con MSA y sus sustratos correspondientes, los cuales se extraen automáticamente de los datos curados de pares enzima-sustrato. En el núcleo de EnzyControl se encuentra EnzyAdapter, un componente modular y ligero integrado en un modelo preentrenado de andamiaje de motivos, permitiéndole adquirir conciencia del sustrato. Un paradigma de entrenamiento en dos etapas refina aún más la capacidad del modelo para generar estructuras de enzimas precisas y funcionales. Los experimentos muestran que nuestro EnzyControl logra el mejor rendimiento en métricas estructurales y funcionales en los benchmarks EnzyBind y EnzyBench, con mejoras particularmente notables del 13% en la capacidad de diseño y del 13% en la eficiencia catalítica en comparación con los modelos base. El código se ha publicado en https://github.com/Vecteur-libre/EnzyControl.
Los recientes avances en el procesamiento del lenguaje hablado han generado un progreso sustancial en tareas fonéticas como el reconocimiento automático del habla (ASR), el reconocimiento de fonemas (PR), la conversión de grafema a fonema (G2P) y la conversión de fonema a grafema (P2G). A pesar de su similitud conceptual, estas tareas se han estudiado principalmente de forma aislada, cada una dependiendo de arquitecturas y conjuntos de datos específicos para cada tarea. En este artículo, presentamos POWSM (Phonetic Open Whisper-style Speech Model), el primer marco unificado capaz de realizar conjuntamente múltiples tareas relacionadas con los fonemas. POWSM permite la conversión fluida entre audio, texto (grafemas) y fonemas, abriendo nuevas posibilidades para el procesamiento del habla universal y en entornos de bajos recursos. Nuestro modelo supera o iguala a modelos especializados de PR de tamaño similar (Wav2Vec2Phoneme y ZIPA) mientras admite conjuntamente G2P, P2G y ASR. Nuestros datos de entrenamiento, código y modelos se han publicado para fomentar la ciencia abierta.
El aprovechamiento de datos web de gran escala y acceso público, como imágenes de vista de calle e imágenes satelitales, es de suma importancia para la percepción socioeconómica urbana y la consecución de los objetivos globales de desarrollo sostenible. Con la aparición de los Grandes Modelos de Visión y Lenguaje (LVLM, por sus siglas en inglés), han surgido nuevas oportunidades para abordar esta tarea tratándola como un problema de percepción y comprensión multimodal. Sin embargo, estudios recientes revelan que los LVLM aún presentan dificultades para realizar predicciones socioeconómicas precisas e interpretables a partir de datos visuales. Para superar estas limitaciones y maximizar el potencial de los LVLM, presentamos CityRiSE, un novedoso marco de trabajo para el Razonamiento del Estatus Socio-Económico urbano en LVLM mediante aprendizaje por refuerzo puro (RL, por sus siglas en inglés). Con datos multimodales cuidadosamente seleccionados y un diseño de recompensa verificable, nuestro enfoque guía al LVLM para que se centre en indicios visuales semánticamente significativos, permitiendo un razonamiento estructurado y orientado a objetivos para la predicción generalista del estatus socioeconómico. Los experimentos demuestran que CityRiSE, con su proceso de razonamiento emergente, supera significativamente a los métodos baseline existentes, mejorando tanto la precisión predictiva como la generalización en diversos contextos urbanos, particularmente para la predicción en ciudades no vistas previamente y en indicadores no vistos. Este trabajo subraya el potencial de combinar RL y LVLM para una percepción socioeconómica urbana interpretable y generalista.
Los gráficos desempeñan un papel importante en la visualización, el razonamiento, el análisis de datos y el intercambio de ideas entre humanos. Sin embargo, los modelos de visión y lenguaje existentes aún carecen de una percepción precisa de los detalles y tienen dificultades para extraer estructuras de granularidad fina de los gráficos. Estas limitaciones en el anclaje de gráficos también obstaculizan su capacidad para comparar múltiples gráficos y razonar sobre ellos. En este artículo, presentamos un novedoso "Benchmark ChartAlign (ChartAB)" para proporcionar una evaluación integral de los modelos de visión y lenguaje en tareas de anclaje de gráficos, es decir, extraer datos tabulares, localizar elementos de visualización y reconocer diversos atributos de gráficos de diversos tipos y complejidades. Diseñamos una plantilla JSON para facilitar el cálculo de métricas de evaluación específicamente adaptadas para cada tarea de anclaje. Al incorporar un novedoso flujo de trabajo de inferencia en dos etapas, el benchmark puede evaluar además la capacidad de los modelos para alinear y comparar elementos/atributos entre dos gráficos. Nuestro análisis de las evaluaciones en varios modelos de visión y lenguaje recientes revela nuevas perspectivas sobre sus sesgos de percepción, debilidades, robustez y alucinaciones en la comprensión de gráficos. Estos hallazgos destacan las discrepancias de granularidad fina entre los modelos en tareas de comprensión de gráficos y señalan habilidades específicas que deben fortalecerse en los modelos actuales.