Artículos de investigación en IA seleccionados diariamente con traducciones
En este artículo, proponemos un nuevo paradigma de aprendizaje, denominado Cadena-de-Modelo (Chain-of-Model, CoM), que incorpora la relación causal en los estados ocultos de cada capa en forma de cadena, introduciendo así una gran eficiencia de escalado en el entrenamiento del modelo y flexibilidad en la inferencia durante su despliegue. Introducimos el concepto de Cadena-de-Representación (Chain-of-Representation, CoR), que formula los estados ocultos en cada capa como una combinación de múltiples sub-representaciones (es decir, cadenas) a nivel de la dimensión oculta. En cada capa, cada cadena de las representaciones de salida solo puede ver todas las cadenas precedentes en las representaciones de entrada. En consecuencia, el modelo construido sobre el marco CoM puede escalar progresivamente el tamaño del modelo aumentando las cadenas basadas en los modelos anteriores (es decir, cadenas), y ofrecer múltiples submodelos de distintos tamaños para una inferencia elástica utilizando diferentes números de cadenas. Basándonos en este principio, diseñamos Cadena-de-Modelo-de-Lenguaje (Chain-of-Language-Model, CoLM), que incorpora la idea de CoM en cada capa de la arquitectura Transformer. Basándonos en CoLM, introducimos además CoLM-Air mediante un mecanismo de compartición de claves y valores (KV), que calcula todas las claves y valores dentro de la primera cadena y luego los comparte en todas las cadenas. Este diseño demuestra una extensibilidad adicional, como permitir un cambio fluido de modelos de lenguaje, aceleración de prefilling, entre otros. Los resultados experimentales demuestran que nuestra familia CoLM puede alcanzar un rendimiento comparable al Transformer estándar, al mismo tiempo que habilita una mayor flexibilidad, como el escalado progresivo para mejorar la eficiencia del entrenamiento y ofrecer múltiples tamaños de modelo para una inferencia elástica, abriendo un nuevo camino hacia la construcción de modelos de lenguaje. Nuestro código será lanzado en el futuro en: https://github.com/microsoft/CoLM.
Recientemente, los modelos de razonamiento a gran escala han logrado un rendimiento impresionante en diversas tareas al emplear un pensamiento profundo similar al humano. Sin embargo, el prolongado proceso de pensamiento aumenta sustancialmente la sobrecarga de inferencia, convirtiendo la eficiencia en un cuello de botella crítico. En este trabajo, primero demostramos que NoThinking, que induce al modelo de razonamiento a omitir el pensamiento y generar directamente la solución final, es una opción mejor para tareas relativamente simples en términos tanto de rendimiento como de eficiencia. Motivados por esto, proponemos AdaptThink, un novedoso algoritmo de RL para enseñar a los modelos de razonamiento a elegir de manera adaptativa el modo de pensamiento óptimo según la dificultad del problema. Específicamente, AdaptThink cuenta con dos componentes principales: (1) un objetivo de optimización restringido que incentiva al modelo a elegir NoThinking mientras mantiene el rendimiento general; (2) una estrategia de muestreo por importancia que equilibra las muestras de Thinking y NoThinking durante el entrenamiento on-policy, permitiendo así un arranque en frío y posibilitando que el modelo explore y explote ambos modos de pensamiento a lo largo del proceso de entrenamiento. Nuestros experimentos indican que AdaptThink reduce significativamente los costos de inferencia mientras mejora aún más el rendimiento. Notablemente, en tres conjuntos de datos matemáticos, AdaptThink reduce la longitud promedio de respuesta de DeepSeek-R1-Distill-Qwen-1.5B en un 53% y mejora su precisión en un 2.4%, destacando el potencial de la selección adaptativa del modo de pensamiento para optimizar el equilibrio entre la calidad del razonamiento y la eficiencia. Nuestros códigos y modelos están disponibles en https://github.com/THU-KEG/AdaptThink.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables, pero a menudo enfrentan desafíos en tareas que requieren razonamiento sofisticado. Si bien el enfoque de Cadena de Pensamiento (CoT, por sus siglas en inglés) mejora significativamente el razonamiento, genera indiscriminadamente pasos de razonamiento extensos para todas las consultas, lo que conlleva costos computacionales sustanciales e ineficiencias, especialmente para entradas más simples. Para abordar este problema crítico, presentamos AdaCoT (Cadena de Pensamiento Adaptativa), un marco novedoso que permite a los LLMs decidir de manera adaptativa cuándo invocar CoT. AdaCoT enmarca el razonamiento adaptativo como un problema de optimización de Pareto que busca equilibrar el rendimiento del modelo con los costos asociados a la invocación de CoT (tanto en frecuencia como en sobrecarga computacional). Proponemos un método basado en aprendizaje por refuerzo (RL, por sus siglas en inglés), específicamente utilizando Optimización de Política Proximal (PPO, por sus siglas en inglés), para controlar dinámicamente el límite de decisión de activación de CoT ajustando coeficientes de penalización, permitiendo así que el modelo determine la necesidad de CoT basándose en la complejidad implícita de la consulta. Una contribución técnica clave es el Enmascaramiento Selectivo de Pérdidas (SLM, por sus siglas en inglés), diseñado para contrarrestar el colapso del límite de decisión durante el entrenamiento de RL en múltiples etapas, asegurando una activación adaptativa robusta y estable. Los resultados experimentales demuestran que AdaCoT navega con éxito la frontera de Pareto, logrando reducciones sustanciales en el uso de CoT para consultas que no requieren un razonamiento elaborado. Por ejemplo, en nuestro conjunto de pruebas de tráfico de producción, AdaCoT redujo las tasas de activación de CoT hasta un 3.18% y disminuyó los tokens de respuesta promedio en un 69.06%, manteniendo un alto rendimiento en tareas complejas.
Los modelos de lenguaje con capacidad de razonamiento, capaces de realizar cadenas de pensamiento extendidas, han demostrado un rendimiento notable en tareas que requieren inferencia lógica compleja. Sin embargo, aplicar un razonamiento elaborado para todas las consultas a menudo resulta en ineficiencias computacionales significativas, especialmente cuando muchos problemas admiten soluciones directas. Esto plantea una pregunta abierta: ¿Pueden los LLMs aprender cuándo pensar? Para responder a esto, proponemos Thinkless, un marco aprendible que permite a un LLM seleccionar de manera adaptativa entre un razonamiento breve y uno extenso, basándose tanto en la complejidad de la tarea como en la capacidad del modelo. Thinkless se entrena bajo un paradigma de aprendizaje por refuerzo y emplea dos tokens de control, <short> para respuestas concisas y <think> para un razonamiento detallado. En el núcleo de nuestro método se encuentra un algoritmo de Optimización de Política Relativa de Grupo Desacoplada (DeGRPO), que descompone el objetivo de aprendizaje del razonamiento híbrido en dos componentes: (1) una pérdida de token de control que gobierna la selección del modo de razonamiento, y (2) una pérdida de respuesta que mejora la precisión de las respuestas generadas. Esta formulación desacoplada permite un control detallado sobre las contribuciones de cada objetivo, estabilizando el entrenamiento y previniendo eficazmente el colapso observado en GRPO convencional. Empíricamente, en varios puntos de referencia como Minerva Algebra, MATH-500 y GSM8K, Thinkless logra reducir el uso de pensamiento de cadena larga entre un 50% y un 90%, mejorando significativamente la eficiencia de los modelos de lenguaje con capacidad de razonamiento. El código está disponible en https://github.com/VainF/Thinkless.
El mecanismo de atención de un transformador tiene una complejidad cuadrática, lo que conlleva altos costos de inferencia y latencia para secuencias largas. Sin embargo, las matrices de atención son mayormente dispersas, lo que implica que muchas entradas pueden omitirse del cálculo para una inferencia eficiente. Los métodos de inferencia de atención dispersa buscan reducir esta carga computacional; no obstante, también vienen acompañados de una problemática degradación del rendimiento. Descubrimos que una de las razones de esta degradación es que el cálculo disperso induce un cambio distribucional en las salidas de atención. Este cambio distribucional hace que las consultas en tiempo de decodificación no se alineen adecuadamente con las claves apropiadas de la etapa de prellenado, lo que resulta en una caída del rendimiento. Proponemos un procedimiento simple, novedoso y efectivo para corregir este cambio distribucional, acercando la distribución de las salidas de atención dispersa a la de la atención cuadrática. Nuestro método puede aplicarse sobre cualquier método de atención dispersa y resulta en un aumento promedio del rendimiento de 36 puntos porcentuales, recuperando el 88% de la precisión de la atención cuadrática en el benchmark RULER de 131K cuando se aplica sobre la atención de ventana deslizante con tokens sumidero, mientras añade solo un pequeño sobrecosto. Nuestro método puede mantener aproximadamente un 98.5% de dispersión sobre la atención cuadrática completa, haciendo que nuestro modelo sea 32 veces más rápido que Flash Attention 2 al procesar prellenados de 1 millón de tokens.
La fundamentación de interfaces gráficas de usuario (GUI), la capacidad de mapear instrucciones en lenguaje natural a acciones específicas en interfaces gráficas de usuario, sigue siendo un cuello de botella crítico en el desarrollo de agentes de uso informático. Los puntos de referencia actuales simplifican en exceso las tareas de fundamentación como expresiones referenciales cortas, sin capturar la complejidad de las interacciones del mundo real que requieren sentido común de software, comprensión de diseño y capacidades de manipulación de grano fino. Para abordar estas limitaciones, presentamos OSWorld-G, un punto de referencia integral que comprende 564 muestras finamente anotadas en diversos tipos de tareas, incluyendo coincidencia de texto, reconocimiento de elementos, comprensión de diseño y manipulación precisa. Además, sintetizamos y publicamos el mayor conjunto de datos de fundamentación de uso informático, Jedi, que contiene 4 millones de ejemplos a través del desacoplamiento multiperspectiva de tareas. Nuestros modelos multiescala entrenados en Jedi demuestran su efectividad al superar los enfoques existentes en ScreenSpot-v2, ScreenSpot-Pro y nuestro OSWorld-G. Además, demostramos que una mejor fundamentación con Jedi mejora directamente las capacidades agentivas de los modelos fundacionales generales en tareas informáticas complejas, mejorando del 5% al 27% en OSWorld. A través de estudios de ablación detallados, identificamos los factores clave que contribuyen al rendimiento de la fundamentación y verificamos que la combinación de datos especializados para diferentes elementos de la interfaz permite la generalización composicional a interfaces novedosas. Todos los puntos de referencia, datos, puntos de control y código son de código abierto y están disponibles en https://osworld-grounding.github.io.
La fusión de modelos ha surgido como una técnica prometedora para mejorar los modelos de lenguaje a gran escala, aunque su aplicación en el preentrenamiento a gran escala sigue siendo relativamente inexplorada. En este artículo, presentamos una investigación exhaustiva de las técnicas de fusión de modelos durante el proceso de preentrenamiento. A través de experimentos extensos con arquitecturas densas y de Mezcla de Expertos (MoE) que van desde millones hasta más de 100 mil millones de parámetros, demostramos que la fusión de puntos de control entrenados con tasas de aprendizaje constantes no solo logra mejoras significativas en el rendimiento, sino que también permite predecir con precisión el comportamiento de enfriamiento. Estas mejoras conducen tanto a un desarrollo de modelos más eficiente como a costos de entrenamiento significativamente más bajos. Nuestros estudios de ablación detallados sobre estrategias de fusión e hiperparámetros proporcionan nuevas perspectivas sobre los mecanismos subyacentes mientras descubren aplicaciones novedosas. A través de un análisis experimental exhaustivo, ofrecemos a la comunidad de código abierto pautas prácticas de preentrenamiento para una fusión de modelos efectiva.
La escalabilidad de los transformadores de difusión de video (DiTs) se ve limitada por su atención 3D cuadrática, a pesar de que la mayor parte de la masa de atención se concentra en un subconjunto pequeño de posiciones. Convertimos esta observación en VSA, una atención dispersa eficiente en hardware y entrenable que reemplaza la atención completa tanto en el entrenamiento como en la inferencia. En VSA, una etapa ligera de agrupación (coarse stage) agrupa los tokens en bloques e identifica los tokens críticos de mayor peso; una etapa detallada (fine stage) calcula la atención a nivel de token solo dentro de esos bloques, siguiendo un diseño de computación por bloques para garantizar eficiencia dura. Esto da lugar a un núcleo diferenciable único que se entrena de extremo a extremo, no requiere perfilado posterior y mantiene el 85\% de la MFU de FlashAttention3. Realizamos un amplio barrido de estudios de ablación y experimentos de leyes de escalabilidad preentrenando DiTs desde 60M hasta 1.4B parámetros. VSA alcanza un punto de Pareto que reduce los FLOPS de entrenamiento en 2.53 veces sin pérdida en la pérdida de difusión. La adaptación del modelo de código abierto Wan-2.1 acelera el tiempo de atención en 6 veces y reduce el tiempo de generación de extremo a extremo de 31s a 18s con calidad comparable. Estos resultados establecen la atención dispersa entrenable como una alternativa práctica a la atención completa y un habilitador clave para seguir escalando los modelos de difusión de video.
Medir cómo se ven las imágenes reales es una tarea compleja en la investigación de inteligencia artificial. Por ejemplo, una imagen de un niño con una aspiradora en un desierto viola el sentido común. Introducimos un método novedoso, al que llamamos Through the Looking Glass (TLG), para evaluar la consistencia del sentido común en imágenes utilizando Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) y un codificador basado en Transformers. Al aprovechar los LVLMs para extraer hechos atómicos de estas imágenes, obtenemos una mezcla de hechos precisos. Procedemos ajustando un clasificador compacto de agrupación de atención sobre los hechos atómicos codificados. Nuestro TLG ha logrado un nuevo rendimiento de vanguardia en los conjuntos de datos WHOOPS! y WEIRD, mientras aprovecha un componente compacto de ajuste fino.
Los avances recientes en la reconstrucción dinámica de escenas 3D han mostrado resultados prometedores, permitiendo la síntesis de nuevas vistas 3D de alta fidelidad con una mejor consistencia temporal. Entre estos, el método de 4D Gaussian Splatting (4DGS) ha surgido como un enfoque atractivo debido a su capacidad para modelar variaciones espaciales y temporales de alta fidelidad. Sin embargo, los métodos existentes sufren de un sobrecosto computacional y de memoria significativo debido a la asignación redundante de gaussianas 4D en regiones estáticas, lo que también puede degradar la calidad de la imagen. En este trabajo, presentamos hybrid 3D-4D Gaussian Splatting (3D-4DGS), un marco novedoso que representa adaptativamente las regiones estáticas con gaussianas 3D mientras reserva gaussianas 4D para los elementos dinámicos. Nuestro método comienza con una representación completamente 4D y convierte iterativamente las gaussianas temporalmente invariantes en 3D, reduciendo significativamente el número de parámetros y mejorando la eficiencia computacional. Mientras tanto, las gaussianas dinámicas conservan su representación 4D completa, capturando movimientos complejos con alta fidelidad. Nuestro enfoque logra tiempos de entrenamiento significativamente más rápidos en comparación con los métodos base de 4D Gaussian Splatting, manteniendo o mejorando la calidad visual.
La capacidad de razonamiento, un componente fundamental de la inteligencia humana, sigue representando un desafío significativo para los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en la búsqueda de la Inteligencia General Artificial (AGI). Aunque el rendimiento de los modelos ha mejorado bajo la ley de escalamiento del entrenamiento, persisten desafíos importantes, particularmente en relación con los algoritmos de entrenamiento, como el olvido catastrófico, y la disponibilidad limitada de datos de entrenamiento novedosos. Como alternativa, el escalamiento en tiempo de prueba mejora el rendimiento del razonamiento al incrementar la computación durante la prueba sin actualizar los parámetros. A diferencia de métodos previos en este paradigma centrados en el espacio de tokens, proponemos aprovechar el espacio latente para un razonamiento más efectivo y una mejor adherencia a la ley de escalamiento en tiempo de prueba. Presentamos LatentSeek, un marco novedoso que mejora el razonamiento de los LLMs mediante la Adaptación a Nivel de Instancia en Tiempo de Prueba (TTIA, por sus siglas en inglés) dentro del espacio latente del modelo. Específicamente, LatentSeek utiliza el gradiente de política para actualizar iterativamente las representaciones latentes, guiado por señales de recompensa autogeneradas. LatentSeek es evaluado en una variedad de benchmarks de razonamiento, incluyendo GSM8K, MATH-500 y AIME2024, en múltiples arquitecturas de LLMs. Los resultados muestran que LatentSeek supera consistentemente a métodos de referencia sólidos, como el prompting de Cadena de Pensamiento y métodos basados en ajuste fino. Además, nuestro análisis demuestra que LatentSeek es altamente eficiente, convergiendo típicamente en pocas iteraciones para problemas de complejidad media, mientras que también se beneficia de iteraciones adicionales, destacando así el potencial del escalamiento en tiempo de prueba en el espacio latente. Estos hallazgos posicionan a LatentSeek como una solución ligera, escalable y efectiva para mejorar las capacidades de razonamiento de los LLMs.
Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado avances impresionantes en la comprensión visión-lenguaje, aún enfrentan dificultades con el razonamiento complejo de múltiples pasos, produciendo a menudo soluciones lógicamente inconsistentes o parcialmente correctas. Una limitación clave radica en la falta de supervisión detallada sobre los pasos intermedios del razonamiento. Para abordar esto, proponemos MM-PRM, un modelo de recompensa de proceso entrenado dentro de un marco completamente automatizado y escalable. Primero construimos MM-Policy, un modelo multimodal robusto entrenado con datos diversos de razonamiento matemático. Luego, creamos MM-K12, un conjunto de datos curado de 10,000 problemas matemáticos multimodales con respuestas verificables, que sirve como datos iniciales. Utilizando una canalización basada en Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés), generamos más de 700k anotaciones a nivel de paso sin etiquetado humano. El PRM resultante se utiliza para puntuar trayectorias de razonamiento candidatas en la configuración de inferencia Best-of-N y logra mejoras significativas tanto en el dominio interno (conjunto de prueba de MM-K12) como en dominios externos (OlympiadBench, MathVista, etc.). Un análisis adicional confirma la efectividad de las etiquetas suaves, tasas de aprendizaje más pequeñas y la diversidad de trayectorias en la optimización del rendimiento del PRM. MM-PRM demuestra que la supervisión de proceso es una herramienta poderosa para mejorar la robustez lógica de los sistemas de razonamiento multimodal. Publicamos todos nuestros códigos y datos en https://github.com/ModalMinds/MM-PRM.
Los avances recientes en el aprendizaje por refuerzo basado en reglas (RL, por sus siglas en inglés) han mejorado significativamente la capacidad de razonamiento de los modelos de lenguaje (LMs, por sus siglas en inglés) mediante recompensas basadas en reglas. Sin embargo, los métodos existentes de RL —como GRPO, REINFORCE++ y RLOO— suelen presentar inestabilidad durante el entrenamiento, donde actualizaciones excesivas de la política y un recorte inadecuado pueden llevar al colapso del entrenamiento. Para abordar este problema, proponemos el **Optimización de Gradiente de Política con Recorte y Deriva de Política (CPGD, por sus siglas en inglés)**, un algoritmo novedoso diseñado para estabilizar el aprendizaje de políticas en LMs. CPGD introduce una restricción de deriva de política basada en la divergencia de Kullback-Leibler (KL) para regular dinámicamente las actualizaciones de la política, y utiliza un mecanismo de recorte en el logaritmo de la razón para evitar actualizaciones excesivas de la política. Proporcionamos una justificación teórica para CPGD y demostramos mediante análisis empírico que mitiga la inestabilidad observada en enfoques previos. Además, mostramos que CPGD mejora significativamente el rendimiento mientras mantiene la estabilidad del entrenamiento. Nuestra implementación equilibra el rigor teórico con la usabilidad práctica, ofreciendo una alternativa robusta para el RL en el post-entrenamiento de LMs. Publicamos nuestro código en https://github.com/ModalMinds/MM-EUREKA.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han impulsado avances significativos, aunque el creciente número de parámetros y ventanas de contexto conlleva costos prohibitivos en términos de computación, energía y dinero. Presentamos EfficientLLM, un nuevo punto de referencia y el primer estudio empírico exhaustivo que evalúa técnicas de eficiencia para LLMs a gran escala. Realizado en un clúster de clase productiva (48xGH200, 8xH200 GPUs), nuestro estudio explora sistemáticamente tres ejes clave: (1) preentrenamiento de arquitectura (variantes eficientes de atención: MQA, GQA, MLA, NSA; Mixture-of-Experts (MoE) disperso), (2) ajuste fino (métodos eficientes en parámetros: LoRA, RSLoRA, DoRA) y (3) inferencia (métodos de cuantización: int4, float16). Definimos seis métricas detalladas (Utilización de Memoria, Utilización de Computación, Latencia, Rendimiento, Consumo de Energía, Tasa de Compresión) para capturar la saturación del hardware, el equilibrio entre latencia y rendimiento, y el costo de carbono. Evaluando más de 100 pares modelo-técnica (0.5B-72B parámetros), derivamos tres conclusiones principales: (i) La eficiencia implica compensaciones cuantificables: ningún método es universalmente óptimo; por ejemplo, MoE reduce los FLOPs y mejora la precisión, pero aumenta la VRAM en un 40%, mientras que la cuantización int4 reduce la memoria/energía hasta 3.9x con una caída de precisión del 3-5%. (ii) Los óptimos dependen de la tarea y la escala: MQA ofrece las mejores compensaciones entre memoria y latencia para dispositivos limitados, MLA logra la menor perplejidad en tareas críticas de calidad, y RSLoRA supera la eficiencia de LoRA solo más allá de los 14B parámetros. (iii) Las técnicas se generalizan entre modalidades: extendemos las evaluaciones a Modelos de Visión de Gran Escala (Stable Diffusion 3.5, Wan 2.1) y Modelos de Visión-Lenguaje (Qwen2.5-VL), confirmando una transferibilidad efectiva. Al liberar conjuntos de datos, pipelines de evaluación y tablas de clasificación, EfficientLLM proporciona una guía esencial para investigadores e ingenieros que navegan por el panorama de eficiencia-rendimiento de los modelos fundacionales de próxima generación.
La Adaptación de Bajo Rango (LoRA), que introduce un producto de dos matrices entrenables de bajo rango en pesos preentrenados congelados, se utiliza ampliamente para el ajuste fino eficiente de modelos de lenguaje en el aprendizaje federado (FL). Sin embargo, cuando se combina con el descenso de gradiente estocástico con privacidad diferencial (DP-SGD), LoRA enfrenta una amplificación sustancial del ruido: DP-SGD perturba los gradientes por muestra, y la multiplicación de matrices de la actualización de LoRA (BA) intensifica este efecto. Congelar una matriz (por ejemplo, A) reduce el ruido pero restringe la expresividad del modelo, lo que a menudo resulta en una adaptación subóptima. Para abordar esto, proponemos FedSVD, un método simple pero efectivo que introduce una reparametrización global basada en la descomposición en valores singulares (SVD). En nuestro enfoque, cada cliente optimiza solo la matriz B y la transmite al servidor. El servidor agrega las matrices B, calcula el producto BA utilizando la A anterior y refactoriza el resultado mediante SVD. Esto produce una nueva A adaptativa compuesta por los vectores singulares derechos ortonormales de BA, y una B actualizada que contiene los componentes restantes de la SVD. Esta reparametrización evita la amplificación cuadrática del ruido, permitiendo que A capture mejor las direcciones principales de las actualizaciones agregadas. Además, la estructura ortonormal de A limita las normas de los gradientes de B y preserva más señal bajo DP-SGD, como lo confirma nuestro análisis teórico. Como resultado, FedSVD mejora consistentemente la estabilidad y el rendimiento en una variedad de configuraciones de privacidad y benchmarks, superando a las líneas base relevantes tanto en regímenes privados como no privados.
Las técnicas de escalado en tiempo de inferencia han fortalcido significativamente las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) al aprovechar un esfuerzo computacional adicional durante la inferencia sin necesidad de reentrenamiento. De manera similar, el enfoque de "Cadena de Pensamiento" (Chain-of-Thought, CoT) y su extensión, Long CoT, mejoran la precisión al generar trayectorias intermedias de razonamiento ricas, pero estos métodos incurren en costos sustanciales de tokens que dificultan su implementación en entornos sensibles a la latencia. En este trabajo, primero demostramos que el CoT truncado, que detiene el razonamiento antes de su finalización y genera directamente la respuesta final, a menudo iguala al muestreo completo de CoT mientras utiliza significativamente menos tokens. Basándonos en esta idea, introducimos Fractured Sampling, una estrategia unificada en tiempo de inferencia que interpola entre el CoT completo y el muestreo de solo solución a lo largo de tres ejes ortogonales: (1) el número de trayectorias de razonamiento, (2) el número de soluciones finales por trayectoria y (3) la profundidad a la que se truncan los rastros de razonamiento. A través de experimentos exhaustivos en cinco benchmarks de razonamiento diversos y varias escalas de modelos, demostramos que Fractured Sampling logra consistentemente un equilibrio superior entre precisión y costo, obteniendo ganancias de escalado log-lineal pronunciadas en Pass@k frente al presupuesto de tokens. Nuestro análisis revela cómo asignar el cómputo a través de estas dimensiones para maximizar el rendimiento, allanando el camino para un razonamiento más eficiente y escalable en los LLMs.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben distintos niveles de confianza frente a diferentes entradas (preguntas): algunas conducen a respuestas consistentes y semánticamente similares, mientras que otras generan resultados diversos o contradictorios. Esta variación refleja la incertidumbre del LLM respecto a la entrada, lo cual es una señal de cuán confiadamente el modelo comprende un problema dado. Sin embargo, la optimización de políticas relativas al grupo estándar (GRPO, por sus siglas en inglés) trata todas las entradas por igual durante las actualizaciones de políticas, ignorando esta información crucial sobre los límites del conocimiento del modelo. Para abordar esta limitación, proponemos SEED-GRPO (GRPO Mejorado con Entropía Semántica), que mide explícitamente la incertidumbre de los LLMs mediante la entropía semántica de las entradas. La entropía semántica cuantifica la diversidad de significado en múltiples respuestas generadas ante una misma entrada y utiliza esta medida para modular la magnitud de las actualizaciones de políticas. Este mecanismo de entrenamiento consciente de la incertidumbre permite ajustar dinámicamente la magnitud de las actualizaciones de políticas en función de la incertidumbre de la pregunta. Así, se realizan actualizaciones más conservadoras en preguntas de alta incertidumbre, mientras se mantiene la señal de aprendizaje original en aquellas en las que el modelo está seguro. Los resultados experimentales en cinco benchmarks de razonamiento matemático (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2 y OlympiadBench 48.0) demuestran que SEED-GRPO alcanza un nuevo estado del arte en precisión promedio, validando la efectividad de la optimización de políticas consciente de la incertidumbre.
Los grandes modelos de visión y lenguaje exhiben capacidades inherentes para manejar diversas tareas de percepción visual. En este artículo, presentamos VisionReasoner, un marco unificado capaz de razonar y resolver múltiples tareas de percepción visual dentro de un modelo compartido. Específicamente, mediante el diseño de novedosas estrategias de aprendizaje cognitivo multiobjetivo y la reformulación sistemática de tareas, VisionReasoner mejora sus capacidades de razonamiento para analizar entradas visuales y aborda diversas tareas de percepción en un marco unificado. El modelo genera un proceso de razonamiento estructurado antes de entregar los resultados deseados en respuesta a las consultas del usuario. Para evaluar rigurosamente las capacidades unificadas de percepción visual, evaluamos VisionReasoner en diez tareas diversas que abarcan tres dominios críticos: detección, segmentación y conteo. Los resultados experimentales muestran que VisionReasoner logra un rendimiento superior como modelo unificado, superando a Qwen2.5VL con márgenes relativos del 29.1% en COCO (detección), 22.1% en ReasonSeg (segmentación) y 15.3% en CountBench (conteo).
La comprensión de gráficos presenta un desafío único para los grandes modelos de visión y lenguaje (LVLMs, por sus siglas en inglés), ya que requiere la integración de capacidades sofisticadas de razonamiento textual y visual. Sin embargo, los LVLMs actuales muestran un desequilibrio notable entre estas habilidades, quedándose cortos en el razonamiento visual que es difícil de realizar en texto. Realizamos un estudio de caso utilizando un conjunto de datos sintético que solo puede resolverse mediante razonamiento visual y demostramos que el rendimiento del modelo se degrada significativamente con el aumento de la complejidad visual, mientras que el rendimiento humano se mantiene robusto. Luego presentamos ChartMuseum, un nuevo punto de referencia de preguntas y respuestas (QA) sobre gráficos que contiene 1,162 preguntas anotadas por expertos, abarcando múltiples tipos de razonamiento, seleccionadas de gráficos del mundo real provenientes de 184 fuentes, específicamente diseñado para evaluar el razonamiento visual y textual complejo. A diferencia de los puntos de referencia anteriores para la comprensión de gráficos —donde los modelos de vanguardia tienen un rendimiento similar y cercano a la saturación— nuestro punto de referencia expone una brecha sustancial entre el rendimiento de los modelos y el humano, al tiempo que diferencia efectivamente las capacidades de los modelos: aunque los humanos alcanzan un 93% de precisión, el mejor modelo, Gemini-2.5-Pro, logra solo un 63.0%, y el LVLM de código abierto líder, Qwen2.5-VL-72B-Instruct, alcanza solo un 38.5%. Además, en preguntas que requieren principalmente razonamiento visual, todos los modelos experimentan una caída del 35%-55% en el rendimiento en comparación con preguntas que requieren mayor razonamiento textual. Por último, nuestro análisis cualitativo de errores revela categorías específicas de razonamiento visual que son desafiantes para los LVLMs actuales.
El reconocimiento preciso de la intención de búsqueda en los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) sigue siendo un objetivo desafiante, especialmente bajo restricciones de recursos y para consultas complejas con estructuras anidadas y dependencias. Este artículo presenta QCompiler, un marco neuro-simbólico inspirado en las reglas gramaticales lingüísticas y el diseño de compiladores, para cerrar esta brecha. Teóricamente, se diseña una gramática mínima pero suficiente en Forma de Backus-Naur (BNF) G[q] para formalizar consultas complejas. A diferencia de métodos anteriores, esta gramática mantiene la completitud mientras minimiza la redundancia. Basado en esto, QCompiler incluye un Traductor de Expresiones de Consulta, un Analizador Sintáctico Léxico y un Procesador de Descenso Recursivo para compilar consultas en Árboles de Sintaxis Abstracta (AST, por sus siglas en inglés) para su ejecución. La atomicidad de las subconsultas en los nodos hoja garantiza una recuperación de documentos y una generación de respuestas más precisas, mejorando significativamente la capacidad del sistema RAG para abordar consultas complejas.
La integración de modelos de lenguaje de gran escala con planificadores simbólicos es una dirección prometedora para obtener planes verificables y fundamentados en comparación con la planificación en lenguaje natural, con trabajos recientes extendiendo esta idea a dominios visuales utilizando Modelos de Lenguaje-Visión (VLMs). Sin embargo, una comparación rigurosa entre enfoques simbólicos fundamentados en VLMs y métodos que planifican directamente con un VLM se ha visto obstaculizada por la falta de entornos comunes, protocolos de evaluación y cobertura de modelos. Presentamos ViPlan, el primer punto de referencia de código abierto para Planificación Visual con predicados simbólicos y VLMs. ViPlan incluye una serie de tareas de creciente dificultad en dos dominios: una variante visual del clásico problema de planificación Blocksworld y un entorno simulado de robótica doméstica. Evaluamos nueve familias de VLMs de código abierto en múltiples tamaños, junto con modelos cerrados seleccionados, comparando tanto la planificación simbólica fundamentada en VLMs como el uso directo de los modelos para proponer acciones. Encontramos que la planificación simbólica supera a la planificación directa con VLMs en Blocksworld, donde la precisión en la fundamentación de imágenes es crucial, mientras que ocurre lo contrario en las tareas de robótica doméstica, donde el conocimiento de sentido común y la capacidad de recuperarse de errores son beneficiosos. Finalmente, demostramos que, en la mayoría de los modelos y métodos, no hay un beneficio significativo al utilizar el enfoque de Chain-of-Thought, lo que sugiere que los VLMs actuales aún tienen dificultades con el razonamiento visual.
Los modelos de recompensa son fundamentales para alinear las salidas de los modelos de lenguaje con las preferencias humanas; sin embargo, los enfoques existentes suelen carecer tanto de controlabilidad como de interpretabilidad. Estos modelos generalmente se optimizan para objetivos específicos, lo que limita su generalización a tareas posteriores más amplias. Además, sus salidas escalares son difíciles de interpretar sin un razonamiento contextual. Para abordar estas limitaciones, presentamos R3, un marco novedoso de modelado de recompensas que es independiente de rúbricas, generalizable a través de dimensiones de evaluación y proporciona asignaciones de puntuación interpretables y razonadas. R3 permite una evaluación más transparente y flexible de los modelos de lenguaje, apoyando una alineación robusta con diversos valores humanos y casos de uso. Nuestros modelos, datos y código están disponibles como código abierto en https://github.com/rubricreward/r3.
Presentamos SLED, un enfoque alternativo para el modelado del lenguaje hablado que codifica las formas de onda de audio en secuencias de representaciones latentes continuas y las modela de manera autoregresiva utilizando un objetivo de distancia de energía. La distancia de energía ofrece una medida analítica de la brecha distribucional al contrastar muestras simuladas y objetivo, permitiendo un entrenamiento eficiente para capturar la distribución autoregresiva continua subyacente. Al evitar la dependencia de la cuantización vectorial residual, SLED elimina los errores de discretización y prescinde de las complejas arquitecturas jerárquicas comunes en los modelos de lenguaje hablado existentes. Simplifica la pipeline de modelado en general mientras preserva la riqueza de la información del habla y mantiene la eficiencia en la inferencia. Los resultados empíricos demuestran que SLED logra un rendimiento sólido tanto en la síntesis de habla zero-shot como en streaming, mostrando su potencial para aplicaciones más amplias en modelos de lenguaje hablado de propósito general.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han impulsado la visión del descubrimiento científico automatizado, a menudo denominado Co-Científicos de IA. Hasta la fecha, trabajos previos han presentado estos sistemas como coautores generativos responsables de formular hipótesis, sintetizar código o redactar manuscritos. En este trabajo, exploramos una aplicación complementaria: el uso de LLMs como verificadores para automatizar la verificación académica de manuscritos científicos. Con este fin, presentamos SPOT, un conjunto de datos que incluye 83 artículos publicados junto con 91 errores lo suficientemente significativos como para justificar erratas o retractaciones, validados cruzadamente con los autores reales y anotadores humanos. Al evaluar los LLMs más avanzados en SPOT, encontramos que ninguno supera el 21,1% de recuperación o el 6,1% de precisión (o3 obtiene los mejores resultados, con todos los demás cercanos a cero). Además, las estimaciones de confianza son uniformemente bajas, y en ocho ejecuciones independientes, los modelos rara vez redescubren los mismos errores, lo que socava su fiabilidad. Finalmente, un análisis cualitativo con expertos en el dominio revela que incluso los modelos más fuertes cometen errores que se asemejan a conceptos erróneos de nivel estudiantil derivados de malentendidos. Estos hallazgos subrayan la brecha sustancial entre las capacidades actuales de los LLMs y los requisitos para una verificación académica asistida por IA confiable.
La animación de imágenes humanas ha ganado creciente atención y se ha desarrollado rápidamente debido a sus amplias aplicaciones en humanos digitales. Sin embargo, los métodos existentes dependen en gran medida de imágenes de poses renderizadas en 2D para guiar el movimiento, lo que limita la generalización y descarta información 3D esencial para la animación en entornos abiertos. Para abordar este problema, proponemos MTVCrafter (Motion Tokenization Video Crafter), el primer marco que modela directamente secuencias de movimiento 3D en bruto (es decir, movimiento 4D) para la animación de imágenes humanas. Específicamente, introducimos 4DMoT (4D motion tokenizer) para cuantizar secuencias de movimiento 3D en tokens de movimiento 4D. En comparación con las imágenes de poses renderizadas en 2D, los tokens de movimiento 4D ofrecen señales espacio-temporales más robustas y evitan la alineación estricta a nivel de píxel entre la imagen de la pose y el personaje, permitiendo un control más flexible y desacoplado. Luego, introducimos MV-DiT (Motion-aware Video DiT). Al diseñar una atención de movimiento única con codificaciones posicionales 4D, MV-DiT puede aprovechar eficazmente los tokens de movimiento como contexto 4D compacto pero expresivo para la animación de imágenes humanas en el complejo mundo 3D. Por lo tanto, marca un avance significativo en este campo y abre una nueva dirección para la generación de videos humanos guiados por poses. Los experimentos muestran que nuestro MTVCrafter logra resultados de vanguardia con un FID-VID de 6.98, superando al segundo mejor en un 65%. Impulsado por tokens de movimiento robustos, MTVCrafter también generaliza bien a diversos personajes de entornos abiertos (individuales/múltiples, cuerpo completo/medio) en varios estilos y escenarios. Nuestros demos de video y código están en: https://github.com/DINGYANB/MTVCrafter.
Los modelos de generación de imágenes han logrado aplicaciones generalizadas. Como ejemplo, el modelo TarFlow combina la arquitectura transformer con modelos de Normalizing Flow, alcanzando resultados de vanguardia en múltiples benchmarks. Sin embargo, debido a la forma causal de la atención que requiere cálculo secuencial, el proceso de muestreo de TarFlow es extremadamente lento. En este artículo, demostramos que, mediante una serie de estrategias de optimización, el muestreo de TarFlow puede acelerarse significativamente utilizando el método de iteración Gauss-Seidel-Jacobi (abreviado como GS-Jacobi). Específicamente, encontramos que los bloques en el modelo TarFlow tienen una importancia variable: un pequeño número de bloques desempeña un papel principal en las tareas de generación de imágenes, mientras que otros bloques contribuyen relativamente poco; algunos bloques son sensibles a los valores iniciales y propensos a desbordamientos numéricos, mientras que otros son relativamente robustos. Basándonos en estas dos características, proponemos la Métrica de Clasificación de Convergencia (CRM) y la Métrica de Estimación Inicial (IGM): CRM se utiliza para identificar si un bloque de TarFlow es "simple" (converge en pocas iteraciones) o "complejo" (requiere más iteraciones); IGM se utiliza para evaluar si el valor inicial de la iteración es adecuado. Los experimentos en cuatro modelos TarFlow demuestran que el muestreo GS-Jacobi puede mejorar significativamente la eficiencia del muestreo mientras mantiene la calidad de las imágenes generadas (medida por FID), logrando aceleraciones de 4.53x en Img128cond, 5.32x en AFHQ, 2.96x en Img64uncond y 2.51x en Img64cond sin degradar las puntuaciones FID o la calidad de las muestras. El código y los checkpoints están disponibles en https://github.com/encoreus/GS-Jacobi_for_TarFlow.
Tiny QA Benchmark++ (TQB++) presenta un conjunto de pruebas ultra ligero y multilingüe diseñado para ofrecer a las canalizaciones de modelos de lenguaje grandes (LLM) un conjunto de datos de seguridad estilo pruebas unitarias que se ejecuta en segundos con un costo mínimo. Surgido de las demandas de ciclos de retroalimentación rápida en la construcción del SDK de optimización de prompts Comet Opik, donde la espera de benchmarks pesados interrumpe el flujo de desarrollo. TQB++ combina un conjunto de referencia en inglés de 52 ítems (menos de 20 kB) con un pequeño paquete de generación de datos sintéticos en pypi construido sobre LiteLLM, independiente del proveedor. El generador permite a los profesionales crear sus propios paquetes pequeños en cualquier idioma, dominio o nivel de dificultad, mientras que diez paquetes predefinidos ya cubren árabe, chino, francés, alemán, japonés, coreano, portugués, ruso, español y turco. Cada conjunto de datos incluye metadatos Croissant y archivos plug-and-play para OpenAI-Evals, LangChain y herramientas estándar de CI, permitiendo a los equipos integrar micro-benchmarks determinísticos directamente en las compuertas de pull-requests, ciclos de ingeniería de prompts y paneles de producción sin afectar los presupuestos de GPU. Una ejecución completa de TQB++ añade solo unos segundos a la latencia de la canalización, pero detecta de manera confiable errores en plantillas de prompts, desviaciones en tokenizadores y efectos secundarios de fine-tuning mucho antes de que suites completas como MMLU o BIG-Bench terminen de configurarse. El marco completo se ha liberado para acelerar la garantía de calidad continua y eficiente en recursos en todo el ecosistema de IA generativa.
Tanto los médicos como los pacientes utilizan cada vez más los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para diagnosticar casos clínicos. Sin embargo, a diferencia de dominios como las matemáticas o la programación, donde la corrección puede definirse objetivamente por la respuesta final, el diagnóstico médico requiere que tanto el resultado como el proceso de razonamiento sean precisos. Actualmente, los puntos de referencia médicos ampliamente utilizados, como MedQA y MMLU, evalúan únicamente la precisión de la respuesta final, pasando por alto la calidad y fidelidad del proceso de razonamiento clínico. Para abordar esta limitación, presentamos MedCaseReasoning, el primer conjunto de datos de acceso abierto para evaluar la capacidad de los LLMs de alinearse con el razonamiento diagnóstico elaborado por médicos. El conjunto de datos incluye 14,489 casos de preguntas y respuestas diagnósticas, cada uno acompañado de declaraciones detalladas de razonamiento derivadas de informes de casos médicos de acceso abierto. Evaluamos los LLMs de razonamiento más avanzados en MedCaseReasoning y encontramos deficiencias significativas en sus diagnósticos y razonamientos: por ejemplo, el modelo de código abierto con mejor rendimiento, DeepSeek-R1, alcanza solo un 48% de precisión diagnóstica en 10-shot y menciona solo el 64% de las declaraciones de razonamiento clínico (recall). Sin embargo, demostramos que el ajuste fino de los LLMs en las trazas de razonamiento derivadas de MedCaseReasoning mejora significativamente la precisión diagnóstica y el recall del razonamiento clínico, con ganancias relativas promedio del 29% y 41%, respectivamente. El conjunto de datos, el código y los modelos de acceso abierto están disponibles en https://github.com/kevinwu23/Stanford-MedCaseReasoning.
A pesar de los avances significativos en la generación de videos, sintetizar acciones humanas físicamente plausibles sigue siendo un desafío persistente, particularmente en el modelado de semántica de grano fino y dinámicas temporales complejas. Por ejemplo, generar rutinas de gimnasia como el "salto de cambio con giro de 0.5" presenta dificultades sustanciales para los métodos actuales, a menudo produciendo resultados insatisfactorios. Para cerrar esta brecha, proponemos FinePhys, un marco de generación de acciones humanas de grano fino que incorpora física para obtener una guía esquelética efectiva. Específicamente, FinePhys primero estima poses 2D de manera en línea y luego realiza una elevación de dimensión 2D a 3D mediante aprendizaje en contexto. Para mitigar la inestabilidad y la limitada interpretabilidad de las poses 3D puramente basadas en datos, introducimos además un módulo de reestimación de movimiento basado en física gobernado por ecuaciones de Euler-Lagrange, calculando aceleraciones articulares mediante actualización temporal bidireccional. Las poses 3D predichas físicamente se fusionan luego con las basadas en datos, ofreciendo una guía de mapas de calor 2D a múltiples escalas para el proceso de difusión. Evaluado en tres subconjuntos de acciones de grano fino de FineGym (FX-JUMP, FX-TURN y FX-SALTO), FinePhys supera significativamente a los baselines competitivos. Los resultados cualitativos exhaustivos demuestran además la capacidad de FinePhys para generar acciones humanas de grano fino más naturales y plausibles.
El Escalamiento en Tiempo de Prueba (TTS, por sus siglas en inglés) se refiere a enfoques que mejoran el rendimiento del razonamiento al asignar cómputo adicional durante la inferencia, sin alterar los parámetros del modelo. Mientras que los métodos existentes de TTS operan en un espacio de tokens discretos generando más pasos intermedios, estudios recientes en Coconut y SoftCoT han demostrado que pensar en el espacio latente continuo puede mejorar aún más el rendimiento del razonamiento. Tales pensamientos latentes codifican un pensamiento informativo sin la pérdida de información asociada con la generación autoregresiva de tokens, lo que ha generado un mayor interés en el razonamiento en espacios continuos. A diferencia de la decodificación discreta, donde el muestreo repetido permite explorar diversas rutas de razonamiento, las representaciones latentes en el espacio continuo están fijas para una entrada dada, lo que limita la exploración diversa, ya que todas las rutas decodificadas se originan a partir del mismo pensamiento latente. Para superar esta limitación, introducimos SoftCoT++ para extender SoftCoT al paradigma de Escalamiento en Tiempo de Prueba, permitiendo una exploración diversa de las rutas de pensamiento. Específicamente, perturbamos los pensamientos latentes mediante múltiples tokens iniciales especializados y aplicamos aprendizaje contrastivo para promover la diversidad entre las representaciones de pensamientos suaves. Los experimentos en cinco benchmarks de razonamiento y dos arquitecturas distintas de LLM demuestran que SoftCoT++ mejora significativamente a SoftCoT y también supera a SoftCoT con escalamiento de autoconsistencia. Además, muestra una fuerte compatibilidad con técnicas de escalamiento convencionales, como la autoconsistencia. El código fuente está disponible en https://github.com/xuyige/SoftCoT.
Los modelos de difusión de video (DMs) han permitido la síntesis de video de alta calidad. Sin embargo, sus considerables demandas computacionales y de memoria plantean serios desafíos para su implementación en el mundo real, incluso en GPUs de gama alta. Como solución comúnmente adoptada, la cuantización ha demostrado un éxito notable en la reducción de costos para los DMs de imágenes, mientras que su aplicación directa a los DMs de video sigue siendo ineficaz. En este artículo, presentamos QVGen, un marco de entrenamiento consciente de la cuantización (QAT) novedoso, diseñado para DMs de video de alto rendimiento y eficiencia en la inferencia bajo cuantización de bits extremadamente bajos (por ejemplo, 4 bits o menos). Comenzamos con un análisis teórico que demuestra que reducir la norma del gradiente es esencial para facilitar la convergencia en QAT. Para ello, introducimos módulos auxiliares (Phi) para mitigar grandes errores de cuantización, lo que conduce a una convergencia significativamente mejorada. Para eliminar la sobrecarga de inferencia de Phi, proponemos una estrategia de decaimiento de rango que elimina progresivamente Phi. Específicamente, empleamos repetidamente la descomposición en valores singulares (SVD) y una regularización basada en rango propuesta, gamma, para identificar y decaer los componentes de baja contribución. Esta estrategia mantiene el rendimiento mientras elimina la sobrecarga de inferencia. Experimentos extensos en 4 DMs de video de última generación (SOTA), con tamaños de parámetros que van desde 1.3B hasta 14B, muestran que QVGen es el primero en alcanzar una calidad comparable a la de precisión completa en configuraciones de 4 bits. Además, supera significativamente a los métodos existentes. Por ejemplo, nuestro CogVideoX-2B de 3 bits logra mejoras de +25.28 en Grado Dinámico y +8.43 en Consistencia de Escena en VBench.
En los últimos años, el surgimiento de modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés), como OpenAI-o1 y DeepSeek-R1, ha demostrado capacidades impresionantes en problemas complejos, como matemáticas y programación. Algunos estudios pioneros intentan trasladar el éxito de los LRMs a la traducción automática neuronal (MT). Estos intentan construir LRMs con capacidad avanzada de razonamiento en MT mediante aprendizaje por refuerzo (RL). A pesar de algunos avances logrados, estos esfuerzos generalmente se centran en varios idiomas de alto recurso, como el inglés y el chino, dejando el desempeño en otros idiomas poco claro. Además, los métodos de modelado de recompensas en trabajos anteriores no aprovechan plenamente el potencial del aprendizaje por refuerzo en MT. En este trabajo, primero diseñamos un nuevo método de modelado de recompensas que compara los resultados de traducción del modelo de MT con un LRM potente (es decir, DeepSeek-R1-671B) y cuantifica las comparaciones para proporcionar recompensas. Los resultados experimentales demuestran la superioridad del método de modelado de recompensas. Utilizando Qwen2.5-7B-Instruct como base, el modelo entrenado alcanza un nuevo rendimiento de vanguardia en traducción literaria y supera a LRMs potentes como OpenAI-o1 y DeepSeek-R1. Además, extendemos nuestro método a configuraciones multilingües con 11 idiomas. Con un diseño cuidadoso de un modelado de recompensas ligero en RL, podemos transferir fácilmente la capacidad avanzada de MT desde una sola dirección a múltiples (es decir, 90) direcciones de traducción y lograr un rendimiento impresionante en MT multilingüe.
Los recientes avances en Patología Digital (PD), particularmente a través de la inteligencia artificial y los Modelos Fundacionales, han destacado la importancia de conjuntos de datos a gran escala, diversos y ricamente anotados. A pesar de su papel crítico, los conjuntos de datos de Imágenes de Lámina Completa (WSI) disponibles públicamente a menudo carecen de la escala suficiente, diversidad de tejidos y metadatos clínicos exhaustivos, lo que limita la robustez y generalización de los modelos de IA. En respuesta, presentamos el conjunto de datos HISTAI, una colección grande, multimodal y de acceso abierto de WSI que comprende más de 60,000 láminas de diversos tipos de tejidos. Cada caso en el conjunto de datos HISTAI está acompañado de metadatos clínicos extensos, incluyendo diagnóstico, información demográfica, anotaciones patológicas detalladas y códigos de diagnóstico estandarizados. El conjunto de datos busca llenar los vacíos identificados en los recursos existentes, promoviendo la innovación, la reproducibilidad y el desarrollo de soluciones de patología computacional clínicamente relevantes. El conjunto de datos puede ser accedido en https://github.com/HistAI/HISTAI.
Los conjuntos de datos de preferencias son esenciales para entrenar modelos de lenguaje de dominio general que siguen instrucciones mediante el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). Cada nueva publicación de datos eleva las expectativas para futuras recopilaciones, lo que significa que existe una necesidad constante de mejorar la calidad y diversidad de los datos de preferencias disponibles públicamente. Para abordar esta necesidad, presentamos HelpSteer3-Preference, un conjunto de datos de preferencias de alta calidad, anotado por humanos y con licencia permisiva (CC-BY-4.0), que comprende más de 40,000 muestras. Estas muestras abarcan diversas aplicaciones del mundo real de los modelos de lenguaje grandes (LLMs), incluyendo tareas relacionadas con STEM, programación y escenarios multilingües. Utilizando HelpSteer3-Preference, entrenamos Modelos de Recompensa (RMs) que alcanzan un rendimiento superior en RM-Bench (82.4%) y JudgeBench (73.7%). Esto representa una mejora sustancial (~10% absoluto) sobre los mejores resultados previamente reportados por los RMs existentes. Demostramos que HelpSteer3-Preference también puede aplicarse para entrenar Modelos de Recompensa Generativos y cómo los modelos de políticas pueden alinearse con RLHF utilizando nuestros RMs. Conjunto de datos (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference.
La interacción humano-computadora ha imaginado durante mucho tiempo tecnología que nos comprende, desde nuestras preferencias y hábitos hasta el momento y propósito de nuestras acciones cotidianas. Sin embargo, los modelos de usuario actuales siguen siendo fragmentados, adaptados de manera estrecha a aplicaciones específicas e incapaces del razonamiento flexible necesario para cumplir estas visiones. Este artículo presenta una arquitectura para un modelo de usuario general (GUM, por sus siglas en inglés) que aprende sobre ti al observar cualquier interacción que tengas con tu computadora. El GUM toma como entrada cualquier observación no estructurada de un usuario (por ejemplo, capturas de pantalla de dispositivos) y construye proposiciones ponderadas por confianza que capturan el conocimiento y las preferencias de ese usuario. Los GUM pueden inferir que un usuario se está preparando para una boda a la que asistirá a partir de mensajes con un amigo. O reconocer que un usuario está lidiando con los comentarios de un colaborador sobre un borrador al observar múltiples ediciones estancadas y un cambio a la lectura de trabajos relacionados. Los GUM introducen una arquitectura que infiere nuevas proposiciones sobre un usuario a partir de observaciones multimodales, recupera proposiciones relacionadas para obtener contexto y revisa continuamente las proposiciones existentes. Para ilustrar la amplitud de aplicaciones que los GUM permiten, demostramos cómo aumentan los asistentes basados en chat con contexto, gestionan las notificaciones del sistema operativo para mostrar selectivamente información importante y habilitan agentes interactivos que se adaptan a las preferencias entre aplicaciones. También instanciamos asistentes proactivos (GUMBOs) que descubren y ejecutan sugerencias útiles en nombre de un usuario utilizando su GUM. En nuestras evaluaciones, encontramos que los GUM hacen inferencias calibradas y precisas sobre los usuarios, y que los asistentes construidos sobre GUM identifican y realizan proactivamente acciones que los usuarios no pensarían en solicitar explícitamente. En conjunto, los GUM introducen métodos que aprovechan los modelos multimodales para comprender el contexto no estructurado, permitiendo visiones de larga data de la interacción humano-computadora y sistemas interactivos completamente nuevos que anticipan las necesidades del usuario.
La desambiguación de homógrafos sigue siendo un desafío significativo en la conversión de grafema a fonema (G2P), especialmente para lenguajes de bajos recursos. Este desafío es doble: (1) la creación de conjuntos de datos de homógrafos equilibrados y exhaustivos es laboriosa y costosa, y (2) las estrategias específicas de desambiguación introducen una latencia adicional, lo que las hace inadecuadas para aplicaciones en tiempo real como lectores de pantalla y otras herramientas de accesibilidad. En este artículo, abordamos ambos problemas. En primer lugar, proponemos una canalización semiautomatizada para construir conjuntos de datos centrados en homógrafos, presentamos el conjunto de datos HomoRich generado a través de esta canalización, y demostramos su eficacia aplicándolo para mejorar un sistema G2P basado en aprendizaje profundo de última generación para el persa. En segundo lugar, abogamos por un cambio de paradigma: utilizar conjuntos de datos ricos fuera de línea para informar el desarrollo de métodos rápidos basados en reglas, adecuados para aplicaciones de accesibilidad sensibles a la latencia, como los lectores de pantalla. Con este fin, mejoramos uno de los sistemas G2P basados en reglas más conocidos, eSpeak, en una versión rápida consciente de homógrafos, HomoFast eSpeak. Nuestros resultados muestran una mejora aproximada del 30% en la precisión de desambiguación de homógrafos para los sistemas basados en aprendizaje profundo y eSpeak.
Los primeros cavernícolas dependían de gestos, vocalizaciones y señales simples para coordinar, planificar, evitar depredadores y compartir recursos. Hoy, los humanos colaboran utilizando lenguajes complejos para lograr resultados extraordinarios. ¿Qué impulsa esta evolución en la comunicación? ¿Cómo surge, se adapta y se vuelve vital el lenguaje para el trabajo en equipo? Comprender los orígenes del lenguaje sigue siendo un desafío. Una hipótesis destacada en lingüística y antropología sugiere que el lenguaje evolucionó para satisfacer las demandas ecológicas y sociales de la cooperación humana temprana. El lenguaje no surgió de manera aislada, sino a través de objetivos de supervivencia compartidos. Inspirados por esta perspectiva, investigamos el surgimiento del lenguaje en Juegos de Recolección multiagente. Estos entornos están diseñados para reflejar las limitaciones cognitivas y ecológicas que se cree que influyeron en la evolución de la comunicación. Los agentes operan en un mundo de cuadrícula compartido con solo conocimiento parcial sobre otros agentes y el entorno, y deben coordinarse para completar tareas como recoger objetivos de alto valor o ejecutar acciones ordenadas temporalmente. Utilizando aprendizaje por refuerzo profundo de extremo a extremo, los agentes aprenden tanto acciones como estrategias de comunicación desde cero. Descubrimos que los agentes desarrollan protocolos de comunicación con características distintivas del lenguaje natural: arbitrariedad, intercambiabilidad, desplazamiento, transmisión cultural y composicionalidad. Cuantificamos cada propiedad y analizamos cómo diferentes factores, como el tamaño de la población y las dependencias temporales, moldean aspectos específicos del lenguaje emergente. Nuestro marco sirve como plataforma para estudiar cómo el lenguaje puede evolucionar a partir de la observabilidad parcial, el razonamiento temporal y los objetivos cooperativos en entornos multiagente encarnados. Publicaremos todos los datos, códigos y modelos de manera abierta.
Entrenar modelos de lenguaje pequeños (SLMs, por sus siglas en inglés) de alto rendimiento sigue siendo costoso, incluso con el uso de destilación de conocimiento y poda a partir de modelos maestros más grandes. Los trabajos existentes suelen enfrentar tres desafíos clave: (1) pérdida de información debido a la poda dura, (2) alineación ineficiente de las representaciones, y (3) subutilización de activaciones informativas, particularmente de las Redes de Alimentación Directa (FFNs, por sus siglas en inglés). Para abordar estos desafíos, presentamos Low-Rank Clone (LRC), un método eficiente de preentrenamiento que construye SLMs que aspiran a la equivalencia conductual con modelos maestros robustos. LRC entrena un conjunto de matrices de proyección de bajo rango que permiten conjuntamente la poda suave mediante la compresión de los pesos del maestro, y la clonación de activaciones al alinear las activaciones del estudiante, incluidas las señales de las FFNs, con las del maestro. Este diseño unificado maximiza la transferencia de conocimiento mientras elimina la necesidad de módulos de alineación explícitos. Experimentos exhaustivos con maestros de código abierto (por ejemplo, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) muestran que LRC iguala o supera a los modelos de última generación entrenados con billones de tokens, utilizando solo 20 mil millones de tokens, logrando una eficiencia de entrenamiento de más de 1,000 veces. Nuestros códigos y puntos de control del modelo están disponibles en https://github.com/CURRENTF/LowRankClone y https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
Identificar con precisión las técnicas adversarias en textos de seguridad es crucial para una defensa cibernética efectiva. Sin embargo, los métodos existentes enfrentan un dilema fundamental: o bien dependen de modelos genéricos con precisión limitada en el dominio, o requieren pipelines intensivos en recursos que dependen de grandes conjuntos de datos etiquetados y optimizaciones específicas para la tarea, como la minería de negativos duros personalizada y la eliminación de ruido, recursos que rara vez están disponibles en dominios especializados. Proponemos TechniqueRAG, un marco de generación aumentada por recuperación (RAG) específico del dominio que cierra esta brecha al integrar recuperadores estándar, modelos de lenguaje ajustados por instrucción (LLM) y pares mínimos de texto-técnica. Nuestro enfoque aborda la escasez de datos al ajustar únicamente el componente de generación con ejemplos limitados del dominio, evitando la necesidad de un entrenamiento intensivo en recuperación. Si bien el RAG convencional mitiga la alucinación al acoplar la recuperación y la generación, su dependencia de recuperadores genéricos a menudo introduce candidatos ruidosos, limitando la precisión específica del dominio. Para abordar esto, mejoramos la calidad de la recuperación y la especificidad del dominio mediante la reordenación de candidatos recuperados con LLM en modo zero-shot, lo que alinea explícitamente los candidatos recuperados con las técnicas adversarias. Los experimentos en múltiples benchmarks de seguridad demuestran que TechniqueRAG logra un rendimiento de vanguardia sin optimizaciones extensas específicas de la tarea o datos etiquetados, mientras que un análisis exhaustivo proporciona más insights.
El Procesador de Señal de Imagen (ISP, por sus siglas en inglés) es un componente fundamental en las cámaras de los smartphones modernos, encargado de la conversión de datos de imagen RAW capturados por el sensor a imágenes RGB, con un fuerte enfoque en la calidad perceptual. Trabajos recientes destacan el potencial de los enfoques basados en aprendizaje profundo y su capacidad para capturar detalles con una calidad cada vez más cercana a la de cámaras profesionales. Un paso difícil y costoso en el desarrollo de un ISP aprendido es la adquisición de datos emparejados alineados a nivel de píxel, que mapeen la imagen RAW capturada por el sensor de una cámara de smartphone a imágenes de referencia de alta calidad. En este trabajo, abordamos este desafío proponiendo un nuevo método de entrenamiento para un ISP aprendido que elimina la necesidad de correspondencias directas entre imágenes RAW y datos de referencia con contenido coincidente. Nuestro enfoque no emparejado emplea una función de pérdida de múltiples términos guiada por entrenamiento adversarial con múltiples discriminadores que procesan mapas de características de redes preentrenadas, manteniendo la estructura del contenido mientras se aprenden características de color y textura a partir del conjunto de datos RGB objetivo. Utilizando arquitecturas de redes neuronales ligeras adecuadas para dispositivos móviles como base, evaluamos nuestro método en los conjuntos de datos Zurich RAW to RGB y Fujifilm UltraISP. En comparación con los métodos de entrenamiento emparejado, nuestra estrategia de aprendizaje no emparejado muestra un fuerte potencial y logra una alta fidelidad en múltiples métricas de evaluación. El código y los modelos preentrenados están disponibles en https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data.
Identificar errores técnicos sutiles en documentos científicos y técnicos complejos, especialmente aquellos que requieren interpretación multimodal (por ejemplo, fórmulas en imágenes), representa un desafío significativo para los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), cuyas tendencias inherentes de corrección de errores pueden enmascarar imprecisiones. Este estudio exploratorio de prueba de concepto (PoC, por sus siglas en inglés) investiga el condicionamiento estructurado del contexto de los LLMs, basado en los principios de Persistent Workflow Prompting (PWP), como una estrategia metodológica para modular este comportamiento de los LLMs durante la inferencia. El enfoque está diseñado para mejorar la confiabilidad de los LLMs de propósito general ampliamente disponibles (específicamente Gemini 2.5 Pro y ChatGPT Plus o3) en tareas de validación precisa, dependiendo crucialmente únicamente de sus interfaces de chat estándar, sin acceso a API ni modificaciones del modelo. Para explorar esta metodología, nos centramos en validar fórmulas químicas dentro de un único documento de prueba complejo con errores conocidos tanto textuales como basados en imágenes. Se evaluaron varias estrategias de *prompting*: mientras que los *prompts* básicos resultaron poco confiables, un enfoque que adapta estructuras PWP para condicionar rigurosamente la mentalidad analítica del LLM pareció mejorar la identificación de errores textuales en ambos modelos. Notablemente, este método también guió a Gemini 2.5 Pro a identificar repetidamente un error sutil en una fórmula basada en imágenes que había pasado desapercibido durante la revisión manual, una tarea en la que ChatGPT Plus o3 falló en nuestras pruebas. Estos hallazgos preliminares resaltan modos operativos específicos de los LLMs que dificultan la validación orientada a los detalles y sugieren que el condicionamiento del contexto informado por PWP ofrece una técnica prometedora y altamente accesible para desarrollar flujos de trabajo analíticos impulsados por LLMs más robustos, particularmente para tareas que requieren una detección meticulosa de errores en documentos científicos y técnicos. Es necesaria una validación extensa más allá de este PoC limitado para determinar su aplicabilidad más amplia.
Este estudio explora los Modelos de Lenguaje de Gran Escala (LLMs) como agentes autónomos para tareas del mundo real, incluyendo el desarrollo de software freelance. Este trabajo presenta un nuevo benchmark que evalúa LLMs en tareas de programación y análisis de datos freelance derivadas de datos económicos. Construimos el benchmark utilizando tareas sintéticas creadas a partir de un conjunto de datos de ofertas de trabajo de Kaggle Freelancer, con todos los precios de los proyectos estandarizados en USD (precio mediano de proyecto fijo alrededor de 250, y un promedio de 306). Cada tarea está acompañada de casos de prueba estructurados de entrada-salida y un precio estimado, permitiendo la verificación automática de la corrección y una valoración monetaria del rendimiento. Este enfoque está inspirado en el reciente benchmark SWE-Lancer de OpenAI (1,400 tareas reales de Upwork con un valor total de 1 millón). Sin embargo, nuestro marco simplifica la evaluación utilizando tareas programáticamente verificables y valores de precio predichos, haciéndolo altamente escalable y repetible. En este benchmark, evaluamos cuatro LLMs modernos: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 y Mistral. Reportamos la precisión de cada modelo (tasa de éxito en tareas y tasa de aprobación de casos de prueba) y los "ingresos freelance" totales que alcanza (suma de los precios de las tareas resueltas). Nuestros resultados muestran que Claude 3.5 Haiku tiene el mejor desempeño, ganando aproximadamente 1.52 millones de USD, seguido de cerca por GPT-4o-mini con 1.49 millones, luego Qwen 2.5 (1.33M) y Mistral ($0.70M). Analizamos la distribución de errores por tarea y observamos que los modelos más fuertes resuelven la mayoría de las tareas y rara vez fallan completamente en cualquier proyecto. Discutimos las implicaciones de estos resultados para la viabilidad de la IA como desarrollador freelance, las ventajas y limitaciones de nuestro enfoque de benchmark automatizado, y la brecha entre el rendimiento en tareas estructuradas versus la verdadera complejidad de los trabajos freelance del mundo real.
La revisión crítica por pares de manuscritos científicos representa un desafío significativo para los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), en parte debido a las limitaciones de datos y la complejidad del razonamiento experto. Este informe introduce la Metodología de Inducción Persistente de Flujos de Trabajo (PWP, por sus siglas en inglés), una técnica de ingeniería de prompts potencialmente ampliamente aplicable diseñada para cerrar esta brecha utilizando interfaces estándar de chat con LLMs (sin código, sin APIs). Presentamos un prompt PWP de prueba de concepto para el análisis crítico de manuscritos de química experimental, que cuenta con una arquitectura jerárquica y modular (estructurada mediante Markdown) que define flujos de trabajo de análisis detallados. Desarrollamos este prompt PWP mediante la aplicación iterativa de técnicas de meta-inducción y meta-razonamiento destinadas a codificar sistemáticamente los flujos de trabajo de revisión experta, incluyendo el conocimiento tácito. Al ser enviado una vez al inicio de una sesión, este prompt PWP equipa al LLM con flujos de trabajo persistentes activados por consultas posteriores, guiando a los LLMs modernos de razonamiento a través de evaluaciones sistemáticas y multimodales. Las demostraciones muestran que el LLM guiado por PWP identifica fallos metodológicos importantes en un caso de prueba, mitigando el sesgo de entrada del LLM y realizando tareas complejas, como distinguir afirmaciones de evidencia, integrar análisis de texto/fotos/figuras para inferir parámetros, ejecutar verificaciones cuantitativas de viabilidad, comparar estimaciones con afirmaciones y evaluar la plausibilidad a priori. Para garantizar la transparencia y facilitar la replicación, proporcionamos los prompts completos, análisis detallados de las demostraciones y registros de chats interactivos como recursos complementarios. Más allá de la aplicación específica, este trabajo ofrece perspectivas sobre el proceso de meta-desarrollo en sí, destacando el potencial de PWP, respaldado por la formalización detallada de flujos de trabajo, para permitir análisis sofisticados utilizando LLMs fácilmente disponibles para tareas científicas complejas.