Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien el aprendizaje profundo ha logrado un éxito notable en muchos dominios, históricamente ha tenido un rendimiento inferior en tareas de aprendizaje tabular, que siguen dominadas por los árboles de decisión con boosting de gradientes (GBDTs). Sin embargo, avances recientes están allanando el camino para los Modelos Fundacionales Tabulares, que pueden aprovechar el conocimiento del mundo real y generalizar en diversos conjuntos de datos, especialmente cuando los datos contienen texto libre. Aunque se ha explorado la incorporación de capacidades de modelos de lenguaje en tareas tabulares, la mayoría de los métodos existentes utilizan representaciones textuales estáticas y agnósticas al objetivo, lo que limita su efectividad. Presentamos TabSTAR: un Modelo Fundacional Tabular con Representaciones Semánticamente Conscientes del Objetivo. TabSTAR está diseñado para permitir el aprendizaje por transferencia en datos tabulares con características textuales, con una arquitectura libre de parámetros específicos del conjunto de datos. Descongela un codificador de texto preentrenado y toma como entrada tokens objetivo, que proporcionan al modelo el contexto necesario para aprender incrustaciones específicas de la tarea. TabSTAR logra un rendimiento de vanguardia tanto en conjuntos de datos medianos como grandes en benchmarks conocidos de tareas de clasificación con características de texto, y su fase de preentrenamiento exhibe leyes de escalamiento en el número de conjuntos de datos, ofreciendo una vía para mejoras adicionales en el rendimiento.
Los modelos recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) han demostrado capacidades sólidas de razonamiento mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés). Estas mejoras se han observado principalmente en tareas de razonamiento de contexto corto. En contraste, extender los LRMs para procesar y razonar eficazmente sobre entradas de contexto largo mediante RL sigue siendo un desafío crítico sin resolver. Para cerrar esta brecha, primero formalizamos el paradigma de RL para razonamiento de contexto largo e identificamos los principales desafíos en la eficiencia subóptima del entrenamiento y el proceso de optimización inestable. Para abordar estos problemas, proponemos QwenLong-L1, un marco que adapta los LRMs de contexto corto a escenarios de contexto largo mediante un escalado progresivo del contexto. Específicamente, utilizamos una etapa de ajuste fino supervisado (SFT, por sus siglas en inglés) de calentamiento para establecer una política inicial robusta, seguida de una técnica de RL guiada por un currículo en fases para estabilizar la evolución de la política, y mejorada con una estrategia de muestreo retrospectivo consciente de la dificultad para incentivar la exploración de la política. Los experimentos en siete puntos de referencia de preguntas y respuestas sobre documentos de contexto largo demuestran que QwenLong-L1-32B supera a LRMs destacados como OpenAI-o3-mini y Qwen3-235B-A22B, logrando un rendimiento comparable a Claude-3.7-Sonnet-Thinking, lo que demuestra un desempeño líder entre los LRMs más avanzados. Este trabajo avanza en el desarrollo de LRMs prácticos de contexto largo capaces de razonar de manera robusta en entornos intensivos en información.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobresalen en tareas de razonamiento complejo, pero siguen siendo computacionalmente costosos, lo que limita su implementación práctica. Para abordar esto, trabajos recientes se han centrado en destilar capacidades de razonamiento en modelos de lenguaje más pequeños (sLMs) utilizando trazas de cadena de pensamiento (CoT) de LLMs maestros. Sin embargo, este enfoque tiene dificultades en escenarios que requieren conocimiento factual raro o cálculos precisos, donde los sLMs a menudo alucinan debido a su capacidad limitada. En este trabajo, proponemos Distilación de Agentes, un marco para transferir no solo la capacidad de razonamiento, sino también el comportamiento completo de resolución de tareas desde agentes basados en LLMs hacia sLMs equipados con herramientas de recuperación y código. Mejoramos la distilación de agentes en dos ejes complementarios: (1) introducimos un método de prompting llamado prefijo de primer pensamiento para mejorar la calidad de las trayectorias generadas por el maestro; y (2) proponemos una generación de acciones auto-consistente para mejorar la robustez en tiempo de prueba de los agentes pequeños. Evaluamos nuestro método en ocho tareas de razonamiento en dominios factuales y matemáticos, cubriendo tanto la generalización dentro del dominio como fuera de él. Nuestros resultados muestran que sLMs con tan solo 0.5B, 1.5B y 3B parámetros pueden alcanzar un rendimiento competitivo con modelos más grandes de 1.5B, 3B y 7B ajustados mediante distilación CoT, demostrando el potencial de la distilación de agentes para construir agentes pequeños prácticos que utilizan herramientas. Nuestro código está disponible en https://github.com/Nardien/agent-distillation.
El rápido avance de los modelos de lenguaje de gran escala (LLMs) ha ido acompañado de aumentos sin precedentes en las demandas computacionales, con los costos de entrenamiento para los modelos más avanzados duplicándose cada pocos meses. Entrenar modelos directamente en aritmética de baja precisión ofrece una solución, mejorando tanto el rendimiento computacional como la eficiencia energética. En particular, la reciente arquitectura Blackwell de NVIDIA facilita operaciones de extremadamente baja precisión, específicamente variantes de FP4, prometiendo ganancias sustanciales en eficiencia. Sin embargo, los algoritmos actuales para entrenar LLMs en precisión FP4 enfrentan una degradación significativa en la precisión y a menudo dependen de respaldos de precisión mixta. En este artículo, investigamos sistemáticamente el entrenamiento en FP4 con soporte de hardware e introducimos Quartet, un nuevo enfoque que permite un entrenamiento preciso y de extremo a extremo en FP4, con todos los cálculos principales (por ejemplo, en capas lineales) realizados en baja precisión. A través de evaluaciones extensas en modelos tipo Llama, revelamos una nueva ley de escalado de baja precisión que cuantifica las compensaciones de rendimiento en varios anchos de bits y nos permite identificar una técnica de entrenamiento de baja precisión "casi óptima" en términos de precisión versus computación, llamada Quartet. Implementamos Quartet utilizando núcleos CUDA optimizados diseñados para las GPU NVIDIA Blackwell, y demostramos que puede alcanzar una precisión de vanguardia para la precisión FP4, entrenando con éxito modelos de escala de miles de millones. Nuestro método demuestra que el entrenamiento completamente basado en FP4 es una alternativa competitiva al entrenamiento en precisión estándar y en FP8. Nuestro código está disponible en https://github.com/IST-DASLab/Quartet.
Los modelos de lenguaje de gran escala han demostrado una notable competencia en tareas de razonamiento largas y complejas. Sin embargo, frecuentemente exhiben una dependencia problemática hacia patrones de razonamiento familiares, un fenómeno que denominamos rigidez de razonamiento. A pesar de las instrucciones explícitas de los usuarios, estos modelos a menudo anulan condiciones claramente establecidas y recurren a trayectorias de razonamiento habituales, lo que lleva a conclusiones incorrectas. Este comportamiento presenta desafíos significativos, particularmente en dominios como las matemáticas y los acertijos lógicos, donde la adherencia precisa a las restricciones especificadas es crítica. Para investigar sistemáticamente la rigidez de razonamiento, un comportamiento en gran medida inexplorado en trabajos previos, introducimos un conjunto de diagnóstico curado por expertos. Nuestro conjunto de datos incluye variantes especialmente modificadas de puntos de referencia matemáticos existentes, como AIME y MATH500, así como acertijos conocidos rediseñados deliberadamente para requerir una desviación de las estrategias de razonamiento familiares. Utilizando este conjunto de datos, identificamos patrones recurrentes de contaminación que ocurren cuando los modelos recurren a razonamientos arraigados. Específicamente, categorizamos esta contaminación en tres modos distintivos: (i) Sobrecarga de Interpretación, (ii) Desconfianza en la Entrada, y (iii) Atención Parcial a las Instrucciones, cada uno de los cuales hace que los modelos ignoren o distorsionen las instrucciones proporcionadas. Publicamos nuestro conjunto de diagnóstico para facilitar futuras investigaciones sobre la mitigación de la rigidez de razonamiento en los modelos de lenguaje.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha avanzado significativamente las capacidades de razonamiento de los modelos de visión y lenguaje (VLMs). Sin embargo, el uso de RL más allá de tareas de razonamiento sigue siendo en gran parte inexplorado, especialmente para tareas intensivas en percepción como la detección y localización de objetos. Proponemos V-Triune, un sistema de Aprendizaje por Refuerzo Unificado Triple Visual que permite a los VLMs aprender conjuntamente tareas de razonamiento visual y percepción dentro de una única canalización de entrenamiento. V-Triune comprende tres componentes complementarios: Formateo de Datos a Nivel de Muestra (para unificar entradas de tareas diversas), Cálculo de Recompensas a Nivel de Verificador (para entregar recompensas personalizadas mediante verificadores especializados) y Monitoreo de Métricas a Nivel de Fuente (para diagnosticar problemas en el nivel de la fuente de datos). Además, introducimos una novedosa recompensa de IoU Dinámica, que proporciona retroalimentación adaptativa, progresiva y definitiva para las tareas de percepción manejadas por V-Triune. Nuestro enfoque se implementa dentro de un marco de entrenamiento RL estándar utilizando modelos base de 7B y 32B de código abierto. El modelo resultante, denominado Orsta (One RL to See Them All), demuestra mejoras consistentes tanto en tareas de razonamiento como de percepción. Esta amplia capacidad está significativamente moldeada por su entrenamiento en un conjunto de datos diverso, construido en torno a cuatro tareas representativas de razonamiento visual (Matemáticas, Rompecabezas, Gráficos y Ciencia) y cuatro tareas de percepción visual (Localización, Detección, Conteo y OCR). Posteriormente, Orsta logra ganancias sustanciales en MEGA-Bench Core, con mejoras que van desde +2.1 hasta un impresionante +14.1 en sus diversas variantes de modelos de 7B y 32B, con beneficios de rendimiento que se extienden a una amplia gama de tareas posteriores. Estos resultados destacan la efectividad y escalabilidad de nuestro enfoque RL unificado para VLMs. El sistema V-Triune, junto con los modelos Orsta, está disponible públicamente en https://github.com/MiniMax-AI.
Los puntos de referencia existentes no logran capturar un aspecto crucial de la inteligencia: el razonamiento físico, la capacidad integrada de combinar conocimiento del dominio, razonamiento simbólico y comprensión de las limitaciones del mundo real. Para abordar esta brecha, presentamos PhyX: el primer punto de referencia a gran escala diseñado para evaluar la capacidad de los modelos para el razonamiento basado en la física en escenarios visuales. PhyX incluye 3K preguntas multimodales meticulosamente curadas que abarcan 6 tipos de razonamiento en 25 subdominios y 6 dominios principales de la física: termodinámica, electromagnetismo, mecánica, física moderna, óptica y ondas y acústica. En nuestra evaluación exhaustiva, incluso los modelos más avanzados presentan dificultades significativas con el razonamiento físico. GPT-4o, Claude3.7-Sonnet y GPT-o4-mini logran solo un 32.5\%, 42.2\% y 45.8\% de precisión, respectivamente, con brechas de rendimiento que superan el 29\% en comparación con expertos humanos. Nuestro análisis expone limitaciones críticas en los modelos actuales: dependencia excesiva de conocimiento disciplinario memorizado, excesiva dependencia de formulaciones matemáticas y coincidencia superficial de patrones visuales en lugar de una comprensión física genuina. Proporcionamos un análisis en profundidad a través de estadísticas detalladas, estudios de caso exhaustivos y múltiples paradigmas de evaluación para examinar minuciosamente las capacidades de razonamiento físico. Para garantizar la reproducibilidad, implementamos un protocolo de evaluación compatible basado en herramientas ampliamente utilizadas como VLMEvalKit, permitiendo una evaluación con un solo clic.
Este informe técnico presenta QwenLong-CPRS, un marco de compresión de contexto diseñado para la optimización explícita de contextos largos, abordando el costo computacional prohibitivo durante la etapa de prefiltrado y la degradación del rendimiento conocida como "perdido en el medio" en modelos de lenguaje grandes (LLMs) durante el procesamiento de secuencias largas. Implementado mediante un novedoso mecanismo de optimización dinámica de contexto, QwenLong-CPRS permite la compresión de contexto multi-granularidad guiada por instrucciones en lenguaje natural, logrando tanto ganancias en eficiencia como mejoras en el rendimiento. Evolucionado de la serie de arquitecturas Qwen, QwenLong-CPRS introduce cuatro innovaciones clave: (1) Optimización dinámica guiada por lenguaje natural, (2) Capas de razonamiento bidireccional para una mayor conciencia de límites, (3) Mecanismos de crítica de tokens con cabezales de modelado de lenguaje, y (4) Inferencia paralela por ventanas. Evaluaciones exhaustivas en cinco puntos de referencia (contextos de 4K a 2M palabras) demuestran la triple efectividad de QwenLong-CPRS: (1) Superioridad consistente sobre otros métodos de gestión de contexto como RAG y atención dispersa, tanto en precisión como en eficiencia. (2) Integración agnóstica a la arquitectura con todos los LLMs líderes, incluyendo GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 y Qwen2.5-max, logrando una compresión de contexto de 21.59 veces junto con ganancias promedio de rendimiento de 19.15 puntos; (3) Desplegado con Qwen2.5-32B-Instruct, QwenLong-CPRS supera a los LLMs propietarios líderes por 4.85 y 10.88 puntos en Ruler-128K e InfiniteBench, estableciendo un nuevo rendimiento SOTA.
A medida que el costo marginal de escalar el cómputo (datos y parámetros) durante el preentrenamiento de modelos continúa aumentando sustancialmente, el escalado en tiempo de prueba (TTS, por sus siglas en inglés) ha surgido como una dirección prometedora para mejorar el rendimiento de los modelos generativos al asignar cómputo adicional durante la inferencia. Si bien el TTS ha demostrado un éxito significativo en múltiples tareas de lenguaje, persiste una brecha notable en la comprensión de los comportamientos de escalado en tiempo de prueba de los modelos generativos de imágenes y videos (modelos basados en difusión o flujo). Aunque trabajos recientes han iniciado la exploración de estrategias en tiempo de inferencia para tareas de visión, estos enfoques enfrentan limitaciones críticas: están restringidos a dominios específicos de tareas, exhiben una escalabilidad deficiente o caen en una sobreoptimización de recompensas que sacrifica la diversidad de muestras. En este artículo, proponemos Evolutionary Search (EvoSearch), un método TTS novedoso, generalista y eficiente que mejora efectivamente la escalabilidad tanto de la generación de imágenes como de videos en modelos de difusión y flujo, sin requerir entrenamiento adicional o expansión del modelo. EvoSearch reformula el escalado en tiempo de prueba para modelos de difusión y flujo como un problema de búsqueda evolutiva, aprovechando principios de la evolución biológica para explorar y refinar eficientemente la trayectoria de eliminación de ruido. Al incorporar mecanismos de selección y mutación cuidadosamente diseñados y adaptados al proceso de eliminación de ruido de ecuaciones diferenciales estocásticas, EvoSearch genera iterativamente descendientes de mayor calidad mientras preserva la diversidad de la población. A través de una evaluación exhaustiva en arquitecturas de difusión y flujo para tareas de generación de imágenes y videos, demostramos que nuestro método supera consistentemente los enfoques existentes, logra una mayor diversidad y muestra una fuerte generalización a métricas de evaluación no vistas. Nuestro proyecto está disponible en el sitio web https://tinnerhrhe.github.io/evosearch.
La clasificación de hipótesis es un componente crucial del descubrimiento científico automatizado, particularmente en las ciencias naturales donde los experimentos de laboratorio son costosos y tienen un rendimiento limitado. Los enfoques existentes se centran en la clasificación previa al experimento, basándose únicamente en el razonamiento interno de modelos de lenguaje grandes sin incorporar resultados empíricos de los experimentos. Introducimos la tarea de clasificación guiada por experimentos, que tiene como objetivo priorizar hipótesis candidatas basándose en los resultados de otras previamente probadas. Sin embargo, desarrollar tales estrategias es un desafío debido a la impracticabilidad de realizar repetidamente experimentos reales en dominios de las ciencias naturales. Para abordar esto, proponemos un simulador fundamentado en tres supuestos informados por el dominio, que modela el rendimiento de las hipótesis como una función de similitud con una hipótesis de verdad conocida, perturbada por ruido. Curiosamente, hemos compilado un conjunto de datos de 124 hipótesis de química con resultados reportados experimentalmente para validar el simulador. Basándonos en este simulador, desarrollamos un método de clasificación guiada por pseudoexperimentos que agrupa hipótesis por características funcionales compartidas y prioriza candidatos basándose en conocimientos derivados de la retroalimentación experimental simulada. Los experimentos muestran que nuestro método supera a las líneas base previas al experimento y a fuertes ablaciones.
La elección del ruido inicial afecta significativamente la calidad y la alineación con el indicador en los modelos de difusión de video, donde diferentes semillas de ruido para el mismo indicador pueden generar resultados drásticamente distintos. Si bien los métodos recientes dependen de prioridades diseñadas externamente, como filtros de frecuencia o suavizado entre fotogramas, a menudo pasan por alto las señales internas del modelo que indican qué semillas de ruido son inherentemente preferibles. Para abordar esto, proponemos ANSE (Selección Activa de Ruido para Generación), un marco consciente del modelo que selecciona semillas de ruido de alta calidad cuantificando la incertidumbre basada en atención. En su núcleo está BANSA (Selección Activa de Ruido Bayesiana mediante Atención), una función de adquisición que mide la discrepancia de entropía en múltiples muestras estocásticas de atención para estimar la confianza y consistencia del modelo. Para un despliegue eficiente en tiempo de inferencia, introducimos una aproximación enmascarada de Bernoulli de BANSA que permite la estimación de puntuaciones utilizando un solo paso de difusión y un subconjunto de capas de atención. Los experimentos en CogVideoX-2B y 5B demuestran que ANSE mejora la calidad del video y la coherencia temporal con solo un aumento del 8% y 13% en el tiempo de inferencia, respectivamente, ofreciendo un enfoque fundamentado y generalizable para la selección de ruido en la difusión de video. Consulte nuestra página del proyecto: https://anse-project.github.io/anse-project/
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) destacan en tareas complejas utilizando el razonamiento en Cadena de Pensamiento (CoT). Sin embargo, su tendencia a sobrepensar conduce a cadenas de razonamiento innecesariamente largas, lo que aumenta drásticamente los costos de inferencia. Para mitigar este problema, presentamos VeriThinker, un enfoque novedoso para la compresión de CoT. A diferencia de los métodos convencionales que ajustan directamente los LRMs en la tarea de razonamiento original utilizando datos sintéticos de CoT concisos, innovamos al ajustar el modelo únicamente a través de una tarea de verificación auxiliar. Al entrenar a los LRMs para verificar con precisión la corrección de las soluciones de CoT, estos modelos se vuelven inherentemente más selectivos sobre la necesidad de pasos posteriores de autorreflexión, suprimiendo así efectivamente el sobrepensar. Experimentos extensos validan que VeriThinker reduce sustancialmente las longitudes de las cadenas de razonamiento mientras mantiene o incluso mejora ligeramente la precisión. Cuando se aplica a DeepSeek-R1-Distill-Qwen-7B, nuestro enfoque reduce los tokens de razonamiento en MATH500 de 3790 a 2125 mientras mejora la precisión en un 0.8% (de 94.0% a 94.8%), y en AIME25, los tokens disminuyen de 14321 a 10287 con una ganancia de precisión del 2.1% (de 38.7% a 40.8%). Además, nuestros experimentos demuestran que VeriThinker también puede generalizarse de manera zero-shot al razonamiento especulativo. El código está disponible en https://github.com/czg1225/VeriThinker.
Comprender escenas visuales es fundamental para la inteligencia humana. Si bien los modelos discriminativos han avanzado significativamente la visión por computadora, a menudo tienen dificultades con la comprensión composicional. En contraste, los recientes modelos generativos de difusión de texto a imagen sobresalen en la síntesis de escenas complejas, sugiriendo capacidades composicionales inherentes. Basándose en esto, se han propuesto clasificadores de difusión de cero-shot para reutilizar modelos de difusión en tareas discriminativas. Aunque trabajos previos ofrecieron resultados prometedores en escenarios composicionales discriminativos, estos resultados siguen siendo preliminares debido a un número reducido de benchmarks y un análisis relativamente superficial de las condiciones bajo las cuales los modelos tienen éxito. Para abordar esto, presentamos un estudio exhaustivo de las capacidades discriminativas de los clasificadores de difusión en una amplia gama de tareas composicionales. Específicamente, nuestro estudio cubre tres modelos de difusión (SD 1.5, 2.0 y, por primera vez, 3-m) abarcando 10 conjuntos de datos y más de 30 tareas. Además, arrojamos luz sobre el papel que juegan los dominios de los conjuntos de datos objetivo en el rendimiento respectivo; para aislar los efectos del dominio, introducimos un nuevo benchmark diagnóstico llamado Self-Bench, compuesto por imágenes creadas por los propios modelos de difusión. Finalmente, exploramos la importancia de la ponderación de los pasos temporales y descubrimos una relación entre la brecha de dominio y la sensibilidad a los pasos temporales, particularmente para SD3-m. En resumen, los clasificadores de difusión comprenden la composicionalidad, ¡pero con condiciones! El código y el conjunto de datos están disponibles en https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
La generación de formas 3D de alta resolución utilizando representaciones volumétricas como las Funciones de Distancia con Signo presenta desafíos computacionales y de memoria sustanciales. Presentamos Direct3D S2, un marco escalable de generación 3D basado en volúmenes dispersos que logra una calidad de salida superior con costos de entrenamiento drásticamente reducidos. Nuestra innovación clave es el mecanismo de Atención Espacial Dispersa (Spatial Sparse Attention, SSA), que mejora significativamente la eficiencia de los cálculos del Transformer de Difusión en datos volumétricos dispersos. El SSA permite que el modelo procese de manera efectiva grandes conjuntos de tokens dentro de volúmenes dispersos, reduciendo considerablemente la sobrecarga computacional y logrando una aceleración de 3.9x en el paso hacia adelante y de 9.6x en el paso hacia atrás. Nuestro marco también incluye un autoencoder variacional que mantiene un formato volumétrico disperso consistente en las etapas de entrada, latente y salida. En comparación con métodos anteriores que utilizaban representaciones heterogéneas en VAE 3D, este diseño unificado mejora significativamente la eficiencia y estabilidad del entrenamiento. Nuestro modelo se entrena con conjuntos de datos disponibles públicamente, y los experimentos demuestran que Direct3D S2 no solo supera a los métodos más avanzados en calidad y eficiencia de generación, sino que también permite el entrenamiento en resolución 1024 utilizando solo 8 GPUs, una tarea que normalmente requeriría al menos 32 GPUs para representaciones volumétricas en resolución 256, haciendo así que la generación 3D a escala gigante sea tanto práctica como accesible. Página del proyecto: https://nju3dv.github.io/projects/Direct3D-S2/.
El rápido avance y las crecientes aplicaciones de los Modelos de Lenguaje de Gran Escala para Audio (ALLMs, por sus siglas en inglés) exigen una comprensión rigurosa de su confiabilidad. Sin embargo, la investigación sistemática sobre la evaluación de estos modelos, particularmente en relación con los riesgos únicos de la modalidad de audio, sigue siendo en gran medida inexplorada. Los marcos de evaluación existentes se centran principalmente en la modalidad de texto o abordan solo un conjunto limitado de dimensiones de seguridad, sin tener en cuenta adecuadamente las características únicas y los escenarios de aplicación inherentes a la modalidad de audio. Presentamos AudioTrust, el primer marco de evaluación de confiabilidad multifacético y punto de referencia diseñado específicamente para ALLMs. AudioTrust facilita evaluaciones en seis dimensiones clave: equidad, alucinación, seguridad, privacidad, robustez y autenticación. Para evaluar de manera integral estas dimensiones, AudioTrust se estructura en torno a 18 configuraciones experimentales distintas. Su núcleo es un conjunto de datos meticulosamente construido de más de 4,420 muestras de audio/texto, extraídas de escenarios del mundo real (por ejemplo, conversaciones diarias, llamadas de emergencia, interacciones con asistentes de voz), específicamente diseñado para explorar la confiabilidad multifacética de los ALLMs. Para la evaluación, el punto de referencia diseña cuidadosamente 9 métricas de evaluación específicas para audio, y empleamos una canalización automatizada a gran escala para la puntuación objetiva y escalable de las salidas del modelo. Los resultados experimentales revelan los límites y limitaciones de confiabilidad de los ALLMs de código abierto y cerrado más avanzados actualmente cuando se enfrentan a diversos escenarios de audio de alto riesgo, ofreciendo información valiosa para el despliegue seguro y confiable de futuros modelos de audio. Nuestra plataforma y punto de referencia están disponibles en https://github.com/JusperLee/AudioTrust.
Los modelos de lenguaje de gran escala exhiben sesgo posicional —una negligencia sistemática de la información en posiciones específicas del contexto—, sin embargo, su interacción con la diversidad lingüística sigue siendo poco comprendida. Presentamos un estudio translingüístico en cinco lenguas tipológicamente distintas (inglés, ruso, alemán, hindi, vietnamita), examinando cómo el sesgo posicional interactúa con la incertidumbre del modelo, la sintaxis y el prompting. Hallazgos clave: (1) El sesgo posicional está impulsado por el modelo, con variaciones específicas del idioma —Qwen2.5-7B favorece las posiciones tardías, desafiando las suposiciones de sesgo hacia los primeros tokens—; (2) La guía posicional explícita (por ejemplo, "el contexto correcto está en la posición X") reduce la precisión en todos los idiomas, socavando las prácticas de ingeniería de prompts; (3) Alinear el contexto con el sesgo posicional aumenta la entropía, aunque la entropía mínima no predice la precisión. (4) Además, descubrimos que los LLMs imponen de manera diferente el orden dominante de palabras en lenguas de orden libre como el hindi.
Los sistemas de generación aumentada por recuperación (RAG, por sus siglas en inglés) permiten que los modelos de lenguaje de gran escala (LLMs) accedan a conocimiento externo durante la inferencia. Avances recientes han permitido que los LLMs actúen como agentes de búsqueda mediante aprendizaje por refuerzo (RL), mejorando la adquisición de información a través de interacciones multiturno con motores de recuperación. Sin embargo, los enfoques existentes optimizan la recuperación utilizando métricas exclusivas de búsqueda (por ejemplo, NDCG) que ignoran la utilidad en etapas posteriores, o ajustan todo el LLM para razonar y recuperar de manera conjunta, entrelazando la recuperación con la generación y limitando la utilidad real de la búsqueda y la compatibilidad con modelos congelados o propietarios. En este trabajo, proponemos s3, un marco ligero y agnóstico al modelo que desacopla el buscador del generador y entrena al buscador utilizando una recompensa de Ganancia Más Allá de RAG: la mejora en la precisión de la generación sobre un RAG básico. s3 requiere solo 2.4k muestras de entrenamiento para superar a los baselines entrenados con más de 70 veces más datos, ofreciendo consistentemente un mejor rendimiento en etapas posteriores en seis benchmarks de preguntas y respuestas generales y cinco benchmarks de preguntas y respuestas médicas.
Alinear los modelos de lenguaje de gran escala (LLMs) para detectar alucinaciones con precisión sigue siendo un desafío significativo debido a la naturaleza sofisticada del texto alucinado. Reconociendo que las muestras alucinadas suelen exhibir una calidad engañosa más alta que las muestras negativas tradicionales, utilizamos estas alucinaciones cuidadosamente diseñadas como ejemplos negativos en el procedimiento de alineación DPO. Nuestro método incorpora una estrategia de aprendizaje curricular, transicionando gradualmente el entrenamiento desde muestras más fáciles, identificadas en función de la mayor reducción en las puntuaciones de probabilidad de modelos independientes de verificación de hechos, hacia muestras progresivamente más difíciles. Esta escalada estructurada de dificultad asegura un aprendizaje estable e incremental. La evaluación experimental demuestra que nuestros modelos HaluCheck, entrenados con el enfoque DPO curricular y muestras negativas de alta calidad, mejoran significativamente el rendimiento del modelo en diversas métricas, logrando mejoras de hasta el 24% en puntos de referencia difíciles como MedHallu y HaluEval. Además, los modelos HaluCheck demuestran robustez en configuraciones de cero disparos, superando significativamente a modelos más grandes y de última generación en varios puntos de referencia.
La ingeniería front-end implica un flujo de trabajo complejo en el que los ingenieros conceptualizan diseños, los traducen en código y refinan iterativamente la implementación. Si bien los puntos de referencia recientes se centran principalmente en convertir diseños visuales en código, presentamos FullFront, un punto de referencia diseñado para evaluar Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) en toda la cadena de desarrollo front-end. FullFront evalúa tres tareas fundamentales que se corresponden directamente con el flujo de trabajo de la ingeniería front-end: Diseño de Páginas Web (fase de conceptualización), Preguntas y Respuestas sobre Percepción de Páginas Web (comprensión de la organización visual y los elementos) y Generación de Código de Páginas Web (fase de implementación). A diferencia de los puntos de referencia existentes que utilizan sitios web rastreados con código inflado o HTML generado por LLMs demasiado simplificado, FullFront emplea un proceso novedoso de dos etapas para transformar páginas web del mundo real en HTML limpio y estandarizado, manteniendo diseños visuales diversos y evitando problemas de derechos de autor. Las pruebas exhaustivas de los MLLMs más avanzados revelan limitaciones significativas en la percepción de páginas, la generación de código (especialmente en el manejo de imágenes y el diseño) y la implementación de interacciones. Nuestros resultados demuestran cuantitativamente las disparidades de rendimiento entre modelos y tareas, y destacan una brecha sustancial entre las capacidades actuales de los MLLMs y el rendimiento de expertos humanos en ingeniería front-end. El punto de referencia FullFront y su código están disponibles en https://github.com/Mikivishy/FullFront.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido como un método efectivo para entrenar modelos de razonamiento. Sin embargo, los enfoques de RL existentes suelen sesgar la distribución de salida del modelo hacia caminos que maximizan la recompensa sin incorporar conocimiento externo. Esto limita su capacidad de exploración y resulta en un límite de capacidad de razonamiento más estrecho en comparación con los modelos base. Para abordar esta limitación, proponemos TAPO (Optimización de Política Aumentada con Pensamiento), un marco novedoso que aumenta el RL incorporando orientación externa de alto nivel ("patrones de pensamiento"). Al integrar de manera adaptativa pensamientos estructurados durante el entrenamiento, TAPO equilibra eficazmente la exploración interna del modelo y la explotación de la orientación externa. Experimentos extensos muestran que nuestro enfoque supera significativamente a GRPO en un 99% en AIME, un 41% en AMC y un 17% en Minerva Math. Notablemente, estos patrones de pensamiento de alto nivel, abstraídos de solo 500 muestras previas, se generalizan eficazmente en diversas tareas y modelos. Esto resalta el potencial de TAPO para aplicaciones más amplias en múltiples tareas y dominios. Nuestro análisis adicional revela que la introducción de orientación externa produce modelos de razonamiento potentes con una explicabilidad superior del comportamiento de inferencia y una mayor legibilidad de la salida.
Los Modelos de Lenguaje de Gran Escala (LLMs) demuestran capacidades impresionantes pero carecen de inteligencia temporal robusta, luchando por integrar el razonamiento sobre el pasado con predicciones y generaciones plausibles del futuro. Mientras tanto, los métodos existentes suelen enfocarse en habilidades temporales aisladas, como la respuesta a preguntas sobre eventos pasados o pronósticos básicos, y muestran una generalización deficiente, especialmente cuando se trata de eventos más allá de su límite de conocimiento o que requieren previsión creativa. Para abordar estas limitaciones, presentamos Time-R1, el primer marco que dota a un LLM de tamaño moderado (3 mil millones de parámetros) con habilidades temporales integrales: comprensión, predicción y generación creativa. Nuestro enfoque presenta una novedosa trayectoria de desarrollo en tres etapas; las dos primeras constituyen un currículo de aprendizaje por refuerzo (RL) impulsado por un sistema de recompensas dinámico basado en reglas cuidadosamente diseñado. Este marco construye progresivamente (1) una comprensión temporal fundamental y mapeos lógicos de eventos-tiempo a partir de datos históricos, (2) habilidades de predicción de eventos futuros para eventos más allá de su límite de conocimiento, y finalmente (3) permite una generalización notable hacia la generación creativa de escenarios futuros sin necesidad de ajuste fino. Sorprendentemente, los experimentos demuestran que Time-R1 supera a modelos más de 200 veces más grandes, incluyendo el estado del arte DeepSeek-R1 de 671 mil millones de parámetros, en puntos de referencia altamente desafiantes de predicción de eventos futuros y generación creativa de escenarios. Este trabajo proporciona evidencia sólida de que un ajuste fino progresivo y bien diseñado mediante RL permite que modelos más pequeños y eficientes logren un rendimiento temporal superior, ofreciendo un camino práctico y escalable hacia una IA verdaderamente consciente del tiempo. Para fomentar más investigación, también lanzamos Time-Bench, un conjunto de datos a gran escala de razonamiento temporal multitarea derivado de 10 años de datos de noticias, y nuestra serie de puntos de control de Time-R1.
El rápido crecimiento de los asistentes de voz impulsados por modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ha puesto de manifiesto la necesidad de datos de instrucciones habladas para entrenar estos sistemas. A pesar de la abundancia de datos de reconocimiento de voz, existe una notable escasez de datos de instrucciones habladas, los cuales son esenciales para afinar los modelos y que comprendan y ejecuten comandos verbales. La generación de voz sintética de alta calidad requiere un buen modelo de conversión de texto a voz (TTS), que puede no estar disponible para idiomas con recursos limitados. Nuestro enfoque novedoso aborda este desafío deteniendo la síntesis en el nivel de representación semántica, evitando así la necesidad de TTS. Logramos esto alineando representaciones semánticas sintéticas con el codificador preentrenado Whisper, permitiendo que un LLM se ajuste con instrucciones de texto mientras mantiene la capacidad de comprender instrucciones habladas durante la inferencia. Este proceso de entrenamiento simplificado representa un enfoque prometedor para construir asistentes de voz en idiomas con recursos limitados.
El rápido avance de los modelos nativos multimodales y omni-modelos, ejemplificado por GPT-4o, Gemini y o3, con su capacidad para procesar y generar contenido a través de modalidades como texto e imágenes, marca un hito significativo en la evolución de la inteligencia. La evaluación sistemática de sus capacidades de salida multimodal en procesos de pensamiento visual (también conocidos como cadena de pensamiento multimodal, M-CoT) se vuelve de crítica importancia. Sin embargo, los puntos de referencia existentes para evaluar modelos multimodales se centran principalmente en la evaluación de entradas multimodales y el razonamiento basado únicamente en texto, descuidando la importancia del razonamiento a través de salidas multimodales. En este artículo, presentamos un punto de referencia, denominado RBench-V, diseñado para evaluar las habilidades de razonamiento indispensables para la visión de los modelos. Para construir RBench-V, seleccionamos cuidadosamente 803 preguntas que cubren matemáticas, física, conteo y juegos. A diferencia de los puntos de referencia anteriores que suelen especificar ciertas modalidades de entrada, RBench-V presenta problemas centrados en salidas multimodales, que requieren manipulación de imágenes, como la generación de imágenes novedosas y la construcción de líneas auxiliares para apoyar el proceso de razonamiento. Evaluamos numerosos modelos de código abierto y cerrado en RBench-V, incluyendo o3, Gemini 2.5 Pro, Qwen2.5-VL, etc. Incluso el modelo con mejor rendimiento, o3, alcanza solo un 25.8% de precisión en RBench-V, muy por debajo de la puntuación humana del 82.3%, lo que destaca que los modelos actuales tienen dificultades para aprovechar el razonamiento multimodal. Los datos y el código están disponibles en https://evalmodels.github.io/rbenchv.
Restaurar imágenes nocturnas afectadas por múltiples condiciones climáticas adversas es un problema de investigación práctico pero poco explorado, ya que en el mundo real estas condiciones suelen coexistir junto con diversos efectos de iluminación durante la noche. Este artículo aborda por primera vez la desafiante tarea de restauración de imágenes nocturnas con múltiples condiciones climáticas, donde diversos tipos de degradaciones climáticas se entrelazan con efectos de destello. Para apoyar la investigación, contribuimos con el conjunto de datos AllWeatherNight, que presenta imágenes nocturnas de alta calidad a gran escala con diversas degradaciones composicionales, sintetizadas utilizando nuestra generación de degradación consciente de la iluminación. Además, presentamos ClearNight, un marco unificado para la restauración de imágenes nocturnas, que elimina eficazmente degradaciones complejas de una sola vez. Específicamente, ClearNight extrae prioridades duales basadas en Retinex y guía explícitamente a la red para que se enfoque en regiones de iluminación desigual y contenidos de textura intrínseca, mejorando así la efectividad de la restauración en escenarios nocturnos. Para representar mejor las características comunes y únicas de las degradaciones climáticas múltiples, introducimos un método de colaboración dinámica específica-común consciente del clima, que identifica degradaciones climáticas y selecciona adaptativamente unidades candidatas óptimas asociadas con tipos climáticos específicos. Nuestro ClearNight logra un rendimiento de vanguardia tanto en imágenes sintéticas como del mundo real. Experimentos de ablación exhaustivos validan la necesidad del conjunto de datos AllWeatherNight, así como la efectividad de ClearNight. Página del proyecto: https://henlyta.github.io/ClearNight/mainpage.html
Enseñar a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a ser fieles al contexto proporcionado es crucial para construir sistemas de búsqueda de información confiables. Por lo tanto, proponemos un marco sistemático, CANOE, para mejorar la fidelidad de los LLMs tanto en tareas de generación de formato corto como de formato largo, sin necesidad de anotaciones humanas. Específicamente, primero sintetizamos datos de preguntas y respuestas (QA) de formato corto con cuatro tareas diversas para construir datos de entrenamiento de alta calidad y fácilmente verificables sin intervención humana. Además, proponemos Dual-GRPO, un método de aprendizaje por refuerzo basado en reglas que incluye tres recompensas basadas en reglas derivadas de los datos sintetizados de QA de formato corto, mientras optimiza simultáneamente la generación de respuestas tanto de formato corto como de formato largo. Cabe destacar que Dual-GRPO elimina la necesidad de etiquetar manualmente datos de preferencia para entrenar modelos de recompensa y evita la sobreoptimización de la generación de formato corto al depender únicamente de los datos sintetizados de QA de formato corto. Los resultados experimentales muestran que CANOE mejora significativamente la fidelidad de los LLMs en 11 tareas descendentes diferentes, superando incluso a los LLMs más avanzados, como GPT-4o y OpenAI o1.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) es una forma poderosa de adaptar modelos base a tareas especializadas, pero su dependencia de datos etiquetados por humanos a gran escala limita su adopción generalizada. Presentamos Synthetic Data RL, un marco simple y general que ajusta modelos mediante refuerzo utilizando únicamente datos sintéticos generados a partir de una definición de tarea. Nuestro método primero genera pares de preguntas y respuestas a partir de la definición de la tarea y documentos recuperados, luego adapta la dificultad de la pregunta según la capacidad de resolución del modelo, y selecciona preguntas utilizando la tasa de acierto promedio del modelo en las muestras para el entrenamiento de RL. En Qwen-2.5-7B, nuestro método logra una mejora absoluta del 29.2% sobre el modelo base en GSM8K (+2.9 pp frente al ajuste por instrucción, +6.6 pp frente a Self-Instruct), 8.7% en MATH, 13.1% en GPQA (+7.0 pp frente a SynthLLM), 8.9% en MedQA, 17.7% en CQA (derecho) y 13.7% en CFA (finanzas). Supera el ajuste fino supervisado con el mismo presupuesto de datos y casi iguala al RL con datos humanos completos en todos los conjuntos de datos (por ejemplo, +17.2 pp en GSM8K). Agregar 100 demostraciones humanas mejora el rendimiento de GSM8K solo en 0.4 pp, mostrando un valor agregado limitado. Al reducir la anotación de datos humanos, Synthetic Data RL permite una adaptación de modelos basada en RL escalable y eficiente. El código y las demostraciones están disponibles en https://github.com/gydpku/Data_Synthesis_RL/.
Trinity-RFT es un marco de propósito general, flexible y escalable diseñado para el ajuste fino por refuerzo (RFT, por sus siglas en inglés) de modelos de lenguaje grandes. Está construido con un diseño desacoplado, que consta de (1) un núcleo RFT que unifica y generaliza los modos sincrónicos/asincrónicos, on-policy/off-policy y en línea/fuera de línea del RFT, (2) una integración fluida para la interacción agente-entorno con alta eficiencia y robustez, y (3) tuberías de datos sistemáticas optimizadas para RFT. Trinity-RFT puede adaptarse fácilmente a diversos escenarios de aplicación y sirve como una plataforma unificada para explorar paradigmas avanzados de aprendizaje por refuerzo. Este informe técnico describe la visión, características, diseño e implementaciones de Trinity-RFT, acompañado de numerosos ejemplos que demuestran la utilidad y facilidad de uso del marco propuesto.
Presentamos ScanBot, un nuevo conjunto de datos diseñado para el escaneo de superficies de alta precisión condicionado por instrucciones en sistemas robóticos. A diferencia de los conjuntos de datos existentes para el aprendizaje robótico, que se centran en tareas generales como la manipulación, la navegación o el diálogo, ScanBot aborda las demandas de alta precisión del escaneo láser industrial, donde la continuidad de la trayectoria a nivel submilimétrico y la estabilidad de los parámetros son críticas. El conjunto de datos abarca trayectorias de escaneo láser ejecutadas por un robot en 12 objetos diversos y 6 tipos de tareas, incluyendo escaneos de superficie completa, regiones enfocadas en la geometría, partes referenciadas espacialmente, estructuras funcionalmente relevantes, inspección de defectos y análisis comparativo. Cada escaneo está guiado por instrucciones en lenguaje natural y se acompaña de datos sincronizados de RGB, profundidad y perfiles láser, así como de la pose del robot y los estados de las articulaciones. A pesar de los avances recientes, los modelos existentes de visión-lenguaje-acción (VLA) aún no logran generar trayectorias de escaneo estables bajo instrucciones detalladas y las demandas de precisión del mundo real. Para investigar esta limitación, evaluamos una variedad de modelos de lenguaje multimodal de gran escala (MLLM) en todo el ciclo de percepción-planificación-ejecución, revelando desafíos persistentes en el seguimiento de instrucciones bajo restricciones realistas.
El despliegue rápido de modelos de visión y lenguaje (VLMs) amplifica los riesgos de seguridad, aunque la mayoría de las evaluaciones se basan en imágenes artificiales. Este estudio plantea: ¿Qué tan seguros son los VLMs actuales cuando se enfrentan a imágenes de memes que los usuarios comunes comparten? Para investigar esta pregunta, presentamos MemeSafetyBench, un benchmark de 50,430 instancias que empareja imágenes reales de memes con instrucciones tanto dañinas como benignas. Utilizando una taxonomía de seguridad exhaustiva y generación de instrucciones basada en LLMs, evaluamos múltiples VLMs en interacciones de uno y varios turnos. Investigamos cómo los memes del mundo real influyen en las salidas dañinas, los efectos mitigadores del contexto conversacional y la relación entre la escala del modelo y las métricas de seguridad. Nuestros hallazgos demuestran que los VLMs muestran una mayor vulnerabilidad a instrucciones dañinas basadas en memes que a imágenes sintéticas o tipográficas. Los memes aumentan significativamente las respuestas dañinas y disminuyen las negativas en comparación con entradas de solo texto. Aunque las interacciones de varios turnos proporcionan una mitigación parcial, la vulnerabilidad elevada persiste. Estos resultados resaltan la necesidad de evaluaciones ecológicamente válidas y mecanismos de seguridad más robustos.
A pesar de los avances recientes en la generación de texto a imagen (T2I), los modelos existentes a menudo tienen dificultades para captar fielmente las intenciones del usuario a partir de indicaciones cortas y poco especificadas. Si bien trabajos previos han intentado mejorar las indicaciones utilizando modelos de lenguaje de gran escala (LLMs), estos métodos frecuentemente generan contenido estilizado o poco realista debido a una insuficiente fundamentación en la semántica visual y la composición del mundo real. Inspirados por los avances recientes en el razonamiento para modelos de lenguaje, proponemos RePrompt, un novedoso marco de reprompting que introduce un razonamiento explícito en el proceso de mejora de indicaciones mediante el aprendizaje por refuerzo. En lugar de depender de reglas predefinidas o reescrituras estilísticas, nuestro método entrena un modelo de lenguaje para generar indicaciones estructuradas y autorreflexivas optimizando los resultados a nivel de imagen. Los modelos de recompensa personalizados evalúan las imágenes generadas en términos de preferencia humana, alineación semántica y composición visual, proporcionando una supervisión indirecta para refinar la generación de indicaciones. Nuestro enfoque permite un entrenamiento de extremo a extremo sin datos anotados manualmente. Los experimentos en GenEval y T2I-Compbench muestran que RePrompt mejora significativamente la fidelidad del diseño espacial y la generalización composicional en diversos modelos T2I, estableciendo nuevos resultados de vanguardia.
La generación de video controlable (CVG, por sus siglas en inglés) ha avanzado rápidamente, aunque los sistemas actuales fallan cuando más de un actor debe moverse, interactuar y cambiar de posición bajo señales de control ruidosas. Abordamos esta brecha con DanceTogether, el primer marco de difusión de extremo a extremo que convierte una sola imagen de referencia más flujos independientes de máscaras de poses en videos largos y fotorrealistas, preservando estrictamente cada identidad. Un novedoso MaskPoseAdapter vincula "quién" y "cómo" en cada paso de eliminación de ruido al fusionar máscaras de seguimiento robustas con mapas de calor de poses semánticamente ricos pero ruidosos, eliminando la deriva de identidad y la mezcla de apariencias que afectan a las canalizaciones basadas en fotogramas. Para entrenar y evaluar a escala, presentamos (i) PairFS-4K, 26 horas de metraje de patinadores duales con más de 7,000 identificaciones distintas, (ii) HumanRob-300, un conjunto de interacción humanoide-robot de una hora para transferencia rápida entre dominios, y (iii) TogetherVideoBench, un punto de referencia de tres pistas centrado en el conjunto de pruebas DanceTogEval-100 que cubre danza, boxeo, lucha libre, yoga y patinaje artístico. En TogetherVideoBench, DanceTogether supera a los métodos anteriores por un margen significativo. Además, demostramos que un ajuste fino de una hora produce videos convincentes de humano-robot, destacando una generalización amplia para tareas de IA encarnada e interacción humano-robot (HRI). Ablaciones extensas confirman que la vinculación persistente entre identidad y acción es crucial para estos avances. En conjunto, nuestro modelo, conjuntos de datos y punto de referencia elevan la CVG desde la coreografía de un solo sujeto hasta la interacción multi-actor controlable composicionalmente, abriendo nuevas vías para la producción digital, simulación e inteligencia encarnada. Nuestras demostraciones en video y código están disponibles en https://DanceTog.github.io/.
Presentamos RIPT-VLA, un paradigma simple y escalable de ajuste posterior interactivo basado en aprendizaje por refuerzo que afina modelos preentrenados de Visión-Lenguaje-Acción (VLA) utilizando únicamente recompensas binarias de éxito dispersas. Los flujos de entrenamiento existentes para modelos VLA dependen en gran medida de datos de demostración experta offline y de imitación supervisada, lo que limita su capacidad para adaptarse a nuevas tareas y entornos en regímenes de baja disponibilidad de datos. RIPT-VLA aborda este problema al permitir un ajuste posterior interactivo con un algoritmo de optimización de políticas estable basado en muestreo dinámico de rollouts y estimación de ventajas leave-one-out. RIPT-VLA tiene las siguientes características. En primer lugar, se aplica a diversos modelos VLA, logrando una mejora del 21.2% en el modelo ligero QueST y llevando el modelo OpenVLA-OFT de 7B a una tasa de éxito sin precedentes del 97.5%. En segundo lugar, es computacionalmente eficiente y eficiente en datos: con solo una demostración, RIPT-VLA permite que un modelo SFT inicialmente inviable (4%) alcance una tasa de éxito del 97% en 15 iteraciones. Además, demostramos que la política aprendida por RIPT-VLA se generaliza a través de diferentes tareas y escenarios y es robusta al contexto del estado inicial. Estos resultados destacan a RIPT-VLA como un paradigma práctico y efectivo para el ajuste posterior de modelos VLA con supervisión mínima.
Los modelos de lenguaje de gran escala suelen adaptarse a tareas específicas mediante ajuste fino supervisado con datos del dominio correspondiente. Mientras que el ajuste fino estándar se centra en minimizar la pérdida de generación para optimizar los parámetros del modelo, nosotros damos un paso más allá al retener y aprovechar las señales de aprendizaje propias del modelo, de manera análoga a cómo los aprendices humanos reflexionan sobre errores pasados para mejorar su desempeño futuro. Primero, introducimos el concepto de Registro de Errores para rastrear sistemáticamente el comportamiento de aprendizaje y los errores recurrentes del modelo durante el ajuste fino. Tratando el modelo basado en transformadores original como el Piloto, diseñamos correspondientemente un modelo Copiloto para refinar el rendimiento de inferencia del Piloto mediante la rectificación de logits. Denominamos al marco general Piloto-Copiloto como Transformer Copilot, el cual introduce (i) un diseño novedoso del modelo Copiloto, (ii) un paradigma de entrenamiento conjunto donde el Copiloto aprende continuamente del Registro de Errores en evolución junto con el Piloto, y (iii) un paradigma de inferencia fusionada donde el Copiloto rectifica los logits del Piloto para mejorar la generación. Proporcionamos análisis tanto teóricos como empíricos de nuestro nuevo marco de aprendizaje. Los experimentos en 12 benchmarks que abarcan tareas de sentido común, aritmética y recomendación demuestran que Transformer Copilot mejora consistentemente el rendimiento hasta en un 34.5%, mientras introduce un sobrecosto computacional marginal en los modelos Piloto y exhibe una fuerte escalabilidad y transferibilidad.
Los avances recientes en agentes de LLM se han basado en gran medida en marcos de razonamiento como ReAct, que intercalan pensamiento y acción en entornos complejos. Sin embargo, ReAct a menudo produce pasos de razonamiento inconsistentes o desvinculados, lo que genera una desalineación entre el estado real del agente y su objetivo. Nuestro análisis revela que esto se debe a la incapacidad de ReAct para mantener creencias internas consistentes y una alineación con los objetivos, lo que provoca errores acumulativos y alucinaciones. Para abordar este problema, presentamos ReflAct, un nuevo marco que traslada el razonamiento de simplemente planificar las siguientes acciones a reflexionar continuamente sobre el estado del agente en relación con su objetivo. Al fundamentar explícitamente las decisiones en los estados y reforzar la alineación continua con los objetivos, ReflAct mejora drásticamente la confiabilidad estratégica. Este diseño ofrece ganancias empíricas significativas: ReflAct supera a ReAct en un 27.7% en promedio, alcanzando una tasa de éxito del 93.3% en ALFWorld. Es notable que ReflAct incluso supera a ReAct con módulos de mejora adicionales (por ejemplo, Reflexion, WKM), demostrando que fortalecer el núcleo del razonamiento es clave para un rendimiento confiable del agente.
Los algoritmos de gradiente de políticas han sido aplicados con éxito para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs). A pesar del uso generalizado de la regularización de Kullback-Leibler (KL) en los algoritmos de gradiente de políticas para estabilizar el entrenamiento, la exploración sistemática de cómo diferentes formulaciones de divergencia KL pueden ser estimadas e integradas en funciones de pérdida sustitutas para el aprendizaje por refuerzo (RL) en línea presenta un espacio de diseño matizado y sistemáticamente explorable. En este artículo, proponemos el gradiente de políticas regularizado (RPG), un marco sistemático para derivar y analizar métodos de gradiente de políticas regularizados por KL en el entorno de RL en línea. Derivamos gradientes de políticas y las correspondientes funciones de pérdida sustitutas para objetivos regularizados tanto por divergencias KL directas como inversas, considerando distribuciones de políticas normalizadas y no normalizadas. Además, presentamos derivaciones para funciones de pérdida completamente diferenciables, así como estimadores de gradiente al estilo REINFORCE, adaptándonos a diversas necesidades algorítmicas. Realizamos experimentos extensivos en RL para el razonamiento de LLMs utilizando estos métodos, mostrando resultados mejorados o competitivos en términos de estabilidad de entrenamiento y rendimiento en comparación con líneas base sólidas como GRPO, REINFORCE++ y DAPO. El código está disponible en https://github.com/complex-reasoning/RPG.
En este artículo, proponemos un método simple y eficiente para el entrenamiento de modelos de valor en trazas de razonamiento de contexto largo. En comparación con los modelos de recompensa de proceso (PRMs) existentes, nuestro método no requiere una noción detallada de "paso", que es difícil de definir para modelos de razonamiento de contexto largo. Al recopilar un conjunto de datos de 2.5 millones de trazas de razonamiento, entrenamos un modelo de valor a nivel de tokens de 1.5B y lo aplicamos a los modelos DeepSeek para mejorar el rendimiento con escalado de cómputo en tiempo de prueba. Descubrimos que la búsqueda guiada por valor (VGS) por bloques con una votación mayoritaria ponderada final logra un mejor escalado en tiempo de prueba que métodos estándar como la votación mayoritaria o best-of-n. Con un presupuesto de inferencia de 64 generaciones, VGS con DeepSeek-R1-Distill-1.5B alcanza una precisión promedio del 45.7% en cuatro benchmarks de matemáticas competitivas (AIME 2024 & 2025, HMMT Feb 2024 & 2025), alcanzando paridad con o3-mini-medium. Además, VGS reduce significativamente los FLOPs de inferencia necesarios para alcanzar el mismo rendimiento que la votación mayoritaria. Nuestro conjunto de datos, modelo y código base son de código abierto.
Este artículo presenta un hallazgo fascinante: al entrenar un modelo de lenguaje auto-regresivo (LLM) con tokens de texto, el modelo de texto desarrolla inherentemente una capacidad interna para comprender imágenes y audio, adquiriendo así la habilidad de ver y escuchar simplemente leyendo. Los modelos populares de LLM para audio y visión ajustan modelos de texto LLM para generar salidas de texto condicionadas por incrustaciones (embeddings) de imágenes y audio. Por otro lado, nuestra arquitectura toma como entrada fragmentos de imágenes, formas de onda de audio o tokens, y produce incrustaciones o etiquetas de categoría típicas de una pipeline de clasificación. Demostramos la generalidad de los pesos de texto para ayudar en la clasificación de audio en los conjuntos de datos FSD-50K y GTZAN. Además, mostramos que esto funciona para la clasificación de imágenes en CIFAR-10 y Fashion-MNIST, así como en fragmentos de imágenes. Esto refuerza la noción de que los LLM de texto aprenden circuitos internos potentes que pueden ser utilizados activando las conexiones necesarias para diversas aplicaciones, en lugar de entrenar modelos desde cero cada vez.
Las conexiones residuales son fundamentales para las redes neuronales profundas, ya que permiten una mayor profundidad al mitigar el problema de los gradientes que se desvanecen. Sin embargo, en las actualizaciones residuales estándar, la salida del módulo se suma directamente al flujo de entrada. Esto puede generar actualizaciones que principalmente refuerzan o modulan la dirección del flujo existente, lo que potencialmente subutiliza la capacidad del módulo para aprender características completamente nuevas. En este trabajo, presentamos la Actualización Residual Ortogonal: descomponemos la salida del módulo en relación con el flujo de entrada y añadimos solo el componente ortogonal a este flujo. Este diseño tiene como objetivo guiar a los módulos para que contribuyan principalmente con nuevas direcciones de representación, fomentando un aprendizaje de características más rico y promoviendo un entrenamiento más eficiente. Demostramos que nuestra estrategia de actualización ortogonal mejora la precisión de generalización y la estabilidad del entrenamiento en diversas arquitecturas (ResNetV2, Transformers de Visión) y conjuntos de datos (CIFARs, TinyImageNet, ImageNet-1k), logrando, por ejemplo, una mejora de +4.3\%p en la precisión top-1 para ViT-B en ImageNet-1k.
Mixture-of-Experts (MoE) permite escalar de manera eficiente los modelos de lenguaje grandes (LLMs) mediante la activación dispersa de expertos durante la inferencia. Para implementar de manera efectiva grandes modelos MoE en dispositivos con memoria limitada, muchos sistemas introducen la *descarga de expertos*, que almacena un subconjunto de expertos en memoria rápida, dejando otros en memoria lenta para ejecutarse en la CPU o cargarse bajo demanda. Aunque algunas investigaciones han aprovechado la localidad de las activaciones de expertos, donde tokens consecutivos activan expertos similares, el grado de esta **consistencia de enrutamiento local** varía entre modelos y sigue siendo poco estudiado. En este artículo, proponemos dos métricas para medir la consistencia de enrutamiento local en modelos MoE: (1) **Rendimiento Óptimo de Enrutamiento por Segmento (SRP)**, que evalúa qué tan bien un grupo fijo de expertos puede cubrir las necesidades de un segmento de tokens, y (2) **Tasa Óptima de Aciertos en Caché por Segmento (SCH)**, que mide la tasa óptima de aciertos en caché a nivel de segmento bajo un límite de tamaño de caché dado. Analizamos 20 LLMs MoE con diversos tamaños y arquitecturas y descubrimos que los modelos que aplican MoE en cada capa y no utilizan expertos compartidos exhiben la mayor consistencia de enrutamiento local. Además, demostramos que los expertos especializados en dominios contribuyen más a la consistencia de enrutamiento que los especializados en vocabulario, y que la mayoría de los modelos pueden equilibrar la efectividad y eficiencia de la caché con tamaños de caché aproximadamente 2 veces mayores que los expertos activos. Estos hallazgos allanan el camino para un diseño e implementación eficiente en memoria de MoE sin comprometer la velocidad de inferencia. Publicamos el código para replicar los experimentos en https://github.com/ljcleo/moe-lrc.
Los avances recientes, como DeepSeek R1-Zero, destacan la efectividad del entrenamiento por incentivos, un paradigma de aprendizaje por refuerzo que calcula las recompensas únicamente en función de la parte de la respuesta final en la salida de un modelo de lenguaje, fomentando así la generación de pasos de razonamiento intermedios. Sin embargo, estos métodos dependen fundamentalmente de verificadores externos, lo que limita su aplicabilidad a dominios como las matemáticas y la programación, donde dichos verificadores están fácilmente disponibles. Aunque los modelos de recompensa pueden funcionar como verificadores, requieren datos anotados de alta calidad y son costosos de entrenar. En este trabajo, proponemos NOVER, Aprendizaje por Refuerzo SIN VERificador, un marco general de aprendizaje por refuerzo que solo requiere datos estándar de ajuste fino supervisado, sin necesidad de un verificador externo. NOVER permite el entrenamiento por incentivos en una amplia gama de tareas de texto a texto y supera al modelo del mismo tamaño destilado de grandes modelos de razonamiento, como DeepSeek R1 671B, en un 7.7 por ciento. Además, la flexibilidad de NOVER abre nuevas posibilidades para optimizar modelos de lenguaje grandes, como el entrenamiento por incentivos inversos.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se implementan cada vez más en dominios sensibles como empresas y gobiernos, garantizar que cumplan con las políticas de seguridad definidas por el usuario dentro de un contexto específico es crucial, especialmente en lo que respecta a la no divulgación de información. Si bien estudios previos sobre LLMs se han centrado en la seguridad general y en datos socialmente sensibles, aún faltan puntos de referencia a gran escala para la preservación de la seguridad contextual frente a ataques. Para abordar esto, presentamos un nuevo conjunto de datos de referencia a gran escala, CoPriva, que evalúa la adherencia de los LLMs a políticas contextuales de no divulgación en tareas de respuesta a preguntas. Derivado de contextos realistas, nuestro conjunto de datos incluye políticas explícitas y consultas diseñadas como ataques directos e indirectos desafiantes que buscan obtener información prohibida. Evaluamos 10 LLMs en nuestro punto de referencia y revelamos una vulnerabilidad significativa: muchos modelos violan las políticas definidas por el usuario y filtran información sensible. Este fallo es particularmente grave frente a ataques indirectos, lo que destaca una brecha crítica en la alineación de seguridad actual de los LLMs para aplicaciones sensibles. Nuestro análisis revela que, aunque los modelos a menudo pueden identificar la respuesta correcta a una consulta, tienen dificultades para incorporar restricciones de políticas durante la generación. En contraste, muestran una capacidad parcial para revisar las salidas cuando se les solicita explícitamente. Nuestros hallazgos subrayan la necesidad urgente de métodos más robustos para garantizar la seguridad contextual.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades notables en el razonamiento de múltiples pasos y en la invocación de motores de búsqueda en los momentos adecuados. Sin embargo, los enfoques existentes de razonamiento aumentado con recuperación dependen de modelos de recuperación separados, limitando el papel del LRM en la recuperación a decidir cuándo recuperar y cómo consultar. Esta separación no solo incrementa los costos de hardware y operativos, sino que también conduce a errores en el proceso de recuperación debido al cuello de botella de representación, un fenómeno en el que el espacio de incrustación del recuperador no es lo suficientemente expresivo para satisfacer los requisitos del generador. Para abordar esto, cambiamos nuestra perspectiva del emparejamiento secuencia a secuencia a la localización de rutas que contienen respuestas dentro del corpus, y proponemos un nuevo marco llamado FREESON (Razonamiento Aumentado con Recuperación SIN Recuperador). Este marco permite que los LRMs recuperen conocimiento relevante por sí mismos al actuar tanto como generador como recuperador. Para lograrlo, introducimos una variante del algoritmo MCTS especializada para la tarea de recuperación, a la que llamamos CT-MCTS (Búsqueda de Árbol de Monte Carlo con Travesía de Corpus). En este algoritmo, los LRMs recorren el corpus hacia regiones que contienen respuestas. Nuestros resultados en cinco benchmarks de preguntas y respuestas de dominio abierto, incluyendo preguntas de un solo salto y de múltiples saltos, muestran que FREESON logra una mejora promedio del 14.4% en EM y F1 sobre cuatro modelos de razonamiento de múltiples pasos con un recuperador separado, y también se desempeña de manera comparable al baseline más fuerte, superándolo en un 3% en PopQA y en un 2% en 2WikiMultihopQA.
El RAG iterativo para la respuesta a preguntas de múltiples saltos enfrenta desafíos con contextos extensos y la acumulación de información irrelevante. Esto dificulta la capacidad de un modelo para procesar y razonar sobre el contenido recuperado, limitando su rendimiento. Si bien los métodos recientes se centran en comprimir la información recuperada, están restringidos al RAG de una sola ronda, requieren ajuste fino o carecen de escalabilidad en el RAG iterativo. Para abordar estos desafíos, proponemos la Escritura de Notas, un método que genera notas concisas y relevantes a partir de documentos recuperados en cada paso, reduciendo así el ruido y reteniendo solo la información esencial. Esto aumenta indirectamente la longitud efectiva del contexto de los Modelos de Lenguaje de Gran Escala (LLMs), permitiéndoles razonar y planificar de manera más efectiva mientras procesan volúmenes mayores de texto de entrada. La Escritura de Notas es independiente del marco de trabajo y puede integrarse con diferentes métodos de RAG iterativo. Demostramos su efectividad con tres métodos de RAG iterativo, en dos modelos y cuatro conjuntos de datos de evaluación. La Escritura de Notas produce una mejora promedio de 15.6 puntos porcentuales en general, con un aumento mínimo en los tokens de salida.
El razonamiento temporal es fundamental para que los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) comprendan el mundo real. Sin embargo, los trabajos existentes pasan por alto los desafíos del mundo real en el razonamiento temporal: (1) la intensa información temporal, (2) la dinámica de eventos que cambia rápidamente, y (3) las complejas dependencias temporales en las interacciones sociales. Para cerrar esta brecha, proponemos un punto de referencia multinivel llamado TIME, diseñado para el razonamiento temporal en escenarios del mundo real. TIME consta de 38,522 pares de preguntas y respuestas, cubriendo 3 niveles con 11 subtareas detalladas. Este punto de referencia incluye 3 subconjuntos de datos que reflejan diferentes desafíos del mundo real: TIME-Wiki, TIME-News y TIME-Dial. Realizamos experimentos extensos en modelos de razonamiento y modelos no basados en razonamiento. Además, llevamos a cabo un análisis profundo del rendimiento en razonamiento temporal en diversos escenarios y tareas del mundo real, y resumimos el impacto del escalamiento en tiempo de prueba sobre las capacidades de razonamiento temporal. Adicionalmente, lanzamos TIME-Lite, un subconjunto anotado por humanos para fomentar futuras investigaciones y la evaluación estandarizada en razonamiento temporal. El código está disponible en https://github.com/sylvain-wei/TIME, y el conjunto de datos se encuentra en https://huggingface.co/datasets/SylvainWei/TIME.
Mejorar las capacidades lingüísticas de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para incluir idiomas de bajos recursos es un área de investigación crítica. Las direcciones actuales de investigación dependen principalmente de datos sintéticos generados mediante la traducción de corpus en inglés, lo que, si bien demuestra un prometedor entendimiento lingüístico y habilidades de traducción, a menudo resulta en modelos alineados con la cultura del idioma fuente. Estos modelos frecuentemente no logran representar el patrimonio cultural y los valores de las comunidades locales. Este trabajo propone una metodología para crear datos de preentrenamiento tanto sintéticos como basados en recuperación, adaptados a una comunidad específica, considerando su (i) idioma, (ii) patrimonio cultural y (iii) valores culturales. Demostramos nuestra metodología utilizando los dialectos egipcio y marroquí como casos de estudio, elegidos por su riqueza lingüística y cultural y su actual subrepresentación en los LLMs. Como prueba de concepto, desarrollamos NileChat, un LLM de 3 mil millones de parámetros adaptado para las comunidades egipcia y marroquí, incorporando su idioma, patrimonio cultural y valores. Nuestros resultados en varios benchmarks de comprensión, traducción y alineación cultural y de valores muestran que NileChat supera a los LLMs conscientes del árabe de tamaño similar y se desempeña a la par con modelos más grandes. Compartimos nuestros métodos, datos y modelos con la comunidad para promover la inclusión y cobertura de comunidades más diversas en el desarrollo de LLMs.
En este artículo presentamos FuxiMT, un modelo novedoso de traducción automática multilingüe centrado en el chino, impulsado por un modelo de lenguaje grande (LLM) esparsificado. Adoptamos una estrategia de dos etapas para entrenar FuxiMT. Primero preentrenamos el modelo en un corpus masivo de chino y luego realizamos un ajuste fino multilingüe en un gran conjunto de datos paralelos que abarca 65 idiomas. FuxiMT incorpora una arquitectura de Mixture-of-Experts (MoEs) y emplea una estrategia de aprendizaje curricular para un rendimiento robusto en diversos niveles de recursos. Los resultados experimentales demuestran que FuxiMT supera significativamente a los modelos de referencia, incluyendo LLMs y modelos de traducción automática de última generación, especialmente en escenarios de bajos recursos. Además, FuxiMT exhibe capacidades notables de traducción zero-shot para pares de idiomas no vistos, lo que indica su potencial para cerrar brechas de comunicación donde los datos paralelos son escasos o inexistentes.
La secuenciación de novo de péptidos es una tarea crítica en proteómica. Sin embargo, el rendimiento de los métodos actuales basados en aprendizaje profundo está limitado por la inherente complejidad de los datos de espectrometría de masas y la distribución heterogénea de señales de ruido, lo que genera sesgos específicos de los datos. Presentamos RankNovo, el primer marco de reranking profundo que mejora la secuenciación de novo de péptidos aprovechando las fortalezas complementarias de múltiples modelos de secuenciación. RankNovo emplea un enfoque de reranking basado en listas, modelando péptidos candidatos como alineamientos múltiples de secuencias y utilizando atención axial para extraer características informativas entre los candidatos. Además, introducimos dos nuevas métricas, PMD (Desviación de Masa del Péptido) y RMD (Desviación de Masa Residual), que ofrecen una supervisión precisa al cuantificar las diferencias de masa entre péptidos tanto a nivel de secuencia como de residuo. Experimentos exhaustivos demuestran que RankNovo no solo supera a sus modelos base utilizados para generar candidatos de entrenamiento para el preranking, sino que también establece un nuevo estado del arte. Además, RankNovo exhibe una fuerte generalización zero-shot hacia modelos no vistos cuyas generaciones no fueron expuestas durante el entrenamiento, destacando su robustez y potencial como un marco universal de reranking para la secuenciación de péptidos. Nuestro trabajo presenta una estrategia novedosa de reranking que desafía fundamentalmente los paradigmas existentes de modelos únicos y avanza la frontera de la secuenciación de novo precisa. Nuestro código fuente está disponible en GitHub.