Artículos de investigación en IA seleccionados diariamente con traducciones
Para superar los límites de contexto de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) que obstaculizan la precisión y eficiencia del razonamiento, proponemos el Modelo de Inferencia en Hilos (TIM, por sus siglas en inglés), una familia de LLMs entrenados para la resolución recursiva y descomposicional de problemas, y TIMRUN, un entorno de ejecución de inferencia que permite un razonamiento estructurado de largo alcance más allá de los límites de contexto. Juntos, TIM alojado en TIMRUN soporta una memoria de trabajo prácticamente ilimitada y llamadas a herramientas de múltiples saltos dentro de una única inferencia de un modelo de lenguaje, superando los límites de salida, las restricciones de incrustación posicional y los cuellos de botella de la memoria de la GPU. Este rendimiento se logra modelando el lenguaje natural como árboles de razonamiento medidos tanto por su longitud como por su profundidad, en lugar de secuencias lineales. Los árboles de razonamiento consisten en tareas con pensamientos, subtareas recursivas y conclusiones basadas en el concepto que propusimos en Schroeder et al., 2025. Durante la generación, mantenemos una memoria de trabajo que retiene únicamente los estados clave-valor de los tokens de contexto más relevantes, seleccionados mediante un mecanismo de poda de subtareas basado en reglas, lo que permite la reutilización de incrustaciones posicionales y páginas de memoria de la GPU a lo largo del razonamiento. Los resultados experimentales muestran que nuestro sistema mantiene un alto rendimiento de inferencia, incluso cuando se manipula hasta el 90% de la caché KV en la memoria de la GPU. Además, ofrece un razonamiento preciso en tareas matemáticas y maneja desafíos de recuperación de información que requieren un razonamiento de largo alcance y el uso de herramientas de múltiples saltos.
Este artículo presenta Step-Audio~2, un modelo de lenguaje grande multimodal de extremo a extremo diseñado para la comprensión de audio de nivel industrial y conversaciones de voz. Al integrar un codificador de audio latente y un aprendizaje por refuerzo (RL) centrado en el razonamiento, Step-Audio 2 logra un rendimiento prometedor en reconocimiento automático de voz (ASR) y comprensión de audio. Para facilitar conversaciones de voz genuinamente de extremo a extremo, Step-Audio 2 incorpora la generación de tokens de audio discretos en el modelado del lenguaje, mejorando significativamente su capacidad de respuesta a información paralingüística, como estilos de habla y emociones. Para aprovechar eficazmente el conocimiento textual y acústico en datos del mundo real, Step-Audio 2 integra generación aumentada por recuperación (RAG) y es capaz de invocar herramientas externas, como búsqueda web para mitigar la alucinación y búsqueda de audio para cambiar timbres. Entrenado con millones de horas de datos de voz y audio, Step-Audio 2 ofrece inteligencia y expresividad en diversos escenarios conversacionales. Los resultados de evaluación demuestran que Step-Audio 2 alcanza un rendimiento de vanguardia en varios puntos de referencia de comprensión de audio y conversación en comparación con otras soluciones de código abierto y comerciales. Visite https://github.com/stepfun-ai/Step-Audio2 para obtener más información.
El razonamiento científico es crucial para desarrollar científicos de IA y apoyar a los investigadores humanos en la expansión de las fronteras del descubrimiento en las ciencias naturales. Sin embargo, la comunidad de código abierto se ha centrado principalmente en las matemáticas y la programación, descuidando el dominio científico, en gran parte debido a la ausencia de conjuntos de datos de razonamiento científico abiertos, de gran escala, de alta calidad y verificables. Para cerrar esta brecha, primero presentamos TextbookReasoning, un conjunto de datos abierto que incluye respuestas de referencia veraces extraídas de 12 mil libros de texto científicos de nivel universitario, que abarcan 650 mil preguntas de razonamiento en 7 disciplinas científicas. Además, introducimos MegaScience, una mezcla a gran escala de conjuntos de datos de código abierto de alta calidad que totalizan 1.25 millones de instancias, desarrollados mediante estudios de ablación sistemáticos que evalúan diversas metodologías de selección de datos para identificar el subconjunto óptimo de cada conjunto de datos científico disponible públicamente. Paralelamente, construimos un sistema de evaluación integral que cubre diversos temas y tipos de preguntas en 15 benchmarks, incorporando estrategias completas de extracción de respuestas para garantizar métricas de evaluación precisas. Nuestros experimentos demuestran que nuestros conjuntos de datos logran un rendimiento superior y una eficiencia de entrenamiento con longitudes de respuesta más concisas en comparación con los conjuntos de datos científicos de código abierto existentes. Además, entrenamos los modelos base de las series Llama3.1, Qwen2.5 y Qwen3 en MegaScience, los cuales superan significativamente a los modelos instruct oficiales correspondientes en rendimiento promedio. Adicionalmente, MegaScience muestra mayor efectividad para modelos más grandes y potentes, sugiriendo un beneficio de escalabilidad para el ajuste científico. Liberamos nuestra pipeline de curación de datos, sistema de evaluación, conjuntos de datos y siete modelos entrenados a la comunidad para impulsar la investigación en razonamiento científico.
Las tareas de razonamiento visión-lenguaje-acción (VLA) requieren que los agentes interpreten instrucciones multimodales, realicen planificación a largo plazo y actúen de manera adaptativa en entornos dinámicos. Los enfoques existentes suelen entrenar modelos VLA de extremo a extremo, mapeando directamente las entradas a acciones sin un razonamiento explícito, lo que limita su capacidad para planificar en múltiples pasos o adaptarse a variaciones complejas de tareas. En este artículo, proponemos ThinkAct, un marco de doble sistema que conecta el razonamiento de alto nivel con la ejecución de acciones de bajo nivel mediante planificación latente visual reforzada. ThinkAct entrena un modelo de lenguaje multimodal (LLM) para generar planes de razonamiento encarnado guiados por recompensas visuales alineadas con acciones basadas en la finalización de objetivos y la consistencia de trayectorias. Estos planes de razonamiento se comprimen en un latente de plan visual que condiciona un modelo de acción descendente para una ejecución robusta de acciones en entornos objetivo. Experimentos exhaustivos en benchmarks de razonamiento encarnado y manipulación robótica demuestran que ThinkAct permite la adaptación con pocos ejemplos, la planificación a largo plazo y comportamientos de autocorrección en tareas complejas de IA encarnada.
Los transformadores de difusión han surgido como una alternativa a los modelos de difusión basados en U-net para la generación de imágenes y videos de alta fidelidad, ofreciendo una escalabilidad superior. Sin embargo, su elevado costo computacional sigue siendo un obstáculo importante para su implementación en el mundo real. Los métodos de aceleración existentes explotan principalmente la dimensión temporal, como la reutilización de características almacenadas en caché a lo largo de los pasos de difusión. Aquí, proponemos el Muestreo Latente Adaptativo por Regiones (RALU, por sus siglas en inglés), un marco de trabajo sin entrenamiento que acelera la inferencia en la dimensión espacial. RALU realiza un muestreo de resolución mixta en tres etapas: 1) difusión latente de bajo ruido a baja resolución para capturar eficientemente la estructura semántica global, 2) muestreo adaptativo por regiones en áreas propensas a artefactos a resolución completa, y 3) muestreo latente completo a resolución máxima para el refinamiento de detalles. Para estabilizar las generaciones durante las transiciones de resolución, aprovechamos la reprogramación del nivel de ruido en función del tiempo para adaptar el nivel de ruido a diferentes resoluciones. Nuestro método reduce significativamente el costo computacional mientras preserva la calidad de la imagen, logrando una aceleración de hasta 7.0 veces en FLUX y 3.0 veces en Stable Diffusion 3 con una degradación mínima. Además, RALU es complementario a las aceleraciones temporales existentes, como los métodos de almacenamiento en caché, por lo que puede integrarse sin problemas para reducir aún más la latencia de inferencia sin comprometer la calidad de la generación.
Los seres humanos suelen utilizar ayudas visuales, como diagramas o bocetos, al resolver problemas complejos. Entrenar modelos multimodales para hacer lo mismo, conocido como Cadena de Pensamiento Visual (Visual CoT), es un desafío debido a: (1) el bajo rendimiento de las soluciones preexistentes de Visual CoT, lo cual dificulta el aprendizaje por refuerzo, y (2) la falta de datos de entrenamiento de alta calidad para Visual CoT. Presentamos Zebra-CoT, un conjunto de datos diverso y a gran escala con 182,384 muestras, que contiene trazas de razonamiento intercaladas de texto e imagen lógicamente coherentes. Nos enfocamos en cuatro categorías de tareas donde el bocetado o el razonamiento visual son especialmente naturales, abarcando preguntas científicas como geometría, física y algoritmos; tareas de razonamiento visual 2D como búsqueda visual y rompecabezas; tareas de razonamiento 3D que incluyen inferencia de múltiples pasos en 3D, planificación en entornos físicos y robótica; problemas de lógica visual y juegos estratégicos como el ajedrez. El ajuste fino del modelo Anole-7B en el corpus de entrenamiento de Zebra-CoT resulta en una mejora del +12% en la precisión de nuestro conjunto de prueba y produce una ganancia de rendimiento de hasta +13% en evaluaciones estándar de modelos de lenguaje visual (VLM). El ajuste fino de Bagel-7B genera un modelo que produce cadenas de razonamiento visual intercaladas de alta calidad, destacando la efectividad de Zebra-CoT para desarrollar habilidades de razonamiento multimodal. Hemos liberado nuestro conjunto de datos y modelos de código abierto para apoyar el desarrollo y evaluación de Visual CoT.
Mejorar los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) con razonamiento visual de pensamiento lento es crucial para resolver tareas multimodales complejas. Sin embargo, dado que los LVLMs se entrenan principalmente con alineación visión-lenguaje, es difícil adoptar el aprendizaje por refuerzo (RL) on-policy para desarrollar la capacidad de pensamiento lento, ya que el espacio de exploración está limitado por sus habilidades iniciales. El RL off-policy ofrece una forma de ir más allá de la política actual, pero la destilación directa de trayectorias desde modelos externos puede causar alucinaciones visuales debido a las capacidades de percepción visual desajustadas entre modelos. Para abordar estos problemas, este artículo propone SOPHIA, un enfoque de RL Semi-Off-Policy simple y escalable para el razonamiento de pensamiento lento en visión y lenguaje. SOPHIA construye un modelo de comportamiento semi-off-policy combinando la comprensión visual on-policy de un LVLM entrenable con el razonamiento de pensamiento lento off-policy de un modelo de lenguaje, asigna recompensas basadas en resultados al razonamiento y propaga las recompensas visuales hacia atrás. Luego, el LVLM aprende la capacidad de razonamiento de pensamiento lento a partir de las trayectorias de razonamiento obtenidas utilizando las recompensas propagadas mediante algoritmos de RL off-policy. Experimentos exhaustivos con InternVL2.5 e InternVL3.0, con tamaños de 8B y 38B, demuestran la efectividad de SOPHIA. Notablemente, SOPHIA mejora InternVL3.0-38B en un 8.50% en promedio, alcanzando un rendimiento de vanguardia entre los LVLMs de código abierto en múltiples benchmarks de razonamiento multimodal, e incluso supera a algunos modelos de código cerrado (por ejemplo, GPT-4.1) en los desafiantes MathVision y OlympiadBench, logrando un 49.08% y un 49.95% de precisión pass@1, respectivamente. El análisis muestra que SOPHIA supera los métodos de ajuste fino supervisado y los enfoques de RL on-policy directos, ofreciendo una mejor inicialización de políticas para un entrenamiento on-policy adicional.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han sido ampliamente adoptados en robótica para permitir la planificación autónoma. Sin embargo, adaptar los VLMs, originalmente entrenados con datos de internet, a diversos robots del mundo real sigue siendo un desafío. Este artículo presenta ExpTeach, un marco que adapta los VLMs a robots físicos mediante la construcción de una memoria autogenerada de experiencias del mundo real. En ExpTeach, el VLM planifica acciones de manera autónoma, verifica resultados, reflexiona sobre fallos y adapta los comportamientos del robot en un ciclo cerrado. Las experiencias autogeneradas durante este proceso se resumen en una memoria a largo plazo, permitiendo la recuperación de conocimientos aprendidos para guiar tareas futuras mediante la generación aumentada por recuperación (RAG, por sus siglas en inglés). Además, ExpTeach mejora la comprensión espacial de los VLMs con un módulo de anotación de imágenes bajo demanda. En los experimentos, demostramos que la reflexión mejora las tasas de éxito del 36% al 84% en cuatro tareas robóticas desafiantes y observamos la aparición de interacciones inteligentes con objetos, incluyendo el uso creativo de herramientas. En pruebas extensas en 12 escenarios del mundo real (incluyendo ocho no vistos previamente), encontramos que la adaptación con memoria a largo plazo aumenta las tasas de éxito en un solo intento del 22% al 80%, demostrando la efectividad y generalización de ExpTeach.
Con el rápido avance de los Modelos de Lenguaje a Gran Escala (LLMs), el desarrollo de módulos críticos efectivos para una guía precisa se ha vuelto crucial, aunque desafiante. En este artículo, inicialmente demostramos que el ajuste fino supervisado para construir módulos críticos (ampliamente adoptado en las soluciones actuales) no logra mejorar genuinamente las capacidades de crítica de los modelos, produciendo críticas superficiales con reflexiones y verificaciones insuficientes. Para desbloquear capacidades de crítica sin precedentes, proponemos RefCritic, un módulo crítico basado en cadenas largas de pensamiento que utiliza aprendizaje por refuerzo con recompensas duales basadas en reglas: (1) corrección a nivel de instancia en los juicios de solución y (2) precisiones de refinamiento del modelo de política basadas en críticas, con el objetivo de generar evaluaciones de alta calidad con retroalimentación accionable que guíe efectivamente el refinamiento del modelo. Evaluamos RefCritic en Qwen2.5-14B-Instruct y DeepSeek-R1-Distill-Qwen-14B a través de cinco benchmarks. En configuraciones de crítica y refinamiento, RefCritic demuestra ventajas consistentes en todos los benchmarks, por ejemplo, mejoras del 6.8\% y 7.2\% en AIME25 para los respectivos modelos base. Notablemente, bajo votación mayoritaria, los modelos de política filtrados por RefCritic muestran una escalabilidad superior con un aumento en el número de votos. Además, a pesar de entrenarse con supervisión a nivel de solución, RefCritic supera a los enfoques supervisados a nivel de paso en ProcessBench, un benchmark diseñado para identificar pasos erróneos en el razonamiento matemático.
Si bien los métodos existentes de composición guiada por imágenes pueden ayudar a insertar un objeto en primer plano en una región especificada por el usuario de una imagen de fondo, logrando una mezcla natural dentro de la región mientras el resto de la imagen permanece sin cambios, observamos que estos métodos existentes a menudo tienen dificultades para sintetizar composiciones conscientes de la interacción de manera fluida cuando la tarea involucra interacciones humano-objeto. En este artículo, primero proponemos HOComp, un enfoque novedoso para componer un objeto en primer plano en una imagen de fondo centrada en humanos, asegurando interacciones armoniosas entre el objeto en primer plano y la persona en el fondo, así como apariencias consistentes. Nuestro enfoque incluye dos diseños clave: (1) Guía de Pose Basada en Regiones impulsada por MLLMs (MRPG), que utiliza MLLMs para identificar la región de interacción y el tipo de interacción (por ejemplo, sostener o levantar) para proporcionar restricciones de grano grueso a fino a la pose generada para la interacción, incorporando puntos de referencia de la pose humana para rastrear variaciones de acción y aplicar restricciones de pose detalladas; y (2) Preservación de Apariencia Consistente en Detalles (DCAP), que unifica un mecanismo de modulación de atención consciente de la forma, una pérdida de apariencia multi-vista y una pérdida de consistencia de fondo para garantizar formas/texturas consistentes del primer plano y una reproducción fiel del humano en el fondo. Luego, proponemos el primer conjunto de datos, denominado Composición Humano-Objeto Consciente de la Interacción (IHOC), para esta tarea. Los resultados experimentales en nuestro conjunto de datos muestran que HOComp genera efectivamente interacciones armoniosas entre humanos y objetos con apariencias consistentes, superando cualitativa y cuantitativamente a los métodos relevantes.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han abierto nuevas oportunidades para la recuperación de literatura académica. Sin embargo, los sistemas existentes suelen depender de flujos de trabajo rígidos y muestran capacidades de razonamiento limitadas. Presentamos SPAR, un marco de trabajo multiagente que incorpora la descomposición de consultas basada en RefChain y la evolución de consultas para permitir búsquedas más flexibles y efectivas. Para facilitar una evaluación sistemática, también construimos SPARBench, un punto de referencia desafiante con etiquetas de relevancia anotadas por expertos. Los resultados experimentales demuestran que SPAR supera sustancialmente a los baselines más robustos, logrando hasta un +56% en F1 en AutoScholar y un +23% en F1 en SPARBench sobre el baseline de mejor rendimiento. En conjunto, SPAR y SPARBench proporcionan una base escalable, interpretable y de alto rendimiento para avanzar en la investigación de la recuperación académica. El código y los datos estarán disponibles en: https://github.com/xiaofengShi/SPAR.
La cuantización es una técnica clave para reducir el tamaño de la red y la complejidad computacional al representar los parámetros de la red con una precisión inferior. Los métodos tradicionales de cuantización dependen del acceso a los datos de entrenamiento originales, lo cual a menudo está restringido debido a preocupaciones de privacidad o desafíos de seguridad. La Cuantización Cero-Shot (ZSQ, por sus siglas en inglés) aborda este problema utilizando datos sintéticos generados a partir de modelos preentrenados, eliminando la necesidad de datos de entrenamiento reales. Recientemente, la ZSQ se ha extendido a la detección de objetos. Sin embargo, los métodos existentes utilizan imágenes sintéticas no etiquetadas y agnósticas a la tarea, las cuales carecen de la información específica requerida para la detección de objetos, lo que resulta en un rendimiento subóptimo. En este artículo, proponemos un marco novedoso de ZSQ específico para la tarea de detección de objetos, que consta de dos etapas principales. Primero, introducimos una estrategia de muestreo de cajas delimitadoras y categorías para sintetizar un conjunto de calibración específico para la tarea a partir de la red preentrenada, reconstruyendo las ubicaciones, tamaños y distribuciones de categorías de los objetos sin ningún conocimiento previo. Segundo, integramos el entrenamiento específico para la tarea en el proceso de destilación de conocimiento para restaurar el rendimiento de las redes de detección cuantizadas. Experimentos exhaustivos realizados en los conjuntos de datos MS-COCO y Pascal VOC demuestran la eficiencia y el rendimiento de vanguardia de nuestro método. Nuestro código está disponible públicamente en: https://github.com/DFQ-Dojo/dfq-toolkit.
La personalización de sistemas de IA requiere comprender no solo las preferencias de los usuarios, sino también las razones subyacentes a esas preferencias; sin embargo, los modelos actuales de preferencias suelen tratar el juicio humano como una caja negra. Presentamos PrefPalette, un marco que descompone las preferencias en dimensiones de atributos y adapta su predicción de preferencias a los valores distintivos de diferentes comunidades sociales de manera interpretable para los humanos. PrefPalette opera bajo un principio de la ciencia cognitiva conocido como toma de decisiones multi-atributo de dos formas: (1) un paso escalable de síntesis de atributos contrafactuales que implica generar datos de entrenamiento sintéticos para aislar los efectos de atributos individuales (por ejemplo, formalidad, humor, valores culturales), y (2) un modelado de preferencias basado en atención que aprende cómo diferentes comunidades sociales ponderan dinámicamente estos atributos. Este enfoque va más allá del modelado agregado de preferencias para capturar los diversos marcos de evaluación que impulsan el juicio humano. Al evaluarse en 45 comunidades sociales de la plataforma en línea Reddit, PrefPalette supera a GPT-4o en un 46.6% en precisión promedio de predicción. Más allá de las mejoras predictivas, PrefPalette también reveló perfiles intuitivos específicos de cada comunidad: las comunidades académicas priorizan la verbosidad y la estimulación, las comunidades orientadas al conflicto valoran el sarcasmo y la franqueza, y las comunidades de apoyo enfatizan la empatía. Al modelar la estructura mediada por atributos del juicio humano, PrefPalette ofrece tanto un modelado superior de preferencias como insights transparentes e interpretables, y representa un primer paso hacia aplicaciones personalizadas más confiables y conscientes de los valores.
El método 3D Gaussian Splatting es reconocido por sus reconstrucciones de alta fidelidad y su síntesis de nuevas vistas en tiempo real, aunque su falta de comprensión semántica limita la percepción a nivel de objetos. En este trabajo, proponemos ObjectGS, un marco orientado a objetos que unifica la reconstrucción de escenas 3D con la comprensión semántica. En lugar de tratar la escena como un todo unificado, ObjectGS modela objetos individuales como anclajes locales que generan Gaussianas neuronales y comparten identificadores de objeto, permitiendo una reconstrucción precisa a nivel de objetos. Durante el entrenamiento, crecemos o podamos dinámicamente estos anclajes y optimizamos sus características, mientras que una codificación one-hot de ID con una pérdida de clasificación impone restricciones semánticas claras. Demostramos mediante experimentos exhaustivos que ObjectGS no solo supera a los métodos más avanzados en tareas de segmentación de vocabulario abierto y panóptica, sino que también se integra perfectamente con aplicaciones como la extracción de mallas y la edición de escenas. Página del proyecto: https://ruijiezhu94.github.io/ObjectGS_page.
Recientemente, Zaremba et al. demostraron que aumentar el cómputo durante la inferencia mejora la robustez en grandes modelos de razonamiento lingüístico (LLMs) propietarios. En este artículo, primero mostramos que modelos de menor escala y de código abierto (por ejemplo, DeepSeek R1, Qwen3, Phi-reasoning) también pueden beneficiarse del escalado durante la inferencia mediante una estrategia simple de forzado de presupuesto. Más importante aún, revelamos y examinamos críticamente una suposición implícita en trabajos previos: los pasos intermedios de razonamiento están ocultos para los adversarios. Al relajar esta suposición, identificamos un riesgo de seguridad importante, intuitivamente motivado y empíricamente verificado como una ley de escalado inverso: si los pasos intermedios de razonamiento se vuelven explícitamente accesibles, el aumento del cómputo durante la inferencia reduce consistentemente la robustez del modelo. Finalmente, discutimos escenarios prácticos en los que los modelos con cadenas de razonamiento ocultas siguen siendo vulnerables a ataques, como modelos con razonamiento integrado en herramientas y ataques avanzados de extracción de razonamiento. Nuestros hallazgos demuestran colectivamente que los beneficios de robustez del escalado durante la inferencia dependen en gran medida del entorno adversarial y del contexto de implementación. Instamos a los profesionales a sopesar cuidadosamente estos sutiles compromisos antes de aplicar el escalado durante la inferencia en aplicaciones del mundo real sensibles a la seguridad.
El ajuste fino de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) puede dar lugar a generalizaciones no deseadas fuera de la distribución. Los enfoques estándar para este problema se basan en modificar los datos de entrenamiento, por ejemplo, añadiendo datos que especifiquen mejor la generalización deseada. Sin embargo, esto no siempre es práctico. Introducimos el Ajuste Fino por Ablación de Conceptos (CAFT, por sus siglas en inglés), una técnica que aprovecha herramientas de interpretabilidad para controlar cómo los LLMs generalizan a partir del ajuste fino, sin necesidad de modificar los datos de entrenamiento o utilizar datos de la distribución objetivo. Dado un conjunto de direcciones en el espacio latente de un LLM que corresponden a conceptos no deseados, CAFT funciona ablacionando estos conceptos mediante proyecciones lineales durante el ajuste fino, dirigiendo el modelo lejos de generalizaciones no deseadas. Aplicamos con éxito CAFT a tres tareas de ajuste fino, incluido el desajuste emergente, un fenómeno en el que los LLMs ajustados finamente en una tarea específica generalizan para dar respuestas gravemente desalineadas a preguntas generales. Sin realizar cambios en los datos de ajuste fino, CAFT reduce las respuestas desalineadas en un factor de 10 sin degradar el rendimiento en la distribución de entrenamiento. En general, CAFT representa un enfoque novedoso para dirigir la generalización de los LLMs sin modificar los datos de entrenamiento.