Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos BlenderFusion, un marco de composición visual generativa que sintetiza nuevas escenas mediante la recomposición de objetos, cámara y fondo. Sigue una canalización de estratificación-edición-composición: (i) segmentación y conversión de entradas visuales en entidades 3D editables (estratificación), (ii) edición de estas en Blender con control basado en 3D (edición), y (iii) fusión en una escena coherente utilizando un compositor generativo (composición). Nuestro compositor generativo extiende un modelo de difusión preentrenado para procesar tanto las escenas originales (fuente) como las editadas (objetivo) en paralelo. Se ajusta finamente en fotogramas de video con dos estrategias clave de entrenamiento: (i) enmascaramiento de la fuente, permitiendo modificaciones flexibles como el reemplazo de fondos; (ii) vibración simulada de objetos, facilitando un control desacoplado sobre objetos y cámara. BlenderFusion supera significativamente a métodos anteriores en tareas complejas de edición de escenas compositivas.
En este artículo, presentamos LLaVA-Scissor, una estrategia de compresión de tokens sin entrenamiento diseñada para modelos de lenguaje multimodal de gran escala aplicados a videos. Los métodos anteriores intentan principalmente comprimir tokens basándose en puntuaciones de atención, pero no logran capturar de manera efectiva todas las regiones semánticas y a menudo resultan en redundancia de tokens. De manera diferente, proponemos aprovechar el enfoque de Componentes Conectados Semánticos (SCC, por sus siglas en inglés), que asigna tokens a regiones semánticas distintas dentro del conjunto de tokens, asegurando una cobertura semántica integral. El resultado es una estrategia de compresión espacio-temporal de tokens en dos pasos que utiliza SCC tanto en el dominio espacial como en el temporal. Esta estrategia puede comprimir tokens de manera efectiva al representar el video completo con un conjunto de tokens semánticos no superpuestos. Realizamos evaluaciones exhaustivas de las capacidades de compresión de tokens de LLaVA-Scissor en diversos puntos de referencia de comprensión de videos, incluyendo respuestas a preguntas sobre videos, comprensión de videos largos y puntos de referencia de opciones múltiples integrales. Los resultados experimentales muestran que el LLaVA-Scissor propuesto supera a otros métodos de compresión de tokens, logrando un rendimiento superior en varios puntos de referencia de comprensión de videos, particularmente en ratios bajos de retención de tokens. Página del proyecto: https://github.com/HumanMLLM/LLaVA-Scissor.
Lograr un control detallado sobre la identidad del sujeto y los atributos semánticos (pose, estilo, iluminación) en la generación de imágenes a partir de texto, especialmente para múltiples sujetos, suele comprometer la editabilidad y la coherencia de los Transformadores de Difusión (DiTs). Muchos enfoques introducen artefactos o padecen de entrelazamiento de atributos. Para superar estos desafíos, proponemos un nuevo modelo de generación controlada para múltiples sujetos llamado XVerse. Al transformar imágenes de referencia en desplazamientos para la modulación específica de tokens en el flujo de texto, XVerse permite un control preciso e independiente de sujetos específicos sin alterar los latentes o características de la imagen. En consecuencia, XVerse ofrece una síntesis de imágenes de múltiples sujetos con alta fidelidad y editabilidad, junto con un control robusto sobre las características individuales de los sujetos y sus atributos semánticos. Este avance mejora significativamente las capacidades de generación de escenas personalizadas y complejas.
La cinematografía, el lenguaje visual fundamental del cine, es esencial para transmitir narrativa, emoción y calidad estética. Aunque los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) recientes demuestran una sólida comprensión visual general, su competencia para comprender la gramática cinematográfica matizada presente en tomas individuales sigue siendo en gran medida inexplorada y carece de una evaluación robusta. Esta brecha crítica limita tanto la comprensión visual detallada como la precisión de la generación de videos asistida por IA. Para abordar esto, presentamos ShotBench, un punto de referencia integral diseñado específicamente para la comprensión del lenguaje cinematográfico. Este incluye más de 3.5k pares de preguntas y respuestas anotadas por expertos a partir de imágenes y clips de video, cuidadosamente seleccionados de más de 200 películas aclamadas (principalmente nominadas al Oscar) y que abarcan ocho dimensiones clave de la cinematografía. Nuestra evaluación de 24 VLMs líderes en ShotBench revela sus limitaciones sustanciales: incluso el modelo con mejor rendimiento alcanza menos del 60% de precisión promedio, particularmente luchando con indicadores visuales detallados y razonamiento espacial complejo. Para catalizar el avance en este dominio, construimos ShotQA, un conjunto de datos multimodal a gran escala que comprende aproximadamente 70k pares de preguntas y respuestas cinematográficas. Aprovechando ShotQA, desarrollamos ShotVL mediante ajuste fino supervisado y Optimización de Política Relativa Grupal. ShotVL supera significativamente a todos los modelos existentes de código abierto y propietarios en ShotBench, estableciendo un nuevo rendimiento de vanguardia. Hacemos públicos nuestros modelos, datos y código para fomentar un progreso rápido en esta área crucial de la comprensión y generación cinematográfica impulsada por IA.
Las tareas de predicción densa tienen una importancia significativa en la visión por computadora, ya que buscan aprender etiquetas anotadas a nivel de píxel para una imagen de entrada. A pesar de los avances en este campo, los métodos existentes se centran principalmente en condiciones idealizadas, con una generalización limitada a escenarios del mundo real y enfrentando la desafiante escasez de datos del mundo real. Para estudiar sistemáticamente este problema, primero presentamos DenseWorld, un punto de referencia que abarca un amplio conjunto de 25 tareas de predicción densa que corresponden a aplicaciones urgentes del mundo real, con una evaluación unificada entre tareas. Luego, proponemos DenseDiT, que maximiza el aprovechamiento de los conocimientos previos visuales de los modelos generativos para realizar diversas tareas de predicción densa del mundo real mediante una estrategia unificada. DenseDiT combina un mecanismo de reutilización de parámetros y dos ramas ligeras que integran adaptativamente el contexto a múltiples escalas, funcionando con menos del 0.1% de parámetros adicionales. Las evaluaciones en DenseWorld revelan caídas significativas en el rendimiento de las líneas base generales y especializadas existentes, destacando su limitada generalización en el mundo real. En contraste, DenseDiT logra resultados superiores utilizando menos del 0.01% de los datos de entrenamiento de las líneas base, subrayando su valor práctico para la implementación en el mundo real. Nuestros datos, puntos de control y códigos están disponibles en https://xcltql666.github.io/DenseDiTProj.
Los modelos internos del mundo (WMs, por sus siglas en inglés) permiten a los agentes comprender el estado del mundo y predecir transiciones, sirviendo como base para un razonamiento deliberativo avanzado. Los recientes modelos de visión y lenguaje a gran escala (VLMs), como OpenAI o3, GPT-4o y Gemini, muestran potencial como WMs de propósito general. Aunque los últimos estudios han evaluado y mostrado limitaciones en capacidades específicas, como la comprensión visual, aún falta una evaluación sistemática de las habilidades fundamentales de WMs en los VLMs. Basándonos en la psicología comparada y las ciencias cognitivas, proponemos un marco de dos etapas que evalúa la Percepción (visual, espacial, temporal, cuantitativa y de movimiento) y la Predicción (simulación mecanicista, inferencia transitiva, inferencia composicional) para proporcionar una evaluación atómica de los VLMs como WMs. Guiados por este marco, presentamos WM-ABench, un benchmark a gran escala que comprende 23 dimensiones de evaluación detalladas en 6 entornos simulados diversos con simulaciones contrafactuales controladas. A través de 660 experimentos en 15 VLMs comerciales y de código abierto más recientes, encontramos que estos modelos presentan limitaciones sorprendentes en habilidades básicas de modelado del mundo. Por ejemplo, casi todos los modelos tienen una precisión cercana al azar al distinguir trayectorias de movimiento. Además, carecen de una comprensión desentrelazada; por ejemplo, algunos modelos tienden a creer que los objetos azules se mueven más rápido que los verdes. Resultados y análisis más detallados revelan brechas significativas entre los VLMs y el modelado del mundo a nivel humano.
La robótica ha logrado avances notables en hardware, desde los Desafíos Urbanos y de Robótica de DARPA hasta el primer torneo de kickboxing con robots humanoides, sin embargo, la autonomía comercial aún se queda atrás en comparación con los progresos en aprendizaje automático. Un cuello de botella importante es el software: las pilas de software robótico actuales requieren curvas de aprendizaje pronunciadas, experiencia en C/C++ de bajo nivel, herramientas fragmentadas e integración de hardware compleja, en marcado contraste con los ecosistemas centrados en Python y bien documentados que impulsaron la IA moderna. Presentamos ARK, un marco de robótica de código abierto y centrado en Python diseñado para cerrar esa brecha. ARK ofrece una interfaz de entorno al estilo Gym que permite a los usuarios recopilar datos, preprocesarlos y entrenar políticas utilizando algoritmos de aprendizaje por imitación de vanguardia (por ejemplo, ACT, Diffusion Policy), alternando sin problemas entre simulaciones de alta fidelidad y robots físicos. Una arquitectura cliente-servidor ligera proporciona comunicación en red mediante el modelo publicador-suscriptor, y los enlaces opcionales en C/C++ garantizan un rendimiento en tiempo real cuando es necesario. ARK incluye módulos reutilizables para control, SLAM, planificación de movimientos, identificación de sistemas y visualización, junto con interoperabilidad nativa con ROS. Documentación exhaustiva y estudios de caso, desde manipulación hasta navegación móvil, demuestran la creación rápida de prototipos, el intercambio sin esfuerzo de hardware y flujos de trabajo de extremo a extremo que rivalizan con la conveniencia de los flujos de trabajo principales de aprendizaje automático. Al unificar las prácticas de robótica e IA bajo un mismo paraguas de Python, ARK reduce las barreras de entrada y acelera la investigación y el despliegue comercial de robots autónomos.
El surgimiento de la Mezcla de Expertos (MoE) en los Modelos de Lenguaje de Gran Escala promete un costo de ejecución reducido para un número mucho mayor de parámetros del modelo y capacidad de aprendizaje, ya que solo se activa una pequeña fracción de los parámetros para cada token de entrada. Sin embargo, es común observar que algunos expertos se activan con mucha más frecuencia que otros, lo que genera ineficiencias en el sistema al ejecutar los expertos en diferentes dispositivos en paralelo. Por ello, presentamos la Mezcla de Expertos Agrupados (MoGE), que agrupa a los expertos durante la selección y equilibra mejor la carga de trabajo de los expertos en comparación con MoE de manera natural. Este enfoque restringe a los tokens a activar un número igual de expertos dentro de cada grupo de expertos predefinido. Cuando la ejecución del modelo se distribuye en múltiples dispositivos, este diseño arquitectónico asegura una carga computacional equilibrada entre los dispositivos, mejorando significativamente el rendimiento, especialmente en la fase de inferencia. Además, construimos Pangu Pro MoE en las NPUs Ascend, un modelo disperso basado en MoGE con 72 mil millones de parámetros totales, de los cuales 16 mil millones se activan para cada token. La configuración de Pangu Pro MoE está optimizada para las plataformas Ascend 300I Duo y 800I A2 mediante extensos estudios de simulación del sistema. Nuestros experimentos indican que MoGE efectivamente conduce a un mejor equilibrio de carga entre los expertos y una ejecución más eficiente tanto en el entrenamiento como en la inferencia del modelo en las NPUs Ascend. El rendimiento de inferencia de Pangu Pro MoE alcanza 1148 tokens/s por tarjeta y puede mejorarse aún más a 1528 tokens/s por tarjeta mediante aceleración especulativa, superando a modelos densos comparables de 32B y 72B. Además, logramos una excelente relación costo-rendimiento para la inferencia del modelo en Ascend 300I Duo. Nuestros estudios demuestran que las NPUs Ascend son capaces de entrenar Pangu Pro MoE con una masiva paralelización, posicionándolo como un modelo líder dentro de la clase de menos de 100B parámetros totales, superando a modelos de código abierto destacados como GLM-Z1-32B y Qwen3-32B.
Los recientes avances en el modelado generativo profundo han desbloqueado oportunidades sin precedentes para la síntesis de video. Sin embargo, en aplicaciones del mundo real, los usuarios a menudo buscan herramientas que permitan realizar fielmente sus intenciones creativas de edición con un control preciso y consistente. A pesar del progreso logrado por los métodos existentes, garantizar una alineación detallada con las intenciones del usuario sigue siendo un problema abierto y desafiante. En este trabajo, presentamos Shape-for-Motion, un marco novedoso que incorpora un proxy 3D para la edición precisa y consistente de video. Shape-for-Motion logra esto convirtiendo el objeto objetivo en el video de entrada en una malla consistente en el tiempo, es decir, un proxy 3D, permitiendo que las ediciones se realicen directamente en el proxy y luego se infieran de nuevo a los fotogramas del video. Para simplificar el proceso de edición, diseñamos una Estrategia de Doble Propagación que permite a los usuarios realizar ediciones en la malla 3D de un solo fotograma, y estas ediciones se propagan automáticamente a las mallas 3D de los demás fotogramas. Las mallas 3D para diferentes fotogramas se proyectan además en el espacio 2D para producir las representaciones de geometría y textura editadas, que sirven como entradas a un modelo de difusión de video desacoplado para generar los resultados editados. Nuestro marco admite diversas manipulaciones precisas y físicamente consistentes a lo largo de los fotogramas del video, incluyendo edición de pose, rotación, escalado, traslación, modificación de textura y composición de objetos. Nuestro enfoque marca un paso clave hacia flujos de trabajo de edición de video de alta calidad y controlables. Experimentos extensivos demuestran la superioridad y efectividad de nuestro enfoque. Página del proyecto: https://shapeformotion.github.io/
Los modelos actuales de visión y lenguaje (VLMs) enfrentan dificultades en el razonamiento espacial de grano fino, especialmente cuando se requiere lógica de múltiples pasos y alineación espacial precisa. En este trabajo, presentamos SpatialReasoner-R1, un modelo de razonamiento visión-lenguaje diseñado para abordar estas limitaciones. Para construir una supervisión de alta calidad para el razonamiento espacial, diseñamos un método de Búsqueda en Árbol de Monte Carlo Multi-Modelo (M3CTS) que genera trayectorias de razonamiento diversas y lógicamente consistentes, denominadas Cadena de Pensamiento Larga (LongCoT). Además, proponemos una Optimización Directa de Preferencias de Grano Fino (fDPO), que introduce una granularidad de preferencias específica por segmentos para la fundamentación descriptiva y el razonamiento lógico, guiada por un mecanismo de recompensa espacial que evalúa las respuestas candidatas en función de la consistencia visual, la fundamentación espacial y la coherencia lógica. Los resultados experimentales demuestran que fDPO logra una mejora promedio del 4.1% sobre la DPO estándar en tareas de calidad espacial, y un aumento del 9.0% en tareas de cantidad espacial. SpatialReasoner-R1, entrenado con fDPO, establece un nuevo estado del arte en SPATIALRGPT-Bench, superando al mejor modelo de referencia en un 9.8% en precisión promedio, mientras mantiene un rendimiento competitivo en tareas generales de visión y lenguaje.
Este trabajo explora la habilitación del razonamiento en cadena de pensamiento (Chain-of-Thought, CoT) para vincular indicios visuales a través de múltiples imágenes. Una solución directa es adaptar el aprendizaje por refuerzo basado en reglas para modelos de visión y lenguaje (Vision-Language Models, VLMs). Sin embargo, tales métodos suelen depender de pares de preguntas y respuestas curados manualmente, lo que puede ser particularmente desafiante al tratar con detalles visuales finos y lógica compleja entre imágenes. Inspirados por el aprendizaje autosupervisado de representaciones visuales, observamos que las imágenes contienen restricciones inherentes que pueden servir como supervisión. Basándonos en esta idea, construimos tripletes de imágenes que comprenden dos vistas aumentadas de la misma imagen y una tercera imagen similar pero distinta. Durante el entrenamiento, se solicita al modelo que genere un proceso de razonamiento para comparar estas imágenes (es decir, determinar si son iguales o diferentes). Luego, optimizamos el modelo con aprendizaje por refuerzo basado en reglas. Debido a la alta similitud visual y la presencia de aumentaciones, el modelo debe prestar atención a cambios visuales sutiles y realizar razonamiento lógico para tener éxito. Los experimentos muestran que, aunque el modelo se entrena únicamente en tareas de comparación visual, la capacidad de razonamiento aprendida se generaliza efectivamente a una amplia gama de preguntas. Sin depender de pares de preguntas y respuestas anotados manualmente, nuestro método logra mejoras significativas en benchmarks de razonamiento con múltiples imágenes y muestra un rendimiento sólido en tareas generales de visión.
Los rápidos avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienen el potencial de contribuir al progreso científico. Una capacidad crítica para este propósito es la habilidad de reproducir trabajos existentes. Para evaluar la capacidad de los agentes de IA para reproducir resultados en un área de investigación activa, presentamos el Benchmark de Speedrunning Automatizado para LLMs, aprovechando las contribuciones de la comunidad de investigación en el speedrun de NanoGPT, una competencia para entrenar un modelo GPT-2 en el menor tiempo posible. Cada una de las 19 tareas del speedrun proporciona al agente el script de entrenamiento de los registros anteriores, opcionalmente acompañado de uno de los tres formatos de pistas, que van desde pseudocódigo hasta descripciones similares a artículos de las mejoras en los nuevos registros. Los registros se ejecutan rápidamente por diseño, y las mejoras en el speedrun abarcan diversos cambios a nivel de código, desde avances algorítmicos de alto nivel hasta optimizaciones conscientes del hardware. Estas características hacen que el benchmark sea tanto accesible como realista para el problema de vanguardia de mejorar el entrenamiento de LLMs. Descubrimos que los LLMs recientes de razonamiento, combinados con andamiajes de última generación, tienen dificultades para reimplementar innovaciones ya conocidas en nuestro benchmark, incluso cuando se les proporcionan pistas detalladas. Por lo tanto, nuestro benchmark ofrece una medida simple y no saturada de la capacidad de un LLM para automatizar la reproducción científica, una habilidad necesaria (pero no suficiente) para un agente de investigación autónomo.
¿Pueden los Modelos de Visión y Lenguaje (VLMs, por sus siglas en inglés) imaginar una escena completa a partir de solo unas pocas vistas, como lo hacen los humanos? Los humanos forman modelos mentales espaciales, representaciones internas del espacio no visto, para razonar sobre la disposición, la perspectiva y el movimiento. Nuestro nuevo benchmark, MindCube, con 21,154 preguntas en 3,268 imágenes, expone esta brecha crítica, donde los VLMs existentes muestran un rendimiento casi aleatorio. Utilizando MindCube, evaluamos sistemáticamente qué tan bien los VLMs construyen modelos mentales espaciales robustos a través de la representación de posiciones (mapeo cognitivo), orientaciones (toma de perspectiva) y dinámicas (simulación mental para movimientos "qué pasaría si"). Luego exploramos tres enfoques para ayudar a los VLMs a aproximarse a los modelos mentales espaciales, incluyendo vistas intermedias no vistas, cadenas de razonamiento en lenguaje natural y mapas cognitivos. La mejora significativa proviene de un enfoque sinérgico, "mapear luego razonar", que entrena conjuntamente al modelo para primero generar un mapa cognitivo y luego razonar sobre él. Al entrenar modelos para razonar sobre estos mapas internos, aumentamos la precisión del 37.8% al 60.8% (+23.0%). La adición de aprendizaje por refuerzo impulsó aún más el rendimiento al 70.7% (+32.9%). Nuestra idea clave es que este andamiaje de modelos mentales espaciales, construyendo y utilizando activamente representaciones espaciales estructuradas internas con procesos de razonamiento flexibles, mejora significativamente la comprensión del espacio no observable.
El aprendizaje multimodal en contexto (ICL, por sus siglas en inglés) sigue siendo poco explorado a pesar de su potencial significativo en dominios como la medicina. Los clínicos se enfrentan rutinariamente a tareas diversas y especializadas que requieren adaptación a partir de ejemplos limitados, como extraer conclusiones de unos pocos casos previos relevantes o considerar un conjunto restringido de diagnósticos diferenciales. Si bien los modelos de lenguaje multimodal de gran escala (MLLMs) han mostrado avances en la respuesta visual a preguntas médicas (VQA), su capacidad para aprender tareas multimodales a partir del contexto es en gran medida desconocida. Presentamos SMMILE, el primer punto de referencia multimodal ICL impulsado por expertos para tareas médicas. Once expertos médicos seleccionaron problemas, cada uno incluyendo una consulta multimodal y ejemplos multimodales en contexto como demostraciones de la tarea. SMMILE abarca 111 problemas (517 tripletas pregunta-imagen-respuesta) que cubren 6 especialidades médicas y 13 modalidades de imagen. Además, introducimos SMMILE++, una variante aumentada con 1038 problemas permutados. Una evaluación exhaustiva de 15 MLLMs demuestra que la mayoría de los modelos exhiben una capacidad ICL multimodal de moderada a pobre en tareas médicas. En evaluaciones de respuesta abierta, el ICL contribuye solo con una mejora promedio del 8% sobre el enfoque de cero disparos en SMMILE y del 9.4% en SMMILE++. Observamos una susceptibilidad a ejemplos en contexto irrelevantes: incluso un solo ejemplo ruidoso o irrelevante puede degradar el rendimiento hasta en un 9.5%. Además, el orden de los ejemplos muestra un sesgo de recencia, es decir, colocar el ejemplo más relevante al final puede llevar a mejoras sustanciales en el rendimiento de hasta un 71%. Nuestros hallazgos resaltan limitaciones y sesgos críticos en los MLLMs actuales al aprender tareas médicas multimodales a partir del contexto.
Trabajos recientes que analizan el aprendizaje en contexto (ICL, por sus siglas en inglés) han identificado un amplio conjunto de estrategias que describen el comportamiento de los modelos en diferentes condiciones experimentales. Nuestro objetivo es unificar estos hallazgos preguntándonos por qué un modelo aprende estas estrategias dispares en primer lugar. Específicamente, partimos de la observación de que, cuando se entrena para aprender una mezcla de tareas, como es común en la literatura, las estrategias aprendidas por un modelo para realizar ICL pueden ser capturadas por una familia de predictores bayesianos: un predictor memorizador, que asume un previo discreto sobre el conjunto de tareas vistas, y un predictor generalizador, donde el previo coincide con la distribución subyacente de tareas. Adoptando la perspectiva normativa del análisis racional, donde el comportamiento de un aprendiz se explica como una adaptación óptima a los datos dadas las restricciones computacionales, desarrollamos un marco bayesiano jerárquico que predice casi perfectamente las predicciones de siguiente token de los Transformers a lo largo del entrenamiento, sin asumir acceso a sus pesos. Bajo este marco, el preentrenamiento se ve como un proceso de actualización de la probabilidad posterior de diferentes estrategias, y el comportamiento en tiempo de inferencia como un promedio ponderado por la posterior de las predicciones de estas estrategias. Nuestro marco se basa en suposiciones comunes sobre la dinámica de aprendizaje de las redes neuronales, que explicitan una compensación entre pérdida y complejidad entre las estrategias candidatas: más allá de qué tan bien explica los datos, la preferencia de un modelo por implementar una estrategia está dictada por su complejidad. Esto ayuda a explicar fenómenos bien conocidos del ICL, al tiempo que ofrece predicciones novedosas: por ejemplo, mostramos una tendencia superlineal en la escala de tiempo para la transición de la generalización a la memorización a medida que aumenta la diversidad de tareas. En general, nuestro trabajo avanza una explicación y predicción del ICL fundamentada en compensaciones entre la pérdida y la complejidad de las estrategias.
Presentamos Gazal-R1, un modelo de lenguaje de 32 mil millones de parámetros que alcanza un rendimiento de vanguardia en razonamiento médico, al tiempo que proporciona explicaciones transparentes y paso a paso para la toma de decisiones clínicas. Basado en Qwen3 32B, nuestro modelo demuestra que un entrenamiento estratégico puede permitir que modelos de tamaño medio superen a contrapartes significativamente más grandes en dominios especializados. Desarrollamos una novedosa canalización de entrenamiento en dos etapas: primero, un ajuste fino supervisado sobre un conjunto de datos cuidadosamente seleccionado de 107,033 ejemplos sintéticos de razonamiento médico que enseña pensamiento clínico estructurado, mejorado mediante técnicas avanzadas de eficiencia de parámetros, incluyendo Adaptación de Bajo Rango con Descomposición de Pesos (DoRA) y LoRA con Estabilización de Rango (rsLoRA); segundo, aprendizaje por refuerzo utilizando Optimización de Política Relativa de Grupo (GRPO) con un sofisticado sistema de recompensas multicomponente que refina la precisión, el cumplimiento del formato y la calidad del razonamiento. Gazal-R1 logra un rendimiento excepcional en benchmarks médicos, obteniendo un 87.1% en MedQA, un 81.6% en MMLU Pro (Médico) y un 79.6% en PubMedQA, superando a modelos hasta 12 veces más grandes. Más allá de sus sólidos resultados empíricos, este trabajo proporciona una visión detallada de los desafíos de entrenar modelos con capacidad de razonamiento en dominios especializados, incluyendo problemas con el hackeo de recompensas, la inestabilidad del entrenamiento y la tensión fundamental entre el recuerdo factual y el razonamiento detallado. Nuestra metodología ofrece un marco reproducible para desarrollar modelos de lenguaje de alta capacidad y específicos de dominio que equilibran rendimiento, eficiencia y explicabilidad.
La mayoría de los modelos de lenguaje enfrentan una compensación fundamental en la que capacidades potentes requieren recursos computacionales sustanciales. Rompemos esta limitación con Jan-nano, un modelo de lenguaje de 4B parámetros que redefine la eficiencia mediante una especialización radical: en lugar de intentar saberlo todo, domina el arte de encontrar cualquier cosa al instante. Ajustado finamente a partir de Qwen3-4B utilizando nuestro novedoso sistema RLVR de múltiples etapas, que elimina por completo la dependencia del entrenamiento de predicción del siguiente token (SFT), Jan-nano alcanza un 83.2% en el benchmark SimpleQA con integración MCP mientras se ejecuta en hardware de consumo. Con una longitud de contexto de 128K, Jan-nano demuestra que la inteligencia no se trata de escala, sino de estrategia.
La búsqueda de la generación de contenido de alta calidad, eficiente y controlable sigue siendo un desafío central en la generación de contenido mediante inteligencia artificial (AIGC). Aunque los generadores de un solo paso, habilitados por técnicas de destilación de difusión, ofrecen una excelente calidad de generación y eficiencia computacional, adaptarlos a nuevas condiciones de control—como restricciones estructurales, pautas semánticas o entradas externas—plantea un desafío significativo. Los enfoques convencionales a menudo requieren modificaciones computacionalmente costosas al modelo base y una posterior destilación de difusión. Este artículo presenta Noise Consistency Training (NCT), un enfoque novedoso y ligero para integrar directamente nuevas señales de control en generadores de un solo paso preentrenados, sin necesidad de acceder a las imágenes originales de entrenamiento o reentrenar el modelo de difusión base. NCT opera introduciendo un módulo adaptador y emplea una pérdida de consistencia de ruido en el espacio de ruido del generador. Esta pérdida alinea el comportamiento de generación del modelo adaptado en ruidos que son condicionalmente dependientes en diversos grados, guiándolo implícitamente a adherirse al nuevo control. Teóricamente, este objetivo de entrenamiento puede entenderse como la minimización de la distancia distribucional entre el generador adaptado y la distribución condicional inducida por las nuevas condiciones. NCT es modular, eficiente en datos y fácilmente implementable, dependiendo únicamente del generador de un solo paso preentrenado y un modelo de señal de control. Experimentos extensos demuestran que NCT logra una generación controlable de vanguardia en un solo paso hacia adelante, superando a los métodos existentes basados en múltiples pasos y destilación tanto en calidad de generación como en eficiencia computacional. El código está disponible en https://github.com/Luo-Yihong/NCT.
Presentamos Confucius3-Math, un modelo de lenguaje de gran escala de código abierto con 14 mil millones de parámetros que (1) se ejecuta eficientemente en una sola GPU de consumo; (2) alcanza rendimientos de vanguardia (SOTA) en una variedad de tareas de razonamiento matemático, superando a muchos modelos de tamaños significativamente mayores. En particular, como parte de nuestra misión de mejorar la educación y la difusión del conocimiento con IA, Confucius3-Math está específicamente comprometido con el aprendizaje de matemáticas para estudiantes y educadores chinos de K-12. Construido mediante entrenamiento posterior con aprendizaje por refuerzo (RL) a gran escala, Confucius3-Math se alinea con el currículo nacional y sobresale en la resolución de problemas matemáticos principales del K-12 chino con un bajo costo. En este informe compartimos nuestra receta de desarrollo, los desafíos que encontramos y las técnicas que desarrollamos para superarlos. En particular, introducimos tres innovaciones técnicas: Regularización de Entropía Dirigida, Recuperación de Muestras Recientes y Ponderación de Dificultad Específica de la Política. Estas innovaciones abarcan una nueva regularización de entropía, una política novedosa de programación de datos y un estimador mejorado de ventaja relativa grupal. Colectivamente, estas innovaciones estabilizan significativamente el entrenamiento de RL, mejoran la eficiencia de los datos y potencian el rendimiento. Nuestro trabajo demuestra la viabilidad de construir modelos de razonamiento sólidos en un dominio particular a bajo costo. Hemos abierto el código y el modelo en https://github.com/netease-youdao/Confucius3-Math.
En muchas industrias, predecir los resultados de métricas en sistemas grandes es un problema fundamental, impulsado principalmente por la regresión tabular tradicional. Sin embargo, estos métodos tienen dificultades con datos de sistemas complejos en entornos reales, como archivos de configuración o registros del sistema, donde la ingeniería de características a menudo no es factible. Proponemos la regresión texto-a-texto como una alternativa general y escalable. Para predecir la eficiencia de recursos en Borg, el masivo sistema de programación de clústeres de computación de Google, un modelo codificador-decodificador de 60 millones de parámetros, entrenado desde una inicialización aleatoria, alcanza una correlación de rangos cercana a la perfección de 0.99 (0.9 en promedio) en toda la flota, y un error cuadrático medio 100 veces menor que los enfoques tabulares. El modelo también se adapta fácilmente a nuevas tareas con solo 500 ejemplos de pocas muestras y captura las densidades de distribuciones de resultados complejas. Los estudios de ablación destacan la importancia de utilizar codificadores, aumentar la longitud de la secuencia y la cuantificación inherente de incertidumbre del modelo. Estos hallazgos allanan el camino para simuladores universales de resultados del mundo real.
Los modelos modernos de lenguaje a gran escala, como las series LLaMA, Qwen y DeepSeek, adoptan predominantemente la arquitectura Transformer con Pre-LayerNorm (Pre-LN). Aunque es estable durante el preentrenamiento y escalable a tamaños de modelo grandes, Pre-LN sufre un crecimiento exponencial en la varianza de las activaciones a través de las capas, lo que hace que la ruta residual domine sobre las salidas de las subcapas y limite la capacidad de aprendizaje de las capas más profundas. Para mitigar este problema, proponemos el Escalado de Activaciones con Preservación de Gradientes (GPAS, por sus siglas en inglés), una técnica simple que puede usarse en combinación con enfoques existentes. GPAS funciona escalando hacia abajo las activaciones intermedias mientras mantiene sus gradientes sin cambios. Esto deja la información en las activaciones intacta y evita el problema de desvanecimiento del gradiente asociado con el escalado descendente de gradientes. Experimentos exhaustivos en varios tamaños de modelo, desde 71M hasta 1B, muestran que GPAS logra mejoras consistentes en el rendimiento. Más allá de mejorar los Transformers con Pre-LN, GPAS también muestra potencial para mejorar arquitecturas alternativas como Sandwich-LN y DeepNorm, demostrando su versatilidad y potencial para optimizar la dinámica de entrenamiento en una amplia gama de configuraciones.
El auge de las técnicas de imagen como la tomografía de coherencia óptica (OCT) y los avances en el aprendizaje profundo (DL) han permitido a los clínicos e investigadores optimizar la clasificación de enfermedades retinianas. Un enfoque popular de DL es el aprendizaje autosupervisado (SSL), donde los modelos aprenden de grandes cantidades de datos no etiquetados, evitando costosas anotaciones. El SSL ha permitido el desarrollo de modelos base (FMs), modelos grandes que pueden utilizarse para una variedad de tareas posteriores. Sin embargo, los FMs existentes para OCT, entrenados únicamente con datos de imagen, carecen de una comprensión semántica integral y robusta de las imágenes, como lo evidencia su rendimiento en tareas posteriores (especialmente en tareas complejas), y por lo tanto requieren ajuste supervisado (que puede ser inviable) para adaptarse mejor a aplicaciones y poblaciones específicas. Para abordar esto, proponemos RetFiner, un esquema de refinamiento SSL visión-lenguaje que mejora las representaciones de los FMs existentes y permite su adaptación eficiente y directa a poblaciones específicas para un mejor rendimiento en tareas posteriores. Nuestro método utiliza un conjunto diverso de objetivos de entrenamiento que aprovechan la rica señal de supervisión presente en los datos textuales. Probamos RetFiner en los FMs retinianos RETFound, UrFound y VisionFM, mostrando mejoras significativas en el rendimiento de sondeo lineal en siete tareas de clasificación de OCT altamente diversas, con un aumento promedio de 5.8, 3.9 y 2.1 puntos porcentuales sobre sus líneas base, respectivamente. Nuestro código y pesos del modelo están disponibles públicamente en https://github.com/ronnief1/RetFiner.
Aprender la estructura jerárquica de los datos en modelos de visión y lenguaje representa un desafío significativo. Trabajos anteriores han intentado abordar este desafío mediante el aprendizaje de implicación. Sin embargo, estos enfoques no logran modelar explícitamente la naturaleza transitiva de la implicación, la cual establece la relación entre el orden y la semántica dentro de un espacio de representación. En este trabajo, presentamos Radial Cross-Modal Embeddings (RCME), un marco que permite el modelado explícito de la implicación reforzada por transitividad. Nuestro marco propuesto optimiza el orden parcial de conceptos dentro de modelos de visión y lenguaje. Al aprovechar nuestro marco, desarrollamos un modelo fundacional jerárquico de visión y lenguaje capaz de representar la jerarquía en el Árbol de la Vida. Nuestros experimentos en clasificación jerárquica de especies y tareas de recuperación jerárquica demuestran el rendimiento mejorado de nuestros modelos en comparación con los modelos más avanzados existentes. Nuestro código y modelos están disponibles públicamente en https://vishu26.github.io/RCME/index.html.
Presentamos TAPAS (Task-based Adaptation and Planning using AgentS), un marco de trabajo multiagente que integra Modelos de Lenguaje de Gran Escala (LLMs) con planificación simbólica para resolver tareas complejas sin la necesidad de modelos de entorno definidos manualmente. TAPAS emplea agentes especializados basados en LLMs que colaboran para generar y adaptar modelos de dominio, estados iniciales y especificaciones de objetivos según sea necesario, utilizando mecanismos estructurados de llamadas a herramientas. A través de esta interacción basada en herramientas, los agentes descendentes pueden solicitar modificaciones a los agentes ascendentes, permitiendo la adaptación a atributos y restricciones novedosos sin la redefinición manual del dominio. Un agente de ejecución estilo ReAct (Razonar+Actuar), junto con la traducción de planes en lenguaje natural, cierra la brecha entre los planes generados dinámicamente y las capacidades de los robots en el mundo real. TAPAS demuestra un rendimiento sólido en dominios de planificación de referencia y en el entorno simulado de VirtualHome.
El cómputo en tiempo de prueba ha surgido como un paradigma poderoso para mejorar el rendimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), donde la generación de múltiples salidas o el refinamiento de cadenas individuales puede aumentar significativamente la precisión de las respuestas. Sin embargo, métodos existentes como Best-of-N, votación por mayoría y autorreflexión suelen aplicar el razonamiento de manera uniforme en todas las entradas, pasando por alto el hecho de que diferentes problemas pueden requerir distintos niveles de profundidad de razonamiento. En este trabajo, proponemos Razonamiento Fraccional, un marco de trabajo independiente del modelo y sin necesidad de entrenamiento que permite un control continuo sobre la intensidad del razonamiento durante la inferencia, superando las limitaciones de las instrucciones fijas. Nuestro método opera extrayendo el vector de dirección latente asociado con un razonamiento más profundo y reaplicándolo con un factor de escalado ajustable, lo que permite al modelo adaptar su proceso de razonamiento a la complejidad de cada entrada. Esto respalda dos modos clave de escalado en tiempo de prueba: (1) mejorar la calidad de la salida en estrategias basadas en amplitud (por ejemplo, Best-of-N, votación por mayoría), y (2) aumentar la corrección de cadenas de razonamiento individuales en estrategias basadas en profundidad (por ejemplo, autorreflexión). Los experimentos en GSM8K, MATH500 y GPQA demuestran que el Razonamiento Fraccional mejora consistentemente el rendimiento en diversas tareas y modelos de razonamiento.