Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos nuestro primer modelo generativo reflexivo MetaStone-S1, que alcanza el rendimiento de OpenAI o3 mediante el modelo de recompensa de proceso autosupervisado (SPRM, por sus siglas en inglés). Al compartir la red principal y utilizar cabezales específicos para la predicción del siguiente token y la puntuación del proceso respectivamente, SPRM integra exitosamente el modelo de política y el modelo de recompensa de proceso (PRM) en una interfaz unificada sin necesidad de anotaciones adicionales del proceso, reduciendo más del 99% de los parámetros de PRM para un razonamiento eficiente. Equipado con SPRM, MetaStone-S1 es naturalmente adecuado para el escalado en tiempo de prueba (TTS), y ofrecemos tres modos de esfuerzo de razonamiento (bajo, medio y alto), basados en la longitud controlable del pensamiento. Además, establecemos empíricamente una ley de escalado que revela la relación entre el cómputo total del pensamiento y el rendimiento de TTS. Los experimentos demuestran que nuestro MetaStone-S1 logra un rendimiento comparable a la serie OpenAI-o3-mini con un tamaño de solo 32B parámetros. Para apoyar a la comunidad de investigación, hemos liberado el código de MetaStone-S1 en https://github.com/MetaStone-AI/MetaStone-S1.
La notable capacidad de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) surge de comportamientos cognitivos que emergen mediante el refuerzo con recompensas verificables. Este trabajo investiga cómo transferir este principio a los Modelos de Lenguaje Multimodales (MLLMs) para desbloquear un razonamiento visual avanzado. Introducimos un paradigma de dos etapas basado en Qwen2.5-VL-7B: un ajuste fino masivo de arranque en frío lingüístico, seguido de un aprendizaje por refuerzo multimodal (RL) que abarca casi 1,000 pasos, superando todos los esfuerzos anteriores de código abierto en escala. Este trabajo pionero revela tres insights fundamentales: 1) La transferencia de comportamiento emerge sorprendentemente temprano en el arranque en frío debido a la imaginería mental lingüística. 2) El arranque en frío memoriza ampliamente comportamientos visuales, mientras que el RL distingue críticamente y escala patrones efectivos. 3) La transferencia favorece estratégicamente comportamientos de alta utilidad, como la reflexión visual. Nuestro modelo resultante, Open-Vision-Reasoner (OVR), logra un rendimiento de vanguardia en un conjunto de benchmarks de razonamiento, incluyendo un 95.3% en MATH500, un 51.8% en MathVision y un 54.6% en MathVerse. Publicamos nuestro modelo, datos y dinámicas de entrenamiento para catalizar el desarrollo de razonadores multimodales más capaces y alineados en comportamiento.
Presentamos NeuralOS, un marco neuronal que simula interfaces gráficas de usuario (GUI) de sistemas operativos al predecir directamente los fotogramas de pantalla en respuesta a entradas del usuario, como movimientos del ratón, clics y eventos de teclado. NeuralOS combina una red neuronal recurrente (RNN), que rastrea el estado de la computadora, con un renderizador neuronal basado en difusión que genera imágenes de pantalla. El modelo se entrena con un conjunto de datos a gran escala de grabaciones de Ubuntu XFCE, que incluyen tanto interacciones generadas aleatoriamente como interacciones realistas producidas por agentes de IA. Los experimentos muestran que NeuralOS renderiza con éxito secuencias de GUI realistas, captura con precisión las interacciones del ratón y predice de manera confiable transiciones de estado, como el lanzamiento de aplicaciones. Aunque modelar con precisión interacciones detalladas del teclado sigue siendo un desafío, NeuralOS ofrece un paso hacia la creación de interfaces neuronales generativas y completamente adaptativas para futuros sistemas de interacción humano-computadora.
Aprovechando las potentes representaciones de los modelos fundamentales de visión preentrenados —tradicionalmente utilizados para la comprensión visual—, exploramos una dirección novedosa: la construcción de un tokenizador de imágenes directamente sobre dichos modelos, un área en gran medida poco explorada. Específicamente, empleamos un modelo fundamental de visión congelado como el codificador de nuestro tokenizador. Para mejorar su eficacia, introducimos dos componentes clave: (1) un marco de cuantización adaptativa por regiones que reduce la redundancia en las características preentrenadas en cuadrículas 2D regulares, y (2) un objetivo de reconstrucción semántica que alinea las salidas del tokenizador con las representaciones del modelo fundamental para preservar la fidelidad semántica. Basándonos en estos diseños, nuestro tokenizador de imágenes propuesto, VFMTok, logra mejoras sustanciales en la calidad de la reconstrucción y generación de imágenes, al mismo tiempo que aumenta la eficiencia de los tokens. Además, impulsa la generación autoregresiva (AR) —alcanzando un gFID de 2.07 en los puntos de referencia de ImageNet—, acelera la convergencia del modelo en tres veces y permite la síntesis condicionada por clases de alta fidelidad sin necesidad de guía libre de clasificador (CFG). El código se lanzará públicamente para beneficiar a la comunidad.
Este artículo propone un enfoque de renderizado neuronal que representa una escena como "tokens de campo de luz comprimidos (CLiFTs)", conservando información rica de apariencia y geometría de la escena. CLiFT permite un renderizado eficiente en términos de cómputo mediante tokens comprimidos, al mismo tiempo que es capaz de cambiar el número de tokens para representar una escena o renderizar una nueva vista con una red entrenada. Concretamente, dado un conjunto de imágenes, un codificador multivista tokeniza las imágenes junto con las poses de la cámara. Un K-means en el espacio latente selecciona un conjunto reducido de rayos como centroides de clúster utilizando los tokens. El "condensador" multivista comprime la información de todos los tokens en los tokens centroides para construir los CLiFTs. En el momento de prueba, dada una vista objetivo y un presupuesto de cómputo (es decir, el número de CLiFTs), el sistema recopila el número especificado de tokens cercanos y sintetiza una nueva vista utilizando un renderizador adaptativo al cómputo. Experimentos extensivos en los conjuntos de datos RealEstate10K y DL3DV validan cuantitativa y cualitativamente nuestro enfoque, logrando una reducción significativa de datos con una calidad de renderizado comparable y la puntuación general de renderizado más alta, al mismo tiempo que ofrece compensaciones entre el tamaño de los datos, la calidad del renderizado y la velocidad de renderizado.
En este informe, presentamos la familia de modelos Gemini 2.X: Gemini 2.5 Pro y Gemini 2.5 Flash, así como nuestros modelos anteriores Gemini 2.0 Flash y Flash-Lite. Gemini 2.5 Pro es nuestro modelo más avanzado hasta la fecha, logrando un rendimiento de vanguardia (SoTA) en benchmarks de codificación y razonamiento. Además de sus increíbles habilidades de codificación y razonamiento, Gemini 2.5 Pro es un modelo de pensamiento que sobresale en la comprensión multimodal y ahora es capaz de procesar hasta 3 horas de contenido de video. Su combinación única de contexto extenso, capacidades multimodales y de razonamiento puede integrarse para desbloquear nuevos flujos de trabajo agentivos. Gemini 2.5 Flash ofrece excelentes habilidades de razonamiento con una fracción de los requisitos de cómputo y latencia, mientras que Gemini 2.0 Flash y Flash-Lite proporcionan un alto rendimiento con baja latencia y costo. En conjunto, la generación de modelos Gemini 2.X abarca toda la frontera de Pareto de capacidad del modelo frente al costo, permitiendo a los usuarios explorar los límites de lo posible en la resolución de problemas agentivos complejos.
Proponemos la dirección de caché, un método ligero para la dirección implícita de modelos de lenguaje mediante una intervención de un solo paso aplicada directamente a la caché de clave-valor. Para validar su efectividad, aplicamos la dirección de caché para inducir razonamiento en cadena en modelos de lenguaje pequeños. Nuestro enfoque aprovecha trazas de razonamiento generadas por GPT-4o para construir vectores de dirección que modifican el comportamiento del modelo hacia un razonamiento más explícito y de múltiples pasos, sin necesidad de ajustes finos o modificaciones en las indicaciones. Las evaluaciones experimentales en diversos puntos de referencia de razonamiento demuestran que la dirección de caché mejora tanto la estructura cualitativa del razonamiento del modelo como el rendimiento cuantitativo en las tareas. En comparación con técnicas previas de dirección de activación que requieren intervenciones continuas, nuestra dirección de caché de un solo paso ofrece ventajas sustanciales en términos de estabilidad de hiperparámetros, eficiencia en tiempo de inferencia y facilidad de integración, convirtiéndola en una solución más robusta y práctica para la generación controlada.
Los modelos de lenguaje autoregresivos de gran escala (LLMs, por sus siglas en inglés) han unificado una amplia gama de tareas de lenguaje, inspirando esfuerzos preliminares en la generación autoregresiva de videos. Los generadores de video autoregresivos existentes o bien se desvían de las arquitecturas estándar de LLMs, dependen de codificadores de texto externos voluminosos, o incurren en una latencia prohibitiva debido a la decodificación de tokens siguientes. En este artículo, presentamos Lumos-1, un generador de video autoregresivo que conserva la arquitectura de los LLMs con modificaciones arquitectónicas mínimas. Para inyectar correlaciones espacio-temporales en los LLMs, identificamos la eficacia de incorporar 3D RoPE y diagnosticamos sus rangos desequilibrados del espectro de frecuencias. Por lo tanto, proponemos MM-RoPE, un esquema de RoPE que preserva el RoPE textual original mientras proporciona espectros de frecuencias completos y posiciones 3D escaladas para modelar datos espacio-temporales multimodales. Además, Lumos-1 recurre a una estrategia de dependencia de tokens que obedece a la bidireccionalidad intra-cuadro y a la causalidad temporal inter-cuadro. Basándonos en esta estrategia de dependencia, identificamos el problema del desequilibrio de pérdida por cuadro causado por la redundancia de información espacial y lo resolvemos proponiendo Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduce enmascaramiento de tubos temporales durante el entrenamiento con una política de enmascaramiento compatible en tiempo de inferencia para evitar la degradación de la calidad. Utilizando técnicas de entrenamiento eficientes en memoria, preentrenamos Lumos-1 en solo 48 GPUs, logrando un rendimiento comparable a EMU3 en GenEval, COSMOS-Video2World en VBench-I2V y OpenSoraPlan en VBench-T2V. El código y los modelos están disponibles en https://github.com/alibaba-damo-academy/Lumos.
Los modelos generativos de recompensa (también conocidos como LLMs-como-jueces), que utilizan modelos de lenguaje de gran escala (LLMs) para evaluar la calidad de las respuestas, están siendo adoptados cada vez más en el aprendizaje por refuerzo con recompensas verificables (RLVR). A menudo se prefieren sobre métricas rígidas basadas en reglas, especialmente para tareas de razonamiento complejo que involucran salidas de formato libre. En este paradigma, típicamente se solicita a un LLM que compare una respuesta candidata con una referencia de verdad fundamental y asigne una recompensa binaria que indique su corrección. A pesar de la aparente simplicidad de esta tarea de comparación, encontramos que los modelos generativos de recompensa exhiben vulnerabilidades sorprendentes a manipulaciones superficiales: símbolos que no son palabras (por ejemplo, ":" o ".") o frases introductorias de razonamiento como "Proceso de pensamiento:" y "Resolvamos este problema paso a paso" a menudo pueden llevar a recompensas falsas positivas. Demostramos que esta debilidad está ampliamente presente en LLMs, conjuntos de datos y formatos de instrucción, lo que representa una seria amenaza para paradigmas algorítmicos centrales que dependen de modelos generativos de recompensa, como el muestreo por rechazo, la optimización de preferencias y RLVR. Para mitigar este problema, introducimos una estrategia de aumento de datos simple pero efectiva y entrenamos un nuevo modelo generativo de recompensa con una robustez sustancialmente mejorada. Nuestros hallazgos resaltan la necesidad urgente de métodos de evaluación basados en LLMs más confiables. Publicamos nuestro modelo de recompensa robusto y de dominio general, junto con sus datos de entrenamiento sintéticos, en https://huggingface.co/sarosavo/Master-RM y https://huggingface.co/datasets/sarosavo/Master-RM.
La edición tradicional de imágenes generalmente depende de indicaciones manuales, lo que la hace laboriosa e inaccesible para personas con control motor o habilidades lingüísticas limitadas. Aprovechando los avances recientes en interfaces cerebro-computadora (BCI) y modelos generativos, proponemos LoongX, un enfoque de edición de imágenes sin manos impulsado por señales neurofisiológicas multimodales. LoongX utiliza modelos de difusión de última generación entrenados en un conjunto de datos exhaustivo de 23,928 pares de edición de imágenes, cada uno emparejado con señales sincronizadas de electroencefalografía (EEG), espectroscopia funcional de infrarrojo cercano (fNIRS), fotopletismografía (PPG) y movimiento de la cabeza que capturan la intención del usuario. Para abordar eficazmente la heterogeneidad de estas señales, LoongX integra dos módulos clave. El módulo de espacio de estado de escala cruzada (CS3) codifica características informativas específicas de cada modalidad. El módulo de fusión dinámica con compuerta (DGF) agrega estas características en un espacio latente unificado, que luego se alinea con la semántica de la edición mediante ajuste fino en un transformador de difusión (DiT). Además, preentrenamos los codificadores utilizando aprendizaje contrastivo para alinear los estados cognitivos con las intenciones semánticas del lenguaje natural incrustado. Experimentos extensos demuestran que LoongX logra un rendimiento comparable a los métodos basados en texto (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) y los supera cuando las señales neurales se combinan con el habla (CLIP-T: 0.2588 vs. 0.2549). Estos resultados resaltan el potencial de los modelos generativos impulsados por señales neurales para permitir una edición de imágenes accesible e intuitiva, y abren nuevas direcciones para las tecnologías creativas impulsadas por la cognición. Los conjuntos de datos y el código se liberarán para apoyar trabajos futuros y fomentar el progreso en esta área emergente.
Los recientes avances en generación 3D han evolucionado desde enfoques de renderizado 2D multi-vista hacia marcos de difusión latente nativos en 3D que aprovechan los priors geométricos en datos de referencia. A pesar del progreso, persisten tres limitaciones clave: (1) Las representaciones de latente único no logran capturar geometrías complejas de múltiples partes, causando degradación de detalles; (2) La codificación latente holística descuida la independencia y las interrelaciones entre partes, cruciales para el diseño compositivo; (3) Los mecanismos de condicionamiento global carecen de controlabilidad de grano fino. Inspirados por los flujos de trabajo de diseño 3D humano, proponemos CoPart: un marco de difusión consciente de partes que descompone objetos 3D en latentes de partes contextuales para la generación coherente de múltiples partes. Este paradigma ofrece tres ventajas: i) Reduce la complejidad de codificación mediante la descomposición en partes; ii) Permite el modelado explícito de relaciones entre partes; iii) Soporta condicionamiento a nivel de parte. Además, desarrollamos una estrategia de guía mutua para ajustar modelos de difusión preentrenados en la eliminación de ruido conjunta de latentes de partes, asegurando tanto coherencia geométrica como priors de modelos base. Para permitir entrenamiento a gran escala, construimos Partverse: un novedoso conjunto de datos de partes 3D derivado de Objaverse mediante segmentación automática de mallas y anotaciones verificadas por humanos. Experimentos extensivos demuestran las capacidades superiores de CoPart en edición a nivel de parte, generación de objetos articulados y composición de escenas con una controlabilidad sin precedentes.
Para aliviar la carga computacional de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), las arquitecturas con esparcidad de activación, representadas por la mezcla de expertos (MoE, por sus siglas en inglés), han atraído una atención creciente. Sin embargo, el enrutamiento no diferenciable e inflexible del MoE básico perjudica el rendimiento del modelo. Además, aunque cada token activa solo unos pocos parámetros, estas arquitecturas de activación dispersa exhiben una baja esparcidad a nivel de fragmento, lo que indica que la unión de múltiples tokens consecutivos activa una gran proporción de parámetros. Este patrón de esparcidad no es favorable para la aceleración en condiciones de recursos limitados (por ejemplo, dispositivos del lado del usuario) y es incompatible con las técnicas de aceleración más comunes (por ejemplo, decodificación especulativa). Para abordar estos desafíos, presentamos una nueva arquitectura MoE, BlockFFN, junto con sus técnicas eficientes de entrenamiento y despliegue. Específicamente, utilizamos un enrutador que integra la activación ReLU y RMSNorm para un enrutamiento diferenciable y flexible. A continuación, para promover tanto la esparcidad a nivel de token (TLS, por sus siglas en inglés) como la esparcidad a nivel de fragmento (CLS, por sus siglas en inglés), se diseñan objetivos de entrenamiento conscientes de CLS, haciendo que BlockFFN sea más amigable para la aceleración. Finalmente, implementamos núcleos de aceleración eficientes, combinando por primera vez la esparcidad de activación y la decodificación especulativa. Los resultados experimentales demuestran el rendimiento superior de BlockFFN sobre otras líneas base de MoE, logrando más del 80% de TLS y 70% de CLS para 8 tokens. Nuestros núcleos alcanzan una aceleración de hasta 3.67 veces en dispositivos reales del lado del usuario en comparación con modelos densos. Todos los códigos y puntos de control están disponibles públicamente (https://github.com/thunlp/BlockFFN).
Presentamos Audio Flamingo 3 (AF3), un modelo de lenguaje-audio grande de última generación (SOTA) completamente abierto que avanza en el razonamiento y la comprensión a través del habla, el sonido y la música. AF3 introduce: (i) AF-Whisper, un codificador de audio unificado entrenado mediante una estrategia novedosa para el aprendizaje de representaciones conjuntas en las 3 modalidades de habla, sonido y música; (ii) pensamiento flexible bajo demanda, permitiendo que el modelo realice razonamientos tipo cadena de pensamiento antes de responder; (iii) chat multi-turn y multi-audio; (iv) comprensión y razonamiento de audio largo (incluyendo habla) de hasta 10 minutos; y (v) interacción de voz a voz. Para habilitar estas capacidades, proponemos varios conjuntos de datos de entrenamiento a gran escala curados mediante estrategias novedosas, incluyendo AudioSkills-XL, LongAudio-XL, AF-Think y AF-Chat, y entrenamos AF3 con una estrategia de entrenamiento basada en un currículum de cinco etapas. Entrenado únicamente con datos de audio de código abierto, AF3 logra nuevos resultados SOTA en más de 20 benchmarks de comprensión y razonamiento de audio (largo), superando tanto a modelos de pesos abiertos como a modelos cerrados entrenados con conjuntos de datos mucho más grandes.
Los modelos fundamentales se basan en la idea de que la predicción de secuencias puede revelar una comprensión más profunda del dominio, de manera similar a cómo las predicciones de Kepler sobre el movimiento planetario llevaron posteriormente al descubrimiento de la mecánica newtoniana. Sin embargo, evaluar si estos modelos realmente capturan una estructura más profunda sigue siendo un desafío. Desarrollamos una técnica para evaluar modelos fundamentales que examina cómo se adaptan a conjuntos de datos sintéticos generados a partir de un modelo de mundo postulado. Nuestra técnica mide si el sesgo inductivo del modelo fundamental se alinea con el modelo de mundo, por lo que la denominamos como una sonda de sesgo inductivo. En múltiples dominios, encontramos que los modelos fundamentales pueden sobresalir en sus tareas de entrenamiento, pero no logran desarrollar sesgos inductivos hacia el modelo de mundo subyacente cuando se adaptan a nuevas tareas. En particular, observamos que los modelos fundamentales entrenados en trayectorias orbitales consistentemente fallan en aplicar la mecánica newtoniana cuando se adaptan a nuevas tareas de física. Un análisis más detallado revela que estos modelos se comportan como si desarrollaran heurísticas específicas para cada tarea que no logran generalizarse.
A pesar de las impresionantes capacidades de los modelos de lenguaje multimodal de gran escala (MLLMs) en tareas de visión y lenguaje, son propensos a alucinaciones en escenarios del mundo real. Este artículo investiga el fenómeno de la alucinación en MLLMs desde la perspectiva del conflicto de modalidades. A diferencia de trabajos existentes que se centran en los conflictos entre las respuestas del modelo y las entradas, estudiamos los conflictos inherentes en las entradas de diferentes modalidades que colocan a los MLLMs en un dilema y conducen directamente a alucinaciones. Definimos formalmente el conflicto de modalidades y construimos un conjunto de datos llamado Conflicto de Modalidades Multimodal (MMMC) para simular este fenómeno en tareas de visión y lenguaje. Se proponen tres métodos basados en ingeniería de prompts, ajuste fino supervisado y aprendizaje por refuerzo para mitigar la alucinación causada por el conflicto de modalidades. Se realizan experimentos exhaustivos en el conjunto de datos MMMC para analizar los méritos y deméritos de estos métodos. Nuestros resultados muestran que el método de aprendizaje por refuerzo logra el mejor rendimiento en la mitigación de la alucinación bajo conflicto de modalidades, mientras que el método de ajuste fino supervisado muestra un rendimiento prometedor y estable. Nuestro trabajo arroja luz sobre el conflicto de modalidades inadvertido que conduce a alucinaciones y proporciona más información sobre la robustez de los MLLMs.
La detección de puntos clave, fundamental para la percepción moderna en aprendizaje automático, enfrenta desafíos en el aprendizaje con pocos ejemplos, especialmente cuando no se dispone de datos de origen provenientes de la misma distribución que la consulta. Esta brecha se aborda aprovechando los bocetos, una forma popular de expresión humana, que ofrecen una alternativa sin necesidad de datos de origen. Sin embargo, surgen desafíos al dominar los embeddings multimodales y al manejar estilos de boceto específicos del usuario. Nuestro marco propuesto supera estos obstáculos con una configuración prototípica, combinada con un localizador basado en cuadrícula y una adaptación de dominio prototípica. También demostramos éxito en la convergencia con pocos ejemplos a través de nuevos puntos clave y clases mediante experimentos exhaustivos.
La compresión de modelos ofrece una vía prometedora para reducir el costo y la inaccesibilidad de los modelos preentrenados de gran tamaño, sin comprometer significativamente su impresionante rendimiento. Los grandes modelos Transformer, incluidos los modelos de lenguaje extensos (LLMs, por sus siglas en inglés), suelen contener redundancias computacionales, las cuales pueden ser un objetivo para nuevos métodos de compresión de modelos. En este trabajo, nos enfocamos específicamente en las redundancias a nivel de neuronas en las capas del modelo, combinando grupos de neuronas similares en un menor número de neuronas. Enmarcamos esta reducción de ancho como un problema de Transporte Óptimo Discreto y proponemos DOTResize, un novedoso método de compresión de Transformers que utiliza la teoría del transporte óptimo para transformar y comprimir los pesos del modelo. Para garantizar la aplicabilidad dentro de la arquitectura Transformer, integramos y justificamos la regularización entrópica y la factorización de matrices en los mapas de transporte generados por nuestro método. A diferencia de los enfoques basados en poda, que descartan neuronas según medidas de importancia, DOTResize reproyecta todo el ancho de las neuronas, permitiendo la retención y redistribución de señales útiles a través de la capa reducida. Los resultados empíricos muestran que, en comparación con técnicas simples o de vanguardia de poda de ancho de neuronas, DOTResize puede superar estos métodos en múltiples familias y tamaños de LLMs, logrando reducciones medibles en el costo computacional en escenarios reales.