Artículos de investigación en IA seleccionados diariamente con traducciones
Los seres humanos aprenden conceptos abstractos mediante sinergia multisensorial, y una vez formadas, estas representaciones pueden recuperarse a menudo desde una sola modalidad. Inspirándonos en este principio, presentamos Concerto, una simulación minimalista del aprendizaje humano de conceptos para la cognición espacial, que combina la auto-distilación intramodal 3D con un espacio de embedding conjunto cross-modal 2D-3D. A pesar de su simplicidad, Concerto aprende características espaciales más coherentes e informativas, como demuestran las visualizaciones zero-shot. Supera a los modelos auto-supervisados SOTA 2D y 3D independientes en un 14.2% y 4.8%, respectivamente, así como a su concatenación de características, en la evaluación lineal para percepción de escenas 3D. Con fine-tuning completo, Concerto establece nuevos resultados SOTA en múltiples benchmarks de comprensión de escenas (por ejemplo, 80.7% mIoU en ScanNet). Además, presentamos una variante de Concerto adaptada para la comprensión espacial de nubes de puntos extraídas de vídeo, y un traductor que proyecta linealmente las representaciones de Concerto en el espacio lingüístico de CLIP, permitiendo la percepción de mundo abierto. Estos resultados destacan que Concerto genera representaciones espaciales con una consistencia geométrica y semántica de grano fino superior.
Las tareas del mundo real requieren decisiones a diferentes niveles de granularidad, y los humanos sobresalen en esto aprovechando una representación cognitiva unificada donde la planificación se entiende fundamentalmente como una forma de acción de alto nivel. Sin embargo, los agentes actuales basados en Modelos de Lenguaje a Gran Escala (LLM) carecen de esta capacidad crucial para operar con fluidez a través de granularidades de decisión. Esta limitación surge de los paradigmas existentes que imponen una separación rígida entre la planificación de alto nivel y la acción de bajo nivel, lo que perjudica la adaptabilidad dinámica y limita la generalización. Proponemos ReCode (Generación de Código Recursivo), un paradigma novedoso que aborda esta limitación unificando la planificación y la acción dentro de una única representación de código. En esta representación, ReCode trata los planes de alto nivel como funciones abstractas marcadoras de posición, que el agente luego descompone recursivamente en subfunciones de grano más fino hasta alcanzar acciones primitivas. Este enfoque recursivo disuelve el límite rígido entre plan y acción, permitiendo al agente controlar dinámicamente su granularidad de decisión. Además, la estructura recursiva genera inherentemente datos de entrenamiento ricos y multi-granularidad, permitiendo a los modelos aprender procesos de toma de decisiones jerárquicos. Experimentos exhaustivos muestran que ReCode supera significativamente a los baselines avanzados en rendimiento de inferencia y demuestra una eficiencia de datos excepcional en el entrenamiento, validando nuestra idea central de que unificar la planificación y la acción mediante la generación recursiva de código es un enfoque potente y eficaz para lograr un control universal de la granularidad. El código está disponible en https://github.com/FoundationAgents/ReCode.
El rápido avance de los modelos de lenguaje extenso (LLM) ha impulsado la aparición de agentes de datos: sistemas autónomos diseñados para orquestar ecosistemas de Datos + IA con el fin de abordar tareas complejas relacionadas con datos. Sin embargo, el término "agente de datos" sufre actualmente de ambigüedad terminológica y adopción inconsistente, confundiendo desde simples respondedores de consultas hasta arquitecturas autónomas sofisticadas. Esta ambigüedad terminológica fomenta expectativas de usuario desalineadas, desafíos de responsabilidad y barreras para el crecimiento de la industria. Inspirado por el estándar SAE J3016 para la automatización de la conducción, este estudio presenta la primera taxonomía jerárquica sistemática para agentes de datos, que comprende seis niveles que delinean y trazan cambios progresivos en la autonomía, desde operaciones manuales (N0) hasta una visión de agentes de datos generativos y completamente autónomos (N5), aclarando así los límites de capacidad y la asignación de responsabilidades. A través de esta lente, ofrecemos una revisión estructurada de la investigación existente organizada por autonomía creciente, abarcando agentes de datos especializados para la gestión, preparación y análisis de datos, junto con esfuerzos emergentes hacia sistemas versátiles e integrales con mayor autonomía. Además, analizamos saltos evolutivos críticos y brechas técnicas para el avance de los agentes de datos, especialmente la transición en curso del N2 al N3, donde los agentes de datos evolucionan de la ejecución procedural a la orquestación autónoma. Finalmente, concluimos con una hoja de ruta prospectiva, vislumbrando la llegada de agentes de datos generativos y proactivos.
Modelar explícitamente la verosimilitud de la distribución de datos en bruto es un tema fundamental en el área del aprendizaje automático, que ha logrado los éxitos de escalabilidad en los Modelos de Lenguaje a Gran Escala mediante el modelado autoregresivo. Sin embargo, el modelado AR continuo sobre datos de píxeles visuales sufre de secuencias extremadamente largas y espacios de alta dimensionalidad. En este artículo, presentamos FARMER, un novedoso marco generativo de extremo a extremo que unifica los Flujos Normalizadores (NF) y los modelos Autoregresivos (AR) para la estimación manejable de verosimilitud y la síntesis de imágenes de alta calidad directamente desde píxeles en bruto. FARMER emplea un flujo autoregresivo invertible para transformar imágenes en secuencias latentes, cuya distribución se modela implícitamente mediante un modelo autoregresivo. Para abordar la redundancia y complejidad en el modelado a nivel de píxel, proponemos un esquema de reducción de dimensionalidad auto-supervisado que divide los canales latentes del NF en grupos informativos y redundantes, permitiendo un modelado AR más efectivo y eficiente. Además, diseñamos un esquema de destilación en un solo paso para acelerar significativamente la velocidad de inferencia e introducimos un algoritmo de guía libre de clasificador basado en remuestreo para mejorar la calidad de la generación de imágenes. Experimentos exhaustivos demuestran que FARMER logra un rendimiento competitivo en comparación con los modelos generativos basados en píxeles existentes, al mismo tiempo que proporciona verosimilitudes exactas y un entrenamiento escalable.
Los modelos actuales de Visión-Lenguaje-Acción (VLA) suelen estar limitados por un paradigma de interacción rígido y estático, que carece de la capacidad de ver, oír, hablar y actuar de forma concurrente, así como de manejar interrupciones de usuario en tiempo real de manera dinámica. Esto dificulta la colaboración encarnada fluida, lo que resulta en una experiencia de usuario inflexible y con poca capacidad de respuesta. Para abordar estas limitaciones, presentamos VITA-E, un novedoso marco de interacción encarnada diseñado tanto para la concurrencia conductual como para la interrupción en tiempo casi real. El núcleo de nuestro enfoque es una arquitectura de doble modelo donde dos instancias VLA paralelas funcionan como un "Modelo Activo" y un "Modelo en Espera", permitiendo que el agente encarnado observe su entorno, escuche el habla del usuario, proporcione respuestas verbales y ejecute acciones, todo de forma concurrente e interrumpible, imitando las capacidades multitarea humanas. Además, proponemos un paradigma de "modelo como controlador", donde ajustamos el Modelo de Lenguaje Visual (VLM) para generar tokens especiales que funcionan como comandos directos a nivel del sistema, acoplando el razonamiento del modelo con el comportamiento del sistema. Los experimentos realizados en una plataforma humanoide física demuestran que VITA-E puede manejar de forma confiable escenarios interactivos complejos. Nuestro marco es compatible con varios modelos VLA de sistema dual, logrando una tasa de éxito extremadamente alta en paradas de emergencia e interrupciones de habla, al mismo tiempo que realiza con éxito habla y acción concurrentes. Esto representa un paso significativo hacia asistentes encarnados más naturales y capaces.
Los modelos de animación humana impulsados por audio a menudo sufren de deriva de identidad durante la generación autoregresiva temporal, donde los personajes pierden gradualmente su identidad con el tiempo. Una solución es generar fotogramas clave como anclajes temporales intermedios que previenen la degradación, pero esto requiere una etapa adicional de generación de fotogramas clave y puede restringir la dinámica natural del movimiento. Para abordar esto, proponemos Anclaje Prospectivo, que aprovecha fotogramas clave de intervalos de tiempo futuros anteriores a la ventana de generación actual, en lugar de dentro de ella. Esto transforma los fotogramas clave de límites fijos en faros direccionales: el modelo persigue continuamente estos anclajes futuros mientras responde a las señales de audio inmediatas, manteniendo una identidad consistente mediante una guía persistente. Esto también permite la auto-generación de fotogramas clave, donde la imagen de referencia sirve como objetivo prospectivo, eliminando por completo la necesidad de generar fotogramas clave. Encontramos que la distancia temporal prospectiva controla naturalmente el equilibrio entre expresividad y consistencia: distancias mayores permiten mayor libertad de movimiento, mientras que las menores fortalecen la adherencia a la identidad. Cuando se aplica a tres modelos recientes de animación humana, el Anclaje Prospectivo logra una sincronización labial superior, preservación de la identidad y calidad visual, demostrando una mejora en el condicionamiento temporal a través de varias arquitecturas diferentes. Los resultados en video están disponibles en el siguiente enlace: https://lookahead-anchoring.github.io.
Los seres humanos perciben naturalmente la estructura geométrica y el contenido semántico de un mundo 3D como dimensiones interconectadas, lo que permite una comprensión coherente y precisa de escenas complejas. Sin embargo, la mayoría de los enfoques previos priorizan el entrenamiento de grandes modelos geométricos para la reconstrucción 3D de bajo nivel y tratan la comprensión espacial de alto nivel de forma aislada, pasando por alto la crucial interacción entre estos dos aspectos fundamentales del análisis de escenas 3D, lo que limita la generalización y conduce a un rendimiento deficiente en tareas subsiguientes de comprensión 3D. Intentos recientes han mitigado este problema simplemente alineando modelos 3D con modelos de lenguaje específicos, restringiendo así la percepción a la capacidad del modelo alineado y limitando la adaptabilidad a tareas posteriores. En este artículo, proponemos InstanceGrounded Geometry Transformer (IGGT), un gran transformador unificado de extremo a extremo para unificar el conocimiento tanto para la reconstrucción espacial como para la comprensión contextual a nivel de instancia. Específicamente, diseñamos una estrategia de Aprendizaje Contrastivo 3D-Consistente que guía a IGGT para codificar una representación unificada con estructuras geométricas y agrupación basada en instancias utilizando únicamente entradas visuales 2D. Esta representación permite la elevación consistente de entradas visuales 2D a una escena 3D coherente con instancias de objetos explícitamente distintas. Para facilitar esta tarea, construimos además InsScene-15K, un conjunto de datos a gran escala con imágenes RGB de alta calidad, poses, mapas de profundidad y anotaciones de máscaras a nivel de instancia 3D-consistentes, utilizando un novedoso pipeline de curación de datos.
Los modelos de difusión y emparejamiento de flujo han surgido como políticas robóticas potentes, permitiendo que los modelos Visión-Lenguaje-Acción (VLA) generalicen en diversas escenas e instrucciones. Sin embargo, cuando se entrenan mediante aprendizaje por imitación, su alta capacidad generativa los hace sensibles al ruido en las demostraciones humanas: tirones, pausas y vibraciones que reducen la coherencia de las acciones. Una coherencia de acciones reducida provoca inestabilidad y deriva de la trayectoria durante la implementación, fallos que son catastróficos en la manipulación de grano fino donde la precisión es crucial. En este artículo, presentamos la Guía de Coherencia de Acciones (ACG) para modelos VLA, un algoritmo de guía en tiempo de prueba que no requiere entrenamiento y que mejora la coherencia de las acciones, logrando así ganancias de rendimiento. Evaluado en RoboCasa, DexMimicGen y tareas reales SO-101, ACG mejora consistentemente la coherencia de las acciones e incrementa las tasas de éxito en diversas tareas de manipulación. El código y la página del proyecto están disponibles en https://github.com/DAVIAN-Robotics/ACG y https://DAVIAN-Robotics.github.io/ACG, respectivamente.
Los modelos de incrustación de texto constituyen un componente fundamental en las aplicaciones de búsqueda del mundo real. Al mapear consultas y documentos en un espacio de incrustación compartido, ofrecen un rendimiento de recuperación competitivo con alta eficiencia. Sin embargo, su fidelidad de clasificación sigue siendo limitada en comparación con los rerankers especializados, particularmente los rerankers listwise basados en LLM recientes, que capturan interacciones granulares consulta-documento y documento-documento. En este artículo, proponemos un marco unificado simple pero efectivo llamado E^2Rank (que significa Efficient Embedding-based Ranking y también Embedding-to-Rank), el cual extiende un único modelo de incrustación de texto para realizar tanto recuperación de alta calidad como reranking listwise mediante entrenamiento continuo bajo un objetivo de clasificación listwise, logrando así una fuerte efectividad con una eficiencia notable. Al utilizar la similitud coseno entre las incrustaciones de consulta y documento como función de clasificación unificada, el prompt de clasificación listwise, construido a partir de la consulta original y sus documentos candidatos, sirve como una consulta mejorada enriquecida con señales de los documentos top-K, similar a la retroalimentación por pseudorrelevancia (PRF) en modelos de recuperación tradicionales. Este diseño preserva la eficiencia y calidad representacional del modelo de incrustación base mientras mejora significativamente su rendimiento de reranking. Empíricamente, E^2Rank alcanza resultados state-of-the-art en el benchmark de reranking BEIR y demuestra un rendimiento competitivo en el benchmark de razonamiento intensivo BRIGHT, con una latencia de reranking muy baja. También mostramos que el proceso de entrenamiento en clasificación mejora el rendimiento de incrustación en el benchmark MTEB. Nuestros hallazgos indican que un único modelo de incrustación puede unificar efectivamente la recuperación y el reranking, ofreciendo tanto eficiencia computacional como precisión de clasificación competitiva.
Los Modelos Multimodales Grandes (LMMs) han logrado avances notables en la generación de imágenes fotorrealistas y alineadas con el texto, pero a menudo producen resultados que contradicen el conocimiento verificable, especialmente cuando los textos involucran atributos de grano fino o eventos sensibles al tiempo. Los enfoques convencionales aumentados con recuperación de información intentan abordar este problema introduciendo información externa; sin embargo, son fundamentalmente incapaces de fundamentar la generación en conocimiento preciso y en evolución debido a su dependencia de fuentes estáticas y a una integración superficial de la evidencia. Para cerrar esta brecha, presentamos ORIG, un marco agéntico abierto y multimodal aumentado con recuperación para la Generación de Imágenes Factuales (FIG), una nueva tarea que requiere tanto realismo visual como fundamentación factual. ORIG recupera y filtra evidencia multimodal de la web de manera iterativa e integra incrementalmente el conocimiento refinado en textos enriquecidos para guiar la generación. Para apoyar una evaluación sistemática, construimos FIG-Eval, un punto de referencia que abarca diez categorías a través de dimensiones perceptuales, compositivas y temporales. Los experimentos demuestran que ORIG mejora sustancialmente la consistencia factual y la calidad general de la imagen sobre líneas de base sólidas, destacando el potencial de la recuperación multimodal abierta para la generación de imágenes factuales.
La generación de vídeo es una vía crítica hacia los modelos del mundo, siendo la inferencia eficiente de vídeos largos una capacidad clave. Con este fin, presentamos LongCat-Video, un modelo fundamental de generación de vídeo con 13.600 millones de parámetros, que ofrece un rendimiento sólido en múltiples tareas de generación de vídeo. Destaca especialmente en la generación eficiente y de alta calidad de vídeos largos, representando nuestro primer paso hacia los modelos del mundo. Sus características clave incluyen: Arquitectura unificada para múltiples tareas: Basado en el marco Diffusion Transformer (DiT), LongCat-Video admite tareas de Texto-a-Vídeo, Imagen-a-Vídeo y Continuación de Vídeo con un único modelo; Generación de vídeos largos: El preentrenamiento en tareas de Continuación de Vídeo permite a LongCat-Video mantener alta calidad y coherencia temporal en la generación de vídeos de varios minutos de duración; Inferencia eficiente: LongCat-Video genera vídeos en 720p y 30 fps en minutos empleando una estrategia de generación de grueso a fino a lo largo de los ejes temporal y espacial. La atención dispersa por bloques mejora aún más la eficiencia, particularmente en altas resoluciones; Alto rendimiento con RLHF de múltiples recompensas: El entrenamiento con RLHF de múltiples recompensas permite a LongCat-Video lograr un rendimiento comparable con los últimos modelos propietarios y los modelos de código abierto líderes. El código y los pesos del modelo están disponibles públicamente para acelerar el progreso en el campo.
La atención multicabezal (MHA) se ha convertido en la piedra angular de los modelos de lenguaje modernos a gran escala, mejorando la capacidad de representación mediante cabezales de atención paralelos. Sin embargo, aumentar el número de cabezales debilita inherentemente la capacidad individual de cada uno, y los mecanismos de atención existentes -ya sea la MHA estándar o sus variantes como la atención por consultas agrupadas (GQA) y la atención agrupada y vinculada (GTA)- simplemente concatenan las salidas de cabezales aislados sin una interacción sólida. Para abordar esta limitación, proponemos la atención de cabezales interconectados (KHA), que permite a los cabezales de atención "golpearse" entre sí, facilitando interacciones a nivel de características entre cabezales antes de la atención de producto escalado. Esto se logra aplicando una matriz de proyección compartida e inicializada diagonalmente a través de todos los cabezales. La inicialización diagonal preserva la especialización específica de cada cabezal al inicio del entrenamiento, mientras permite que el modelo aprenda progresivamente representaciones integradas entre cabezales. KHA agrega solo parámetros y operaciones de punto flotante (FLOPs) mínimos, y puede integrarse perfectamente en MHA, GQA, GTA y otras variantes de atención. Validamos KHA entrenando un modelo MoE de 6.1B parámetros (1.01B activados) con 1 billón de tokens de alta calidad. En comparación con los mecanismos de atención de referencia, KHA aporta una dinámica de entrenamiento superior y más estable, logrando un mejor rendimiento en diversas tareas posteriores.
Los modelos de recompensa (RMs) desempeñan un papel crítico en la alineación de los comportamientos de la IA con las preferencias humanas, pero enfrentan dos desafíos fundamentales: (1) Desequilibrio de Modalidades, donde la mayoría de los RMs se centran principalmente en las modalidades de texto e imagen, ofreciendo soporte limitado para video, audio y otras modalidades; y (2) Rigidez de Preferencias, donde el entrenamiento en pares de preferencias binarias fijas no logra capturar la complejidad y diversidad de las preferencias personalizadas. Para abordar estos desafíos, proponemos Omni-Reward, un paso hacia el modelado de recompensas omni-modal generalista con soporte para preferencias de formato libre, que consta de: (1) Evaluación: Presentamos Omni-RewardBench, el primer benchmark de RMs omni-modal con preferencias de formato libre, que cubre nueve tareas en cinco modalidades incluyendo texto, imagen, video, audio y 3D; (2) Datos: Construimos Omni-RewardData, un conjunto de datos de preferencias multimodales que comprende 248K pares de preferencias generales y 69K pares de ajuste por instrucciones para entrenar RMs omni-modales generalistas; (3) Modelo: Proponemos Omni-RewardModel, que incluye tanto RMs discriminativos como generativos, y logra un rendimiento sólido en Omni-RewardBench así como en otros benchmarks de modelado de recompensas ampliamente utilizados.
Los modelos de lenguaje multimodal (MLLM) han demostrado sólidas capacidades de propósito general en la comprensión visual de mundo abierto. Sin embargo, la mayoría de los MLLM existentes se centran principalmente en una comprensión holística a nivel de escena, pasando a menudo por alto la necesidad de un razonamiento de grano fino centrado en objetos. En este artículo, presentamos PixelRefer, un marco unificado de MLLM a nivel de región que permite una comprensión avanzada de grano fino sobre regiones especificadas por el usuario tanto en imágenes como en vídeos. Motivados por la observación de que la atención de los LLM se centra predominantemente en tokens a nivel de objeto, proponemos un Tokenizador de Objetos Adaptativo a la Escala (SAOT) para generar representaciones de objetos compactas y semánticamente ricas a partir de regiones de forma libre. Nuestro análisis revela que los tokens visuales globales contribuyen principalmente en las primeras capas del LLM, lo que inspira el diseño de PixelRefer-Lite, una variante eficiente que emplea un módulo de Infusión Centrado en Objetos para prefusionar el contexto global en los tokens de objeto. Esto da lugar a un Marco Liviano Solo de Objetos que reduce sustancialmente el coste computacional manteniendo una alta fidelidad semántica. Para facilitar el ajuste instruccional de grano fino, hemos creado PixelRefer-2.2M, un conjunto de datos de instrucciones de alta calidad centrado en objetos. Experimentos exhaustivos en una variedad de benchmarks validan que PixelRefer logra un rendimiento líder con menos muestras de entrenamiento, mientras que PixelRefer-Lite ofrece una precisión competitiva con ganancias notables en eficiencia.
La aplicación del Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) en dominios matemáticos y de programación ha demostrado mejoras significativas en las capacidades de razonamiento y resolución de problemas de los Modelos de Lenguaje a Gran Escala. A pesar de su éxito en la resolución de problemas de generación única, el proceso de ajuste fino mediante aprendizaje por refuerzo puede perjudicar la capacidad de exploración del modelo, lo cual se refleja en una disminución de la diversidad de las generaciones y una consiguiente degradación del rendimiento durante el muestreo Best-of-N para valores grandes de N. En este trabajo, nos centramos en optimizar la métrica max@k, una generalización continua de pass@k. Derivamos una estimación de gradiente insesgada y *on-policy* para la optimización directa de esta métrica. Además, extendemos nuestras derivaciones a las actualizaciones *off-policy*, un elemento común en los algoritmos modernos de RLVR que permite una mejor eficiencia muestral. Empíricamente, demostramos que nuestro objetivo optimiza efectivamente la métrica max@k en escenarios *off-policy*, alineando el modelo con la estrategia de inferencia Best-of-N.
Los modelos multimodales unificados han mostrado recientemente avances notables en capacidad y versatilidad, aunque la mayoría de los sistemas líderes siguen entrenándose desde cero y requieren recursos computacionales sustanciales. En este artículo, demostramos que se puede obtener un rendimiento competitivo de manera mucho más eficiente mediante la fusión estratégica de modelos públicos especializados en generación o comprensión. Nuestro diseño clave consiste en conservar los bloques originales mientras se intercalan adicionalmente bloques de autoatención multimodal a lo largo de las redes. Este mecanismo de doble fusión (1) permite efectivamente una rica fusión multimodal preservando en gran medida las fortalezas originales de los modelos base, y (2) cataliza la fusión sinérgica de representaciones semánticas de alto nivel del codificador de comprensión con señales espaciales de bajo nivel del codificador de generación. Al entrenar con solo ~35B tokens, este enfoque logra resultados sólidos en múltiples benchmarks: 0.91 en GenEval para generación composicional de texto a imagen, 82.16 en DPG-Bench para generación compleja de texto a imagen, 6.06 en GEditBench y 3.77 en ImgEdit-Bench para edición de imágenes. Al liberar completamente todo el conjunto de código, pesos del modelo y conjuntos de datos, esperamos apoyar futuras investigaciones sobre modelado multimodal unificado.
La alineación visión-lenguaje en modelos de lenguaje grande multimodales (MLLMs) se basa típicamente en el ajuste fino supervisado (SFT) o el aprendizaje por refuerzo (RL). El SFT es estable y eficiente, pero requiere anotaciones humanas a gran escala y no puede capturar preferencias sutiles, mientras que el RL introduce una señal de recompensa para el entrenamiento, pero sufre de sobrecarga e inestabilidad. Estas limitaciones resaltan un equilibrio entre escalabilidad, robustez y calidad de alineación. Para abordarlo, proponemos MergeMix, un paradigma de aumento durante el entrenamiento que tiende un puente entre SFT y RL. Primero aplica una mezcla de imágenes consciente de la atención mediante la fusión de tokens con mayor representación de clusters y contexto espacial, y luego presenta un paradigma de entrenamiento impulsado por preferencias para MLLMs construyendo pares de preferencia con imágenes mezcladas e imágenes originales, y optimizando mediante la pérdida SimPO. Como una técnica de aumento mixup, MergeMix mejora la consistencia y eficiencia de la atención, superando a otros métodos basados en heurísticas en clasificación. Experimentos exhaustivos demuestran que MergeMix logra una precisión competitiva con eficiencia mejorada, proporcionando un enfoque escalable para la alineación de preferencias en clasificación y MLLMs.
El aprendizaje por refuerzo (RL) ha demostrado un potencial significativo para mejorar las capacidades de razonamiento de los grandes modelos de lenguaje (LLM). Sin embargo, el éxito del RL para LLM depende en gran medida de conjuntos de datos curados por humanos y recompensas verificables, lo que limita su escalabilidad y generalidad. Los métodos recientes de RL de Autojuego (Self-Play), inspirados por el éxito de este paradigma en juegos y Go, pretenden mejorar las capacidades de razonamiento de los LLM sin datos anotados por humanos. No obstante, estos métodos dependen principalmente de un entorno fundamentado para obtener retroalimentación (por ejemplo, un intérprete de Python o un motor de juego); extenderlos a dominios generales sigue siendo un desafío. Para abordar estos problemas, proponemos Multi-Agent Evolve (MAE), un marco que permite a los LLM auto-evolucionar en la resolución de diversas tareas, incluyendo matemáticas, razonamiento y preguntas y respuestas de conocimiento general. El diseño central de MAE se basa en un trío de agentes interactuantes (Proponente, Solucionador, Juez) que se instancian a partir de un único LLM, y aplica aprendizaje por refuerzo para optimizar sus comportamientos. El Proponente genera preguntas, el Solucionador intenta dar soluciones y el Juez evalúa a ambos mientras co-evolucionan. Los experimentos realizados con Qwen2.5-3B-Instruct demuestran que MAE logra una mejora promedio del 4.54% en múltiples benchmarks. Estos resultados destacan a MAE como un método escalable y eficiente en datos para mejorar las habilidades generales de razonamiento de los LLM con una dependencia mínima de la supervisión curada por humanos.
La búsqueda de generalistas robóticos - agentes instruíbles capaces de realizar diversas tareas en diversos entornos - exige una evaluación rigurosa y escalable. Sin embargo, las pruebas en el mundo real de las políticas de robots siguen estando fundamentalmente limitadas: son intensivas en mano de obra, lentas, inseguras a gran escala y difíciles de reproducir. Los puntos de referencia de simulación existentes están igualmente limitados, ya que entrenan y prueban políticas dentro de los mismos dominios sintéticos y no pueden evaluar modelos entrenados a partir de demostraciones del mundo real o entornos de simulación alternativos. A medida que las políticas se expanden en alcance y complejidad, estas barreras solo se intensifican, ya que definir el "éxito" en robótica a menudo depende de juicios humanos matizados sobre la calidad de la ejecución. En este artículo, presentamos un nuevo marco de evaluación que supera estos desafíos trasladando la evaluación de VLA a entornos simulados a gran escala aumentados con retroalimentación humana en línea. Aprovechando los avances en modelos de visión y lenguaje, el modelado generativo 2D a 3D y el renderizado diferenciable, nuestro enfoque convierte automáticamente las demostraciones en video de conjuntos de datos de robots ampliamente utilizados en contrapartes simuladas. Dentro de estos gemelos digitales, evaluamos las políticas de VLA utilizando tanto puntuación automatizada guiada por VLM como juicios de preferencia humana escalables recopilados de trabajadores crowdsourcing, transformando la participación humana de la tediosa configuración de escenas, reinicio y supervisión de seguridad en comparaciones de preferencia livianas. Para medir la robustez, perturbamos sistemáticamente los entornos simulados a lo largo de múltiples ejes, como texturas y ubicaciones de objetos, sometiendo a prueba de estrés la generalización de políticas bajo variación controlada. El resultado es un punto de referencia en continua evolución, reproducible y escalable para políticas de manipulación robótica entrenadas en el mundo real, abordando una capacidad crítica faltante en el panorama actual de la robótica.
Los enfoques existentes generalmente dependen de ajustes a gran escala para adaptar los LLMs a tareas de reranking de información, lo cual es computacionalmente costoso. En este trabajo, demostramos que los LLMs modernos pueden adaptarse eficazmente utilizando únicamente una supervisión mínima y de alta calidad. Para hacerlo posible, diseñamos LIMRANK-SYNTHESIZER, una pipeline reutilizable y de código abierto para generar ejemplos de reranking diversos, desafiantes y realistas. Utilizando estos datos sintéticos, ajustamos nuestro modelo de reranking, LIMRANK. Evaluamos LIMRANK en dos benchmarks desafiantes: BRIGHT para recuperación que requiere razonamiento intensivo y FollowIR para recuperación que sigue instrucciones. Nuestros experimentos demuestran que LIMRANK logra un rendimiento competitivo, mientras se entrena con menos del 5% de los datos típicamente utilizados en trabajos anteriores. Estudios de ablación adicionales demuestran la efectividad de LIMRANK-SYNTHESIZER y las sólidas capacidades de generalización de LIMRANK en diversas tareas posteriores, incluyendo la búsqueda de literatura científica y la generación aumentada por recuperación para la resolución de problemas intensivos en conocimiento.
Los Modelos de Lenguaje a Gran Escala (LLMs) se han convertido en asistentes valiosos para los desarrolladores en tareas relacionadas con código. Si bien los LLMs sobresalen en tareas de programación tradicionales como la generación de código y la corrección de errores, tienen dificultades con las tareas de codificación orientadas visualmente, a menudo produciendo una estética subóptima. En este artículo, presentamos una nueva canalización para mejorar la calidad estética del código generado por LLMs. Primero construimos AesCode-358K, un conjunto de datos de ajuste por instrucciones a gran escala centrado en la estética del código. A continuación, proponemos la retroalimentación de recompensa agéntica, un sistema multiagente que evalúa la ejecutabilidad, la estética estática y la estética interactiva. Sobre esta base, desarrollamos GRPO-AR, que integra estas señales en el algoritmo GRPO para la optimización conjunta de la funcionalidad y la estética del código. Finalmente, desarrollamos OpenDesign, un punto de referencia para evaluar la estética del código. Los resultados experimentales muestran que combinar el ajuste fino supervisado en AesCode-358K con el aprendizaje por refuerzo utilizando retroalimentación de recompensa agéntica mejora significativamente el rendimiento en OpenDesign y también mejora los resultados en puntos de referencia existentes como PandasPlotBench. Cabe destacar que nuestro AesCoder-4B supera a GPT-4o y GPT-4.1, y logra un rendimiento comparable a modelos de código abierto grandes con 480B-685B parámetros, lo que subraya la efectividad de nuestro enfoque.
Los modelos autorregresivos (AR) de imágenes han surgido como un paradigma poderoso dentro de los modelos generativos visuales. A pesar de su rendimiento prometedor, adolecen de una velocidad de generación lenta debido al gran número de pasos de muestreo requeridos. Aunque recientemente se propuso Decodificación Distilada 1 (DD1) para permitir el muestreo en pocos pasos para modelos AR de imágenes, este método aún incurre en una degradación significativa del rendimiento en el entorno de un solo paso y depende de un mapeo predefinido que limita su flexibilidad. En este trabajo, proponemos un nuevo método, Decodificación Distilada 2 (DD2), para avanzar aún más en la viabilidad del muestreo en un solo paso para modelos AR de imágenes. A diferencia de DD1, DD2 no depende de un mapeo predefinido. Consideramos el modelo AR original como un modelo profesor que proporciona la puntuación condicional verdadera en el espacio latente de embeddings en cada posición de token. Basándonos en esto, proponemos una nueva función de pérdida por destilación de puntuación condicional para entrenar un generador de un solo paso. Específicamente, entrenamos una red separada para predecir la puntuación condicional de la distribución generada y aplicamos la destilación de puntuación en cada posición de token condicionada a los tokens anteriores. Los resultados experimentales muestran que DD2 permite el muestreo en un solo paso para modelos AR de imágenes con un aumento mínimo del FID desde 3.40 hasta 5.43 en ImageNet-256. En comparación con el baseline más fuerte, DD1, DD2 reduce la brecha entre el muestreo en un solo paso y el modelo AR original en un 67%, logrando simultáneamente una aceleración del entrenamiento de hasta 12.3 veces. DD2 representa un paso significativo hacia el objetivo de la generación AR en un solo paso, abriendo nuevas posibilidades para el modelado AR rápido y de alta calidad. El código está disponible en https://github.com/imagination-research/Distilled-Decoding-2.
La simulación física depende de propiedades mecánicas que varían espacialmente, frecuentemente creadas de forma laboriosa de manera manual. VoMP es un método de propagación directa entrenado para predecir el módulo de Young (E), la relación de Poisson (nu) y la densidad (rho) en todo el volumen de objetos 3D, en cualquier representación que pueda ser renderizada y voxelizada. VoMP agrega características multivista por vóxel y las pasa a nuestro Transformer de Geometría entrenado para predecir códigos latentes de materiales por vóxel. Estos latentes residen en una variedad de materiales físicamente plausibles, que aprendemos a partir de un conjunto de datos del mundo real, garantizando la validez de los materiales decodificados por vóxel. Para obtener datos de entrenamiento a nivel de objeto, proponemos un pipeline de anotación que combina conocimiento de conjuntos de datos 3D segmentados, bases de datos de materiales y un modelo de visión y lenguaje, junto con un nuevo punto de referencia. Los experimentos demuestran que VoMP estima propiedades volumétricas precisas, superando ampliamente a técnicas anteriores en precisión y velocidad.
Presentamos PRISM-Bench, un benchmark de desafíos visuales basados en rompecabezas diseñado para evaluar no solo si los modelos pueden resolver problemas, sino también cómo se desarrolla su razonamiento. A diferencia de evaluaciones previas que solo miden la precisión de la respuesta final, PRISM-Bench introduce una tarea diagnóstica: dado un rompecabezas visual y una cadena de pensamiento (CoT) paso a paso que contiene exactamente un error, los modelos deben identificar el primer paso incorrecto. Este escenario permite una evaluación detallada de la coherencia lógica, la detección de errores y el razonamiento visual. Los rompecabezas en PRISM-Bench requieren un razonamiento simbólico, geométrico y analógico de múltiples pasos, resistiéndose a los atajos basados en la coincidencia superficial de patrones. Las evaluaciones en modelos MLLM de última generación revelan una brecha persistente entre la generación fluida y el razonamiento fiel: los modelos que producen CoT plausibles a menudo fallan en localizar fallos lógicos simples. Al separar la generación de respuestas de la verificación del razonamiento, PRISM-Bench ofrece una lente más nítida sobre la competencia en el razonamiento multimodal y subraya la necesidad de protocolos de evaluación diagnóstica en el desarrollo de MLLM confiables.
Los métodos actuales de generación 3D/4D suelen optimizarse para el fotorrealismo, la eficiencia y la estética. Sin embargo, a menudo no logran preservar la identidad semántica del sujeto en diferentes puntos de vista. La adaptación de métodos de generación con una o pocas imágenes de un sujeto específico (también conocido como Personalización o Generación guiada por sujeto) permite generar contenido visual que se alinea con la identidad del sujeto. No obstante, la generación 3D/4D personalizada sigue estando en gran medida poco explorada. En este trabajo, presentamos TIRE (Track, Inpaint, REsplat), un método novedoso para la generación 3D/4D guiada por sujeto. Toma como entrada un activo 3D inicial producido por un modelo generativo 3D existente y utiliza seguimiento de video para identificar las regiones que necesitan modificarse. Luego, adoptamos un modelo de inpaint 2D guiado por sujeto para rellenar progresivamente las regiones identificadas. Finalmente, re-proyectamos (resplat) las observaciones 2D multi-vista modificadas de vuelta a 3D manteniendo la consistencia. Experimentos exhaustivos demuestran que nuestro enfoque mejora significativamente la preservación de la identidad en la generación 3D/4D en comparación con los métodos state-of-the-art. Nuestro sitio web del proyecto está disponible en https://zsh2000.github.io/track-inpaint-resplat.github.io/.
La reconstrucción fotorrealista en 3D de cuerpos humanos completos a partir de una sola imagen es una tarea crucial pero desafiante para aplicaciones en cine y videojuegos, debido a ambigüedades inherentes y graves auto-oclusiones. Si bien los enfoques recientes aprovechan la estimación SMPL y modelos generativos de imágenes condicionados por SMPL para generar nuevas vistas, adolecen de priors 3D inexactos estimados a partir de mallas SMPL y tienen dificultades para manejar poses humanas complejas y reconstruir detalles finos. En este artículo, proponemos SyncHuman, un marco novedoso que combina por primera vez un modelo generativo multivista 2D y un modelo generativo nativo 3D, permitiendo la reconstrucción de alta calidad de mallas humanas vestidas a partir de imágenes de vista única, incluso bajo poses humanas desafiantes. El modelo generativo multivista sobresale en capturar detalles finos en 2D pero lucha con la coherencia estructural, mientras que el modelo generativo nativo 3D genera formas 3D toscas pero estructuralmente coherentes. Al integrar las fortalezas complementarias de estos dos enfoques, desarrollamos un marco de generación más efectivo. Específicamente, primero ajustamos conjuntamente el modelo generativo multivista y el modelo generativo nativo 3D con la propuesta atención de sincronización 2D-3D alineada por píxeles para producir formas 3D y imágenes multivista 2D geométricamente alineadas. Para mejorar aún más los detalles, introducimos un mecanismo de inyección de características que transfiere detalles finos desde las imágenes multivista 2D a las formas 3D alineadas, permitiendo una reconstrucción precisa y de alta fidelidad. Experimentos exhaustivos demuestran que SyncHuman logra una reconstrucción 3D humana robusta y fotorrealista, incluso para imágenes con poses desafiantes. Nuestro método supera a los métodos base en precisión geométrica y fidelidad visual, demostrando una dirección prometedora para futuros modelos de generación 3D.
Los modelos de lenguaje grandes generan rutinariamente alucinaciones de APIs y deslocalizan ediciones, mientras que los servidores de lenguaje computan hechos verificados, de grado IDE, sobre código real. Presentamos Lanser-CLI, una capa de orquestación CLI-first que ancla y media un servidor del Protocolo de Servidor de Lenguaje (LSP) para agentes de codificación y CI, exponiendo flujos de trabajo deterministas y reproducibles. Nuestra postura es que los servidores de lenguaje proporcionan no solo información estructural (definiciones, referencias, tipos, diagnósticos) sino también una recompensa de proceso accionable: señales paso a paso, verificadas por máquina, que alinean el bucle de planificación de un agente con la realidad del programa. En este trabajo, Lanser-CLI contribuye con: (i) un esquema de direccionamiento robusto que supera la fragilidad de "archivo:línea:col" mediante un DSL Selector (selectores simbólicos, de ruta-AST y anclados en contenido) con un algoritmo de reubicación fundamentado; (ii) Paquetes de Análisis deterministas que normalizan las respuestas del Servidor de Lenguaje y capturan metadatos del entorno/capacidades con hashes de contenido estables; (iii) un entorno de seguridad para operaciones de mutación (renombrar, acciones de código) con vista previa, espacios de trabajo aislados (jails) y aplicación transaccional consciente de Git; y (iv) una funcional de recompensa de proceso derivada de hechos del Servidor de Lenguaje (deltas de diagnósticos, confianza de desambiguación y comprobaciones de aplicación segura) que es computable en línea y reproducible fuera de línea. Formalizamos el determinismo bajo instantáneas congeladas y establecemos una propiedad de monotonicidad para la recompensa de proceso, haciéndola adecuada para supervisión de procesos y análisis contrafactual. Página del proyecto: https://github.com/yifanzhang-pro/lanser-cli
Este artículo presenta un estudio sistemático de las leyes de escalamiento para la tarea de detección de deepfakes. Específicamente, analizamos el rendimiento del modelo en función del número de dominios de imágenes reales, métodos de generación de deepfakes e imágenes de entrenamiento. Dado que ningún conjunto de datos existente satisface los requisitos de escala para esta investigación, construimos ScaleDF, el conjunto de datos más grande hasta la fecha en este campo, que contiene más de 5.8 millones de imágenes reales de 51 conjuntos de datos (dominios) diferentes y más de 8.8 millones de imágenes falsas generadas por 102 métodos de deepfake. Utilizando ScaleDF, observamos un escalamiento de ley de potencia similar al mostrado en los grandes modelos de lenguaje (LLM, por sus siglas en inglés). Específicamente, el error promedio de detección sigue un decaimiento predecible de ley de potencia a medida que aumenta el número de dominios reales o el número de métodos de deepfake. Esta observación clave no solo nos permite pronosticar la cantidad de dominios reales o métodos de deepfake adicionales necesarios para alcanzar un rendimiento objetivo, sino que también nos inspira a contrarrestar la tecnología de deepfakes en evolución de una manera centrada en los datos. Más allá de esto, examinamos el papel del pre-entrenamiento y las aumentaciones de datos en la detección de deepfakes bajo escalamiento, así como las limitaciones del propio escalamiento.
Los grandes modelos de lenguaje (LLMs) sobresalen en inferencia zero-shot pero continúan teniendo dificultades con el razonamiento complejo y multi-etapa. Métodos recientes que aumentan los LLMs con pasos de razonamiento intermedios, como Cadena de Pensamiento (CoT) y Programa de Pensamiento (PoT), mejoran el rendimiento pero a menudo producen soluciones indeseables, especialmente en dominios algorítmicos. Presentamos Síntesis de Programas por Instancia (PIPS), un método que genera y refina programas a nivel de instancia utilizando retroalimentación estructural, sin depender de guías específicas de la tarea ni casos de prueba explícitos. Para mejorar aún más el rendimiento, PIPS incorpora una métrica de confianza que elige dinámicamente entre la inferencia directa y la síntesis de programas en función de cada instancia. Los experimentos realizados en tres LLMs de vanguardia y 30 benchmarks, incluyendo todas las tareas de Big Bench Extra Hard (BBEH), tareas de respuesta visual a preguntas, tareas de razonamiento relacional y tareas de razonamiento matemático, muestran que PIPS mejora la precisión media armónica absoluta hasta en un 8.6% y un 9.4% en comparación con PoT y CoT respectivamente, y reduce las generaciones de programas indeseables en un 65.1% en las tareas algorítmicas en comparación con PoT utilizando Gemini-2.0-Flash.
Los recientes avances en la aceleración de modelos de difusión de texto a imagen (T2I) han permitido la síntesis de imágenes de alta fidelidad incluso en un solo paso. Sin embargo, la personalización de estos modelos para incorporar conceptos novedosos sigue siendo un desafío debido a la capacidad limitada de los modelos de un solo paso para capturar distribuciones de nuevos conceptos de manera efectiva. Proponemos un marco de destilación conceptual bidireccional, EchoDistill, para permitir la personalización de difusión en un solo paso (1-SDP). Nuestro enfoque implica un proceso de entrenamiento integral en el que un modelo de difusión de múltiples pasos (maestro) y un modelo de difusión de un solo paso (estudiante) se entrenan simultáneamente. El concepto se destila primero del modelo maestro al estudiante, y luego es devuelto del estudiante al maestro. Durante EchoDistill, compartimos el codificador de texto entre los dos modelos para garantizar una comprensión semántica consistente. Posteriormente, el modelo estudiante se optimiza con pérdidas adversariales para alinearse con la distribución de imágenes reales y con pérdidas de alineación para mantener la coherencia con la salida del maestro. Además, introducimos la estrategia de refinamiento por eco bidireccional, mediante la cual el modelo estudiante aprovecha su capacidad de generación más rápida para retroalimentar al modelo maestro. Este mecanismo de destilación conceptual bidireccional no solo mejora la capacidad del estudiante para personalizar conceptos novedosos, sino que también mejora la calidad generativa del modelo maestro. Nuestros experimentos demuestran que este marco colaborativo supera significativamente a los métodos de personalización existentes en la configuración 1-SDP, estableciendo un nuevo paradigma para la personalización rápida y efectiva en modelos de difusión T2I.
Presentamos el modelado lingüístico basado en memoria como una alternativa eficiente y respetuosa con el medio ambiente al modelado lingüístico basado en redes neuronales profundas. Ofrece un rendimiento escalable logarítmicamente en la predicción del siguiente token y una gran capacidad de memorización. Mediante la implementación de aproximaciones rápidas de clasificación por k-vecinos más cercanos, el modelado lingüístico basado en memoria deja una huella ecológica relativamente pequeña tanto en el entrenamiento como en la inferencia, ya que depende completamente de las CPU y alcanza bajas latencias por token. Su funcionamiento interno es simple y totalmente transparente. Comparamos nuestra implementación del modelado lingüístico basado en memoria, OLIFANT, con GPT-2 y GPT-Neo en cuanto a precisión en la predicción del siguiente token, emisiones estimadas y velocidades, y ofrecemos algunos análisis más profundos del modelo.
En este artículo, presentamos un modelo novedoso basado en difusión para la detección de carriles, denominado DiffusionLane, que aborda la tarea de detección de carriles como un proceso de difusión por eliminación de ruido en el espacio de parámetros del carril. En primer lugar, añadimos ruido gaussiano a los parámetros (el punto de inicio y el ángulo) de los carriles de referencia para obtener anclajes de carril ruidosos, y el modelo aprende a refinar estos anclajes de manera progresiva para obtener los carriles objetivo. En segundo lugar, proponemos una estrategia de decodificación híbrida para abordar la pobre representación de características del codificador, resultante de los anclajes de carril ruidosos. Específicamente, diseñamos un decodificador de difusión híbrido que combina decodificadores a nivel global y local para generar anclajes de carril de alta calidad. Luego, para mejorar la representación de características del codificador, empleamos una cabeza auxiliar en la etapa de entrenamiento para adoptar anclajes de carril aprendibles que enriquezcan la supervisión del codificador. Los resultados experimentales en cuatro benchmarks, Carlane, Tusimple, CULane y LLAMAS, muestran que DiffusionLane posee una fuerte capacidad de generalización y un rendimiento de detección prometedor en comparación con los métodos anteriores más avanzados. Por ejemplo, DiffusionLane con ResNet18 supera a los métodos existentes por al menos un 1% de precisión en el conjunto de datos de adaptación de dominio Carlane. Además, DiffusionLane con MobileNetV4 obtiene un 81,32% de puntuación F1 en CULane, un 96,89% de precisión en Tusimple con ResNet34, y un 97,59% de puntuación F1 en LLAMAS con ResNet101. El código estará disponible en https://github.com/zkyntu/UnLanedet.
Los Transformadores de Difusión (DiTs) ofrecen un rendimiento generativo de vanguardia, pero su costo cuadrático de entrenamiento con la longitud de la secuencia hace que el preentrenamiento a gran escala sea prohibitivamente costoso. La eliminación de *tokens* puede reducir el costo de entrenamiento, pero las estrategias ingenuas degradan las representaciones, y los métodos existentes son o bien pesados en parámetros o fallan en ratios de eliminación altos. Presentamos SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, un método simple que permite una eliminación agresiva de *tokens* (hasta un 75%) preservando la calidad. SPRINT aprovecha los roles complementarios de las capas superficiales y profundas: las primeras capas procesan todos los *tokens* para capturar detalles locales, las capas más profundas operan sobre un subconjunto disperso para reducir el cómputo, y sus salidas se fusionan mediante conexiones residuales. El entrenamiento sigue un programa de dos etapas: un preentrenamiento largo con enmascaramiento para eficiencia, seguido de un ajuste fino corto con todos los *tokens* para cerrar la brecha entrenamiento-inferencia. En ImageNet-1K 256x256, SPRINT logra un ahorro de entrenamiento de 9.8x con FID/FDD comparable, y en inferencia, su *Path-Drop Guidance* (PDG) casi reduce a la mitad los FLOPS mientras mejora la calidad. Estos resultados establecen a SPRINT como una solución simple, efectiva y general para el entrenamiento eficiente de DiTs.
El notable éxito de los modelos de difusión y de correspondencia de flujos (flow-matching) ha impulsado una oleada de trabajos que los adaptan en tiempo de prueba para tareas de generación controlada. Los ejemplos abarcan desde la edición de imágenes hasta la restauración, compresión y personalización. Sin embargo, debido a la naturaleza iterativa del proceso de muestreo en estos modelos, es computacionalmente inviable utilizar optimización basada en gradientes para controlar directamente la imagen generada al final del proceso. Como resultado, los métodos existentes suelen recurrir a manipular cada paso de tiempo por separado. Aquí presentamos FlowOpt: un marco de optimización de orden cero (libre de gradientes) que trata todo el proceso de flujo como una caja negra, permitiendo la optimización a lo largo de toda la trayectoria de muestreo sin retropropagación a través del modelo. Nuestro método es altamente eficiente y permite a los usuarios monitorear los resultados intermedios de la optimización y realizar una parada anticipada si lo desean. Demostramos una condición suficiente para el tamaño de paso de FlowOpt, bajo la cual se garantiza la convergencia al óptimo global. Además, mostramos cómo estimar empíricamente este límite superior para elegir un tamaño de paso apropiado. Demostramos cómo FlowOpt puede utilizarse para la edición de imágenes, presentando dos opciones: (i) inversión (determinar el ruido inicial que genera una imagen dada), y (ii) dirigir directamente la imagen editada para que sea similar a la imagen fuente mientras se ajusta a un mensaje de texto objetivo. En ambos casos, FlowOpt logra resultados de vanguardia utilizando aproximadamente el mismo número de evaluaciones de la función neuronal (NFEs) que los métodos existentes. El código y los ejemplos están disponibles en la página web del proyecto.
Los optimizadores precondicionados basados en matrices, como Muon, han demostrado recientemente ser más eficientes que los optimizadores basados en escalares para entrenar redes neuronales a gran escala, incluidos los grandes modelos de lenguaje (LLMs). Por otro lado, evaluaciones recientes de optimizadores para el preentrenamiento de LLMs han demostrado que técnicas de reducción de varianza como MARS pueden lograr aceleraciones sustanciales respecto a optimizadores estándar que no emplean reducción de varianza. En este artículo, para lograr lo mejor de ambos mundos, presentamos MARS-M, un nuevo optimizador que integra la técnica de reducción de varianza de MARS con Muon. Bajo condiciones de regularidad estándar, demostramos que Muon-M converge a un punto estacionario de primer orden con una tasa de \(\mathcal{O}(T^{-1/3})\), lo que mejora la tasa de \(\mathcal{O}(T^{-1/4})\) alcanzada por Muon. Nuestros resultados empíricos en tareas de modelado de lenguaje y visión por computadora demuestran que MARS-M produce consistentemente pérdidas más bajas y un rendimiento mejorado en varios puntos de referencia posteriores. La implementación de MARS-M está disponible en https://github.com/AGI-Arena/MARS/MARS_M.
Los grandes modelos de lenguaje (LLM) han avanzado recientemente en el reconocimiento auditivo del habla (ASR), el reconocimiento visual del habla (VSR) y el reconocimiento audiovisual del habla (AVSR). Sin embargo, la comprensión de su dinámica interna durante el ajuste fino sigue siendo limitada. En el procesamiento del lenguaje natural, trabajos recientes han revelado los sumideros de atención (attention sinks), tokens que atraen una atención desproporcionadamente alta, y las activaciones masivas asociadas, donde algunas características de los tokens sumidero exhiben una activación enorme en los LLM. En este trabajo, somos los primeros en estudiar estos fenómenos en el reconocimiento multimodal del habla. Mediante un análisis detallado de LLM audiovisuales, identificamos sumideros de atención y activaciones masivas no solo en el token BOS (inicio de secuencia), sino también en tokens intermedios de bajo contenido semántico en ASR, VSR y AVSR. Demostramos que las activaciones masivas se originan en las capas MLP y corresponden a índices de características fijos en todos los tokens sumidero. Además, mostramos que los tokens sumidero intermedios presentan una alta similitud de coseno con el token BOS, amplificando así la atención y la activación. Basándonos en estas observaciones, introducimos una simple pérdida por decorrelación que reduce la similitud de coseno entre el token BOS y otros tokens, mitigando eficazmente los sumideros intermedios y las activaciones masivas. Además, nuestro método mejora la tasa de error por palabra (WER) bajo un alto submuestreo de características audiovisuales, manteniéndose estable en tasas de submuestreo más bajas.