Artículos de investigación en IA seleccionados diariamente con traducciones
Los sistemas multiagente (MAS) extienden los grandes modelos de lenguaje (LLM) desde el razonamiento independiente de un solo modelo hacia una inteligencia coordinada a nivel de sistema. Mientras que los agentes LLM existentes dependen de la mediación basada en texto para el razonamiento y la comunicación, nosotros damos un paso adelante al permitir que los modelos colaboren directamente dentro del espacio latente continuo. Presentamos LatentMAS, un marco integral de entrenamiento que permite la colaboración puramente latente entre agentes LLM. En LatentMAS, cada agente primero realiza una generación autoregresiva de pensamientos latentes a través de las incrustaciones ocultas de la última capa. Una memoria de trabajo latente compartida preserva y transfiere luego las representaciones internas de cada agente, garantizando un intercambio de información sin pérdidas. Proporcionamos análisis teóricos que establecen que LatentMAS alcanza una mayor expresividad y preservación de información sin pérdidas con una complejidad sustancialmente menor que los MAS basados en texto convencionales. Además, las evaluaciones empíricas en 9 benchmarks exhaustivos que abarcan razonamiento matemático y científico, comprensión del sentido común y generación de código, muestran que LatentMAS supera consistentemente los sólidos puntos de referencia de modelos únicos y MAS basados en texto, logrando hasta un 14.6% más de precisión, reduciendo el uso de tokens de salida en un 70.8%-83.7%, y proporcionando una inferencia integral de 4x a 4.3x más rápida. Estos resultados demuestran que nuestro nuevo marco de colaboración latente mejora la calidad del razonamiento a nivel del sistema mientras ofrece ganancias sustanciales de eficiencia sin ningún entrenamiento adicional. El código y los datos son completamente de código abierto en https://github.com/Gen-Verse/LatentMAS.
Los modelos lingüísticos multimodales de gran escala (MLLMs) se encuentran actualmente en el centro de la atención investigadora, mostrando un progreso rápido en escala y capacidades, aunque su inteligencia, limitaciones y riesgos siguen sin comprenderse suficientemente. Para abordar estas cuestiones, particularmente en el contexto de la lengua rusa, donde actualmente no existen puntos de referencia multimodales, presentamos Mera Multi, un marco de evaluación multimodal abierto para arquitecturas de habla rusa. El benchmark está basado en instrucciones y abarca las modalidades predeterminadas de texto, imagen, audio y video, comprendiendo 18 tareas de evaluación recién construidas tanto para modelos de propósito general como para arquitecturas específicas por modalidad (imagen-a-texto, video-a-texto y audio-a-texto). Nuestras contribuciones incluyen: (i) una taxonomía universal de habilidades multimodales; (ii) 18 conjuntos de datos creados desde cero con atención a la especificidad cultural y lingüística rusa, prompts unificados y métricas; (iii) resultados de línea base para modelos tanto de código cerrado como de código abierto; (iv) una metodología para prevenir la filtración del benchmark, incluyendo marcas de agua y licencias para conjuntos privados. Aunque nuestro enfoque actual está en el ruso, el benchmark propuesto proporciona una metodología replicable para construir puntos de referencia multimodales en lenguas tipológicamente diversas, particularmente dentro de la familia de lenguas eslavas.
Los modelos de mundo funcionan como simuladores centrales para campos como la IA agentiva, la IA incorporada y los videojuegos, siendo capaces de generar vídeos de alta calidad, largos, físicamente realistas e interactivos. Además, escalar estos modelos podría desbloquear capacidades emergentes en percepción, comprensión y razonamiento visual, allanando el camino para un nuevo paradigma que supere los modelos de visión fundamentales actuales centrados en LLM. Un avance clave que los impulsa es el paradigma de decodificación semi-autorregresiva (difusión por bloques), que fusiona las fortalezas de los métodos de difusión y autorregresivos al generar tokens de vídeo aplicando difusión por bloques dentro de cada bloque mientras se condiciona por los anteriores, lo que da como resultado secuencias de vídeo más coherentes y estables. Crucialmente, supera las limitaciones de la difusión de vídeo estándar al reintroducir la gestión de caché KV al estilo LLM, permitiendo una generación eficiente, de longitud variable y de alta calidad. Por lo tanto, Inferix está específicamente diseñado como un motor de inferencia de próxima generación para permitir la síntesis inmersiva de mundos mediante procesos de decodificación semi-autorregresivos optimizados. Este enfoque dedicado a la simulación de mundos lo distingue claramente de los sistemas diseñados para escenarios de alta concurrencia (como vLLM o SGLang) y de los modelos clásicos de difusión de vídeo (como xDiTs). Inferix mejora aún más su propuesta con transmisión interactiva de vídeo y generación de perfiles, permitiendo la interacción en tiempo real y una simulación realista para modelar con precisión la dinámica mundial. Adicionalmente, admite una evaluación comparativa eficiente mediante la integración perfecta de LV-Bench, un nuevo punto de referencia de evaluación de grano fino adaptado para escenarios de generación de vídeos de minuto de duración. Esperamos que la comunidad colabore para avanzar en Inferix y fomentar la exploración de modelos de mundo.
La síntesis de contenido audiovisual sincronizado es un desafío clave en la IA generativa, ya que los modelos de código abierto enfrentan dificultades para lograr una alineación robusta entre audio y vídeo. Nuestro análisis revela que este problema tiene su origen en tres desafíos fundamentales del proceso de difusión conjunta: (1) la Deriva de la Correspondencia, donde los latentes ruidosos que evolucionan concurrentemente impiden un aprendizaje estable de la alineación; (2) mecanismos de atención global ineficientes que no logran capturar indicios temporales de grano fino; y (3) el sesgo intramodal de la Guía Libre de Clasificador (CFG) convencional, que mejora la condicionalidad pero no la sincronización multimodal. Para superar estos desafíos, presentamos Harmony, un novedoso marco que refuerza mecánicamente la sincronización audiovisual. Primero proponemos un paradigma de entrenamiento de Sinergia Transversal para mitigar la deriva, aprovechando señales supervisoras fuertes de las tareas de generación de vídeo impulsado por audio y de audio impulsado por vídeo. Luego, diseñamos un Módulo de Interacción Disociada Global-Local para una alineación temporal y de estilo eficiente y precisa. Finalmente, presentamos una novedosa CFG Mejorada para Sincronización (SyncCFG) que aísla y amplifica explícitamente la señal de alineación durante la inferencia. Experimentos exhaustivos demuestran que Harmony establece un nuevo estado del arte, superando significativamente a los métodos existentes tanto en fidelidad de generación como, críticamente, en la consecución de una sincronización audiovisual de grano fino.
Presentamos Nemotron-Parse-1.1, un modelo ligero de análisis de documentos y OCR que avanza las capacidades de su predecesor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 ofrece capacidades mejoradas en OCR general, formato de markdown, análisis de tablas estructuradas y extracción de texto de imágenes, gráficos y diagramas. También admite una longitud de secuencia de salida más larga para documentos visualmente densos. Al igual que su predecesor, extrae cuadros delimitadores de segmentos de texto, así como las clases semánticas correspondientes. Nemotron-Parse-1.1 sigue una arquitectura de codificador-decodificador con 885 millones de parámetros, incluyendo un decodificador de lenguaje compacto de 256 millones de parámetros. Logra una precisión competitiva en benchmarks públicos, lo que lo convierte en una sólida solución de OCR ligera. Publicamos los pesos del modelo en Huggingface, así como un contenedor NIM optimizado, junto con un subconjunto de los datos de entrenamiento como parte del conjunto de datos más amplio Nemotron-VLM-v2. Adicionalmente, publicamos Nemotron-Parse-1.1-TC, que opera con una longitud reducida de tokens visuales, ofreciendo una mejora de velocidad del 20% con una degradación mínima de la calidad.
Los Modelos Multimodales Unificados (UMMs) han demostrado un rendimiento impresionante tanto en comprensión como en generación con una única arquitectura. Sin embargo, los UMMs aún presentan una inconsistencia fundamental: la comprensión favorece incrustaciones compactas, mientras que la generación favorece representaciones ricas en reconstrucción. Esta disyuntiva estructural produce límites de decisión desalineados, coherencia cross-modal degradada y una mayor vulnerabilidad ante cambios distribucionales y adversarios. En este artículo, presentamos UniGame, un marco de post-entrenamiento auto-adversario que aborda directamente estas inconsistencias. Al aplicar un perturbador ligero en la interfaz de tokens compartida, UniGame permite que la rama de generación busque y desafie activamente la comprensión frágil, convirtiendo al propio modelo en su propio adversario. Los experimentos demuestran que UniGame mejora significativamente la coherencia (+4,6%). Además, también logra mejoras sustanciales en comprensión (+3,6%), generación (+0,02), y robustez fuera de distribución y ante adversarios (+4,8% y +6,2% en NaturalBench y AdVQA). El marco es independiente de la arquitectura, introduce menos del 1% de parámetros adicionales y es complementario a los métodos de post-entrenamiento existentes. Estos resultados posicionan el auto-juego adversario como un principio general y eficaz para mejorar la coherencia, estabilidad y competencia unificada de los futuros modelos de base multimodales. El código oficial está disponible en: https://github.com/AIFrontierLab/UniGame
Investigamos la capacidad de generalización de los grandes modelos de lenguaje (LLM) a través de diferentes niveles de dificultad de tareas, una cuestión clave para una curación y evaluación de datos efectiva. La investigación existente presenta resultados contradictorios sobre si el entrenamiento con datos más fáciles o más difíciles produce mejores resultados, y si esas mejoras se manifiestan en datos de prueba fáciles o difíciles. Abordamos esta cuestión mediante una evaluación sistemática de la generalización de los LLM a través de modelos, conjuntos de datos y grupos detallados de ejemplos según su dificultad. Clasificamos ejemplos en seis conjuntos de datos utilizando las salidas de miles de LLM diferentes y la Teoría de Respuesta al Ítem (TRI), una métrica de dificultad bien establecida en la evaluación educativa. A diferencia de trabajos anteriores, nuestras clasificaciones de dificultad se determinan, por tanto, únicamente por las capacidades de muchos LLM diferentes, excluyendo las opiniones humanas sobre la dificultad. Con un análisis más objetivo, a mayor escala y más granular, demostramos que la generalización cruzada por dificultad a menudo es limitada; el entrenamiento con datos fáciles o difíciles no logra mejoras consistentes en todo el espectro de dificultades. Estos resultados muestran la importancia de incluir un rango de dificultades tanto en los datos de entrenamiento como en los de evaluación para los LLM, y que tomar atajos con respecto a la dificultad es arriesgado.
"Pensar con imágenes" ha surgido como un paradigma eficaz para avanzar en el razonamiento visual, extendiéndose más allá de las cadenas de pensamiento basadas únicamente en texto mediante la inyección de evidencia visual en los pasos intermedios del razonamiento. Sin embargo, los métodos existentes distan del pensamiento visual abstracto similar al humano, ya que su flexibilidad está fundamentalmente limitada por herramientas externas. En este trabajo, presentamos Monet, un marco de entrenamiento que permite a los modelos de lenguaje grandes multimodales (MLLMs) razonar directamente dentro del espacio visual latente mediante la generación de *embeddings* continuos que funcionan como pensamientos visuales intermedios. Identificamos dos desafíos centrales en el entrenamiento de MLLMs para el razonamiento visual latente: el alto costo computacional en la alineación latente-visual y la supervisión insuficiente sobre los *embeddings* latentes, y los abordamos con una *pipeline* de ajuste fino supervisado (*SFT*) basado en destilación de tres etapas. Además, revelamos una limitación de aplicar GRPO al razonamiento latente: principalmente mejora el razonamiento basado en texto en lugar del razonamiento latente. Para superar esto, proponemos VLPO (Optimización de Políticas con Latentes Visuales), un método de aprendizaje por refuerzo que incorpora explícitamente los *embeddings* latentes en las actualizaciones del gradiente de la política. Para respaldar el SFT, construimos Monet-SFT-125K, un conjunto de datos CoT intercalado texto-imagen de alta calidad que contiene 125K CoTs del mundo real, de gráficos, OCR y geometría. Nuestro modelo, Monet-7B, muestra ganancias consistentes en varios benchmarks de percepción y razonamiento del mundo real y exhibe una fuerte generalización fuera de distribución en tareas desafiantes de razonamiento visual abstracto. También analizamos empíricamente el papel de cada componente de entrenamiento y discutimos nuestros intentos iniciales fallidos, proporcionando ideas para futuros desarrollos en el razonamiento visual latente. Nuestro modelo, datos y código están disponibles en https://github.com/NOVAglow646/Monet.
Proponemos Terminal Velocity Matching (TVM), una generalización de flow matching que permite un modelado generativo de alta fidelidad en uno o pocos pasos. TVM modela la transición entre dos pasos de difusión cualesquiera y regulariza su comportamiento en el tiempo terminal en lugar de en el tiempo inicial. Demostramos que TVM proporciona una cota superior para la distancia 2-Wasserstein entre las distribuciones de datos y del modelo cuando este es continuo según Lipschitz. Sin embargo, dado que los Diffusion Transformers carecen de esta propiedad, introducimos cambios arquitectónicos mínimos que logran un entrenamiento estable en una sola etapa. Para hacer que TVM sea eficiente en la práctica, desarrollamos un kernel de atención fusionado que admite pasos hacia atrás en Productos Jacobiano-Vector, los cuales escalan bien con arquitecturas de transformadores. En ImageNet-256x256, TVM logra un FID de 3.29 con una única evaluación de función (NFE) y un FID de 1.99 con 4 NFE. De manera similar, alcanza un FID de 4.32 con 1-NFE y un FID de 2.94 con 4-NFE en ImageNet-512x512, lo que representa un rendimiento de vanguardia para modelos de uno/pocos pasos entrenados desde cero.
Los Modelos de Visión-Lenguaje (VLM) aún carecen de solidez en inteligencia espacial, mostrando un rendimiento deficiente en tareas de comprensión y razonamiento espacial. Atribuimos esta brecha a la ausencia de un proceso de aprendizaje de geometría visual capaz de reconstruir el espacio 3D a partir de imágenes 2D. Presentamos G²VLM, un modelo de visión-lenguaje anclado en geometría que conecta dos aspectos fundamentales de la inteligencia espacial: la reconstrucción espacial 3D y la comprensión espacial. G²VLM aprovecha de forma nativa características de geometría visual 3D aprendidas para predecir directamente atributos 3D y mejorar las tareas de razonamiento espacial mediante aprendizaje en contexto y razonamiento intercalado. Nuestro diseño unificado es altamente escalable para la comprensión espacial: se entrena con abundantes datos de vídeo e imágenes multi-vista, mientras aprovecha simultáneamente los beneficios de los priores visuales 3D que normalmente solo se derivan de anotaciones difíciles de obtener. Los resultados experimentales demuestran que G²VLM es competente en ambas tareas, logrando resultados comparables a los modelos de reconstrucción 3D de última generación de tipo feed-forward, y obteniendo resultados mejores o competitivos en diversas tareas de comprensión y razonamiento espacial. Al unificar un VLM semánticamente fuerte con tareas de visión 3D de bajo nivel, esperamos que G²VLM pueda servir como una base sólida para la comunidad y desbloquear futuras aplicaciones, como la edición de escenas 3D.
La generación de vídeo causal por bloques enfrenta una drástica disyuntiva entre velocidad y calidad: los modelos pequeños de 1.300 millones de parámetros (1,3B) apenas alcanzan 16 FPS, mientras que los modelos grandes de 14.000 millones (14B) se arrastran a 4,5 FPS, lo que obliga a los usuarios a elegir entre capacidad de respuesta y calidad. La Cascada de Bloques mitiga significativamente esta disyuntiva mediante una paralelización que no requiere entrenamiento. Nuestra idea clave es que los bloques de vídeo futuros no necesitan que los bloques actuales estén completamente libres de ruido para comenzar su generación. Al iniciar la generación de un bloque con un contexto parcialmente limpiado de sus predecesores, transformamos las canalizaciones secuenciales en cascadas paralelas donde múltiples bloques se limpian de ruido simultáneamente. Con 5 GPUs explotando el paralelismo temporal, logramos una aceleración de ~2x en todas las escalas de modelos: los modelos de 1,3B aceleran de 16 a 30 FPS, y los modelos de 14B de 4,5 a 12,5 FPS. Más allá de la velocidad de inferencia, la Cascada de Bloques elimina la sobrecarga del recaché de KV (de ~200ms) durante los cambios de contexto para la generación interactiva. Evaluaciones exhaustivas validadas frente a múltiples canalizaciones causales por bloques demuestran que no hay una pérdida significativa en la calidad de la generación al cambiar de canalizaciones causales por bloques a canalizaciones de Cascada de Bloques para la inferencia. Página del proyecto: https://hmrishavbandy.github.io/block_cascading_page/
La traducción de instrucciones en lenguaje natural a control continuo para robots cuadrúpedos sigue siendo un desafío fundamental en visión, lenguaje y acción. Los métodos existentes tienen dificultades para conectar el razonamiento semántico de alto nivel con la actuación de bajo nivel, lo que genera una traducción inestable y una generalización débil en entornos reales. Para abordar estos problemas, presentamos MobileVLA-R1, un marco unificado de visión-lenguaje-acción que permite un razonamiento explícito y un control continuo para robots cuadrúpedos. Construimos MobileVLA-CoT, un conjunto de datos a gran escala de cadena de pensamiento (CoT) multigranular para trayectorias corporizadas, que proporciona una supervisión de razonamiento estructurado para la alineación. Sobre esta base, introducimos un paradigma de entrenamiento en dos etapas que combina la alineación supervisada de CoT con el aprendizaje por refuerzo GRPO para mejorar la consistencia del razonamiento, la estabilidad del control y la ejecución a largo plazo. Evaluaciones exhaustivas en tareas de VLN y VLA demuestran un rendimiento superior frente a líneas de base sólidas, con una mejora de aproximadamente el 5%. El despliegue en el mundo real en un robot cuadrúpedo valida un rendimiento robusto en entornos complejos. Código: https://github.com/AIGeeksGroup/MobileVLA-R1. Sitio web: https://aigeeksgroup.github.io/MobileVLA-R1.
La destilación de pasos temporales es un enfoque efectivo para mejorar la eficiencia de generación de los modelos de difusión. El Modelo de Consistencia (CM), como marco basado en trayectorias, demuestra un potencial significativo debido a su sólido fundamento teórico y su generación de alta calidad en pocos pasos. Sin embargo, los métodos actuales de destilación de consistencia en tiempo continuo aún dependen en gran medida de datos de entrenamiento y recursos computacionales, lo que dificulta su implementación en escenarios con recursos limitados y restringe su escalabilidad a diversos dominios. Para abordar este problema, proponemos el Modelo de Consistencia por Retro-trayectoria (TBCM), que elimina la dependencia de datos externos de entrenamiento extrayendo representaciones latentes directamente de la trayectoria de generación del modelo maestro. A diferencia de los métodos convencionales que requieren codificación VAE y conjuntos de datos a gran escala, nuestro paradigma de destilación autónomo mejora significativamente tanto la eficiencia como la simplicidad. Además, las muestras extraídas de la trayectoria reducen naturalmente la brecha distribucional entre el entrenamiento y la inferencia, permitiendo así una transferencia de conocimiento más efectiva. Empíricamente, TBCM logra puntuaciones de 6.52 FID y 28.08 CLIP en MJHQ-30k bajo generación en un solo paso, mientras reduce el tiempo de entrenamiento en aproximadamente un 40% comparado con Sana-Sprint y ahorra una cantidad sustancial de memoria GPU, demostrando una eficiencia superior sin sacrificar calidad. Además, revelamos la discrepancia espacio-generación en la destilación de consistencia en tiempo continuo y analizamos cómo las estrategias de muestreo afectan el rendimiento de la destilación, ofreciendo perspectivas para futuras investigaciones en destilación. Enlace GitHub: https://github.com/hustvl/TBCM.
Las políticas Visión-Lenguaje-Acción (VLA) sobresalen en alinear el lenguaje, la percepción y el control robótico. Sin embargo, la mayoría de las VLA se entrenan únicamente por imitación, lo que genera sobreajuste a las demostraciones y fragilidad ante cambios en la distribución. El aprendizaje por refuerzo (RL) optimiza directamente la recompensa de la tarea, abordando así este desalineamiento, pero la interacción con robots reales es costosa y los simuladores convencionales son difíciles de diseñar y transferir. Abordamos tanto la eficiencia de datos como la estabilidad de la optimización en el post-entrenamiento de VLA mediante un modelo del mundo aprendido y un procedimiento de RL adaptado a cabezales de acción basados en flujos. Específicamente, presentamos Prophet, una actuación robótica unificada de acción-a-video preentrenada con datos robóticos heterogéneos a gran escala para aprender dinámicas reutilizables de acción-resultado. Es capaz de adaptarse con pocos ejemplos a nuevos robots, objetos y entornos, produciendo un simulador listo para su ejecución. Sobre Prophet, reforzamos las políticas de acción con Flow-action-GRPO (FA-GRPO), que adapta Flow-GRPO para operar sobre acciones VLA, y con FlowScale, una reponderación paso a paso que reescala los gradientes por paso en la cabeza de flujo. Juntos, Prophet, FA-GRPO y FlowScale constituyen ProphRL, una vía práctica y eficiente en datos y cómputo para el post-entrenamiento de VLA. Los experimentos muestran mejoras de éxito del 5-17% en benchmarks públicos y del 24-30% en robots reales en diferentes variantes de VLA.
Los Modelos de Base de Visión (VFMs) extraen representaciones espacialmente submuestreadas, lo que plantea desafíos para las tareas a nivel de píxel. Los enfoques de sobremuestreo existentes enfrentan una disyuntiva fundamental: los filtros clásicos son rápidos y ampliamente aplicables pero se basan en formas fijas, mientras que los sobremuestreadores modernos logran una precisión superior mediante formas aprendibles y específicas del VFM a costa de reentrenar para cada VFM. Presentamos Filtrado por Atención de Vecindario (NAF), que salva esta brecha aprendiendo pesos espaciales y de contenido adaptativos mediante Atención de Vecindario Multi-Escala y Codificaciones de Posición Rotatorias (RoPE), guiado únicamente por la imagen de entrada de alta resolución. NAF opera en modo cero-shot: sobremuestrea características de cualquier VFM sin reentrenamiento, convirtiéndose en la primera arquitectura agnóstica a VFM que supera a los sobremuestreadores específicos de VFM y logra un rendimiento de vanguardia en múltiples tareas secundarias. Mantiene una alta eficiencia, escalando a mapas de características de 2K y reconstruyendo mapas de resolución intermedia a 18 FPS. Más allá del sobremuestreo de características, NAF demuestra un fuerte rendimiento en restauración de imágenes, destacando su versatilidad. El código y los puntos de control están disponibles en https://github.com/valeoai/NAF.
Presentamos Sphinx, un entorno sintético para la percepción y el razonamiento visual que aborda primitivas cognitivas fundamentales. Sphinx genera procedimentalmente rompecabezas utilizando motivos, mosaicos, gráficos, iconos y primitivas geométricas, cada uno emparejado con soluciones de verificación automática (ground-truth), lo que permite tanto una evaluación precisa como la construcción de conjuntos de datos a gran escala. El benchmark abarca 25 tipos de tareas que incluyen detección de simetría, transformaciones geométricas, razonamiento espacial, interpretación de gráficos y predicción de secuencias. La evaluación de modelos grandes de visión y lenguaje (LVLM, por sus siglas en inglés) recientes muestra que incluso el más avanzado, GPT-5, alcanza solo un 51.1% de precisión, muy por debajo del rendimiento humano. Finalmente, demostramos que el aprendizaje por refuerzo con recompensas verificables (RLVR) mejora sustancialmente la precisión de los modelos en estas tareas y produce mejoras en benchmarks externos de razonamiento visual, destacando su potencial para avanzar en el razonamiento multimodal.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) es ampliamente utilizado para alinear modelos de lenguaje grandes, sin embargo, los profesionales se enfrentan a un enigma persistente: mejorar la seguridad a menudo reduce la equidad, escalar a poblaciones diversas se vuelve computacionalmente intratable, y hacer que los sistemas sean robustos a menudo amplifica los sesgos mayoritarios. Formalizamos esta tensión como el Trilema de la Alineación: ningún sistema RLHF puede lograr simultáneamente (i) épsilon-representatividad en diversos valores humanos, (ii) tratabilidad polinomial en la complejidad muestral y computacional, y (iii) delta-robustez frente a perturbaciones adversarias y cambios en la distribución. Mediante un análisis de complejidad computacional que integra teoría del aprendizaje estadístico y optimización robusta, demostramos que lograr tanto la representatividad (épsilon <= 0.01) como la robustez (delta <= 0.001) para poblaciones a escala global requiere operaciones de Omega(2^{d_contexto}), lo cual es super-polinómico en la dimensionalidad del contexto. Mostramos que las implementaciones actuales de RLHF resuelven este trilema sacrificando la representatividad: recogen sólo 10^3--10^4 muestras de grupos de anotadores homogéneos, mientras que se necesitan 10^7--10^8 muestras para una verdadera representación global. Nuestro marco proporciona una explicación unificada para las patologías documentadas del RLHF, incluyendo el colapso de preferencias, la sicofancia y la amplificación sistemática de sesgos. Concluimos con direcciones concretas para navegar estas compensaciones fundamentales mediante relajaciones estratégicas de los requisitos de alineación.
La generación 3D a escala urbana es de vital importancia para el desarrollo de la inteligencia corporeizada y los modelos del mundo. Sin embargo, los métodos existentes enfrentan desafíos significativos en cuanto a calidad, fidelidad y escalabilidad en la generación de mundos 3D. Por ello, proponemos RAISECity, un motor de síntesis inteligente alineado con la realidad que crea mundos 3D detallados a escala urbana. Introducimos un marco agencial que aprovecha diversas herramientas fundamentales multimodales para adquirir conocimiento del mundo real, mantener representaciones intermedias robustas y construir escenas 3D complejas. Este diseño agencial, que incluye procesamiento dinámico de datos, reflexión y refinamiento iterativos, e invocación de herramientas multimodales avanzadas, minimiza los errores acumulativos y mejora el rendimiento general. Extensos experimentos cuantitativos y análisis cualitativos validan el rendimiento superior de RAISECity en alineación con la realidad, precisión de formas, fidelidad textural y nivel estético, logrando una tasa de preferencia superior al 90% frente a los métodos de referencia en calidad perceptual general. Esta combinación de calidad 3D, alineación con la realidad, escalabilidad y compatibilidad perfecta con los pipelines de gráficos por computadora convierte a RAISECity en una base prometedora para aplicaciones en medios inmersivos, inteligencia corporeizada y modelos del mundo.
La predicción precisa del tiempo de vida útil restante (RUL) depende de la calidad de los indicadores de salud (HI), sin embargo, los métodos existentes a menudo no logran desentrañar los mecanismos de degradación complejos en sistemas multisensor ni cuantificar la incertidumbre en la fiabilidad de los HI. Este artículo presenta un marco novedoso para la construcción de HI, avanzando en tres contribuciones clave. Primero, adaptamos la Reconstrucción a lo Largo de Trayectorias Proyectadas (RaPP) como un indicador de salud (HI) para la predicción de RUL por primera vez, demostrando que supera a las métricas tradicionales de error de reconstrucción. Segundo, mostramos que aumentar los HI derivados de RaPP con la cuantificación de incertidumbre aleatoria y epistémica (UQ) mediante "dropout" de Monte Carlo y espacios latentes probabilísticos mejora significativamente la robustez de la predicción de RUL. Tercero, y más críticamente, proponemos los grupos de indicadores, un paradigma que aísla subconjuntos de sensores para modelar degradaciones específicas del sistema, dando lugar a nuestro nuevo método, I-GLIDE, que permite diagnósticos interpretables y específicos del mecanismo. Evaluado en datos procedentes de sistemas aeroespaciales y de fabricación, nuestro enfoque logra mejoras notables en precisión y generalización en comparación con los métodos HI más avanzados, al tiempo que proporciona información procesable sobre las vías de fallo del sistema. Este trabajo cierra la brecha entre la detección de anomalías y la prognóstica, ofreciendo un marco fundamentado para el modelado de la degradación consciente de la incertidumbre en sistemas complejos.
A pesar de que el *Splatting* Gaussiano 3D (3DGS) sobresale en la mayoría de configuraciones, carece de generalización a través de puntos de vista novedosos en un escenario de pocos ejemplos (*few-shot*) debido a que se sobreajusta (*overfitting*) a las observaciones dispersas. Revisamos la optimización del 3DGS desde una perspectiva de aprendizaje automático, enmarcando la síntesis de vistas novedosas como un problema de generalización a puntos de vista no vistos, una dirección poco explorada. Proponemos la Regularización de Nitidez Adaptativa en Frecuencia (FASR), la cual reformula la función objetivo del entrenamiento de 3DGS, guiando así al 3DGS a converger hacia una solución de mejor generalización. Aunque la Minimización Consciente de la Nitidez (SAM) reduce de manera similar la nitidez del paisaje de pérdida para mejorar la generalización de modelos de clasificación, emplearla directamente en 3DGS es subóptimo debido a la discrepancia entre las tareas. Específicamente, dificulta la reconstrucción de detalles de alta frecuencia debido a una regularización excesiva, mientras que reducir su intensidad conduce a una penalización insuficiente de la nitidez. Para abordar esto, reflejamos la frecuencia local de las imágenes para establecer el peso de regularización y el radio del vecindario al estimar la nitidez local. Esto evita artefactos flotantes en puntos de vista novedosos y reconstruye detalles finos que SAM tiende a suavizar en exceso. En diversos conjuntos de datos con varias configuraciones, nuestro método mejora consistentemente una amplia gama de líneas base. El código estará disponible en https://bbangsik13.github.io/FASR.