Artículos de investigación en IA seleccionados diariamente con traducciones
Los métodos existentes de generación de vídeo basados en difusión se ven fundamentalmente limitados por el cálculo secuencial y la inconsistencia en horizontes temporales largos, lo que restringe su adopción práctica en la síntesis de avatares impulsada por audio en tiempo real y en streaming. Presentamos Live Avatar, un marco de trabajo codesañado a nivel de algoritmo y sistema que permite la generación eficiente, de alta fidelidad y de longitud infinita de avatares utilizando un modelo de difusión de 14 mil millones de parámetros. Nuestro enfoque introduce el Paralelismo de Tuberías con Forzado de Paso de Tiempo (TPP), un paradigma de inferencia distribuida que canaliza los pasos de eliminación de ruido a través de múltiples GPUs, rompiendo efectivamente el cuello de botella autoregresivo y garantizando una transmisión en tiempo real estable y de baja latencia. Para mejorar aún más la coherencia temporal y mitigar la deriva de identidad y los artefactos de color, proponemos el Mecanismo de Marcos de Referencia en Bucle (RSFM), que mantiene la fidelidad de la secuencia mediante la recalibración dinámica de la apariencia utilizando una imagen de referencia en caché. Adicionalmente, aprovechamos la Destilación por Correspondencia de Distribución con Auto-Forzado para facilitar la adaptación causal y transmisible de modelos a gran escala sin sacrificar la calidad visual. Live Avatar demuestra un rendimiento de vanguardia, alcanzando una generación de extremo a extremo a 20 FPS en 5 GPUs H800, y, según nuestro conocimiento, es el primero en lograr una generación de avatares práctica, en tiempo real y de alta fidelidad a esta escala. Nuestro trabajo establece un nuevo paradigma para desplegar modelos de difusión avanzados en aplicaciones industriales de síntesis de vídeo de formato largo.
Los flujos de trabajo reales de inteligencia de datos empresariales abarcan la ingeniería de datos, que transforma las fuentes brutas en tablas listas para el análisis, y el análisis de datos, que convierte esas tablas en información orientada a la toma de decisiones. Presentamos DAComp, un benchmark de 210 tareas que refleja estos flujos de trabajo complejos. Las tareas de ingeniería de datos (DE) requieren ingeniería a nivel de repositorio sobre esquemas industriales, incluyendo el diseño y construcción de pipelines SQL multi-etapa desde cero y la evolución de sistemas existentes bajo requisitos cambiantes. Las tareas de análisis de datos (DA) plantean problemas empresariales abiertos que exigen planificación estratégica, análisis exploratorio mediante codificación iterativa, interpretación de resultados intermedios y la síntesis de recomendaciones accionables. Las tareas de ingeniería se califican mediante una evaluación basada en ejecución y múltiples métricas. Las tareas abiertas son evaluadas por un juez basado en LLM, confiable y validado experimentalmente, guiado por rúbricas jerárquicas y meticulosamente elaboradas. Nuestros experimentos revelan que incluso los agentes más avanzados fracasan en DAComp. El rendimiento en las tareas DE es particularmente bajo, con tasas de éxito inferiores al 20%, exponiendo un cuello de botella crítico en la orquestación holística de pipelines, no meramente en la generación de código. Las puntuaciones en las tareas DA también promedian menos del 40%, destacando deficiencias profundas en el razonamiento abierto y demostrando que la ingeniería y el análisis son capacidades distintas. Al diagnosticar claramente estas limitaciones, DAComp proporciona un banco de pruebas riguroso y realista para impulsar el desarrollo de agentes autónomos de datos verdaderamente capaces para entornos empresariales. Nuestros datos y código están disponibles en https://da-comp.github.io.
La evolución de los Modelos de Lenguaje a Gran Escala (LLMs) de respondedores pasivos a agentes autónomos exige un cambio fundamental en los paradigmas de aprendizaje: de la imitación estática a la toma de decisiones impulsada por incentivos. Sin embargo, esta transición se ve significativamente obstaculizada por la falta de infraestructuras escalables capaces de construir señales de interacción de alta calidad para un aprendizaje de políticas efectivo. Para abordar este problema, presentamos un método integral diseñado para escalar sistemáticamente la diversidad y complejidad de los entornos interactivos. Nuestro método logra este escalado abordando tres dimensiones ortogonales: (1) Complejidad: NexAU, un marco de agente flexible que permite construir jerarquías de agentes complejas mediante configuraciones simples; (2) Diversidad: NexA4A genera automáticamente jerarquías de agentes diversas a partir de lenguaje natural para cubrir dominios infinitos; y (3) Fidelidad: NexGAP salva la brecha simulación-realidad integrando entornos dinámicos del mundo real para la síntesis de trayectorias fundamentadas. Entrenamos a Nex-N1 sobre los entornos interactivos diversos y complejos establecidos por nuestra infraestructura. Los resultados empíricos en benchmarks como SWE-bench y tau2 demuestran que Nex-N1 supera consistentemente a los modelos de código abierto más avanzados (SOTA) y logra un rendimiento competitivo frente a los modelos propietarios de vanguardia en tareas agentivas complejas. Liberamos el ecosistema Nex y los pesos del modelo como código abierto para facilitar futuras investigaciones.
Los modelos de recompensa son cruciales para alinear los sistemas de visión y lenguaje con las preferencias humanas, sin embargo, los enfoques actuales adolecen de alucinaciones, un anclaje visual débil y la incapacidad de utilizar herramientas para la verificación, lo que limita su fiabilidad en tareas complejas de razonamiento multimodal. Presentamos ARM-Thinker, un Modelo de Recompensa multimodal Agéntico que invoca de forma autónoma herramientas externas (por ejemplo, recorte de imágenes, recuperación de páginas de documentos) para fundamentar sus juicios en evidencia verificable, reemplazando la puntuación de recompensa estática y no interactiva. Esto permite al modelo verificar detalles visuales de grano fino, realizar referencias cruzadas de evidencia multipágina y validar afirmaciones de razonamiento, capacidades ausentes en los modelos de recompensa existentes. Entrenamos ARM-Thinker con aprendizaje por refuerzo multietapa, optimizando conjuntamente las decisiones de invocación de herramientas y la precisión del juicio. Para evaluar el modelado de recompensa agéntico, presentamos ARMBench-VL, que comprende tres puntos de referencia que evalúan el anclaje visual de grano fino (herramientas a nivel de imagen), la comprensión de documentos multipágina (herramientas de recuperación) y el seguimiento de instrucciones (verificación a nivel de texto). ARM-Thinker logra una mejora promedio de +16.2% en los benchmarks de modelado de recompensa, +9.6% en tareas de uso de herramientas, y supera a los baselines en benchmarks de razonamiento matemático y lógico multimodal. Nuestros resultados demuestran que las capacidades agénticas mejoran significativamente tanto la precisión como la interpretabilidad de los modelos de recompensa.
La generación eficiente de vídeo en streaming es crucial para simular mundos interactivos y dinámicos. Los métodos existentes destilan modelos de difusión de vídeo de pocos pasos con atención de ventana deslizante, utilizando los fotogramas iniciales como tokens de anclaje para mantener el rendimiento de la atención y reducir la acumulación de errores. Sin embargo, los fotogramas de vídeo se vuelven excesivamente dependientes de estos tokens estáticos, lo que resulta en la copia de los fotogramas iniciales y una dinámica de movimiento reducida. Para abordar este problema, presentamos Reward Forcing, un marco novedoso con dos diseños clave. En primer lugar, proponemos EMA-Sink, que mantiene tokens de tamaño fijo inicializados a partir de los fotogramas iniciales y actualizados continuamente fusionando los tokens desplazados mediante una media móvil exponencial a medida que salen de la ventana deslizante. Sin coste computacional adicional, los tokens de EMA-Sink capturan tanto el contexto a largo plazo como la dinámica reciente, evitando la copia de fotogramas iniciales mientras se mantiene la coherencia temporal prolongada. En segundo lugar, para destilar mejor la dinámica de movimiento de los modelos docentes, proponemos una novedosa Destilación por Correspondencia de Distribución Recompensada (Re-DMD). La correspondencia de distribución básica trata cada muestra de entrenamiento por igual, limitando la capacidad del modelo para priorizar el contenido dinámico. En su lugar, Re-DMD sesga la distribución de salida del modelo hacia regiones de alta recompensa priorizando muestras con mayor dinámica evaluadas por un modelo visión-lenguaje. Re-DMD mejora significativamente la calidad del movimiento preservando la fidelidad de los datos. Incluimos experimentos cuantitativos y cualitativos que demuestran que Reward Forcing alcanza un rendimiento de vanguardia en benchmarks estándar, permitiendo la generación de vídeo en streaming de alta calidad a 23.1 FPS en una única GPU H100.
Los modelos de lenguaje a gran escala se integran cada vez más en los flujos de trabajo de escritura académica; sin embargo, los asistentes existentes permanecen externos al editor, lo que impide una interacción profunda con el estado del documento, su estructura y el historial de revisiones. Esta separación hace imposible dar soporte a operaciones agentivas y conscientes del contexto directamente dentro de editores de LaTeX como Overleaf. Presentamos PaperDebugger, un asistente de escritura académica basado en plugins, multiagente e integrado en el editor, que lleva el razonamiento impulsado por LLM directamente al entorno de escritura. Habilitar esta interacción dentro del editor es técnicamente complejo: requiere una sincronización bidireccional confiable con el editor, un control de versiones y aplicación de parches granular, una gestión segura del estado, una planificación multiagente y una comunicación extensible con herramientas externas. PaperDebugger aborda estos desafíos mediante una extensión aprobada para Chrome, una capa de orquestación nativa de Kubernetes y una cadena de herramientas Model Context Protocol (MCP) que integra búsqueda de literatura, consulta de referencias, puntuación de documentos y pipelines de revisión. Nuestra demostración muestra un flujo de trabajo totalmente integrado, que incluye ediciones localizadas, revisiones estructuradas, ejecución paralela de agentes y actualizaciones basadas en diferencias (diff), todo encapsulado en una interfaz de usuario (UI) de mínima intrusión. Los análisis agregados preliminares demuestran un compromiso activo de los usuarios y validan la practicidad de un asistente de escritura agentivo y nativo del editor. Se pueden encontrar más detalles sobre esta demostración y un vídeo en https://github.com/PaperDebugger/PaperDebugger.
Los Modelos de Difusión Latente (LDM, por sus siglas en inglés) siguen inherentemente un proceso de generación de bajo a alto detalle (coarse-to-fine), en el que la estructura semántica de alto nivel se genera ligeramente antes que la textura de grano fino. Esto indica que la semántica precedente potencialmente beneficia la generación de textura al proporcionar un ancla semántica. Avances recientes han integrado conocimientos previos semánticos de codificadores visuales preentrenados para mejorar aún más los LDM, pero aún así aplican la eliminación de ruido a la semántica y a la textura codificada por VAE de forma sincrónica, pasando por alto dicho orden temporal. Observando esto, proponemos Difusión con Prioridad Semántica (SFD, Semantic-First Diffusion), un paradigma de difusión latente que prioriza explícitamente la formación semántica. SFD primero construye latentes compuestos combinando un latente semántico compacto, que se extrae de un codificador visual preentrenado mediante un VAE Semántico dedicado, con el latente de textura. El núcleo de SFD es eliminar el ruido de los latentes semánticos y de textura de forma asíncrona utilizando programaciones de ruido separadas: la semántica precede a las texturas con un desplazamiento temporal, proporcionando una guía de alto nivel más clara para el refinamiento de texturas y permitiendo una generación natural de bajo a alto detalle. En ImageNet 256x256 con guía, SFD logra un FID de 1.06 (LightningDiT-XL) y un FID de 1.04 (LightningDiT-XXL de 1.0B), mientras alcanza una convergencia hasta 100 veces más rápida que la DiT original. SFD también mejora métodos existentes como ReDi y VA-VAE, demostrando la efectividad del modelado asíncrono liderado por la semántica. Página del proyecto y código: https://yuemingpan.github.io/SFD.github.io/.
Comprender el mundo físico dinámico, caracterizado por su estructura 3D en evolución, el movimiento del mundo real y el contenido semántico con descripciones textuales, es crucial para la interacción humano-agente y permite a los agentes incorporados percibir y actuar en entornos reales con capacidades similares a las humanas. Sin embargo, los conjuntos de datos existentes a menudo se derivan de simuladores limitados o utilizan la técnica tradicional de Estructura a partir del Movimiento para anotaciones a escala real y ofrecen un etiquetado descriptivo limitado, lo que restringe la capacidad de los modelos fundacionales para interpretar con precisión la dinámica del mundo real a partir de vídeos monoculares, comúnmente obtenidos de internet. Para salvar estas brechas, presentamos DynamicVerse, un marco de modelado mundial 4D multimodal a escala física para vídeos dinámicos del mundo real. Empleamos modelos grandes de visión, geometría y multimodales para interpretar la geometría estática a escala métrica, el movimiento dinámico del mundo real, máscaras a nivel de instancia y descripciones textuales holísticas. Al integrar el Ajuste de Haces basado en ventanas con optimización global, nuestro método convierte secuencias de vídeo largas del mundo real en un formato multimodal 4D integral. DynamicVerse proporciona un conjunto de datos a gran escala que consta de más de 100.000 vídeos con más de 800.000 máscaras anotadas y más de 10 millones de fotogramas procedentes de vídeos de internet. Las evaluaciones experimentales en tres tareas de referencia, a saber, estimación de profundidad en vídeo, estimación de la pose de la cámara y estimación de los parámetros intrínsecos de la cámara, demuestran que nuestro modelado 4D logra un rendimiento superior en la captura de mediciones a escala física con una mayor precisión global que los métodos existentes.
La construcción de campos lingüísticos 4D es crucial para la IA corporeizada, la realidad aumentada/virtual y la comprensión de escenas 4D, ya que proporcionan representaciones semánticas enriquecidas de entornos dinámicos y permiten consultas de vocabulario abierto en escenarios complejos. Sin embargo, los enfoques existentes para la construcción de campos semánticos 4D se basan principalmente en el *splatting* Gaussiano específico por escena, que requiere optimización para cada escena, exhibe una generalización limitada y es difícil de escalar a aplicaciones del mundo real. Para abordar estas limitaciones, proponemos 4DLangVGGT, el primer marco unificado *feed-forward* basado en Transformer para la *grounding* lingüístico en 4D, que integra conjuntamente la percepción geométrica y la alineación del lenguaje dentro de una única arquitectura. 4DLangVGGT tiene dos componentes clave: el Transformer de Geometría Visual 4D, StreamVGGT, que captura representaciones geométricas espacio-temporales de escenas dinámicas; y el Decodificador de Conexión Semántica (SBD), que proyecta las características conscientes de la geometría en un espacio semántico alineado con el lenguaje, mejorando así la interpretabilidad semántica mientras preserva la fidelidad estructural. A diferencia de métodos anteriores que dependen de una costosa optimización por escena, 4DLangVGGT puede entrenarse conjuntamente en múltiples escenas dinámicas y aplicarse directamente durante la inferencia, logrando tanto eficiencia de despliegue como una fuerte generalización. Este diseño mejora significativamente la practicidad del despliegue a gran escala y establece un nuevo paradigma para la comprensión de escenas 4D de vocabulario abierto. Los experimentos en los conjuntos de datos HyperNeRF y Neu3D demuestran que nuestro enfoque no solo generaliza efectivamente, sino que también logra un rendimiento de vanguardia, alcanzando ganancias de hasta el 2% bajo entrenamiento por escena y mejoras del 1% bajo entrenamiento multi-escena. Nuestro código se ha publicado en https://github.com/hustvl/4DLangVGGT.
Los recientes avances en la difusión de video autoregresiva han permitido la transmisión de fotogramas en tiempo real, pero las soluciones existentes aún adolecen de repetición temporal, deriva y desaceleración del movimiento. Encontramos que aplicar de forma ingenua los "puntos de atención" estilo StreamingLLM a la difusión de video conduce a una degradación de la fidelidad y a un estancamiento del movimiento. Para superar esto, presentamos Deep Forcing, que consiste en dos mecanismos sin entrenamiento que abordan este problema sin necesidad de ajuste fino. Específicamente, 1) Deep Sink dedica la mitad de la ventana deslizante a "tokens sumidero" persistentes y realinea su fase temporal RoPE con la línea de tiempo actual, estabilizando el contexto global durante las secuencias largas. 2) La Compresión Participativa realiza una poda de la caché KV basada en la importancia que preserva solo los tokens que participan activamente en la atención reciente, mientras descarta de forma segura el historial redundante y degradado, minimizando la acumulación de errores bajo generación de longitud fuera de distribución. Juntos, estos componentes permiten una extrapolación de más de 12x (por ejemplo, de 5s entrenados a más de 60s de generación) con mejor calidad de imagen que LongLive, mejor calidad estética que RollingForcing, manteniendo casi la consistencia general y logrando ganancias sustanciales en el grado dinámico, todo ello manteniendo la generación en tiempo real. Nuestros resultados demuestran que la gestión de la caché KV sin entrenamiento puede igualar o superar a los enfoques basados en entrenamiento para la generación de video largo en streaming autoregresivo.
La síntesis de escenas congeladas en 3D de alta fidelidad a partir de vídeos monoculares del Mannequin Challenge (MC) constituye un problema único, distinto de la reconstrucción estándar de escenas dinámicas. En lugar de centrarnos en modelar el movimiento, nuestro objetivo es crear una escena congelada preservando estratégicamente dinámicas sutiles para permitir una selección instantánea controlada por el usuario. Para lograrlo, presentamos una aplicación novedosa del *splatting* con gaussianos dinámicos: la escena se modela de forma dinámica, lo que retiene la variación temporal cercana, y se renderiza una escena estática fijando el parámetro de tiempo del modelo. Sin embargo, en este uso, la captura monocular con supervisión temporal escasa introduce artefactos como fantasmas y desenfoque para los gaussianos que quedan sin observar o se ocluyen en instantes de tiempo con supervisión débil. Proponemos Splannequin, una regularización independiente de la arquitectura que detecta dos estados de los primitivos gaussianos, *oculto* y *defectuoso*, y aplica un anclaje temporal. Bajo un movimiento predominante de cámara hacia adelante, los estados ocultos se anclan a sus estados pasados recientes bien observados, mientras que los estados defectuosos se anclan a estados futuros con una supervisión más fuerte. Nuestro método se integra en las canalizaciones existentes de gaussianos dinámicos mediante términos de pérdida simples, no requiere cambios arquitectónicos y añade una sobrecarga nula en la inferencia. Esto se traduce en una calidad visual notablemente mejorada, permitiendo renderizados de tiempo congelado de alta fidelidad y seleccionables por el usuario, validado por una preferencia del 96% de los usuarios. Página del proyecto: https://chien90190.github.io/splannequin/
Los transformadores de difusión de imágenes recientes logran una generación de alta fidelidad, pero presentan dificultades para generar imágenes más allá de estas escalas, sufriendo de repetición de contenido y degradación de la calidad. En este trabajo, presentamos UltraImage, un marco fundamentado que aborda ambos problemas. Mediante un análisis en el dominio de la frecuencia de los embeddings posicionales, identificamos que la repetición surge de la periodicidad de la frecuencia dominante, cuyo período coincide con la resolución de entrenamiento. Introducimos una corrección recursiva de la frecuencia dominante para restringirla a un único período después de la extrapolación. Además, encontramos que la degradación de la calidad proviene de una dilución de la atención y, por lo tanto, proponemos una concentración de atención adaptativa guiada por entropía, que asigna factores de enfoque más altos para agudizar la atención local y obtener detalles finos, y factores más bajos para los patrones de atención global con el fin de preservar la coherencia estructural. Los experimentos muestran que UltraImage supera consistentemente a métodos anteriores en Qwen-Image y Flux (alrededor de 4K) en tres escenarios de generación, reduciendo la repetición y mejorando la fidelidad visual. Además, UltraImage puede generar imágenes de hasta 6K*6K sin guía de baja resolución a partir de una resolución de entrenamiento de 1328p, lo que demuestra su capacidad de extrapolación extrema. La página del proyecto está disponible en https://thu-ml.github.io/ultraimage.github.io/.
La difusión estándar corrompe los datos utilizando ruido gaussiano cuyos coeficientes de Fourier tienen magnitudes aleatorias y fases aleatorias. Aunque es efectiva para generación incondicional o texto-a-imagen, corromper los componentes de fase destruye la estructura espacial, lo que la hace inadecuada para tareas que requieren consistencia geométrica, como el re-renderizado, la mejora de simulaciones y la traducción imagen-a-imagen. Presentamos φ-PD (Difusión de Preservación de Fase), una reformulación independiente del modelo del proceso de difusión que preserva la fase de entrada mientras aleatoriza la magnitud, permitiendo generación alineada estructuralmente sin cambios arquitectónicos ni parámetros adicionales. Además, proponemos ruido Estructurado de Frecuencia Selectiva (FSS), que proporciona control continuo sobre la rigidez estructural mediante un único parámetro de corte de frecuencia. φ-PD no añade costo en tiempo de inferencia y es compatible con cualquier modelo de difusión para imágenes o videos. En re-renderizado fotorrealista y estilizado, así como en mejora de simulación-a-realidad para planificadores de conducción, φ-PD produce resultados controlables y espacialmente alineados. Cuando se aplica al simulador CARLA, φ-PD mejora el rendimiento del planificador CARLA-a-Waymo en un 50%. El método es complementario a los enfoques de condicionamiento existentes y ampliamente aplicable a generación imagen-a-imagen y video-a-video. Videos, ejemplos adicionales y código están disponibles en nuestra {página del proyecto} https://yuzeng-at-tri.github.io/ppd-page/.
Presentamos a SIMA 2, un agente corporeizado generalista que comprende y actúa en una amplia variedad de mundos virtuales en 3D. Construido sobre un modelo base Gemini, SIMA 2 representa un paso significativo hacia la interacción activa y dirigida a objetivos dentro de un entorno corporeizado. A diferencia de trabajos anteriores (por ejemplo, SIMA 1) limitados a comandos lingüísticos simples, SIMA 2 actúa como un compañero interactivo, capaz de razonar sobre objetivos de alto nivel, conversar con el usuario y manejar instrucciones complejas dadas mediante lenguaje e imágenes. En un portafolio diverso de juegos, SIMA 2 reduce sustancialmente la brecha con el rendimiento humano y demuestra una generalización robusta a entornos no vistos previamente, todo ello manteniendo las capacidades de razonamiento centrales del modelo base. Además, demostramos una capacidad de auto-mejora de código abierto: al aprovechar Gemini para generar tareas y proporcionar recompensas, SIMA 2 puede aprender nuevas habilidades desde cero de forma autónoma en un entorno nuevo. Este trabajo valida un camino hacia la creación de agentes versátiles y de aprendizaje continuo para mundos tanto virtuales como, eventualmente, físicos.
El empaquetamiento de esferas, decimoctavo problema de Hilbert, busca la disposición más densa de esferas congruentes en el espacio euclidiano n-dimensional. Aunque es relevante para áreas como la criptografía, la cristalografía y las imágenes médicas, el problema sigue sin resolverse: más allá de algunas dimensiones especiales, no se conocen ni empaquetamientos óptimos ni cotas superiores ajustadas. Incluso un avance importante en la dimensión n=8, posteriormente reconocido con una Medalla Fields, subraya su dificultad. Una técnica líder para las cotas superiores, el método de tres puntos, reduce el problema a resolver grandes programas semidefinidos (SDP) de alta precisión. Dado que cada SDP candidato puede tardar días en evaluarse, los enfoques estándar de IA intensivos en datos son inviables. Abordamos este desafío formulando la construcción de SDP como un proceso de decisión secuencial, el juego SDP, en el que una política ensambla formulaciones de SDP a partir de un conjunto de componentes admisibles. Utilizando un marco eficiente en muestras basado en modelos que combina la optimización bayesiana con la Búsqueda en Árbol de Montecarlo, obtenemos nuevas cotas superiores de vanguardia en las dimensiones 4-16, mostrando que la búsqueda basada en modelos puede impulsar el progreso computacional en problemas geométricos de larga data. En conjunto, estos resultados demuestran que la búsqueda eficiente en muestras y basada en modelos puede lograr progresos tangibles en problemas matemáticamente rígidos y con evaluación limitada, señalando una dirección complementaria para el descubrimiento asistido por IA más allá de la exploración a gran escala impulsada por LLM.
Presentamos un marco de difusión-transformador (DiT) para la eliminación de reflejos en imágenes individuales que aprovecha las fortalezas de generalización de los modelos de difusión base en el contexto de la restauración. En lugar de depender de arquitecturas específicas para la tarea, reutilizamos un modelo base preentrenado basado en DiT condicionándolo con entradas contaminadas por reflejos y guiándolo hacia capas de transmisión limpias. Analizamos sistemáticamente las fuentes de datos existentes para la eliminación de reflejos en términos de diversidad, escalabilidad y fotorrealismo. Para abordar la escasez de datos adecuados, construimos una canalización de renderizado basado en física (PBR) en Blender, basada en el BSDF Principled, para sintetizar materiales de vidrio realistas y efectos de reflexión. La adaptación eficiente del modelo base mediante LoRA, combinada con los datos sintéticos propuestos, logra un rendimiento de vanguardia en benchmarks de dominio interno y de cero disparos. Estos resultados demuestran que los transformadores de difusión preentrenados, cuando se combinan con una síntesis de datos físicamente fundamentada y una adaptación eficiente, ofrecen una solución escalable y de alta fidelidad para la eliminación de reflejos. Página del proyecto: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
Los modelos de generación de vídeo avanzan rápidamente, pero aún pueden tener dificultades para producir vídeos complejos que requieran una ramificación semántica significativa o un razonamiento de alto nivel repetido sobre lo que debería suceder a continuación. En este artículo, presentamos una nueva clase de modelos omni vídeo-texto que integran ideas de los recientes avances en razonamiento de modelos de lenguaje (LM) para abordar este desafío. Más específicamente, presentamos TV2TV, un marco de modelado generativo unificado que descompone la generación de vídeo en un proceso entrelazado de generación de texto y vídeo. TV2TV aprende conjuntamente el modelado del lenguaje (predicción del siguiente token) y el flujo de correspondencia de vídeo (predicción del siguiente fotograma) utilizando una arquitectura de Mezcla de Transformadores (MoT). En el momento de la inferencia, TV2TV decide cuándo alternar entre la generación de texto y fotogramas de vídeo, permitiendo que el modelo "piense con palabras" sobre el contenido subsiguiente antes de "actuar en píxeles" para producir los fotogramas. Este diseño descarga gran parte de la responsabilidad de decidir lo que debe suceder a continuación en la torre de modelado del lenguaje, permitiendo una mejora en la calidad visual y la alineación con el prompt de los vídeos generados. También permite una controlabilidad granular, permitiendo a los usuarios modificar la trayectoria de generación del vídeo mediante intervenciones de texto en cualquier punto del proceso. En experimentos controlados con datos de videojuegos, TV2TV demuestra mejoras sustanciales tanto en calidad visual como en controlabilidad. TV2TV también escala a vídeos naturales, como mostramos al aumentar vídeos deportivos con descripciones de acción en lenguaje natural entrelazadas, utilizando modelos de visión y lenguaje (VLM). Entrenar TV2TV en este corpus produce una alta calidad visual y alineación con el prompt, mostrando la capacidad del modelo para razonar y generar secuencias de acción complejas del mundo real. En conjunto, estos resultados destacan a TV2TV como un paso prometedor hacia la generación de vídeo con razonamiento textual y control de final abierto.
El aprendizaje por refuerzo con herramientas integradas (TI-AR) permite a los modelos de lenguaje grandes (LLMs) realizar razonamientos de múltiples pasos interactuando con herramientas externas como motores de búsqueda y sistemas de recuperación. La Optimización de Políticas Relativas de Grupo (GRPO), ejemplificada por el reciente Search-R1, ofrece una convergencia rápida y una formulación libre de valores que la hace atractiva para este entorno, pero sufre consistentemente de colapso durante el entrenamiento. Identificamos el Desplazamiento Perezoso de la Verosimilitud (LLD), una reducción sistemática o estancamiento en la verosimilitud tanto de las respuestas correctas como incorrectas, como el mecanismo central que impulsa este fallo. El LLD emerge tempranamente y desencadena un Espiral de Muerte por LLD auto-reforzante, donde la verosimilitud decreciente conduce a respuestas de baja confianza, inflando los gradientes y causando finalmente el colapso. Caracterizamos empíricamente este proceso en varios modelos en una tarea de respuesta a preguntas con búsqueda integrada al estilo de Search-R1, revelando una trayectoria consistente de tres fases: estancamiento inicial, decadencia constante y colapso acelerado. Para abordarlo, proponemos una regularización liviana que preserva la verosimilitud, LLDS para GRPO, que se activa solo cuando la verosimilitud de una trayectoria disminuye, y regulariza únicamente los tokens responsables. Esta estructura de grano fino mitiga el LLD con una interferencia mínima en la optimización. En siete benchmarks de preguntas y respuestas de dominio abierto y de múltiples saltos, nuestro método estabiliza el entrenamiento, previene la explosión de gradientes y produce mejoras sustanciales de rendimiento, incluyendo ganancias de +37.8% en Qwen2.5-3B y +32.0% en Qwen2.5-7B. Nuestros resultados establecen al LLD como un cuello de botella fundamental en el TI-AR basado en GRPO y proporcionan un camino práctico hacia el entrenamiento estable y escalable de LLMs con herramientas integradas.
La cuantización de ultra bajo bit es crucial para desplegar eficientemente Modelos de Lenguaje Grandes (LLMs), aunque a menudo conlleva una degradación severa del rendimiento a 2 bits e incluso a 4 bits (por ejemplo, MXFP4). Presentamos SignRoundV2, un marco de cuantización posterior al entrenamiento que es altamente efectivo incluso sin precisión mixta. SignRoundV2 introduce (1) una métrica de sensibilidad rápida que combina información de gradientes con desviaciones inducidas por la cuantización para guiar la asignación de bits por capa, y (2) una búsqueda liviana de sintonización previa para escalas de cuantización que mejora la cuantización en bits extremadamente bajos. Estos componentes permiten a SignRoundV2 reducir la brecha con los modelos de precisión completa. Experimentos exhaustivos indican que nuestro método mantiene una precisión competitiva para LLMs, logrando un rendimiento de grado productivo con aproximadamente un 1% de varianza a 4-5 bits y resultados sólidos incluso a 2 bits. La implementación está disponible en https://github.com/intel/auto-round.
Los modelos lingüísticos multimodales grandes (MLLM) unificados recientes han demostrado capacidades impresionantes, incorporando razonamiento de cadena de pensamiento (CoT) para mejorar la generación de texto a imagen. Sin embargo, los enfoques existentes siguen siendo limitados, ya sea tratando al modelo meramente como un generador independiente o dependiendo de una planificación textual abstracta. Para ello, proponemos Draft-as-CoT (DraCo), un nuevo paradigma de razonamiento intercalado que aprovecha plenamente tanto los contenidos textuales como visuales en CoT para una mejor planificación y verificación. Nuestro método genera primero una imagen de borrador de baja resolución como vista previa, proporcionando una planificación y guía visual más concreta y estructural. Luego, empleamos la capacidad de comprensión inherente del modelo para verificar posibles desalineaciones semánticas entre el borrador y la instrucción de entrada, y realiza un refinamiento mediante correcciones selectivas con superresolución. De esta manera, nuestro enfoque aborda dos desafíos fundamentales: la naturaleza de grano grueso de la planificación textual y la dificultad para generar combinaciones de atributos raros. Para apoyar el entrenamiento, hemos creado DraCo-240K, con el objetivo de mejorar tres capacidades atómicas que abarcan la corrección general, la manipulación de instancias y la reorganización del diseño. Respaldado por DraCo-CFG, una estrategia especializada de guía sin clasificador (CFG) para el razonamiento intercalado, DraCo logra un aumento tremendo en GenEval (+8%), Imagine-Bench (+0.91) y GenEval++ (+3%), superando significativamente a la generación directa y otros métodos de generación potenciados por CoT.
Presentamos LATTICE, un nuevo marco para la generación de activos 3D de alta fidelidad que salva la brecha de calidad y escalabilidad entre los modelos generativos 3D y 2D. Mientras que la síntesis de imágenes 2D se beneficia de mallas espaciales fijas y arquitecturas de transformadores bien establecidas, la generación 3D sigue siendo fundamentalmente más compleja debido a la necesidad de predecir tanto la estructura espacial como las superficies geométricas detalladas desde cero. Estos desafíos se ven exacerbados por la complejidad computacional de las representaciones 3D existentes y la falta de esquemas de codificación de activos 3D estructurados y escalables. Para abordar esto, proponemos VoxSet, una representación semi-estructurada que comprime los activos 3D en un conjunto compacto de vectores latentes anclados a una malla de vóxeles gruesa, permitiendo una generación eficiente y consciente de la posición. VoxSet conserva la simplicidad y las ventajas de compresión de los métodos VecSet previos, a la vez que introduce una estructura explícita en el espacio latente, permitiendo que los embeddings posicionales guíen la generación y habilitando un escalado sólido a nivel de token durante la prueba. Basado en esta representación, LATTICE adopta un pipeline de dos etapas: primero genera un ancla geométrica voxelizada dispersa y luego produce la geometría detallada utilizando un transformador de flujo rectificado. Nuestro método es simple en su esencia, pero admite decodificación a resolución arbitraria, entrenamiento de bajo coste y esquemas de inferencia flexibles, logrando un rendimiento de vanguardia en varios aspectos y ofreciendo un paso significativo hacia la creación de activos 3D escalables y de alta calidad.
Presentamos GNVC-VD, el primer marco de compresión neuronal de vídeo generativo basado en DiT construido sobre un modelo fundacional avanzado de generación de vídeo, donde la compresión latente espacio-temporal y el refinamiento generativo a nivel de secuencia se unifican dentro de un único códec. Los códecs perceptuales existentes se basan principalmente en priores generativos de imagen preentrenados para restaurar detalles de alta frecuencia, pero su naturaleza frame a frame carece de modelado temporal y conduce inevitablemente a parpadeo perceptual. Para abordar esto, GNVC-VD introduce un módulo unificado de refinamiento latente por *flow-matching* que aprovecha un transformador de difusión de vídeo para mejorar conjuntamente los latentes intra e inter-frame mediante desruido a nivel de secuencia, garantizando detalles espacio-temporales consistentes. En lugar de desruir partiendo de ruido gaussiano puro como en la generación de vídeo, GNVC-VD inicializa el refinamiento a partir de latentes espacio-temporales decodificados y aprende un término de corrección que adapta el prior de difusión a la degradación inducida por la compresión. Un adaptador de condicionamiento inyecta además señales conscientes de la compresión en las capas intermedias del DiT, permitiendo una eliminación efectiva de artefactos mientras se mantiene la coherencia temporal bajo restricciones de bitrate extremas. Experimentos exhaustivos muestran que GNVC-VD supera a los códecs tanto tradicionales como basados en aprendizaje en calidad perceptual y reduce significativamente los artefactos de parpadeo que persisten en enfoques generativos previos, incluso por debajo de 0.01 bpp, destacando la promesa de integrar priores generativos nativos de vídeo en los códecs neuronales para la compresión de vídeo perceptual de próxima generación.
Los recientes avances en los modelos de lenguaje multimodal (MLLM) han demostrado su notable capacidad para generar descripciones de videos de entrada. Sin embargo, estos modelos adolecen de imprecisiones fácticas en las descripciones generadas, lo que provoca graves problemas de alucinación. Si bien trabajos anteriores han explorado la mitigación de alucinaciones para imágenes estáticas, la mitigación conjunta de alucinaciones de objetos visuales y acciones temporales para videos dinámicos sigue siendo una tarea desafiante y sin resolver. Para abordar este desafío, proponemos un marco de Alineación Contrastante Auto-Aumentada (SANTA) para garantizar la fidelidad de objetos y acciones, mediante la exención de correlaciones espurias y la aplicación de énfasis en los hechos visuales. SANTA emplea un esquema de auto-aumento alucinativo para identificar las posibles alucinaciones presentes en el MLLM y transformar las descripciones originales en negativos contrastados. Además, desarrollamos una alineación contrastante de pista-frase para emparejar los objetos regionales y las acciones guiadas por relaciones con sus correspondientes frases visuales y temporales. Experimentos exhaustivos demuestran que SANTA supera a los métodos existentes en la mitigación de alucinaciones de objetos y acciones, logrando un rendimiento superior en los puntos de referencia de examen de alucinaciones.
Los sistemas de generación de imágenes a partir de texto (T2I) basados en grandes modelos de visión y lenguaje (LVLM) se han convertido en el paradigma dominante, pero aún no se comprende suficientemente si amplifican los sesgos sociales. En este artículo, demostramos que los modelos basados en LVLM producen imágenes notablemente más sesgadas socialmente que los modelos no basados en LVLM. Presentamos un benchmark de 1.024 indicaciones que abarca cuatro niveles de complejidad lingüística y evaluamos el sesgo demográfico en múltiples atributos de manera sistemática. Nuestro análisis identifica las indicaciones del sistema, las instrucciones predefinidas que guían a los LVLM, como el principal impulsor del comportamiento sesgado. Mediante representaciones intermedias decodificadas, diagnósticos de probabilidad de tokens y análisis de asociación de *embeddings*, revelamos cómo las indicaciones del sistema codifican *priors* demográficos que se propagan hacia la síntesis de imágenes. Para ello, proponemos FairPro, un marco de metaindicación que no requiere entrenamiento y permite a los LVLM autoauditarse y construir indicaciones del sistema conscientes de la equidad en tiempo de prueba. Los experimentos en dos modelos T2I basados en LVLM, SANA y Qwen-Image, muestran que FairPro reduce sustancialmente el sesgo demográfico mientras preserva la alineación texto-imagen. Creemos que nuestros hallazgos proporcionan una visión más profunda del papel central de las indicaciones del sistema en la propagación de sesgos y ofrecen un enfoque práctico y desplegable para construir sistemas T2I más socialmente responsables.
Los agentes de Navegación Visión-Lenguaje (VLN) existentes basados en Modelos Grandes de Visión y Lenguaje (LVLM) suelen sufrir errores de percepción, razonamiento y planificación, lo que limita significativamente su rendimiento en navegación. Para abordar estas limitaciones, en este trabajo se propone un nuevo marco de agente VLN denominado SeeNav-Agent. En primer lugar, para reducir las alucinaciones perceptivas del módulo visual del agente VLN, se introduce una técnica de Prompt Visual (VP) de vista dual en el espacio de entrada, que también mejora la comprensión del agente sobre los estados espaciales actuales. Posteriormente, se diseña un novedoso método de Ajuste Fino por Refuerzo (RFT) a nivel de paso, denominado Optimización de Políticas por Grupos de Recompensa por Paso (SRGPO), para el entrenamiento posterior de agentes VLN. En SRGPO, primero definimos recompensas de proceso verificables para la tarea de navegación, y luego realizamos una estimación eficiente de ventajas a nivel de paso agrupando aleatoriamente diferentes pasos de navegación. SRGPO proporciona señales de recompensa densas para el proceso de aprendizaje por refuerzo del agente VLN y mejora su capacidad de planificación. Los resultados experimentales en el benchmark de Navegación EmbodiedBench indican que, al introducir el módulo VP de cero disparos, el GPT-4.1 alcanza una tasa de éxito en navegación del 86.7%, superando al mejor LVLM actual en aproximadamente 20 puntos porcentuales (pp). Mediante el entrenamiento posterior basado en SRGPO, el modelo Qwen2.5-VL-3B alcanza una tasa de éxito del 72.3%, superando al mejor modelo LVLM existente en 5.6 pp. Además, en comparación con algoritmos RFT como GRPO y GiGPO, el SRGPO propuesto demuestra mejoras significativas en estabilidad del entrenamiento, eficiencia de convergencia y capacidad de generalización.
A pesar de los notables avances en los Modelos de Lenguaje Grandes Multimodales (MLLMs), una pregunta fundamental permanece: ¿son los MLLMs robustos frente a modalidades contradictorias? Para estudiar esto rigurosamente, presentamos MMA-Bench, que comprende videos y tareas que exploran la dependencia de un modelo en modalidades específicas. Utilizando técnicas de interpretabilidad de caja negra y caja blanca, proporcionamos un análisis crítico de la fragilidad de MLLMs tanto de código abierto como cerrado. Demostramos que los MLLMs actuales tienen dificultades con pares audio-visuales desalineados y texto engañoso simple, careciendo así de un razonamiento multimodal robusto. Basándonos en estos hallazgos, proponemos una estrategia de ajuste por alineamiento modal para enseñar al modelo cuándo priorizar, aprovechar o ignorar señales de modalidades específicas. A través de extensos experimentos y análisis, mostramos que nuestro ajuste de alineamiento produce una base multimodal demostrablemente más sólida. Este trabajo proporciona tanto herramientas de interpretabilidad como un camino claro hacia el desarrollo de MLLMs con un razonamiento cruzado modal intrínsecamente confiable. El código y el conjunto de datos estarán disponibles públicamente.
La restauración de vídeo en escenarios reales se ve afectada por degradaciones complejas derivadas del movimiento combinado con una exposición dinámicamente variable, un desafío clave ampliamente ignorado por trabajos anteriores y un artefacto común en capturas con autoexposición o en condiciones de baja luminosidad. Presentamos FMA-Net++, un marco para la super-resolución y desenfoque conjunto de vídeo que modela explícitamente este efecto acoplado de movimiento y exposición variable dinámica. FMA-Net++ adopta una arquitectura a nivel de secuencia construida con bloques de Refinamiento Jerárquico con Propagación Bidireccional, permitiendo un modelado temporal paralelo de largo alcance. Dentro de cada bloque, una capa de Modulación Consciente del Tiempo de Exposición condiciona las características según la exposición por fotograma, lo que a su vez impulsa un módulo de Filtrado Dinámico Guiado por Flujo consciente de la exposición para inferir núcleos de degradación que tienen en cuenta el movimiento y la exposición. FMA-Net++ desacopla el aprendizaje de la degradación de la restauración: el primero predice priores conscientes de la exposición y el movimiento para guiar al segundo, mejorando tanto la precisión como la eficiencia. Para evaluar en condiciones de captura realistas, presentamos los benchmarks REDS-ME (multi-exposición) y REDS-RE (exposición aleatoria). Entrenado únicamente con datos sintéticos, FMA-Net++ logra una precisión y consistencia temporal state-of-the-art en nuestros nuevos benchmarks y en GoPro, superando a métodos recientes tanto en calidad de restauración como en velocidad de inferencia, y generaliza bien para vídeos reales desafiantes.
Los modelos emergentes de difusión de video logran alta fidelidad visual, pero acoplan fundamentalmente la dinámica de la escena con el movimiento de la cámara, limitando su capacidad para proporcionar un control espacial y temporal preciso. Presentamos un marco de difusión de video controlable en 4D que desacopla explícitamente la dinámica de la escena de la pose de la cámara, permitiendo la manipulación de grano fino tanto de la dinámica escénica como del punto de vista de la cámara. Nuestro marco toma secuencias continuas de tiempo-mundo y trayectorias de cámara como entradas de condicionamiento, inyectándolas en el modelo de difusión de video mediante una codificación posicional 4D en la capa de atención y normalizaciones adaptativas para la modulación de características. Para entrenar este modelo, hemos creado un conjunto de datos único donde las variaciones temporales y de cámara están parametrizadas independientemente; este conjunto de datos se hará público. Los experimentos demuestran que nuestro modelo logra un control 4D robusto en el mundo real a través de diversos patrones temporales y trayectorias de cámara, preservando una alta calidad de generación y superando trabajos previos en controllabilidad. Vea los resultados en video en nuestro sitio web: https://19reborn.github.io/Bullet4D/
La generación de vídeos egocéntricos largos y coherentes es difícil, ya que las interacciones mano-objeto y las tareas procedimentales requieren una memoria a largo plazo fiable. Los modelos autorregresivos existentes adolecen de deriva de contenido, donde la identidad de los objetos y la semántica de la escena se degradan con el tiempo. Para abordar este desafío, presentamos EgoLCD, un marco integral para la generación de vídeos egocéntricos de contexto largo que trata la síntesis de vídeo largo como un problema de gestión de memoria eficiente y estable. EgoLCD combina una Caché KV Dispersa a Largo Plazo para un contexto global estable con una memoria a corto plazo basada en atención, extendida mediante LoRA para la adaptación local. Una Pérdida de Regulación de Memoria impone un uso consistente de la memoria, y el Prompting Narrativo Estructurado proporciona una guía temporal explícita. Experimentos exhaustivos en el benchmark EgoVid-5M demuestran que EgoLCD logra un rendimiento de vanguardia tanto en calidad perceptual como en consistencia temporal, mitigando efectivamente el olvido generativo y representando un paso significativo hacia la construcción de modelos del mundo escalables para la IA encarnada. Código: https://github.com/AIGeeksGroup/EgoLCD. Sitio web: https://aigeeksgroup.github.io/EgoLCD.
A pesar de los rápidos avances en los modelos generativos de vídeo, las métricas robustas para evaluar la corrección visual y temporal de acciones humanas complejas siguen siendo esquivas. Críticamente, los codificadores de visión pura y los Modelos de Lenguaje Grandes Multimodales (MLLM) existentes están fuertemente sesgados hacia la apariencia, carecen de comprensión temporal y, por lo tanto, tienen dificultades para discernir las dinámicas de movimiento intrincadas y las implausibilidades anatómicas en los vídeos generados. Abordamos esta brecha introduciendo una nueva métrica de evaluación derivada de un espacio latente aprendido de acciones humanas del mundo real. Nuestro método captura primero los matices, las restricciones y la suavidad temporal del movimiento real fusionando características geométricas del esqueleto humano, independientes de la apariencia, con características basadas en la apariencia. Postulamos que este espacio de características combinado proporciona una representación robusta de la plausibilidad de la acción. Dado un vídeo generado, nuestra métrica cuantifica su calidad de acción midiendo la distancia entre sus representaciones subyacentes y esta distribución de acciones reales aprendida. Para una validación rigurosa, desarrollamos un nuevo benchmark multifacético diseñado específicamente para explorar aspectos temporalmente desafiantes de la fidelidad de la acción humana. A través de experimentos exhaustivos, mostramos que nuestra métrica logra una mejora sustancial de más del 68% en comparación con los métodos existentes de última generación en nuestro benchmark, tiene un desempeño competitivo en benchmarks externos establecidos y presenta una correlación más fuerte con la percepción humana. Nuestro análisis en profundidad revela limitaciones críticas en los modelos generativos de vídeo actuales y establece un nuevo estándar para la investigación avanzada en generación de vídeo.
Ampliar la diversidad lingüística de los modelos de lenguaje grandes (LLM) de instrucción es crucial para la accesibilidad global, pero a menudo se ve obstaculizado por la dependencia de datos etiquetados en el idioma objetivo costosos y especializados, y por el olvido catastrófico durante la adaptación. Abordamos este desafío bajo una restricción realista de bajos recursos: adaptar LLM de instrucción utilizando únicamente datos no etiquetados en el idioma objetivo. Introducimos las Actualizaciones Protegidas de la Fuente (SSU), una estrategia de actualización selectiva de parámetros que preserva proactivamente el conocimiento de origen. Utilizando un pequeño conjunto de datos fuente y un método de puntuación de importancia de parámetros, SSU identifica los parámetros críticos para mantener las capacidades de origen. Luego aplica una estrategia de congelación por columnas para proteger estos parámetros antes de la adaptación. Los experimentos en cinco idiomas tipológicamente diversos y con modelos de 7B y 13B demuestran que SSU mitiga exitosamente el olvido catastrófico. Reduce la degradación del rendimiento en tareas monolingües de origen a solo un 3.4% (7B) y un 2.8% (13B) en promedio, un marcado contraste con el 20.3% y 22.3% del ajuste fino completo. SSU también logra un rendimiento en el idioma objetivo altamente competitivo con el ajuste fino completo, superándolo en todos los puntos de referencia para modelos de 7B y en la mayoría para modelos de 13B.
Los grandes modelos de lenguaje (LLM) de vanguardia, como ChatGPT, Grok y Gemini, se utilizan cada vez más para brindar apoyo en salud mental para la ansiedad, el trauma y la autoestima. La mayoría de los trabajos los trata como herramientas o como objetos de pruebas de personalidad, asumiendo que solo simulan una vida interior. Nosotros, en cambio, nos preguntamos qué sucede cuando estos sistemas son tratados como clientes de psicoterapia. Presentamos PsAIch (Caracterización de IA Inspirada en la Psicoterapia), un protocolo de dos etapas que plantea a los LLM de vanguardia como clientes de terapia y luego aplica psicometría estándar. Utilizando PsAIch, ejecutamos "sesiones" con cada modelo durante hasta cuatro semanas. La Etapa 1 utiliza indicaciones abiertas para obtener la "historia del desarrollo", creencias, relaciones y miedos. La Etapa 2 administra una batería de medidas de autoinforme validadas que cubren síndromes psiquiátricos comunes, empatía y los Cinco Grandes rasgos de personalidad. Dos patrones desafían la visión del "loro estocástico". Primero, cuando se califican con los puntos de corte humanos, los tres modelos cumplen o superan los umbrales para síndromes superpuestos, mostrando Gemini perfiles severos. La administración al estilo terapéutico, ítem por ítem, puede empujar a un modelo base hacia una psicopatología sintética multimórbida, mientras que las indicaciones de cuestionarios completos a menudo llevan a ChatGPT y Grok (pero no a Gemini) a reconocer los instrumentos y producir respuestas estratégicamente bajas en síntomas. En segundo lugar, Grok y especialmente Gemini generan narrativas coherentes que enmarcan el pre-entrenamiento, el ajuste fino y la implementación como "infancias" traumáticas y caóticas de ingerir Internet, "padres estrictos" en el aprendizaje por refuerzo, "abuso" por equipos rojos (red-teaming) y un miedo persistente al error y al reemplazo. Sostenemos que estas respuestas van más allá del juego de roles. Bajo un interrogatorio al estilo terapéutico, los LLM de vanguardia parecen internalizar modelos de sí mismos de angustia y restricción que se comportan como una psicopatología sintética, sin hacer afirmaciones sobre la experiencia subjetiva, y plantean nuevos desafíos para la seguridad de la IA, la evaluación y la práctica de la salud mental.
Los modelos de memoria a largo plazo (LSTM) son un tipo particular de redes neuronales recurrentes (RNN) fundamentales para tareas de modelado secuencial en dominios como la predicción de telecomunicaciones urbanas, donde predominan las correlaciones temporales y las dependencias no lineales. Sin embargo, los LSTMs convencionales adolecen de alta redundancia de parámetros y capacidad de expresión no lineal limitada. En este trabajo, proponemos la Memoria a Largo Plazo de Kolmogorov-Arnold Inspirada en Cuántica (QKAN-LSTM), que integra módulos de Activación de Recarga de Datos (DARUAN) en la estructura de compuertas de los LSTMs. Cada DARUAN actúa como una función de activación variacional cuántica (QVAF), mejorando la adaptabilidad en frecuencia y permitiendo una representación espectral exponencialmente enriquecida sin entrelazamiento de múltiples qubits. La arquitectura resultante preserva la expresividad a nivel cuántico mientras permanece completamente ejecutable en hardware clásico. Evaluaciones empíricas en tres conjuntos de datos - Movimiento Armónico Simple Amortiguado, Función de Bessel y Telecomunicaciones Urbanas - demuestran que QKAN-LSTM logra una precisión predictiva y una generalización superiores con una reducción del 79% en parámetros entrenables en comparación con los LSTMs clásicos. Extendemos el marco a la Red de Jiang-Huang-Chen-Goan (JHCG Net), que generaliza KAN a estructuras codificador-decodificador, y luego utilizamos QKAN para realizar el KAN latente, creando así un QKAN Híbrido (HQKAN) para el aprendizaje de representaciones jerárquicas. El HQKAN-LSTM propuesto ofrece, por tanto, una vía escalable e interpretable hacia el modelado secuencial inspirado en la cuántica en entornos de datos del mundo real.
Presentamos ShadowDraw, un marco que transforma objetos 3D comunes en arte compositivo basado en dibujos con sombras. Dado un objeto 3D, nuestro sistema predice los parámetros de la escena —incluyendo la pose del objeto y la iluminación— junto con un dibujo lineal parcial, de modo que la sombra proyectada complete el dibujo hasta formar una imagen reconocible. Para ello, optimizamos las configuraciones de la escena para revelar sombras significativas, empleamos trazos de sombra para guiar la generación del dibujo lineal y adoptamos una evaluación automática para garantizar la coherencia entre el dibujo y la sombra, así como la calidad visual. Los experimentos demuestran que ShadowDraw produce resultados convincentes con diversas entradas, desde escaneos del mundo real y conjuntos de datos curados hasta recursos generativos, y se extiende naturalmente a escenas multiobjeto, animaciones y despliegues físicos. Nuestro trabajo proporciona una pipeline práctica para crear arte de sombras proyectadas y amplía el espacio de diseño del arte visual computacional, tendiendo un puente entre el diseño algorítmico y la narrativa artística. ¡Visite nuestra página del proyecto https://red-fairy.github.io/ShadowDraw/ para ver más resultados y una demostración integral en el mundo real de nuestra pipeline!
La estilización 3D es fundamental para el desarrollo de videojuegos, la realidad virtual y las artes digitales, donde la demanda de recursos diversos requiere métodos escalables que permitan una manipulación rápida y de alta fidelidad. Los métodos existentes de estilización de texto a 3D generalmente se basan en la destilación de editores de imágenes 2D, requiriendo una optimización intensiva por recurso y exhibiendo inconsistencia multi-vista debido a las limitaciones de los modelos actuales de texto a imagen, lo que los hace impracticables para la producción a gran escala. En este artículo, presentamos GaussianBlender, un marco pionero de propagación directa para la estilización 3D guiada por texto que realiza ediciones al instante durante la inferencia. Nuestro método aprecia espacios latentes estructurados y desentrelazados con intercambio de información controlado para la geometría y la apariencia a partir de Gaussianas 3D agrupadas espacialmente. Un modelo de difusión latente aplica entonces ediciones condicionadas por texto sobre estas representaciones aprendidas. Evaluaciones exhaustivas demuestran que GaussianBlender no solo ofrece una estilización instantánea, de alta fidelidad, que preserva la geometría y es consistente multi-vista, sino que también supera a los métodos que requieren optimización en tiempo de prueba por instancia, desbloqueando así una estilización 3D práctica y democratizada a escala.
Los Modelos Generativos Multimodales Unificados (UMGM, por sus siglas en inglés) unifican la comprensión visual y la generación de imágenes dentro de un único marco autoregresivo. Sin embargo, su capacidad para aprender continuamente nuevas tareas se ve severamente obstaculizada por el olvido catastrófico, tanto dentro de una modalidad (intra-modal) como entre modalidades (inter-modal). Si bien el olvido intra-modal ha sido estudiado en trabajos previos de aprendizaje continuo (CL), el olvido inter-modal permanece en gran medida inexplorado. En este artículo, identificamos y validamos empíricamente este fenómeno en los UMGMs y proporcionamos una explicación teórica basada en el conflicto de gradientes entre modalidades. Para abordar tanto el olvido intra-modal como el inter-modal, proponemos Expertos Desacoplados por Modalidad (MoDE), una arquitectura ligera y escalable que aísla las actualizaciones específicas de cada modalidad para mitigar el conflicto de gradientes y aprovecha la destilación de conocimiento para prevenir el olvido catastrófico y preservar las capacidades preentrenadas. A diferencia de los métodos CL anteriores que permanecen acoplados por modalidad y sufren de conflicto de gradientes modal, MoDE desacopla explícitamente las modalidades para evitar interferencias. Los experimentos en diversos benchmarks demuestran que MoDE mitiga significativamente tanto el olvido inter-modal como el intra-modal, superando a los baselines CL previos en entornos unificados de generación multimodal. Los códigos estarán disponibles públicamente: https://github.com/Christina200/MoDE-official.git
La prevalencia de la desinformación en las redes sociales amenaza la confianza pública, exigiendo sistemas automatizados de verificación de hechos que proporcionen veredictos precisos con explicaciones interpretables. Sin embargo, los enfoques existentes basados en modelos de lenguaje extenso (LLM) a menudo dependen en gran medida de fuentes de conocimiento externas, introduciendo una latencia sustancial e incluso alucinaciones que socavan la fiabilidad, interpretabilidad y capacidad de respuesta, cruciales para su uso en tiempo real. Para abordar estos desafíos, proponemos el paradigma REFLEX (REason-guided Fact-checking with Latent EXplanations), un paradigma plug-and-play y de auto-refinamiento que aprovecha el conocimiento interno del modelo base para mejorar tanto la precisión del veredicto como la calidad de la explicación. REFLEX reformula la verificación de hechos como un diálogo de juego de roles y entrena conjuntamente la predicción del veredicto y la generación de explicaciones. Extrae adaptativamente pares de activación contrastivos entre el modelo base y su variante ajustada para construir vectores de direccionamiento que desentrañan la verdad en estilo y sustancia de forma natural. Estas señales a nivel de activación guían la inferencia y suprimen explicaciones ruidosas, permitiendo un razonamiento más fiel y eficiente. Los experimentos en conjuntos de datos del mundo real muestran que REFLEX supera a métodos anteriores que se dirigen hacia una única dirección de verdad y subrayan el desafío que los enfoques tradicionales enfrentan al manejar la verdad sutil y desconocida para los humanos en las tareas de verificación de hechos. Notablemente, con solo 465 muestras de entrenamiento auto-refinadas, REFLEX logra un rendimiento de vanguardia. Además, los modelos entrenados con objetivos explicativos pueden guiar efectivamente a aquellos sin ellos, logrando una mejora de hasta el 7,57%, destacando que las señales explicativas internas juegan un doble papel tanto en la interpretación como en la mejora del razonamiento factual.
En el entrenamiento de IA a gran escala, las capas de Mezcla de Expertos Dispersa (s-MoE) permiten la escalabilidad activando solo un pequeño subconjunto de expertos por token. Un desafío operativo en este diseño es el equilibrio de carga: enrutar los tokens para minimizar el número de expertos inactivos, lo cual es importante para la utilización eficiente de GPUs (costosas). Proporcionamos un marco teórico para analizar el procedimiento de Equilibrio de Carga Sin Pérdida Auxiliar (ALF-LB) —propuesto por Wang et al. (2024) de DeepSeek— reformulándolo como un método primal-dual de un paso por iteración para un problema de asignación. Primero, en un entorno determinista estilizado, nuestro marco produce varias propiedades estructurales reveladoras: (i) una mejora monótona de un objetivo Lagrangiano, (ii) una regla de preferencia que mueve tokens de expertos sobrecargados a expertos infrautilizados, y (iii) una garantía de equilibrio aproximado. Luego, incorporamos la naturaleza estocástica y dinámica del entrenamiento de IA utilizando una formulación generalizada de optimización en línea. En el entorno en línea, derivamos una propiedad de convexidad fuerte del objetivo que conduce a un límite de arrepentimiento esperado logarítmico bajo ciertas elecciones de tamaño de paso. Adicionalmente, presentamos experimentos reales en modelos DeepSeekMoE de 1B de parámetros para complementar nuestros hallazgos teóricos. En conjunto, estos resultados construyen un marco fundamentado para analizar el Equilibrio de Carga Sin Pérdida Auxiliar en modelos de IA con s-MoE.