Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en el procesamiento del lenguaje natural. Los avances recientes han llevado al desarrollo de una nueva clase de LLMs de razonamiento; por ejemplo, el modelo de código abierto DeepSeek-R1 ha alcanzado un rendimiento de vanguardia al integrar pensamiento profundo y razonamiento complejo. A pesar de estas capacidades impresionantes, los mecanismos internos de razonamiento de dichos modelos siguen sin explorarse. En este trabajo, empleamos Autoencoders Dispersos (SAEs, por sus siglas en inglés), un método para aprender una descomposición dispersa de las representaciones latentes de una red neuronal en características interpretables, con el fin de identificar las características que impulsan el razonamiento en la serie de modelos DeepSeek-R1. Primero, proponemos un enfoque para extraer "características de razonamiento" candidatas a partir de las representaciones de los SAEs. Validamos estas características mediante análisis empírico y métodos de interpretabilidad, demostrando su correlación directa con las habilidades de razonamiento del modelo. De manera crucial, demostramos que la manipulación sistemática de estas características mejora el rendimiento del razonamiento, ofreciendo la primera explicación mecanicista del razonamiento en los LLMs. El código está disponible en https://github.com/AIRI-Institute/SAE-Reasoning.
Con la capacidad de escalar datos de entrenamiento, tamaño de modelos y costos computacionales, la generación de videos ha logrado resultados impresionantes en la creación digital, permitiendo a los usuarios expresar su creatividad en diversos dominios. Recientemente, los investigadores en Modelos de Lenguaje de Gran Escala (LLMs) han extendido esta escalabilidad al tiempo de prueba, lo que puede mejorar significativamente el rendimiento de los LLMs al utilizar más cómputo durante la inferencia. En lugar de escalar modelos base de video mediante costosos entrenamientos, exploramos el poder de la Escalabilidad en Tiempo de Prueba (TTS) en la generación de videos, buscando responder a la pregunta: si a un modelo de generación de videos se le permite utilizar una cantidad no trivial de cómputo durante la inferencia, ¿cuánto puede mejorar la calidad de la generación dado un texto desafiante? En este trabajo, reinterpretamos la escalabilidad en tiempo de prueba de la generación de videos como un problema de búsqueda para muestrear trayectorias mejores desde el espacio de ruido gaussiano hacia la distribución de videos objetivo. Específicamente, construimos el espacio de búsqueda con verificadores en tiempo de prueba para proporcionar retroalimentación y algoritmos heurísticos para guiar el proceso de búsqueda. Dado un texto, primero exploramos una estrategia de búsqueda lineal intuitiva al aumentar los candidatos de ruido durante la inferencia. Como la eliminación de ruido en todos los fotogramas simultáneamente requiere un alto costo computacional en tiempo de prueba, diseñamos un método TTS más eficiente para la generación de videos llamado Árbol-de-Fotogramas (ToF), que expande y poda ramas de video de manera autoregresiva. Experimentos extensos en benchmarks de generación de videos condicionados por texto demuestran que aumentar el cómputo en tiempo de prueba conduce consistentemente a mejoras significativas en la calidad de los videos. Página del proyecto: https://liuff19.github.io/Video-T1
El desarrollo moderno de videojuegos enfrenta desafíos significativos en creatividad y costos debido al contenido predeterminado en los motores de juego tradicionales. Los recientes avances en modelos de generación de video, capaces de sintetizar entornos virtuales realistas e interactivos, presentan una oportunidad para revolucionar la creación de juegos. En este documento de posición, proponemos el Video Generativo Interactivo (IGV, por sus siglas en inglés) como la base para los Motores de Juego Generativos (GGE, por sus siglas en inglés), permitiendo la generación ilimitada de contenido novedoso en la próxima generación de videojuegos. Los GGE aprovechan las fortalezas únicas del IGV en la síntesis ilimitada de contenido de alta calidad, el modelado de mundos conscientes de la física, la interactividad controlada por el usuario, capacidades de memoria a largo plazo y razonamiento causal. Presentamos un marco integral que detalla los módulos centrales de los GGE y una hoja de ruta de madurez jerárquica (L0-L4) para guiar su evolución. Nuestro trabajo traza un nuevo rumbo para el desarrollo de videojuegos en la era de la IA, visualizando un futuro en el que los sistemas generativos impulsados por IA transformen fundamentalmente cómo se crean y experimentan los juegos.
DeepSeek-R1 ha demostrado que el razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) extenso puede surgir de manera natural a través de un marco simple de aprendizaje por refuerzo (RL, por sus siglas en inglés) con recompensas basadas en reglas, donde el entrenamiento puede comenzar directamente desde los modelos base, un paradigma conocido como entrenamiento RL cero. Los esfuerzos más recientes para reproducir el entrenamiento RL cero se han centrado principalmente en la serie de modelos Qwen2.5, lo cual puede no ser representativo, ya que encontramos que los modelos base ya exhiben fuertes habilidades de seguimiento de instrucciones y autorreflexión. En este trabajo, investigamos el entrenamiento RL cero en 10 modelos base diversos, abarcando diferentes familias y tamaños, incluyendo LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B y todos los modelos Qwen2.5 desde 0.5B hasta 32B. Aprovechando varias estrategias clave de diseño, como ajustar la recompensa de formato y controlar la dificultad de las consultas, logramos mejoras sustanciales tanto en la precisión del razonamiento como en la longitud de las respuestas en la mayoría de los escenarios. Sin embargo, al monitorear cuidadosamente la dinámica del entrenamiento, observamos que diferentes modelos base exhiben patrones distintos durante el entrenamiento. Por ejemplo, el aumento en la longitud de las respuestas no siempre se correlaciona con la aparición de ciertos comportamientos cognitivos, como la verificación (es decir, el "momento eureka"). Notablemente, observamos el "momento eureka" por primera vez en modelos pequeños que no pertenecen a la familia Qwen. Compartimos los diseños clave que permiten un entrenamiento RL cero exitoso, junto con nuestros hallazgos y prácticas. Para facilitar investigaciones futuras, hemos hecho de código abierto el código, los modelos y las herramientas de análisis.
La integración de la reconstrucción geométrica y el modelado generativo sigue siendo un desafío crítico en el desarrollo de sistemas de IA capaces de razonamiento espacial similar al humano. Este artículo propone Aether, un marco unificado que permite el razonamiento consciente de la geometría en modelos del mundo mediante la optimización conjunta de tres capacidades principales: (1) reconstrucción dinámica 4D, (2) predicción de video condicionada por acciones y (3) planificación visual condicionada por objetivos. A través del aprendizaje de características intercaladas por tareas, Aether logra un intercambio sinérgico de conocimientos entre los objetivos de reconstrucción, predicción y planificación. Basándose en modelos de generación de video, nuestro marco demuestra una generalización sintético-real sin precedentes a pesar de no observar datos del mundo real durante el entrenamiento. Además, nuestro enfoque logra generalización de cero disparos tanto en tareas de seguimiento de acciones como en reconstrucción, gracias a su modelado geométrico intrínseco. Notablemente, incluso sin datos del mundo real, su rendimiento en reconstrucción supera ampliamente el de modelos específicos de dominio. Adicionalmente, Aether aprovecha un espacio de acciones informado por la geometría para traducir predicciones en acciones de manera fluida, permitiendo una planificación autónoma de trayectorias efectiva. Esperamos que nuestro trabajo inspire a la comunidad a explorar nuevas fronteras en el modelado del mundo físicamente razonable y sus aplicaciones.
Omnimatte tiene como objetivo descomponer un video dado en capas semánticamente significativas, incluyendo el fondo y objetos individuales junto con sus efectos asociados, como sombras y reflejos. Los métodos existentes a menudo requieren un entrenamiento extenso o una costosa optimización autosupervisada. En este artículo, presentamos OmnimatteZero, un enfoque sin entrenamiento que aprovecha modelos de difusión de video preentrenados listos para usar para omnimatte. Puede eliminar objetos de videos, extraer capas de objetos individuales junto con sus efectos, y componer esos objetos en nuevos videos. Logramos esto adaptando técnicas de inpaint de imágenes en modo zero-shot para la eliminación de objetos en video, una tarea que no manejan efectivamente de forma predeterminada. Luego demostramos que los mapas de autoatención capturan información sobre el objeto y sus huellas, y los usamos para inpaint los efectos del objeto, dejando un fondo limpio. Además, mediante aritmética latente simple, las capas de objetos pueden aislarse y recombinarse sin problemas con nuevas capas de video para producir nuevos videos. Las evaluaciones muestran que OmnimatteZero no solo logra un rendimiento superior en términos de reconstrucción de fondo, sino que también establece un nuevo récord como el enfoque de Omnimatte más rápido, alcanzando un rendimiento en tiempo real con un tiempo de ejecución mínimo por fotograma.
El progreso en el descubrimiento científico rara vez es el resultado de un único momento "Eureka", sino más bien el producto de cientos de científicos trabajando de manera incremental hacia un objetivo común. Si bien los flujos de trabajo de agentes existentes son capaces de producir investigación de forma autónoma, lo hacen de manera aislada, sin la capacidad de mejorar continuamente los resultados de investigaciones previas. Para abordar estos desafíos, presentamos AgentRxiv, un marco que permite a los laboratorios de agentes basados en LLM cargar y recuperar informes de un servidor de preprints compartido, con el fin de colaborar, compartir ideas y construir de manera iterativa sobre las investigaciones de los demás. Asignamos a los laboratorios de agentes la tarea de desarrollar nuevas técnicas de razonamiento y prompting, y encontramos que los agentes con acceso a sus investigaciones previas logran mejoras de rendimiento superiores en comparación con los agentes que operan de forma aislada (una mejora relativa del 11,4% sobre la línea base en MATH-500). Descubrimos que la estrategia de mejor rendimiento se generaliza a puntos de referencia en otros dominios (mejorando en promedio un 3,3%). Múltiples laboratorios de agentes que comparten investigación a través de AgentRxiv son capaces de trabajar juntos hacia un objetivo común, progresando más rápidamente que los laboratorios aislados y logrando una mayor precisión general (una mejora relativa del 13,7% sobre la línea base en MATH-500). Estos hallazgos sugieren que los agentes autónomos podrían desempeñar un papel en el diseño de futuros sistemas de IA junto con los humanos. Esperamos que AgentRxiv permita a los agentes colaborar hacia objetivos de investigación y ayude a los investigadores a acelerar el descubrimiento.
La Guía Libre de Clasificadores (Classifier-Free Guidance, CFG) es una técnica ampliamente adoptada en modelos de difusión/flujo para mejorar la fidelidad y controlabilidad de las imágenes. En este trabajo, primero estudiamos analíticamente el efecto de CFG en modelos de emparejamiento de flujo entrenados con mezclas gaussianas, donde el flujo verdadero puede derivarse. Observamos que, en las primeras etapas del entrenamiento, cuando la estimación del flujo es imprecisa, CFG dirige las muestras hacia trayectorias incorrectas. Basándonos en esta observación, proponemos CFG-Zero*, una versión mejorada de CFG con dos contribuciones: (a) escala optimizada, donde un escalar se optimiza para corregir las imprecisiones en la velocidad estimada, de ahí el * en el nombre; y (b) inicialización cero (zero-init), que implica anular los primeros pasos del solucionador de EDO. Los experimentos en generación de texto a imagen (Lumina-Next, Stable Diffusion 3 y Flux) y de texto a video (Wan-2.1) demuestran que CFG-Zero* supera consistentemente a CFG, destacando su efectividad en la guía de modelos de Emparejamiento de Flujo. (El código está disponible en github.com/WeichenFan/CFG-Zero-star).
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se están implementando cada vez más en sistemas agentes que interactúan con un entorno externo. Sin embargo, los agentes basados en LLMs son vulnerables a ataques de inyección de prompts cuando manejan datos no confiables. En este artículo proponemos CaMeL, una defensa robusta que crea una capa de protección alrededor del LLM, asegurándolo incluso cuando los modelos subyacentes pueden ser susceptibles a ataques. Para funcionar, CaMeL extrae explícitamente los flujos de control y datos de la consulta (confiable); por lo tanto, los datos no confiables recuperados por el LLM nunca pueden afectar el flujo del programa. Para mejorar aún más la seguridad, CaMeL se basa en la noción de capacidad para prevenir la exfiltración de datos privados a través de flujos de datos no autorizados. Demostramos la efectividad de CaMeL al resolver el 67% de las tareas con seguridad comprobable en AgentDojo [NeurIPS 2024], un reciente benchmark de seguridad para agentes.
Evaluar modelos fundacionales generativos en tareas de comprensión multimodal abierta (MMU) y generación multimodal (MMG) a través de diversas modalidades (por ejemplo, imágenes, audio, video) presenta desafíos significativos debido a la complejidad de las interacciones entre modalidades. Con este fin, ha surgido la idea de utilizar modelos de lenguaje multimodal (MLLMs) como jueces automatizados, obteniendo resultados alentadores en la evaluación de tareas de comprensión visión-lenguaje. Avanzando más, este artículo extiende el enfoque de MLLM-como-juez a través de modalidades de manera unificada, introduciendo dos benchmarks, TaskAnything y JudgeAnything, para evaluar respectivamente el rendimiento general y las capacidades de juicio de los MLLMs en tareas de cualquier-a-cualquier modalidad. Específicamente, TaskAnything evalúa las capacidades de MMU y MMG en 15 categorías de cualquier-a-cualquier modalidad, empleando 1,500 consultas seleccionadas de benchmarks bien establecidos. Además, JudgeAnything evalúa las capacidades de juicio de 5 modelos avanzados (por ejemplo, GPT-4o y Gemini-2.0-Flash) desde las perspectivas de Comparación por Pares y Evaluación de Puntajes, proporcionando un entorno de prueba estandarizado que incorpora juicios humanos y rúbricas detalladas. Nuestros extensos experimentos revelan que, aunque estos MLLMs muestran potencial en la evaluación de MMU (es decir, alcanzando un promedio de 66.55% en el escenario de Comparación por Pares y 42.79% en el escenario de Evaluación de Puntajes), enfrentan desafíos significativos con las tareas de MMG (es decir, promediando solo 53.37% en Comparación por Pares y 30.05% en Evaluación de Puntajes), exponiendo sesgos entre modalidades y problemas de alucinación. Para abordar esto, presentamos OmniArena, una plataforma automatizada para evaluar modelos omni y modelos de recompensa multimodal. Nuestro trabajo destaca la necesidad de protocolos de evaluación más justos y una mayor alineación con las preferencias humanas. El código fuente y el conjunto de datos están disponibles públicamente en: https://urrealhero.github.io/judgeanythingweb/.
Presentamos FFN Fusion, una técnica de optimización arquitectónica que reduce el cómputo secuencial en modelos de lenguaje grandes al identificar y aprovechar oportunidades naturales de paralelización. Nuestra idea clave es que las secuencias de capas de Redes Feed-Forward (FFN), particularmente aquellas que permanecen tras la eliminación de capas de atención específicas, a menudo pueden paralelizarse con un impacto mínimo en la precisión. Desarrollamos una metodología fundamentada para identificar y fusionar dichas secuencias, transformándolas en operaciones paralelas que reducen significativamente la latencia de inferencia mientras preservan el comportamiento del modelo. Al aplicar estas técnicas a Llama-3.1-405B-Instruct, creamos Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), un modelo eficiente y próximamente disponible públicamente que logra una aceleración de 1.71X en la latencia de inferencia y un costo 35X menor por token, manteniendo un rendimiento sólido en diversos benchmarks. A través de experimentos exhaustivos en modelos que van desde 49B hasta 253B parámetros, demostramos que FFN Fusion se vuelve cada vez más efectiva a escalas mayores y puede complementar técnicas de optimización existentes como la cuantización y la poda. Más intrigantemente, encontramos que incluso bloques completos de transformadores que contienen tanto capas de atención como FFN pueden paralelizarse en ocasiones, sugiriendo nuevas direcciones para el diseño de arquitecturas neuronales.
Los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) suelen seguir un paradigma de entrenamiento en dos etapas: preentrenamiento y ajuste fino supervisado. Recientemente, la optimización de preferencias, derivada del dominio del lenguaje, ha surgido como una estrategia efectiva de refuerzo post-entrenamiento para mejorar las capacidades de los LVLMs. Sin embargo, la construcción de datos de preferencias anotados por humanos de alta calidad y el desarrollo de modelos de recompensa robustos para imitar estas preferencias son tareas costosas y desafiantes. Motivados por esta observación, proponemos Vision-R1, un novedoso algoritmo de aprendizaje por refuerzo similar a R1 guiado por visión para LVLMs que recompensa a los modelos con retroalimentación visual definitiva. Este enfoque solo utiliza datos de instrucciones curados, eliminando la necesidad de modelos de recompensa especializados y conjuntos de datos de preferencias elaborados manualmente. Incorporamos una función de recompensa basada en criterios que integra retroalimentación multidimensional para evaluar de manera integral las respuestas del modelo según la lógica de la tarea visual. Además, introducimos una estrategia de refinamiento progresivo de reglas que ajusta dinámicamente los criterios de recompensa durante el entrenamiento, permitiendo una mejora continua del modelo y mitigando el "hacking de recompensas". Experimentos exhaustivos en benchmarks tanto dentro como fuera de la distribución demuestran que el ajuste fino de los LVLMs de 7B con Vision-R1 logra mejoras consistentes en el rendimiento, con incrementos de hasta el 50% y superando incluso al modelo de última generación 10 veces más grande.
Los modelos generativos actuales, como los enfoques autorregresivos y de difusión, descomponen el aprendizaje de distribuciones de datos de alta dimensionalidad en una serie de subtareas más simples. Sin embargo, surgen conflictos inherentes durante la optimización conjunta de estas subtareas, y las soluciones existentes no logran resolver dichos conflictos sin sacrificar la eficiencia o la escalabilidad. Proponemos un novedoso marco de modelado de imágenes equivariante que alinea intrínsecamente los objetivos de optimización entre subtareas al aprovechar la invariancia traslacional de las señales visuales naturales. Nuestro método introduce (1) una tokenización por columnas que mejora la simetría traslacional a lo largo del eje horizontal, y (2) una atención causal en ventanas que refuerza relaciones contextuales consistentes entre posiciones. Evaluado en la generación de imágenes condicionadas por clase en ImageNet a una resolución de 256x256, nuestro enfoque alcanza un rendimiento comparable al de los modelos AR de última generación mientras utiliza menos recursos computacionales. Un análisis sistemático demuestra que una mayor equivariancia reduce los conflictos entre tareas, mejorando significativamente la generalización en modo zero-shot y permitiendo la síntesis de imágenes ultra largas. Este trabajo establece el primer marco para la descomposición alineada de tareas en el modelado generativo, ofreciendo ideas sobre el uso eficiente de parámetros compartidos y la optimización libre de conflictos. El código y los modelos están disponibles públicamente en https://github.com/drx-code/EquivariantModeling.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una capacidad notable de razonamiento para resolver problemas matemáticos. Sin embargo, los enfoques existentes se centran principalmente en mejorar la calidad de los datos de entrenamiento correctos, por ejemplo, destilando soluciones correctas de alta calidad a partir de modelos avanzados, descuidando el valor contenido en los datos de errores, lo que potencialmente obstaculiza la capacidad reflexiva del modelo. Aunque algunos estudios intentan aprovechar los datos de errores, a menudo involucran mecanismos complejos, como la Búsqueda de Árbol de Monte Carlo (MCTS) para explorar nodos de error. En este trabajo, proponemos mejorar la capacidad de razonamiento de los LLMs mediante el Aprendizaje a partir de Errores para el Avance Matemático (LEMMA, por sus siglas en inglés). LEMMA construye datos que consisten en una solución incorrecta con un paso erróneo y una conexión de reflexión a una solución correcta para el ajuste fino. Específicamente, analizamos sistemáticamente los tipos de errores generados por el modelo e introducimos un método de aumento de errores basado en tipos de errores para recopilar errores diversos y representativos. Las soluciones correctas provienen de corregir los errores o de generar un nuevo comienzo. A través de una conexión de reflexión suave consciente del modelo, la solución errónea se transfiere a la correcta. Al ajustar el modelo en el conjunto de datos construido, este es capaz de autocorregir errores de manera autónoma dentro del proceso de generación sin depender de modelos de crítica externos. Los resultados experimentales demuestran que LEMMA logra mejoras significativas en el rendimiento en comparación con otras líneas de base sólidas.
El escalado computacional para el preentrenamiento de modelos de lenguaje (LM) ha superado el crecimiento de los textos escritos por humanos, lo que ha generado preocupación de que los datos se conviertan en el cuello de botella para el escalado de los LM. Para continuar escalando el preentrenamiento en este régimen limitado por datos, proponemos que modelar e inferir explícitamente los pensamientos latentes que subyacen al proceso de generación de texto puede mejorar significativamente la eficiencia de los datos en el preentrenamiento. Intuitivamente, nuestro enfoque considera el texto web como el resultado comprimido de un proceso de pensamiento humano más detallado, y que los pensamientos latentes contienen conocimiento contextual y pasos de razonamiento críticos para un aprendizaje eficiente en términos de datos. Demostramos empíricamente la efectividad de nuestro enfoque a través del preentrenamiento continuo en un entorno limitado por datos para matemáticas. Primero, mostramos que los enfoques de datos sintéticos para inferir pensamientos latentes mejoran significativamente la eficiencia de los datos, superando el entrenamiento con la misma cantidad de datos brutos (5.7\% \rightarrow 25.4\% en MATH). Además, demostramos la inferencia de pensamientos latentes sin un profesor fuerte, donde un LM mejora su propio rendimiento utilizando un algoritmo EM para mejorar iterativamente la capacidad del LM entrenado y la calidad de los datos de preentrenamiento aumentados con pensamientos. Mostramos que un LM de 1B puede mejorar su rendimiento a través de al menos tres iteraciones y superar significativamente a los modelos de referencia entrenados con datos brutos, con ganancias crecientes al aumentar el cómputo de inferencia al realizar el paso E. Las ganancias obtenidas del escalado de inferencia y las iteraciones EM sugieren nuevas oportunidades para escalar el preentrenamiento en entornos limitados por datos.
La conversión de Lenguaje Natural a SQL (NL2SQL) ha experimentado avances significativos con los modelos de lenguaje grandes (LLMs). Sin embargo, estos modelos suelen depender de sistemas de código cerrado y altos recursos computacionales, lo que plantea desafíos en la privacidad de los datos y su implementación. Por el contrario, los modelos de lenguaje pequeños (SLMs) tienen dificultades con las tareas de NL2SQL, mostrando un rendimiento deficiente e incompatibilidad con los marcos existentes. Para abordar estos problemas, presentamos Feather-SQL, un nuevo marco ligero diseñado específicamente para SLMs. Feather-SQL mejora la ejecutabilidad y precisión del SQL mediante 1) la poda y vinculación de esquemas, y 2) la generación de múltiples rutas y candidatos. Además, introducimos el Paradigma de Colaboración de Modelos 1+1, que combina un modelo de chat de propósito general potente con un especialista en SQL ajustado finamente, fusionando un razonamiento analítico sólido con una generación de SQL de alta precisión. Los resultados experimentales en BIRD demuestran que Feather-SQL mejora el rendimiento de NL2SQL en SLMs, con un aumento de aproximadamente el 10% para modelos sin ajuste fino. El paradigma propuesto eleva el límite de precisión de los SLMs al 54.76%, destacando su efectividad.
El Splatting Gaussiano 3D (3DGS) ha surgido como una representación poderosa para la renderización en tiempo real de alto rendimiento, permitiendo una amplia gama de aplicaciones. Sin embargo, representar escenas 3D con numerosas primitivas Gaussianas explícitas impone una sobrecarga significativa de almacenamiento y memoria. Estudios recientes han demostrado que se puede lograr una renderización de alta calidad con un número sustancialmente reducido de Gaussianas cuando se representan con atributos de alta precisión. No obstante, los métodos de compresión de 3DGS existentes aún dependen de un número relativamente grande de Gaussianas, centrándose principalmente en la compresión de atributos. Esto se debe a que un conjunto más pequeño de Gaussianas se vuelve cada vez más sensible a la compresión de atributos con pérdida, lo que lleva a una degradación severa de la calidad. Dado que el número de Gaussianas está directamente relacionado con los costos computacionales, es esencial reducir efectivamente el número de Gaussianas en lugar de solo optimizar el almacenamiento. En este artículo, proponemos la representación de Gaussianas Mínimas Optimizadas (OMG), que reduce significativamente el almacenamiento utilizando un número mínimo de primitivas. Primero, determinamos la Gaussiana distinta de las cercanas, minimizando la redundancia sin sacrificar la calidad. Segundo, proponemos una representación de atributos compacta y precisa que captura eficientemente tanto la continuidad como la irregularidad entre las primitivas. Además, proponemos una técnica de cuantización de subvectores para mejorar la representación de la irregularidad, manteniendo un entrenamiento rápido con un tamaño de libro de códigos insignificante. Experimentos extensos demuestran que OMG reduce los requisitos de almacenamiento en casi un 50% en comparación con el estado del arte anterior y permite una renderización de más de 600 FPS mientras mantiene una alta calidad de renderización. Nuestro código fuente está disponible en https://maincold2.github.io/omg/.
Los modelos de difusión han demostrado capacidades notables en la generación de contenido visual, pero siguen siendo difíciles de implementar debido a su alto costo computacional durante la inferencia. Esta carga computacional surge principalmente de la complejidad cuadrática de la autoatención con respecto a la resolución de imágenes o videos. Si bien los métodos de aceleración existentes a menudo comprometen la calidad de la salida o requieren un costoso reentrenamiento, observamos que la mayoría de los modelos de difusión están preentrenados en resoluciones más bajas, lo que presenta una oportunidad para aprovechar estos conocimientos previos de baja resolución y lograr una inferencia más eficiente sin degradar el rendimiento. En este trabajo, presentamos Bottleneck Sampling, un marco de trabajo que no requiere entrenamiento y que aprovecha los conocimientos previos de baja resolución para reducir la sobrecarga computacional mientras preserva la fidelidad de la salida. Bottleneck Sampling sigue un flujo de trabajo de eliminación de ruido de alta-baja-alta: realiza la eliminación de ruido en alta resolución en las etapas inicial y final, mientras opera en resoluciones más bajas en los pasos intermedios. Para mitigar los artefactos de aliasing y desenfoque, refinamos aún más los puntos de transición de resolución y ajustamos adaptativamente los pasos de tiempo de eliminación de ruido en cada etapa. Evaluamos Bottleneck Sampling en tareas de generación de imágenes y videos, donde extensos experimentos demuestran que acelera la inferencia hasta 3 veces en la generación de imágenes y 2.5 veces en la generación de videos, todo ello manteniendo una calidad de salida comparable al proceso estándar de muestreo a resolución completa en múltiples métricas de evaluación. El código está disponible en: https://github.com/tyfeld/Bottleneck-Sampling.
Los recientes avances en los Modelos de Lenguaje de Video a Gran Escala (LVLMs, por sus siglas en inglés) han destacado su potencial para la comprensión multimodal, aunque la evaluación de su fundamentación factual en contextos de video sigue siendo un desafío crítico sin resolver. Para abordar esta brecha, presentamos Video SimpleQA, el primer punto de referencia integral diseñado específicamente para la evaluación de la factualidad en LVLMs. Nuestro trabajo se distingue de los benchmarks de video existentes a través de las siguientes características clave: 1) Conocimiento requerido: exige la integración de conocimiento externo más allá de la narrativa explícita; 2) Preguntas orientadas a hechos: se enfocan en eventos o relaciones objetivas e indiscutibles, evitando interpretaciones subjetivas; 3) Respuestas definitivas y breves: las respuestas están diseñadas para ser inequívocas y correctas en un formato corto, permitiendo una evaluación automatizada mediante marcos de LLM-como-juez con una variación mínima en la puntuación; 4) Verificación con fuentes externas: todas las anotaciones se validan rigurosamente con referencias externas autorizadas para garantizar su fiabilidad; 5) Razonamiento temporal requerido: los tipos de preguntas anotadas abarcan tanto la comprensión estática de un solo fotograma como el razonamiento temporal dinámico, evaluando explícitamente la factualidad de los LVLMs bajo dependencias de contexto largo. Evaluamos extensamente 41 LVLMs de última generación y resumimos los hallazgos clave de la siguiente manera: 1) Los LVLMs actuales muestran deficiencias notables en la adherencia factual, particularmente en los modelos de código abierto. El modelo con mejor rendimiento, Gemini-1.5-Pro, alcanza apenas un F-score del 54.4%; 2) Los paradigmas de cómputo en tiempo de prueba muestran ganancias de rendimiento insignificantes, revelando limitaciones fundamentales para mejorar la factualidad mediante cómputos posteriores; 3) La Generación Aumentada con Recuperación demuestra mejoras consistentes a costa de un tiempo adicional de inferencia, presentando una compensación crítica entre eficiencia y rendimiento.
Este artículo presenta AlphaSpace, una metodología novedosa diseñada para mejorar las capacidades de razonamiento espacial de los modelos de lenguaje de gran escala (LLMs) en la navegación del espacio cartesiano 3D. AlphaSpace emplea una estrategia de tokenización basada en semántica, codificando información de altura mediante tokens semánticos especializados, e integra principalmente datos sintéticos de razonamiento simbólico. Este enfoque permite a los LLMs manipular objetos con precisión al posicionarlos en coordenadas específicas [x, y, z]. Los resultados experimentales demuestran que AlphaSpace supera significativamente a los modelos existentes en subtareas de manipulación, logrando una precisión total del 66.67%, en comparación con el 37.5% de GPT-4o y el 29.17% de Claude 3.5 Sonnet.
La generación de texto a video (T2V) ha logrado avances significativos con los modelos de difusión. Sin embargo, los métodos existentes aún enfrentan dificultades para vincular atributos con precisión, determinar relaciones espaciales y capturar interacciones complejas de acciones entre múltiples sujetos. Para abordar estas limitaciones, proponemos MagicComp, un método sin entrenamiento que mejora la generación composicional de T2V mediante un refinamiento en dos fases. Específicamente, (1) Durante la Etapa de Condicionamiento: Introducimos la Desambiguación de Anclas Semánticas, que refuerza la semántica específica de los sujetos y resuelve la ambigüedad entre sujetos al inyectar progresivamente los vectores direccionales de las anclas semánticas en la incrustación de texto original; (2) Durante la Etapa de Desruido: Proponemos la Atención de Fusión de Diseño Dinámico, que integra conocimientos previos de localización y percepción espacial adaptativa del modelo para vincular de manera flexible los sujetos a sus regiones espacio-temporales mediante la modulación de atención enmascarada. Además, MagicComp es un enfoque versátil y agnóstico al modelo, que puede integrarse sin problemas en las arquitecturas T2V existentes. Experimentos extensos en T2V-CompBench y VBench demuestran que MagicComp supera a los métodos más avanzados, destacando su potencial para aplicaciones como la generación de videos basados en indicaciones complejas y controlables mediante trayectorias. Página del proyecto: https://hong-yu-zhang.github.io/MagicComp-Page/.
En este artículo, presentamos Diffusion-4K, un marco novedoso para la síntesis directa de imágenes en ultra alta resolución utilizando modelos de difusión de texto a imagen. Los avances principales incluyen: (1) Aesthetic-4K Benchmark: para abordar la ausencia de un conjunto de datos público para la síntesis de imágenes en 4K, construimos Aesthetic-4K, un punto de referencia integral para la generación de imágenes en ultra alta resolución. Curiosamos un conjunto de datos de alta calidad en 4K con imágenes y descripciones cuidadosamente seleccionadas generadas por GPT-4o. Además, introducimos las métricas GLCM Score y Compression Ratio para evaluar detalles finos, combinadas con medidas holísticas como FID, Aesthetics y CLIPScore para una evaluación integral de imágenes en ultra alta resolución. (2) Ajuste fino basado en wavelets: proponemos un enfoque de ajuste fino basado en wavelets para el entrenamiento directo con imágenes fotorrealistas en 4K, aplicable a varios modelos de difusión latente, demostrando su eficacia en la síntesis de imágenes en 4K altamente detalladas. En consecuencia, Diffusion-4K logra un rendimiento impresionante en la síntesis de imágenes de alta calidad y la adherencia a las indicaciones de texto, especialmente cuando se potencia con modelos de difusión modernos a gran escala (por ejemplo, SD3-2B y Flux-12B). Los resultados experimentales extensos de nuestro punto de referencia demuestran la superioridad de Diffusion-4K en la síntesis de imágenes en ultra alta resolución.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han avanzado significativamente en diversos campos, particularmente en la codificación, el razonamiento matemático y la resolución de problemas lógicos. Sin embargo, persiste una pregunta crítica: ¿Persisten estas habilidades de razonamiento matemático cuando los LLMs se enfrentan a problemas matemáticos adaptados culturalmente? Específicamente, ¿cómo se desempeñan los LLMs cuando se les presentan problemas matemáticos integrados en contextos culturales que no tienen una representación significativa en los datos de entrenamiento a gran escala de la inteligencia artificial? Para explorar esto, generamos seis conjuntos de datos culturales sintéticos a partir de GSM8K, un punto de referencia ampliamente utilizado para evaluar las habilidades de razonamiento matemático de los LLMs. Mientras conservamos la lógica matemática y los valores numéricos del conjunto de pruebas original de GSM8K, modificamos elementos culturales como nombres personales, alimentos, nombres de lugares, etc. Estos conjuntos de datos adaptados culturalmente proporcionan un marco más confiable para evaluar el razonamiento matemático de los LLMs en contextos culturales cambiantes. Nuestros hallazgos revelan que los LLMs tienen dificultades con los problemas matemáticos cuando las referencias culturales cambian, a pesar de que la estructura matemática subyacente permanece constante. Los modelos más pequeños experimentan mayores caídas en el rendimiento en comparación con los modelos más grandes. Curiosamente, nuestros resultados también sugieren que la familiaridad cultural puede mejorar el razonamiento matemático. Incluso modelos sin entrenamiento matemático explícito, pero con exposición a contextos culturales relevantes, a veces superan a modelos más grandes y matemáticamente competentes en problemas matemáticos integrados culturalmente. Este estudio destaca el impacto del contexto cultural en las habilidades de razonamiento matemático de los LLMs, subrayando la necesidad de datos de entrenamiento más diversos y representativos para mejorar la robustez en aplicaciones del mundo real. Los conjuntos de datos de referencia y el script para reproducir los resultados están disponibles en https://github.com/akarim23131/Lost_in_Cultural_Translation.
El reciente crecimiento exponencial de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha dependido de sistemas basados en GPU. Sin embargo, las CPU están surgiendo como una alternativa flexible y de menor costo, especialmente cuando se enfocan en cargas de trabajo de inferencia y razonamiento. RISC-V está ganando rápidamente terreno en este ámbito, dado su conjunto de instrucciones (ISA) abierto y neutral respecto a proveedores. No obstante, el hardware RISC-V para cargas de trabajo de LLMs y el ecosistema de software correspondiente no están completamente maduros y optimizados, debido a la necesidad de ajustes específicos del dominio. Este artículo tiene como objetivo llenar este vacío, centrándose en optimizar la inferencia de LLMs en el Sophon SG2042, la primera CPU comercial de muchos núcleos RISC-V con capacidades de procesamiento vectorial. En dos LLMs recientes de última generación optimizados para razonamiento, DeepSeek R1 Distill Llama 8B y DeepSeek R1 Distill QWEN 14B, logramos 4.32/2.29 tokens por segundo para la generación de tokens y 6.54/3.68 tokens por segundo para el procesamiento de prompts, con una aceleración de hasta 2.9x/3.0x en comparación con nuestra línea base.
La respuesta a preguntas no factuales (NFQA, por sus siglas en inglés) representa un desafío significativo debido a su naturaleza abierta, la diversidad de intenciones y la necesidad de razonamiento multiaspectual, lo que hace que los enfoques convencionales de respuesta a preguntas factuales, incluida la generación aumentada por recuperación (RAG), resulten insuficientes. A diferencia de las preguntas factuales, las preguntas no factuales (NFQs) carecen de respuestas definitivas y requieren sintetizar información de múltiples fuentes a través de diversas dimensiones de razonamiento. Para abordar estas limitaciones, presentamos Typed-RAG, un marco de descomposición multiaspectual consciente del tipo dentro del paradigma RAG para NFQA. Typed-RAG clasifica las NFQs en tipos distintos —como debate, experiencia y comparación— y aplica una descomposición basada en aspectos para refinar las estrategias de recuperación y generación. Al descomponer las NFQs multiaspectuales en subpreguntas de un solo aspecto y agregar los resultados, Typed-RAG genera respuestas más informativas y contextualmente relevantes. Para evaluar Typed-RAG, introducimos Wiki-NFQA, un conjunto de datos de referencia que cubre diversos tipos de NFQs. Los resultados experimentales demuestran que Typed-RAG supera a los métodos base, destacando así la importancia de la descomposición consciente del tipo para una recuperación y generación efectivas en NFQA. Nuestro código y conjunto de datos están disponibles en https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}.
La generación de Texto a Video (T2V) ha atraído una atención significativa por su capacidad para sintetizar videos realistas a partir de descripciones textuales. Sin embargo, los modelos existentes luchan por equilibrar la eficiencia computacional y la alta calidad visual, especialmente en dispositivos con recursos limitados, como iGPUs y teléfonos móviles. La mayoría de los trabajos previos priorizan la fidelidad visual, pasando por alto la necesidad de modelos más pequeños y eficientes adecuados para su implementación en el mundo real. Para abordar este desafío, proponemos un marco ligero de T2V, denominado Hummingbird, que poda los modelos existentes y mejora la calidad visual mediante el aprendizaje con retroalimentación visual. Nuestro enfoque reduce el tamaño de la U-Net de 1.4 mil millones a 0.7 mil millones de parámetros, mejorando significativamente la eficiencia mientras se preserva la generación de videos de alta calidad. Además, introducimos una novedosa canalización de procesamiento de datos que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs) y los Modelos de Evaluación de Calidad de Video (VQA) para mejorar la calidad tanto de los textos de entrada como de los datos de video. Para apoyar el entrenamiento impulsado por el usuario y la personalización de estilos, publicamos el código completo de entrenamiento, incluyendo el procesamiento de datos y el entrenamiento del modelo. Experimentos extensos muestran que nuestro método logra una aceleración de 31X en comparación con modelos de última generación como VideoCrafter2, al mismo tiempo que alcanza la puntuación más alta en VBench. Además, nuestro método soporta la generación de videos de hasta 26 fotogramas, abordando las limitaciones de los métodos basados en U-Net para la generación de videos largos. Cabe destacar que todo el proceso de entrenamiento requiere solo cuatro GPUs, pero ofrece un rendimiento competitivo con los métodos líderes existentes. Hummingbird presenta una solución práctica y eficiente para la generación de T2V, combinando alto rendimiento, escalabilidad y flexibilidad para aplicaciones en el mundo real.
El resultado del preentrenamiento de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) depende en gran medida de las estrategias de inicialización de pesos y control de varianza. Aunque la importancia del control inicial de la varianza ha sido ampliamente documentada en redes neuronales en general, la literatura sobre la inicialización y la gestión de su crecimiento durante el preentrenamiento de LLM, específicamente, es algo escasa. En este artículo, presentamos el esquema de inicialización de pesos denominado Reajuste por Índice de Capa (LIR, por sus siglas en inglés) y la estrategia de control de varianza denominada Reajuste de Varianza Objetivo (TVR, por sus siglas en inglés). Los experimentos realizados en un modelo LLaMA de 1B de parámetros demuestran que una mejor gestión de la varianza mediante estas técnicas produce mejoras sustanciales en el rendimiento de tareas posteriores (hasta un 4,6% en puntos de referencia comunes de preentrenamiento) y reduce los valores extremos de activación, mitigando así los desafíos asociados con la cuantización y el entrenamiento en baja precisión. Nuestro código está disponible en: https://github.com/bluorion-com/weight_rescaling.
Presentamos MetaSpatial, el primer marco basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado para mejorar el razonamiento espacial 3D en modelos de visión y lenguaje (VLMs), permitiendo la generación de escenas 3D en tiempo real sin necesidad de optimizaciones predefinidas. MetaSpatial aborda dos desafíos principales: (i) la falta de razonamiento espacial 3D internalizado en los VLMs, lo que limita su capacidad para generar diseños realistas, y (ii) la ineficiencia del ajuste fino supervisado tradicional (SFT) para tareas de generación de diseños, ya que no se dispone de anotaciones de referencia perfectas. Nuestra innovación clave es un mecanismo de optimización basado en RL de múltiples turnos que integra restricciones conscientes de la física y evaluaciones de imágenes renderizadas, asegurando que los diseños 3D generados sean coherentes, físicamente plausibles y estéticamente consistentes. Metodológicamente, MetaSpatial introduce un proceso de razonamiento iterativo y adaptativo, donde el VLM refina los arreglos espaciales a lo largo de múltiples turnos analizando los resultados renderizados, mejorando progresivamente la coherencia de la escena. Las evaluaciones empíricas demuestran que MetaSpatial mejora significativamente la consistencia espacial y la estabilidad de formato en varios modelos a escala. Después del entrenamiento, las ubicaciones de los objetos son más realistas, alineadas y funcionalmente coherentes, validando la efectividad del RL para el razonamiento espacial 3D en aplicaciones del metaverso, realidad aumentada/realidad virtual (AR/VR), gemelos digitales y desarrollo de videojuegos. Nuestro código, datos y pipeline de entrenamiento están disponibles públicamente en https://github.com/PzySeere/MetaSpatial.
Aunque las instrucciones en lenguaje natural ofrecen una forma intuitiva de guiar la edición automatizada de imágenes, los modelos de aprendizaje profundo a menudo tienen dificultades para lograr resultados de alta calidad, principalmente debido a los desafíos en la creación de grandes conjuntos de datos de entrenamiento de alta calidad. Trabajos anteriores generalmente han dependido de modelos generativos de texto a imagen (T2I) para producir pares de imágenes originales y editadas que simulan la entrada/salida de un modelo de edición de imágenes guiado por instrucciones. Sin embargo, estos pares de imágenes a menudo no se alinean con las instrucciones de edición especificadas debido a las limitaciones de los modelos T2I, lo que afecta negativamente a los modelos entrenados con dichos conjuntos de datos. Para abordar esto, presentamos Instruct-CLIP, un método autosupervisado que aprende los cambios semánticos entre imágenes originales y editadas para refinar y alinear mejor las instrucciones en los conjuntos de datos existentes. Además, adaptamos Instruct-CLIP para manejar imágenes latentes ruidosas y pasos de difusión, de modo que pueda usarse para entrenar modelos de difusión latente (LDMs) [19] y hacer cumplir eficientemente la alineación entre la instrucción de edición y los cambios en la imagen en el espacio latente en cualquier paso del proceso de difusión. Utilizamos Instruct-CLIP para corregir el conjunto de datos InstructPix2Pix y obtener más de 120K muestras refinadas que luego usamos para ajustar su modelo, guiados por nuestra nueva función de pérdida basada en Instruct-CLIP. El modelo resultante puede producir ediciones que están más alineadas con las instrucciones dadas. Nuestro código y conjunto de datos están disponibles en https://github.com/SherryXTChen/Instruct-CLIP.git.
Los modelos de lenguaje han avanzado recientemente hacia el ámbito del razonamiento, pero es a través del razonamiento multimodal que podemos desbloquear plenamente el potencial para lograr capacidades cognitivas más completas y similares a las humanas. Esta revisión ofrece una visión sistemática de los enfoques recientes de razonamiento multimodal, categorizándolos en dos niveles: razonamiento multimodal centrado en el lenguaje y razonamiento multimodal colaborativo. El primero abarca la percepción visual de un solo paso y la percepción visual activa, donde la visión desempeña principalmente un papel de apoyo en el razonamiento del lenguaje. El segundo implica la generación de acciones y la actualización de estados dentro del proceso de razonamiento, permitiendo una interacción más dinámica entre las modalidades. Además, analizamos la evolución técnica de estos métodos, discutimos sus desafíos inherentes e introducimos tareas de referencia clave y métricas de evaluación para valorar el rendimiento del razonamiento multimodal. Finalmente, ofrecemos perspectivas sobre futuras direcciones de investigación desde los siguientes dos puntos de vista: (i) del razonamiento visual-lingüístico al razonamiento omnimodal y (ii) del razonamiento multimodal a los agentes multimodales. Esta revisión tiene como objetivo proporcionar una visión estructurada que inspire avances adicionales en la investigación del razonamiento multimodal.
Los tokenizadores visuales discretos transforman imágenes en una secuencia de tokens, permitiendo la generación visual basada en tokens similar a los modelos de lenguaje. Sin embargo, este proceso es intrínsecamente desafiante, ya que requiere tanto comprimir las señales visuales en una representación compacta como discretizarlas en un conjunto fijo de códigos. Los tokenizadores discretos tradicionales suelen aprender ambas tareas de manera conjunta, lo que a menudo conduce a un entrenamiento inestable, una baja utilización del codebook y una calidad de reconstrucción limitada. En este artículo, presentamos CODA (COntinuous-to-Discrete Adaptation), un marco que desacopla la compresión y la discretización. En lugar de entrenar tokenizadores discretos desde cero, CODA adapta VAEs continuos preentrenados —ya optimizados para compresión perceptual— en tokenizadores discretos mediante un proceso de discretización cuidadosamente diseñado. Al centrarse principalmente en la discretización, CODA garantiza un entrenamiento estable y eficiente mientras mantiene la alta fidelidad visual de los VAEs continuos. Empíricamente, con un presupuesto de entrenamiento 6 veces menor que el del VQGAN estándar, nuestro enfoque logra una utilización del codebook del 100% y un notable FID de reconstrucción (rFID) de 0.43 y 1.34 para compresiones de 8 y 16 veces en el benchmark ImageNet 256×256.
Recientemente, se han logrado grandes avances en la tecnología de generación de videos, atrayendo la atención generalizada de los académicos. Para aplicar esta tecnología a aplicaciones posteriores en condiciones de recursos limitados, los investigadores suelen ajustar finamente los modelos preentrenados basándose en métodos de ajuste eficiente en parámetros, como Adapter o Lora. Aunque estos métodos pueden transferir el conocimiento del dominio fuente al dominio objetivo, un menor número de parámetros de entrenamiento conduce a una capacidad de ajuste deficiente, y el conocimiento del dominio fuente puede hacer que el proceso de inferencia se desvíe del dominio objetivo. En este artículo, argumentamos que, bajo recursos limitados, entrenar un modelo más pequeño de generación de videos desde cero utilizando solo muestras de nivel millonario puede superar el ajuste eficiente en parámetros en modelos más grandes en aplicaciones posteriores: el núcleo radica en la utilización efectiva de los datos y la estrategia curricular. Tomando la generación de pegatinas animadas (ASG) como un estudio de caso, primero construimos una red de generación de fotogramas discretos para pegatinas con bajas tasas de fotogramas, asegurando que sus parámetros cumplan con los requisitos del entrenamiento del modelo bajo recursos limitados. Para proporcionar soporte de datos a los modelos entrenados desde cero, proponemos una estrategia de utilización de datos basada en doble máscara, que logra mejorar la disponibilidad y ampliar la diversidad de los datos limitados. Para facilitar la convergencia en la situación de doble máscara, proponemos un método de aprendizaje curricular adaptativo a la dificultad, que descompone la entropía de la muestra en componentes estáticos y adaptativos para obtener muestras de fácil a difícil. El experimento demuestra que nuestro marco de entrenamiento eficiente en recursos con doble máscara es cuantitativa y cualitativamente superior a los métodos de ajuste eficiente en parámetros como I2V-Adapter y SimDA, verificando la viabilidad de nuestro método en tareas posteriores bajo recursos limitados. El código estará disponible.
El surgimiento de los modelos de lenguaje de gran escala y sus aplicaciones como agentes de IA han avanzado significativamente los puntos de referencia más avanzados en la generación de código, transformando las tareas modernas de ingeniería de software. Sin embargo, incluso con modelos de razonamiento calculados en tiempo de prueba, estos sistemas aún enfrentan dificultades con desafíos complejos de ingeniería de software. Este trabajo presenta CURA, un sistema de agente de comprensión y razonamiento de código mejorado con supervisión de procesos verbales (VPS), logrando una mejora del 3.65% sobre los modelos de referencia en puntos de referencia desafiantes como BigCodeBench. Además, CURA, cuando se combina con el modelo o3-mini y las técnicas de VPS, alcanza un rendimiento de vanguardia. Este trabajo representa un paso adelante en la integración de arquitecturas impulsadas por el razonamiento con la generación de código basada en modelos de lenguaje de gran escala, permitiendo que los modelos de lenguaje realicen razonamiento agencial para resolver tareas complejas de ingeniería de software.
Introducimos la tarea de desaprendizaje de movimiento humano para prevenir la síntesis de animaciones tóxicas mientras se preserva el rendimiento general de generación de texto a movimiento. Desaprender movimientos tóxicos es un desafío, ya que estos pueden generarse a partir de indicaciones de texto explícitas y de combinaciones implícitas de movimientos seguros que resultan tóxicos (por ejemplo, "patear" es "cargar y balancear una pierna"). Proponemos el primer punto de referencia para el desaprendizaje de movimiento al filtrar movimientos tóxicos de los grandes y recientes conjuntos de datos de texto a movimiento HumanML3D y Motion-X. Proponemos líneas base al adaptar técnicas de desaprendizaje de imágenes de última generación para procesar señales espacio-temporales. Finalmente, proponemos un nuevo modelo de desaprendizaje de movimiento basado en Reemplazo de Código Latente, al que denominamos LCR. LCR no requiere entrenamiento y es adecuado para los espacios latentes discretos de los modelos de difusión de texto a movimiento de última generación. LCR es simple y supera consistentemente a las líneas base tanto cualitativa como cuantitativamente. Página del proyecto: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
La corrección del balance de blancos (WB) en escenas con múltiples fuentes de iluminación sigue siendo un desafío persistente en visión por computadora. Métodos recientes han explorado enfoques basados en fusión, donde una red neuronal combina linealmente múltiples versiones sRGB de una imagen de entrada, cada una procesada con ajustes predefinidos de WB. Sin embargo, demostramos que estos métodos son subóptimos para escenarios comunes con múltiples fuentes de iluminación. Además, los métodos existentes basados en fusión dependen de conjuntos de datos sRGB de WB que carecen de imágenes dedicadas a múltiples fuentes de iluminación, lo que limita tanto el entrenamiento como la evaluación. Para abordar estos desafíos, presentamos dos contribuciones clave. Primero, proponemos un modelo eficiente basado en transformadores que captura efectivamente las dependencias espaciales entre los ajustes sRGB de WB, mejorando sustancialmente las técnicas de fusión lineal. Segundo, introducimos un conjunto de datos a gran escala de múltiples fuentes de iluminación que comprende más de 16,000 imágenes sRGB renderizadas con cinco configuraciones diferentes de WB, junto con imágenes corregidas de WB. Nuestro método logra una mejora de hasta el 100\% sobre las técnicas existentes en nuestro nuevo conjunto de datos de fusión de imágenes con múltiples fuentes de iluminación.
Si bien las técnicas recientes de super-resolución de imágenes (SR) están mejorando continuamente la calidad perceptual de sus resultados, suelen fallar en las evaluaciones cuantitativas. Esta inconsistencia genera una creciente desconfianza en las métricas de imagen existentes para evaluaciones de SR. Aunque la evaluación de imágenes depende tanto de la métrica como de la verdad de referencia (GT, por sus siglas en inglés), los investigadores generalmente no examinan el papel de las GT, ya que se aceptan comúnmente como referencias "perfectas". Sin embargo, debido a que los datos se recopilaron en los primeros años y a la falta de control sobre otros tipos de distorsiones, señalamos que las GT en los conjuntos de datos de SR existentes pueden exhibir una calidad relativamente pobre, lo que lleva a evaluaciones sesgadas. Siguiendo esta observación, en este artículo nos interesamos en las siguientes preguntas: ¿Son las imágenes GT en los conjuntos de datos de SR existentes 100% confiables para la evaluación de modelos? ¿Cómo afecta la calidad de la GT a esta evaluación? Y, ¿cómo realizar evaluaciones justas si existen GT imperfectas? Para responder a estas preguntas, este artículo presenta dos contribuciones principales. Primero, al analizar sistemáticamente siete modelos de SR de última generación en tres conjuntos de datos de SR del mundo real, mostramos que el rendimiento de SR puede verse afectado consistentemente en todos los modelos por GT de baja calidad, y que los modelos pueden comportarse de manera bastante diferente cuando se controla la calidad de la GT. Segundo, proponemos una nueva métrica de calidad perceptual, el Índice de Calidad Relativa (RQI, por sus siglas en inglés), que mide la discrepancia de calidad relativa entre pares de imágenes, abordando así las evaluaciones sesgadas causadas por GT poco confiables. Nuestro modelo propuesto logra una consistencia significativamente mejor con las opiniones humanas. Esperamos que nuestro trabajo brinde ideas a la comunidad de SR sobre cómo deberían desarrollarse futuros conjuntos de datos, modelos y métricas.
Los grandes modelos de visión y lenguaje (VLMs, por sus siglas en inglés), como GPT-4, han logrado un éxito notable en diversos campos. Sin embargo, existen pocos estudios sobre la generación de escenas interiores en 3D con VLMs. Este artículo aborda esta tarea como un problema de planificación sujeto a restricciones de sentido común espacial y de distribución. Para resolver el problema con un VLM, proponemos un nuevo algoritmo de búsqueda en árbol global-local. A nivel global, el método coloca cada objeto secuencialmente y explora múltiples ubicaciones durante cada proceso de colocación, donde el espacio del problema se representa como un árbol. Para reducir la profundidad del árbol, descomponemos la estructura de la escena de manera jerárquica, es decir, a nivel de habitación, nivel de región, nivel de objetos de suelo y nivel de objetos soportados. El algoritmo genera de forma independiente los objetos de suelo en diferentes regiones y los objetos soportados colocados sobre distintos objetos de suelo. A nivel local, también descomponemos la subtarea, la colocación de cada objeto, en múltiples pasos. El algoritmo explora el árbol del espacio del problema. Para aprovechar el modelo VLM y producir las posiciones de los objetos, discretizamos la vista superior del espacio como una cuadrícula densa y llenamos cada celda con diversos emojis para distinguir las celdas. Proporcionamos al VLM la cuadrícula de emojis, y el VLM produce una ubicación razonable para el objeto describiendo la posición con el nombre de los emojis. Los resultados experimentales cuantitativos y cualitativos demuestran que nuestro enfoque genera escenas 3D más plausibles que los métodos más avanzados. Nuestro código fuente está disponible en https://github.com/dw-dengwei/TreeSearchGen.
La Estimación de Profundidad Monocular (MDE, por sus siglas en inglés) ha surgido como una tarea fundamental en visión por computadora, respaldando numerosas aplicaciones del mundo real. Sin embargo, implementar modelos precisos de estimación de profundidad en dispositivos de borde con recursos limitados, especialmente en Circuitos Integrados de Aplicación Específica (ASICs), es un desafío debido a las altas demandas computacionales y de memoria. Los avances recientes en la estimación de profundidad basada en modelos fundamentales ofrecen resultados impresionantes, pero también amplifican la dificultad de implementación en ASICs. Para abordar este problema, proponemos QuartDepth, que adopta la cuantización posterior al entrenamiento para cuantizar modelos MDE con aceleraciones de hardware para ASICs. Nuestro enfoque implica cuantizar tanto los pesos como las activaciones a una precisión de 4 bits, reduciendo el tamaño del modelo y el costo computacional. Para mitigar la degradación del rendimiento, introducimos un algoritmo de pulido y compensación de activaciones aplicado antes y después de la cuantización de activaciones, así como un método de reconstrucción de pesos para minimizar los errores en la cuantización de pesos. Además, diseñamos un acelerador de hardware flexible y programable al admitir la fusión de kernels y la programabilidad de instrucciones personalizadas, mejorando el rendimiento y la eficiencia. Los resultados experimentales demuestran que nuestro marco logra una precisión competitiva al tiempo que permite una inferencia rápida y una mayor eficiencia energética en ASICs, cerrando la brecha entre la estimación de profundidad de alto rendimiento y la aplicabilidad práctica en dispositivos de borde. Código: https://github.com/shawnricecake/quart-depth.
El avance de la tecnología de teledetección ha mejorado la resolución espacial de las imágenes satelitales, facilitando representaciones visuales más detalladas para diversas interpretaciones. Sin embargo, los métodos existentes muestran capacidades limitadas de generalización en aplicaciones variadas. Aunque algunos modelos base contemporáneos demuestran potencial, se ven obstaculizados por una adaptabilidad insuficiente entre tareas y procesan principalmente imágenes de baja resolución con tamaños restringidos, lo que les impide aprovechar completamente los datos de alta resolución o aprovechar la semántica de escenas grandes. Es crucial destacar que las imágenes de teledetección difieren fundamentalmente de las imágenes naturales, ya que los objetivos clave en primer plano (por ejemplo, objetos marítimos, estructuras artificiales) suelen ocupar proporciones espaciales mínimas (~1%) y presentan distribuciones dispersas. Modelar eficientemente el conocimiento generalizable entre tareas a partir de tokens 2D extensos (~100,000) representa un desafío significativo, pero sigue siendo crítico para la comprensión de imágenes de teledetección. Motivados por los mecanismos de atención selectiva inherentes al sistema visual humano, proponemos DynamicVis, un modelo base de percepción visual dinámica para imágenes de teledetección. El marco integra una novedosa arquitectura de percepción de regiones dinámicas basada en el modelo de espacio de estados selectivo, que equilibra estratégicamente la extracción de detalles localizados con la integración de contexto global, permitiendo una codificación computacionalmente eficiente de datos a gran escala mientras mantiene la escalabilidad arquitectónica. Para mejorar la transferencia de conocimiento entre tareas, introducimos un paradigma de aprendizaje multi-instancia que utiliza representaciones de meta-embeddings, entrenado con anotaciones a nivel de región en escala de millones. Las evaluaciones en nueve tareas descendentes demuestran la versatilidad del modelo. DynamicVis logra un modelado de características multinivel con una eficiencia excepcional, procesando píxeles (2048x2048) con una latencia de 97 ms (6% de ViT) y un uso de memoria GPU de 833 MB (3% de ViT).