HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

39 papers found

Lo He Cubierto Todas las Bases Aquí: Interpretación de Características de Razonamiento en Modelos de Lenguaje de Gran Escala mediante Autoencoders Dispersos
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

Mar 24

ByAndrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets

120

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en el procesamiento del lenguaje natural. Los avances recientes han llevado al desarrollo de una nueva clase de LLMs de razonamiento; por ejemplo, el modelo de código abierto DeepSeek-R1 ha alcanzado un rendimiento de vanguardia al integrar pensamiento profundo y razonamiento complejo. A pesar de estas capacidades impresionantes, los mecanismos internos de razonamiento de dichos modelos siguen sin explorarse. En este trabajo, empleamos Autoencoders Dispersos (SAEs, por sus siglas en inglés), un método para aprender una descomposición dispersa de las representaciones latentes de una red neuronal en características interpretables, con el fin de identificar las características que impulsan el razonamiento en la serie de modelos DeepSeek-R1. Primero, proponemos un enfoque para extraer "características de razonamiento" candidatas a partir de las representaciones de los SAEs. Validamos estas características mediante análisis empírico y métodos de interpretabilidad, demostrando su correlación directa con las habilidades de razonamiento del modelo. De manera crucial, demostramos que la manipulación sistemática de estas características mejora el rendimiento del razonamiento, ofreciendo la primera explicación mecanicista del razonamiento en los LLMs. El código está disponible en https://github.com/AIRI-Institute/SAE-Reasoning.

Video-T1: Escalado en Tiempo de Prueba para Generación de Videos
Video-T1: Test-Time Scaling for Video Generation

Mar 24

ByFangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan

Con la capacidad de escalar datos de entrenamiento, tamaño de modelos y costos computacionales, la generación de videos ha logrado resultados impresionantes en la creación digital, permitiendo a los usuarios expresar su creatividad en diversos dominios. Recientemente, los investigadores en Modelos de Lenguaje de Gran Escala (LLMs) han extendido esta escalabilidad al tiempo de prueba, lo que puede mejorar significativamente el rendimiento de los LLMs al utilizar más cómputo durante la inferencia. En lugar de escalar modelos base de video mediante costosos entrenamientos, exploramos el poder de la Escalabilidad en Tiempo de Prueba (TTS) en la generación de videos, buscando responder a la pregunta: si a un modelo de generación de videos se le permite utilizar una cantidad no trivial de cómputo durante la inferencia, ¿cuánto puede mejorar la calidad de la generación dado un texto desafiante? En este trabajo, reinterpretamos la escalabilidad en tiempo de prueba de la generación de videos como un problema de búsqueda para muestrear trayectorias mejores desde el espacio de ruido gaussiano hacia la distribución de videos objetivo. Específicamente, construimos el espacio de búsqueda con verificadores en tiempo de prueba para proporcionar retroalimentación y algoritmos heurísticos para guiar el proceso de búsqueda. Dado un texto, primero exploramos una estrategia de búsqueda lineal intuitiva al aumentar los candidatos de ruido durante la inferencia. Como la eliminación de ruido en todos los fotogramas simultáneamente requiere un alto costo computacional en tiempo de prueba, diseñamos un método TTS más eficiente para la generación de videos llamado Árbol-de-Fotogramas (ToF), que expande y poda ramas de video de manera autoregresiva. Experimentos extensos en benchmarks de generación de videos condicionados por texto demuestran que aumentar el cómputo en tiempo de prueba conduce consistentemente a mejoras significativas en la calidad de los videos. Página del proyecto: https://liuff19.github.io/Video-T1

Posición: El video generativo interactivo como motor de juegos de próxima generación
Position: Interactive Generative Video as Next-Generation Game Engine

Mar 21

ByJiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu

El desarrollo moderno de videojuegos enfrenta desafíos significativos en creatividad y costos debido al contenido predeterminado en los motores de juego tradicionales. Los recientes avances en modelos de generación de video, capaces de sintetizar entornos virtuales realistas e interactivos, presentan una oportunidad para revolucionar la creación de juegos. En este documento de posición, proponemos el Video Generativo Interactivo (IGV, por sus siglas en inglés) como la base para los Motores de Juego Generativos (GGE, por sus siglas en inglés), permitiendo la generación ilimitada de contenido novedoso en la próxima generación de videojuegos. Los GGE aprovechan las fortalezas únicas del IGV en la síntesis ilimitada de contenido de alta calidad, el modelado de mundos conscientes de la física, la interactividad controlada por el usuario, capacidades de memoria a largo plazo y razonamiento causal. Presentamos un marco integral que detalla los módulos centrales de los GGE y una hoja de ruta de madurez jerárquica (L0-L4) para guiar su evolución. Nuestro trabajo traza un nuevo rumbo para el desarrollo de videojuegos en la era de la IA, visualizando un futuro en el que los sistemas generativos impulsados por IA transformen fundamentalmente cómo se crean y experimentan los juegos.

SimpleRL-Zoo: Investigación y Domesticación del Aprendizaje por Refuerzo Cero para Modelos Base Abiertos en Entornos No Controlados
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

Mar 24

ByWeihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He

DeepSeek-R1 ha demostrado que el razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) extenso puede surgir de manera natural a través de un marco simple de aprendizaje por refuerzo (RL, por sus siglas en inglés) con recompensas basadas en reglas, donde el entrenamiento puede comenzar directamente desde los modelos base, un paradigma conocido como entrenamiento RL cero. Los esfuerzos más recientes para reproducir el entrenamiento RL cero se han centrado principalmente en la serie de modelos Qwen2.5, lo cual puede no ser representativo, ya que encontramos que los modelos base ya exhiben fuertes habilidades de seguimiento de instrucciones y autorreflexión. En este trabajo, investigamos el entrenamiento RL cero en 10 modelos base diversos, abarcando diferentes familias y tamaños, incluyendo LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B y todos los modelos Qwen2.5 desde 0.5B hasta 32B. Aprovechando varias estrategias clave de diseño, como ajustar la recompensa de formato y controlar la dificultad de las consultas, logramos mejoras sustanciales tanto en la precisión del razonamiento como en la longitud de las respuestas en la mayoría de los escenarios. Sin embargo, al monitorear cuidadosamente la dinámica del entrenamiento, observamos que diferentes modelos base exhiben patrones distintos durante el entrenamiento. Por ejemplo, el aumento en la longitud de las respuestas no siempre se correlaciona con la aparición de ciertos comportamientos cognitivos, como la verificación (es decir, el "momento eureka"). Notablemente, observamos el "momento eureka" por primera vez en modelos pequeños que no pertenecen a la familia Qwen. Compartimos los diseños clave que permiten un entrenamiento RL cero exitoso, junto con nuestros hallazgos y prácticas. Para facilitar investigaciones futuras, hemos hecho de código abierto el código, los modelos y las herramientas de análisis.

Aether: Modelado Unificado del Mundo con Conciencia Geométrica
Aether: Geometric-Aware Unified World Modeling

Mar 24

ByAether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He

La integración de la reconstrucción geométrica y el modelado generativo sigue siendo un desafío crítico en el desarrollo de sistemas de IA capaces de razonamiento espacial similar al humano. Este artículo propone Aether, un marco unificado que permite el razonamiento consciente de la geometría en modelos del mundo mediante la optimización conjunta de tres capacidades principales: (1) reconstrucción dinámica 4D, (2) predicción de video condicionada por acciones y (3) planificación visual condicionada por objetivos. A través del aprendizaje de características intercaladas por tareas, Aether logra un intercambio sinérgico de conocimientos entre los objetivos de reconstrucción, predicción y planificación. Basándose en modelos de generación de video, nuestro marco demuestra una generalización sintético-real sin precedentes a pesar de no observar datos del mundo real durante el entrenamiento. Además, nuestro enfoque logra generalización de cero disparos tanto en tareas de seguimiento de acciones como en reconstrucción, gracias a su modelado geométrico intrínseco. Notablemente, incluso sin datos del mundo real, su rendimiento en reconstrucción supera ampliamente el de modelos específicos de dominio. Adicionalmente, Aether aprovecha un espacio de acciones informado por la geometría para traducir predicciones en acciones de manera fluida, permitiendo una planificación autónoma de trayectorias efectiva. Esperamos que nuestro trabajo inspire a la comunidad a explorar nuevas fronteras en el modelado del mundo físicamente razonable y sus aplicaciones.

OmnimatteZero: Omnimatte en tiempo real sin entrenamiento utilizando modelos de difusión de video preentrenados
OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models

Mar 23

ByDvir Samuel, Matan Levy, Nir Darshan, Gal Chechik, Rami Ben-Ari

Omnimatte tiene como objetivo descomponer un video dado en capas semánticamente significativas, incluyendo el fondo y objetos individuales junto con sus efectos asociados, como sombras y reflejos. Los métodos existentes a menudo requieren un entrenamiento extenso o una costosa optimización autosupervisada. En este artículo, presentamos OmnimatteZero, un enfoque sin entrenamiento que aprovecha modelos de difusión de video preentrenados listos para usar para omnimatte. Puede eliminar objetos de videos, extraer capas de objetos individuales junto con sus efectos, y componer esos objetos en nuevos videos. Logramos esto adaptando técnicas de inpaint de imágenes en modo zero-shot para la eliminación de objetos en video, una tarea que no manejan efectivamente de forma predeterminada. Luego demostramos que los mapas de autoatención capturan información sobre el objeto y sus huellas, y los usamos para inpaint los efectos del objeto, dejando un fondo limpio. Además, mediante aritmética latente simple, las capas de objetos pueden aislarse y recombinarse sin problemas con nuevas capas de video para producir nuevos videos. Las evaluaciones muestran que OmnimatteZero no solo logra un rendimiento superior en términos de reconstrucción de fondo, sino que también establece un nuevo récord como el enfoque de Omnimatte más rápido, alcanzando un rendimiento en tiempo real con un tiempo de ejecución mínimo por fotograma.

AgentRxiv: Hacia la Investigación Autónoma Colaborativa
AgentRxiv: Towards Collaborative Autonomous Research

Mar 23

BySamuel Schmidgall, Michael Moor

El progreso en el descubrimiento científico rara vez es el resultado de un único momento "Eureka", sino más bien el producto de cientos de científicos trabajando de manera incremental hacia un objetivo común. Si bien los flujos de trabajo de agentes existentes son capaces de producir investigación de forma autónoma, lo hacen de manera aislada, sin la capacidad de mejorar continuamente los resultados de investigaciones previas. Para abordar estos desafíos, presentamos AgentRxiv, un marco que permite a los laboratorios de agentes basados en LLM cargar y recuperar informes de un servidor de preprints compartido, con el fin de colaborar, compartir ideas y construir de manera iterativa sobre las investigaciones de los demás. Asignamos a los laboratorios de agentes la tarea de desarrollar nuevas técnicas de razonamiento y prompting, y encontramos que los agentes con acceso a sus investigaciones previas logran mejoras de rendimiento superiores en comparación con los agentes que operan de forma aislada (una mejora relativa del 11,4% sobre la línea base en MATH-500). Descubrimos que la estrategia de mejor rendimiento se generaliza a puntos de referencia en otros dominios (mejorando en promedio un 3,3%). Múltiples laboratorios de agentes que comparten investigación a través de AgentRxiv son capaces de trabajar juntos hacia un objetivo común, progresando más rápidamente que los laboratorios aislados y logrando una mayor precisión general (una mejora relativa del 13,7% sobre la línea base en MATH-500). Estos hallazgos sugieren que los agentes autónomos podrían desempeñar un papel en el diseño de futuros sistemas de IA junto con los humanos. Esperamos que AgentRxiv permita a los agentes colaborar hacia objetivos de investigación y ayude a los investigadores a acelerar el descubrimiento.

Juzgar Cualquier Cosa: MLLM como Juez a través de Cualquier Modalidad
Judge Anything: MLLM as a Judge Across Any Modality

Mar 21

ByShu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu

Evaluar modelos fundacionales generativos en tareas de comprensión multimodal abierta (MMU) y generación multimodal (MMG) a través de diversas modalidades (por ejemplo, imágenes, audio, video) presenta desafíos significativos debido a la complejidad de las interacciones entre modalidades. Con este fin, ha surgido la idea de utilizar modelos de lenguaje multimodal (MLLMs) como jueces automatizados, obteniendo resultados alentadores en la evaluación de tareas de comprensión visión-lenguaje. Avanzando más, este artículo extiende el enfoque de MLLM-como-juez a través de modalidades de manera unificada, introduciendo dos benchmarks, TaskAnything y JudgeAnything, para evaluar respectivamente el rendimiento general y las capacidades de juicio de los MLLMs en tareas de cualquier-a-cualquier modalidad. Específicamente, TaskAnything evalúa las capacidades de MMU y MMG en 15 categorías de cualquier-a-cualquier modalidad, empleando 1,500 consultas seleccionadas de benchmarks bien establecidos. Además, JudgeAnything evalúa las capacidades de juicio de 5 modelos avanzados (por ejemplo, GPT-4o y Gemini-2.0-Flash) desde las perspectivas de Comparación por Pares y Evaluación de Puntajes, proporcionando un entorno de prueba estandarizado que incorpora juicios humanos y rúbricas detalladas. Nuestros extensos experimentos revelan que, aunque estos MLLMs muestran potencial en la evaluación de MMU (es decir, alcanzando un promedio de 66.55% en el escenario de Comparación por Pares y 42.79% en el escenario de Evaluación de Puntajes), enfrentan desafíos significativos con las tareas de MMG (es decir, promediando solo 53.37% en Comparación por Pares y 30.05% en Evaluación de Puntajes), exponiendo sesgos entre modalidades y problemas de alucinación. Para abordar esto, presentamos OmniArena, una plataforma automatizada para evaluar modelos omni y modelos de recompensa multimodal. Nuestro trabajo destaca la necesidad de protocolos de evaluación más justos y una mayor alineación con las preferencias humanas. El código fuente y el conjunto de datos están disponibles públicamente en: https://urrealhero.github.io/judgeanythingweb/.

CFG-Zero: Guía Libre de Clasificadores Mejorada para Modelos de Emparejamiento de Flujos
CFG-Zero: Improved Classifier-Free Guidance for Flow Matching Models

Mar 24

ByWeichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu

La Guía Libre de Clasificadores (Classifier-Free Guidance, CFG) es una técnica ampliamente adoptada en modelos de difusión/flujo para mejorar la fidelidad y controlabilidad de las imágenes. En este trabajo, primero estudiamos analíticamente el efecto de CFG en modelos de emparejamiento de flujo entrenados con mezclas gaussianas, donde el flujo verdadero puede derivarse. Observamos que, en las primeras etapas del entrenamiento, cuando la estimación del flujo es imprecisa, CFG dirige las muestras hacia trayectorias incorrectas. Basándonos en esta observación, proponemos CFG-Zero*, una versión mejorada de CFG con dos contribuciones: (a) escala optimizada, donde un escalar se optimiza para corregir las imprecisiones en la velocidad estimada, de ahí el * en el nombre; y (b) inicialización cero (zero-init), que implica anular los primeros pasos del solucionador de EDO. Los experimentos en generación de texto a imagen (Lumina-Next, Stable Diffusion 3 y Flux) y de texto a video (Wan-2.1) demuestran que CFG-Zero* supera consistentemente a CFG, destacando su efectividad en la guía de modelos de Emparejamiento de Flujo. (El código está disponible en github.com/WeichenFan/CFG-Zero-star).

Derrotar las inyecciones de prompts mediante diseño
Defeating Prompt Injections by Design

Mar 24

ByEdoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se están implementando cada vez más en sistemas agentes que interactúan con un entorno externo. Sin embargo, los agentes basados en LLMs son vulnerables a ataques de inyección de prompts cuando manejan datos no confiables. En este artículo proponemos CaMeL, una defensa robusta que crea una capa de protección alrededor del LLM, asegurándolo incluso cuando los modelos subyacentes pueden ser susceptibles a ataques. Para funcionar, CaMeL extrae explícitamente los flujos de control y datos de la consulta (confiable); por lo tanto, los datos no confiables recuperados por el LLM nunca pueden afectar el flujo del programa. Para mejorar aún más la seguridad, CaMeL se basa en la noción de capacidad para prevenir la exfiltración de datos privados a través de flujos de datos no autorizados. Demostramos la efectividad de CaMeL al resolver el 67% de las tareas con seguridad comprobable en AgentDojo [NeurIPS 2024], un reciente benchmark de seguridad para agentes.

Visión-R1: Evolución de la Alineación sin Intervención Humana en Modelos de Visión y Lenguaje a Gran Escala mediante Aprendizaje por Refuerzo Guiado por Visión
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning

Mar 23

ByYufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang

Los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) suelen seguir un paradigma de entrenamiento en dos etapas: preentrenamiento y ajuste fino supervisado. Recientemente, la optimización de preferencias, derivada del dominio del lenguaje, ha surgido como una estrategia efectiva de refuerzo post-entrenamiento para mejorar las capacidades de los LVLMs. Sin embargo, la construcción de datos de preferencias anotados por humanos de alta calidad y el desarrollo de modelos de recompensa robustos para imitar estas preferencias son tareas costosas y desafiantes. Motivados por esta observación, proponemos Vision-R1, un novedoso algoritmo de aprendizaje por refuerzo similar a R1 guiado por visión para LVLMs que recompensa a los modelos con retroalimentación visual definitiva. Este enfoque solo utiliza datos de instrucciones curados, eliminando la necesidad de modelos de recompensa especializados y conjuntos de datos de preferencias elaborados manualmente. Incorporamos una función de recompensa basada en criterios que integra retroalimentación multidimensional para evaluar de manera integral las respuestas del modelo según la lógica de la tarea visual. Además, introducimos una estrategia de refinamiento progresivo de reglas que ajusta dinámicamente los criterios de recompensa durante el entrenamiento, permitiendo una mejora continua del modelo y mitigando el "hacking de recompensas". Experimentos exhaustivos en benchmarks tanto dentro como fuera de la distribución demuestran que el ajuste fino de los LVLMs de 7B con Vision-R1 logra mejoras consistentes en el rendimiento, con incrementos de hasta el 50% y superando incluso al modelo de última generación 10 veces más grande.

FFN Fusión: Replanteando el Cálculo Secuencial en Modelos de Lenguaje a Gran Escala
FFN Fusion: Rethinking Sequential Computation in Large Language Models

Mar 24

ByAkhiad Bercovich, Mohammad Dabbah, Omri Puny, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Ehud Karpas, Itay Levy, Zach Moshe, Najeeb Nabwani, Tomer Ronen, Itamar Schen, Elad Segal, Ido Shahaf, Oren Tropp, Ran Zilberstein, Ran El-Yaniv

Presentamos FFN Fusion, una técnica de optimización arquitectónica que reduce el cómputo secuencial en modelos de lenguaje grandes al identificar y aprovechar oportunidades naturales de paralelización. Nuestra idea clave es que las secuencias de capas de Redes Feed-Forward (FFN), particularmente aquellas que permanecen tras la eliminación de capas de atención específicas, a menudo pueden paralelizarse con un impacto mínimo en la precisión. Desarrollamos una metodología fundamentada para identificar y fusionar dichas secuencias, transformándolas en operaciones paralelas que reducen significativamente la latencia de inferencia mientras preservan el comportamiento del modelo. Al aplicar estas técnicas a Llama-3.1-405B-Instruct, creamos Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), un modelo eficiente y próximamente disponible públicamente que logra una aceleración de 1.71X en la latencia de inferencia y un costo 35X menor por token, manteniendo un rendimiento sólido en diversos benchmarks. A través de experimentos exhaustivos en modelos que van desde 49B hasta 253B parámetros, demostramos que FFN Fusion se vuelve cada vez más efectiva a escalas mayores y puede complementar técnicas de optimización existentes como la cuantización y la poda. Más intrigantemente, encontramos que incluso bloques completos de transformadores que contienen tanto capas de atención como FFN pueden paralelizarse en ocasiones, sugiriendo nuevas direcciones para el diseño de arquitecturas neuronales.

Modelado de Imágenes Equivariante
Equivariant Image Modeling

Mar 24

ByRuixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu

Los modelos generativos actuales, como los enfoques autorregresivos y de difusión, descomponen el aprendizaje de distribuciones de datos de alta dimensionalidad en una serie de subtareas más simples. Sin embargo, surgen conflictos inherentes durante la optimización conjunta de estas subtareas, y las soluciones existentes no logran resolver dichos conflictos sin sacrificar la eficiencia o la escalabilidad. Proponemos un novedoso marco de modelado de imágenes equivariante que alinea intrínsecamente los objetivos de optimización entre subtareas al aprovechar la invariancia traslacional de las señales visuales naturales. Nuestro método introduce (1) una tokenización por columnas que mejora la simetría traslacional a lo largo del eje horizontal, y (2) una atención causal en ventanas que refuerza relaciones contextuales consistentes entre posiciones. Evaluado en la generación de imágenes condicionadas por clase en ImageNet a una resolución de 256x256, nuestro enfoque alcanza un rendimiento comparable al de los modelos AR de última generación mientras utiliza menos recursos computacionales. Un análisis sistemático demuestra que una mayor equivariancia reduce los conflictos entre tareas, mejorando significativamente la generalización en modo zero-shot y permitiendo la síntesis de imágenes ultra largas. Este trabajo establece el primer marco para la descomposición alineada de tareas en el modelado generativo, ofreciendo ideas sobre el uso eficiente de parámetros compartidos y la optimización libre de conflictos. El código y los modelos están disponibles públicamente en https://github.com/drx-code/EquivariantModeling.

LEMA: Aprendizaje a partir de Errores para el Avance Matemático en Modelos de Lenguaje de Gran Escala
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

Mar 21

ByZhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una capacidad notable de razonamiento para resolver problemas matemáticos. Sin embargo, los enfoques existentes se centran principalmente en mejorar la calidad de los datos de entrenamiento correctos, por ejemplo, destilando soluciones correctas de alta calidad a partir de modelos avanzados, descuidando el valor contenido en los datos de errores, lo que potencialmente obstaculiza la capacidad reflexiva del modelo. Aunque algunos estudios intentan aprovechar los datos de errores, a menudo involucran mecanismos complejos, como la Búsqueda de Árbol de Monte Carlo (MCTS) para explorar nodos de error. En este trabajo, proponemos mejorar la capacidad de razonamiento de los LLMs mediante el Aprendizaje a partir de Errores para el Avance Matemático (LEMMA, por sus siglas en inglés). LEMMA construye datos que consisten en una solución incorrecta con un paso erróneo y una conexión de reflexión a una solución correcta para el ajuste fino. Específicamente, analizamos sistemáticamente los tipos de errores generados por el modelo e introducimos un método de aumento de errores basado en tipos de errores para recopilar errores diversos y representativos. Las soluciones correctas provienen de corregir los errores o de generar un nuevo comienzo. A través de una conexión de reflexión suave consciente del modelo, la solución errónea se transfiere a la correcta. Al ajustar el modelo en el conjunto de datos construido, este es capaz de autocorregir errores de manera autónoma dentro del proceso de generación sin depender de modelos de crítica externos. Los resultados experimentales demuestran que LEMMA logra mejoras significativas en el rendimiento en comparación con otras líneas de base sólidas.

Video SimpleQA: Hacia la Evaluación de la Veracidad en Modelos de Lenguaje de Video a Gran Escala
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models

Mar 24

ByMeng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang

Los recientes avances en los Modelos de Lenguaje de Video a Gran Escala (LVLMs, por sus siglas en inglés) han destacado su potencial para la comprensión multimodal, aunque la evaluación de su fundamentación factual en contextos de video sigue siendo un desafío crítico sin resolver. Para abordar esta brecha, presentamos Video SimpleQA, el primer punto de referencia integral diseñado específicamente para la evaluación de la factualidad en LVLMs. Nuestro trabajo se distingue de los benchmarks de video existentes a través de las siguientes características clave: 1) Conocimiento requerido: exige la integración de conocimiento externo más allá de la narrativa explícita; 2) Preguntas orientadas a hechos: se enfocan en eventos o relaciones objetivas e indiscutibles, evitando interpretaciones subjetivas; 3) Respuestas definitivas y breves: las respuestas están diseñadas para ser inequívocas y correctas en un formato corto, permitiendo una evaluación automatizada mediante marcos de LLM-como-juez con una variación mínima en la puntuación; 4) Verificación con fuentes externas: todas las anotaciones se validan rigurosamente con referencias externas autorizadas para garantizar su fiabilidad; 5) Razonamiento temporal requerido: los tipos de preguntas anotadas abarcan tanto la comprensión estática de un solo fotograma como el razonamiento temporal dinámico, evaluando explícitamente la factualidad de los LVLMs bajo dependencias de contexto largo. Evaluamos extensamente 41 LVLMs de última generación y resumimos los hallazgos clave de la siguiente manera: 1) Los LVLMs actuales muestran deficiencias notables en la adherencia factual, particularmente en los modelos de código abierto. El modelo con mejor rendimiento, Gemini-1.5-Pro, alcanza apenas un F-score del 54.4%; 2) Los paradigmas de cómputo en tiempo de prueba muestran ganancias de rendimiento insignificantes, revelando limitaciones fundamentales para mejorar la factualidad mediante cómputos posteriores; 3) La Generación Aumentada con Recuperación demuestra mejoras consistentes a costa de un tiempo adicional de inferencia, presentando una compensación crítica entre eficiencia y rendimiento.

Razonamiento para Aprender a partir de Pensamientos Latentes
Reasoning to Learn from Latent Thoughts

Mar 24

ByYangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto

El escalado computacional para el preentrenamiento de modelos de lenguaje (LM) ha superado el crecimiento de los textos escritos por humanos, lo que ha generado preocupación de que los datos se conviertan en el cuello de botella para el escalado de los LM. Para continuar escalando el preentrenamiento en este régimen limitado por datos, proponemos que modelar e inferir explícitamente los pensamientos latentes que subyacen al proceso de generación de texto puede mejorar significativamente la eficiencia de los datos en el preentrenamiento. Intuitivamente, nuestro enfoque considera el texto web como el resultado comprimido de un proceso de pensamiento humano más detallado, y que los pensamientos latentes contienen conocimiento contextual y pasos de razonamiento críticos para un aprendizaje eficiente en términos de datos. Demostramos empíricamente la efectividad de nuestro enfoque a través del preentrenamiento continuo en un entorno limitado por datos para matemáticas. Primero, mostramos que los enfoques de datos sintéticos para inferir pensamientos latentes mejoran significativamente la eficiencia de los datos, superando el entrenamiento con la misma cantidad de datos brutos (5.7\% \rightarrow 25.4\% en MATH). Además, demostramos la inferencia de pensamientos latentes sin un profesor fuerte, donde un LM mejora su propio rendimiento utilizando un algoritmo EM para mejorar iterativamente la capacidad del LM entrenado y la calidad de los datos de preentrenamiento aumentados con pensamientos. Mostramos que un LM de 1B puede mejorar su rendimiento a través de al menos tres iteraciones y superar significativamente a los modelos de referencia entrenados con datos brutos, con ganancias crecientes al aumentar el cómputo de inferencia al realizar el paso E. Las ganancias obtenidas del escalado de inferencia y las iteraciones EM sugieren nuevas oportunidades para escalar el preentrenamiento en entornos limitados por datos.

Feather-SQL: Un Marco Ligero NL2SQL con Paradigma de Colaboración de Doble Modelo para Modelos de Lenguaje Pequeños
Feather-SQL: A Lightweight NL2SQL Framework with Dual-Model Collaboration Paradigm for Small Language Models

Mar 22

ByWenqi Pei, Hailing Xu, Hengyuan Zhao, Shizheng Hou, Han Chen, Zining Zhang, Pingyi Luo, Bingsheng He

La conversión de Lenguaje Natural a SQL (NL2SQL) ha experimentado avances significativos con los modelos de lenguaje grandes (LLMs). Sin embargo, estos modelos suelen depender de sistemas de código cerrado y altos recursos computacionales, lo que plantea desafíos en la privacidad de los datos y su implementación. Por el contrario, los modelos de lenguaje pequeños (SLMs) tienen dificultades con las tareas de NL2SQL, mostrando un rendimiento deficiente e incompatibilidad con los marcos existentes. Para abordar estos problemas, presentamos Feather-SQL, un nuevo marco ligero diseñado específicamente para SLMs. Feather-SQL mejora la ejecutabilidad y precisión del SQL mediante 1) la poda y vinculación de esquemas, y 2) la generación de múltiples rutas y candidatos. Además, introducimos el Paradigma de Colaboración de Modelos 1+1, que combina un modelo de chat de propósito general potente con un especialista en SQL ajustado finamente, fusionando un razonamiento analítico sólido con una generación de SQL de alta precisión. Los resultados experimentales en BIRD demuestran que Feather-SQL mejora el rendimiento de NL2SQL en SLMs, con un aumento de aproximadamente el 10% para modelos sin ajuste fino. El paradigma propuesto eleva el límite de precisión de los SLMs al 54.76%, destacando su efectividad.

Optimización Mínima de Proyección Gaussiana 3D
Optimized Minimal 3D Gaussian Splatting

Mar 21

ByJoo Chan Lee, Jong Hwan Ko, Eunbyung Park

El Splatting Gaussiano 3D (3DGS) ha surgido como una representación poderosa para la renderización en tiempo real de alto rendimiento, permitiendo una amplia gama de aplicaciones. Sin embargo, representar escenas 3D con numerosas primitivas Gaussianas explícitas impone una sobrecarga significativa de almacenamiento y memoria. Estudios recientes han demostrado que se puede lograr una renderización de alta calidad con un número sustancialmente reducido de Gaussianas cuando se representan con atributos de alta precisión. No obstante, los métodos de compresión de 3DGS existentes aún dependen de un número relativamente grande de Gaussianas, centrándose principalmente en la compresión de atributos. Esto se debe a que un conjunto más pequeño de Gaussianas se vuelve cada vez más sensible a la compresión de atributos con pérdida, lo que lleva a una degradación severa de la calidad. Dado que el número de Gaussianas está directamente relacionado con los costos computacionales, es esencial reducir efectivamente el número de Gaussianas en lugar de solo optimizar el almacenamiento. En este artículo, proponemos la representación de Gaussianas Mínimas Optimizadas (OMG), que reduce significativamente el almacenamiento utilizando un número mínimo de primitivas. Primero, determinamos la Gaussiana distinta de las cercanas, minimizando la redundancia sin sacrificar la calidad. Segundo, proponemos una representación de atributos compacta y precisa que captura eficientemente tanto la continuidad como la irregularidad entre las primitivas. Además, proponemos una técnica de cuantización de subvectores para mejorar la representación de la irregularidad, manteniendo un entrenamiento rápido con un tamaño de libro de códigos insignificante. Experimentos extensos demuestran que OMG reduce los requisitos de almacenamiento en casi un 50% en comparación con el estado del arte anterior y permite una renderización de más de 600 FPS mientras mantiene una alta calidad de renderización. Nuestro código fuente está disponible en https://maincold2.github.io/omg/.

Aceleración de Difusión sin Entrenamiento con Muestreo de Cuello de Botella
Training-free Diffusion Acceleration with Bottleneck Sampling

Mar 24

ByYe Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui

Los modelos de difusión han demostrado capacidades notables en la generación de contenido visual, pero siguen siendo difíciles de implementar debido a su alto costo computacional durante la inferencia. Esta carga computacional surge principalmente de la complejidad cuadrática de la autoatención con respecto a la resolución de imágenes o videos. Si bien los métodos de aceleración existentes a menudo comprometen la calidad de la salida o requieren un costoso reentrenamiento, observamos que la mayoría de los modelos de difusión están preentrenados en resoluciones más bajas, lo que presenta una oportunidad para aprovechar estos conocimientos previos de baja resolución y lograr una inferencia más eficiente sin degradar el rendimiento. En este trabajo, presentamos Bottleneck Sampling, un marco de trabajo que no requiere entrenamiento y que aprovecha los conocimientos previos de baja resolución para reducir la sobrecarga computacional mientras preserva la fidelidad de la salida. Bottleneck Sampling sigue un flujo de trabajo de eliminación de ruido de alta-baja-alta: realiza la eliminación de ruido en alta resolución en las etapas inicial y final, mientras opera en resoluciones más bajas en los pasos intermedios. Para mitigar los artefactos de aliasing y desenfoque, refinamos aún más los puntos de transición de resolución y ajustamos adaptativamente los pasos de tiempo de eliminación de ruido en cada etapa. Evaluamos Bottleneck Sampling en tareas de generación de imágenes y videos, donde extensos experimentos demuestran que acelera la inferencia hasta 3 veces en la generación de imágenes y 2.5 veces en la generación de videos, todo ello manteniendo una calidad de salida comparable al proceso estándar de muestreo a resolución completa en múltiples métricas de evaluación. El código está disponible en: https://github.com/tyfeld/Bottleneck-Sampling.

AlphaSpace: Habilitación de Acciones Robóticas mediante Tokenización Semántica y Razonamiento Simbólico
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning

Mar 24

ByAlan Dao, Dinh Bach Vu, Bui Quang Huy

Este artículo presenta AlphaSpace, una metodología novedosa diseñada para mejorar las capacidades de razonamiento espacial de los modelos de lenguaje de gran escala (LLMs) en la navegación del espacio cartesiano 3D. AlphaSpace emplea una estrategia de tokenización basada en semántica, codificando información de altura mediante tokens semánticos especializados, e integra principalmente datos sintéticos de razonamiento simbólico. Este enfoque permite a los LLMs manipular objetos con precisión al posicionarlos en coordenadas específicas [x, y, z]. Los resultados experimentales demuestran que AlphaSpace supera significativamente a los modelos existentes en subtareas de manipulación, logrando una precisión total del 66.67%, en comparación con el 37.5% de GPT-4o y el 29.17% de Claude 3.5 Sonnet.

MagicComp: Refinamiento en Dos Fases sin Entrenamiento para la Generación de Videos Compositivos
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

Mar 18

ByHongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen

La generación de texto a video (T2V) ha logrado avances significativos con los modelos de difusión. Sin embargo, los métodos existentes aún enfrentan dificultades para vincular atributos con precisión, determinar relaciones espaciales y capturar interacciones complejas de acciones entre múltiples sujetos. Para abordar estas limitaciones, proponemos MagicComp, un método sin entrenamiento que mejora la generación composicional de T2V mediante un refinamiento en dos fases. Específicamente, (1) Durante la Etapa de Condicionamiento: Introducimos la Desambiguación de Anclas Semánticas, que refuerza la semántica específica de los sujetos y resuelve la ambigüedad entre sujetos al inyectar progresivamente los vectores direccionales de las anclas semánticas en la incrustación de texto original; (2) Durante la Etapa de Desruido: Proponemos la Atención de Fusión de Diseño Dinámico, que integra conocimientos previos de localización y percepción espacial adaptativa del modelo para vincular de manera flexible los sujetos a sus regiones espacio-temporales mediante la modulación de atención enmascarada. Además, MagicComp es un enfoque versátil y agnóstico al modelo, que puede integrarse sin problemas en las arquitecturas T2V existentes. Experimentos extensos en T2V-CompBench y VBench demuestran que MagicComp supera a los métodos más avanzados, destacando su potencial para aplicaciones como la generación de videos basados en indicaciones complejas y controlables mediante trayectorias. Página del proyecto: https://hong-yu-zhang.github.io/MagicComp-Page/.

Diffusion-4K: Síntesis de Imágenes en Ultra Alta Resolución con Modelos de Difusión Latente
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models

Mar 24

ByJinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang

En este artículo, presentamos Diffusion-4K, un marco novedoso para la síntesis directa de imágenes en ultra alta resolución utilizando modelos de difusión de texto a imagen. Los avances principales incluyen: (1) Aesthetic-4K Benchmark: para abordar la ausencia de un conjunto de datos público para la síntesis de imágenes en 4K, construimos Aesthetic-4K, un punto de referencia integral para la generación de imágenes en ultra alta resolución. Curiosamos un conjunto de datos de alta calidad en 4K con imágenes y descripciones cuidadosamente seleccionadas generadas por GPT-4o. Además, introducimos las métricas GLCM Score y Compression Ratio para evaluar detalles finos, combinadas con medidas holísticas como FID, Aesthetics y CLIPScore para una evaluación integral de imágenes en ultra alta resolución. (2) Ajuste fino basado en wavelets: proponemos un enfoque de ajuste fino basado en wavelets para el entrenamiento directo con imágenes fotorrealistas en 4K, aplicable a varios modelos de difusión latente, demostrando su eficacia en la síntesis de imágenes en 4K altamente detalladas. En consecuencia, Diffusion-4K logra un rendimiento impresionante en la síntesis de imágenes de alta calidad y la adherencia a las indicaciones de texto, especialmente cuando se potencia con modelos de difusión modernos a gran escala (por ejemplo, SD3-2B y Flux-12B). Los resultados experimentales extensos de nuestro punto de referencia demuestran la superioridad de Diffusion-4K en la síntesis de imágenes en ultra alta resolución.

Perdidos en la Traducción Cultural: ¿Los LLM Tienen Dificultades con las Matemáticas en Diferentes Contextos Culturales?
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?

Mar 23

ByAabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han avanzado significativamente en diversos campos, particularmente en la codificación, el razonamiento matemático y la resolución de problemas lógicos. Sin embargo, persiste una pregunta crítica: ¿Persisten estas habilidades de razonamiento matemático cuando los LLMs se enfrentan a problemas matemáticos adaptados culturalmente? Específicamente, ¿cómo se desempeñan los LLMs cuando se les presentan problemas matemáticos integrados en contextos culturales que no tienen una representación significativa en los datos de entrenamiento a gran escala de la inteligencia artificial? Para explorar esto, generamos seis conjuntos de datos culturales sintéticos a partir de GSM8K, un punto de referencia ampliamente utilizado para evaluar las habilidades de razonamiento matemático de los LLMs. Mientras conservamos la lógica matemática y los valores numéricos del conjunto de pruebas original de GSM8K, modificamos elementos culturales como nombres personales, alimentos, nombres de lugares, etc. Estos conjuntos de datos adaptados culturalmente proporcionan un marco más confiable para evaluar el razonamiento matemático de los LLMs en contextos culturales cambiantes. Nuestros hallazgos revelan que los LLMs tienen dificultades con los problemas matemáticos cuando las referencias culturales cambian, a pesar de que la estructura matemática subyacente permanece constante. Los modelos más pequeños experimentan mayores caídas en el rendimiento en comparación con los modelos más grandes. Curiosamente, nuestros resultados también sugieren que la familiaridad cultural puede mejorar el razonamiento matemático. Incluso modelos sin entrenamiento matemático explícito, pero con exposición a contextos culturales relevantes, a veces superan a modelos más grandes y matemáticamente competentes en problemas matemáticos integrados culturalmente. Este estudio destaca el impacto del contexto cultural en las habilidades de razonamiento matemático de los LLMs, subrayando la necesidad de datos de entrenamiento más diversos y representativos para mejorar la robustez en aplicaciones del mundo real. Los conjuntos de datos de referencia y el script para reproducir los resultados están disponibles en https://github.com/akarim23131/Lost_in_Cultural_Translation.

V-Seek: Aceleración del razonamiento de modelos de lenguaje grandes (LLM) en plataformas RISC-V de clase servidor con hardware abierto
V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

Mar 21

ByJavier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini

El reciente crecimiento exponencial de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha dependido de sistemas basados en GPU. Sin embargo, las CPU están surgiendo como una alternativa flexible y de menor costo, especialmente cuando se enfocan en cargas de trabajo de inferencia y razonamiento. RISC-V está ganando rápidamente terreno en este ámbito, dado su conjunto de instrucciones (ISA) abierto y neutral respecto a proveedores. No obstante, el hardware RISC-V para cargas de trabajo de LLMs y el ecosistema de software correspondiente no están completamente maduros y optimizados, debido a la necesidad de ajustes específicos del dominio. Este artículo tiene como objetivo llenar este vacío, centrándose en optimizar la inferencia de LLMs en el Sophon SG2042, la primera CPU comercial de muchos núcleos RISC-V con capacidades de procesamiento vectorial. En dos LLMs recientes de última generación optimizados para razonamiento, DeepSeek R1 Distill Llama 8B y DeepSeek R1 Distill QWEN 14B, logramos 4.32/2.29 tokens por segundo para la generación de tokens y 6.54/3.68 tokens por segundo para el procesamiento de prompts, con una aceleración de hasta 2.9x/3.0x en comparación con nuestra línea base.

Typed-RAG: Descomposición Multi-Aspecto con Tipos para la Respuesta a Preguntas No Factuales
Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering

Mar 20

ByDongGeon Lee, Ahjeong Park, Hyeri Lee, Hyeonseo Nam, Yunho Maeng

La respuesta a preguntas no factuales (NFQA, por sus siglas en inglés) representa un desafío significativo debido a su naturaleza abierta, la diversidad de intenciones y la necesidad de razonamiento multiaspectual, lo que hace que los enfoques convencionales de respuesta a preguntas factuales, incluida la generación aumentada por recuperación (RAG), resulten insuficientes. A diferencia de las preguntas factuales, las preguntas no factuales (NFQs) carecen de respuestas definitivas y requieren sintetizar información de múltiples fuentes a través de diversas dimensiones de razonamiento. Para abordar estas limitaciones, presentamos Typed-RAG, un marco de descomposición multiaspectual consciente del tipo dentro del paradigma RAG para NFQA. Typed-RAG clasifica las NFQs en tipos distintos —como debate, experiencia y comparación— y aplica una descomposición basada en aspectos para refinar las estrategias de recuperación y generación. Al descomponer las NFQs multiaspectuales en subpreguntas de un solo aspecto y agregar los resultados, Typed-RAG genera respuestas más informativas y contextualmente relevantes. Para evaluar Typed-RAG, introducimos Wiki-NFQA, un conjunto de datos de referencia que cubre diversos tipos de NFQs. Los resultados experimentales demuestran que Typed-RAG supera a los métodos base, destacando así la importancia de la descomposición consciente del tipo para una recuperación y generación efectivas en NFQA. Nuestro código y conjunto de datos están disponibles en https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}.

AMD-Hummingbird: Hacia un Modelo Eficiente de Texto a Video
AMD-Hummingbird: Towards an Efficient Text-to-Video Model

Mar 24

ByTakashi Isobe, He Cui, Dong Zhou, Mengmeng Ge, Dong Li, Emad Barsoum

La generación de Texto a Video (T2V) ha atraído una atención significativa por su capacidad para sintetizar videos realistas a partir de descripciones textuales. Sin embargo, los modelos existentes luchan por equilibrar la eficiencia computacional y la alta calidad visual, especialmente en dispositivos con recursos limitados, como iGPUs y teléfonos móviles. La mayoría de los trabajos previos priorizan la fidelidad visual, pasando por alto la necesidad de modelos más pequeños y eficientes adecuados para su implementación en el mundo real. Para abordar este desafío, proponemos un marco ligero de T2V, denominado Hummingbird, que poda los modelos existentes y mejora la calidad visual mediante el aprendizaje con retroalimentación visual. Nuestro enfoque reduce el tamaño de la U-Net de 1.4 mil millones a 0.7 mil millones de parámetros, mejorando significativamente la eficiencia mientras se preserva la generación de videos de alta calidad. Además, introducimos una novedosa canalización de procesamiento de datos que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs) y los Modelos de Evaluación de Calidad de Video (VQA) para mejorar la calidad tanto de los textos de entrada como de los datos de video. Para apoyar el entrenamiento impulsado por el usuario y la personalización de estilos, publicamos el código completo de entrenamiento, incluyendo el procesamiento de datos y el entrenamiento del modelo. Experimentos extensos muestran que nuestro método logra una aceleración de 31X en comparación con modelos de última generación como VideoCrafter2, al mismo tiempo que alcanza la puntuación más alta en VBench. Además, nuestro método soporta la generación de videos de hasta 26 fotogramas, abordando las limitaciones de los métodos basados en U-Net para la generación de videos largos. Cabe destacar que todo el proceso de entrenamiento requiere solo cuatro GPUs, pero ofrece un rendimiento competitivo con los métodos líderes existentes. Hummingbird presenta una solución práctica y eficiente para la generación de T2V, combinando alto rendimiento, escalabilidad y flexibilidad para aplicaciones en el mundo real.

Control de Varianza mediante Reajuste de Pesos en el Preentrenamiento de Modelos de Lenguaje de Gran Escala
Variance Control via Weight Rescaling in LLM Pre-training

Mar 21

ByLouis Owen, Abhay Kumar, Nilabhra Roy Chowdhury, Fabian Güra

El resultado del preentrenamiento de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) depende en gran medida de las estrategias de inicialización de pesos y control de varianza. Aunque la importancia del control inicial de la varianza ha sido ampliamente documentada en redes neuronales en general, la literatura sobre la inicialización y la gestión de su crecimiento durante el preentrenamiento de LLM, específicamente, es algo escasa. En este artículo, presentamos el esquema de inicialización de pesos denominado Reajuste por Índice de Capa (LIR, por sus siglas en inglés) y la estrategia de control de varianza denominada Reajuste de Varianza Objetivo (TVR, por sus siglas en inglés). Los experimentos realizados en un modelo LLaMA de 1B de parámetros demuestran que una mejor gestión de la varianza mediante estas técnicas produce mejoras sustanciales en el rendimiento de tareas posteriores (hasta un 4,6% en puntos de referencia comunes de preentrenamiento) y reduce los valores extremos de activación, mitigando así los desafíos asociados con la cuantización y el entrenamiento en baja precisión. Nuestro código está disponible en: https://github.com/bluorion-com/weight_rescaling.

MetaSpatial: Fortaleciendo el Razonamiento Espacial 3D en los Modelos de Lenguaje Visual para el Metaverso
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

Mar 24

ByZhenyu Pan, Han Liu

Presentamos MetaSpatial, el primer marco basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado para mejorar el razonamiento espacial 3D en modelos de visión y lenguaje (VLMs), permitiendo la generación de escenas 3D en tiempo real sin necesidad de optimizaciones predefinidas. MetaSpatial aborda dos desafíos principales: (i) la falta de razonamiento espacial 3D internalizado en los VLMs, lo que limita su capacidad para generar diseños realistas, y (ii) la ineficiencia del ajuste fino supervisado tradicional (SFT) para tareas de generación de diseños, ya que no se dispone de anotaciones de referencia perfectas. Nuestra innovación clave es un mecanismo de optimización basado en RL de múltiples turnos que integra restricciones conscientes de la física y evaluaciones de imágenes renderizadas, asegurando que los diseños 3D generados sean coherentes, físicamente plausibles y estéticamente consistentes. Metodológicamente, MetaSpatial introduce un proceso de razonamiento iterativo y adaptativo, donde el VLM refina los arreglos espaciales a lo largo de múltiples turnos analizando los resultados renderizados, mejorando progresivamente la coherencia de la escena. Las evaluaciones empíricas demuestran que MetaSpatial mejora significativamente la consistencia espacial y la estabilidad de formato en varios modelos a escala. Después del entrenamiento, las ubicaciones de los objetos son más realistas, alineadas y funcionalmente coherentes, validando la efectividad del RL para el razonamiento espacial 3D en aplicaciones del metaverso, realidad aumentada/realidad virtual (AR/VR), gemelos digitales y desarrollo de videojuegos. Nuestro código, datos y pipeline de entrenamiento están disponibles públicamente en https://github.com/PzySeere/MetaSpatial.

Instruct-CLIP: Mejora de la edición de imágenes guiada por instrucciones con refinamiento automático de datos utilizando aprendizaje contrastivo
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning

Mar 24

BySherry X. Chen, Misha Sra, Pradeep Sen

Aunque las instrucciones en lenguaje natural ofrecen una forma intuitiva de guiar la edición automatizada de imágenes, los modelos de aprendizaje profundo a menudo tienen dificultades para lograr resultados de alta calidad, principalmente debido a los desafíos en la creación de grandes conjuntos de datos de entrenamiento de alta calidad. Trabajos anteriores generalmente han dependido de modelos generativos de texto a imagen (T2I) para producir pares de imágenes originales y editadas que simulan la entrada/salida de un modelo de edición de imágenes guiado por instrucciones. Sin embargo, estos pares de imágenes a menudo no se alinean con las instrucciones de edición especificadas debido a las limitaciones de los modelos T2I, lo que afecta negativamente a los modelos entrenados con dichos conjuntos de datos. Para abordar esto, presentamos Instruct-CLIP, un método autosupervisado que aprende los cambios semánticos entre imágenes originales y editadas para refinar y alinear mejor las instrucciones en los conjuntos de datos existentes. Además, adaptamos Instruct-CLIP para manejar imágenes latentes ruidosas y pasos de difusión, de modo que pueda usarse para entrenar modelos de difusión latente (LDMs) [19] y hacer cumplir eficientemente la alineación entre la instrucción de edición y los cambios en la imagen en el espacio latente en cualquier paso del proceso de difusión. Utilizamos Instruct-CLIP para corregir el conjunto de datos InstructPix2Pix y obtener más de 120K muestras refinadas que luego usamos para ajustar su modelo, guiados por nuestra nueva función de pérdida basada en Instruct-CLIP. El modelo resultante puede producir ediciones que están más alineadas con las instrucciones dadas. Nuestro código y conjunto de datos están disponibles en https://github.com/SherryXTChen/Instruct-CLIP.git.

Mente con Ojos: del Razonamiento Lingüístico al Razonamiento Multimodal
Mind with Eyes: from Language Reasoning to Multimodal Reasoning

Mar 23

ByZhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang

Los modelos de lenguaje han avanzado recientemente hacia el ámbito del razonamiento, pero es a través del razonamiento multimodal que podemos desbloquear plenamente el potencial para lograr capacidades cognitivas más completas y similares a las humanas. Esta revisión ofrece una visión sistemática de los enfoques recientes de razonamiento multimodal, categorizándolos en dos niveles: razonamiento multimodal centrado en el lenguaje y razonamiento multimodal colaborativo. El primero abarca la percepción visual de un solo paso y la percepción visual activa, donde la visión desempeña principalmente un papel de apoyo en el razonamiento del lenguaje. El segundo implica la generación de acciones y la actualización de estados dentro del proceso de razonamiento, permitiendo una interacción más dinámica entre las modalidades. Además, analizamos la evolución técnica de estos métodos, discutimos sus desafíos inherentes e introducimos tareas de referencia clave y métricas de evaluación para valorar el rendimiento del razonamiento multimodal. Finalmente, ofrecemos perspectivas sobre futuras direcciones de investigación desde los siguientes dos puntos de vista: (i) del razonamiento visual-lingüístico al razonamiento omnimodal y (ii) del razonamiento multimodal a los agentes multimodales. Esta revisión tiene como objetivo proporcionar una visión estructurada que inspire avances adicionales en la investigación del razonamiento multimodal.

CODA: Reutilización de VAEs Continuos para Tokenización Discreta
CODA: Repurposing Continuous VAEs for Discrete Tokenization

Mar 22

ByZeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang

Los tokenizadores visuales discretos transforman imágenes en una secuencia de tokens, permitiendo la generación visual basada en tokens similar a los modelos de lenguaje. Sin embargo, este proceso es intrínsecamente desafiante, ya que requiere tanto comprimir las señales visuales en una representación compacta como discretizarlas en un conjunto fijo de códigos. Los tokenizadores discretos tradicionales suelen aprender ambas tareas de manera conjunta, lo que a menudo conduce a un entrenamiento inestable, una baja utilización del codebook y una calidad de reconstrucción limitada. En este artículo, presentamos CODA (COntinuous-to-Discrete Adaptation), un marco que desacopla la compresión y la discretización. En lugar de entrenar tokenizadores discretos desde cero, CODA adapta VAEs continuos preentrenados —ya optimizados para compresión perceptual— en tokenizadores discretos mediante un proceso de discretización cuidadosamente diseñado. Al centrarse principalmente en la discretización, CODA garantiza un entrenamiento estable y eficiente mientras mantiene la alta fidelidad visual de los VAEs continuos. Empíricamente, con un presupuesto de entrenamiento 6 veces menor que el del VQGAN estándar, nuestro enfoque logra una utilización del codebook del 100% y un notable FID de reconstrucción (rFID) de 0.43 y 1.34 para compresiones de 8 y 16 veces en el benchmark ImageNet 256×256.

RDTF: Marco de Entrenamiento de Doble Máscara Eficiente en Recursos para la Generación de Pegatinas Animadas de Múltiples Fotogramas
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation

Mar 22

ByZhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang

Recientemente, se han logrado grandes avances en la tecnología de generación de videos, atrayendo la atención generalizada de los académicos. Para aplicar esta tecnología a aplicaciones posteriores en condiciones de recursos limitados, los investigadores suelen ajustar finamente los modelos preentrenados basándose en métodos de ajuste eficiente en parámetros, como Adapter o Lora. Aunque estos métodos pueden transferir el conocimiento del dominio fuente al dominio objetivo, un menor número de parámetros de entrenamiento conduce a una capacidad de ajuste deficiente, y el conocimiento del dominio fuente puede hacer que el proceso de inferencia se desvíe del dominio objetivo. En este artículo, argumentamos que, bajo recursos limitados, entrenar un modelo más pequeño de generación de videos desde cero utilizando solo muestras de nivel millonario puede superar el ajuste eficiente en parámetros en modelos más grandes en aplicaciones posteriores: el núcleo radica en la utilización efectiva de los datos y la estrategia curricular. Tomando la generación de pegatinas animadas (ASG) como un estudio de caso, primero construimos una red de generación de fotogramas discretos para pegatinas con bajas tasas de fotogramas, asegurando que sus parámetros cumplan con los requisitos del entrenamiento del modelo bajo recursos limitados. Para proporcionar soporte de datos a los modelos entrenados desde cero, proponemos una estrategia de utilización de datos basada en doble máscara, que logra mejorar la disponibilidad y ampliar la diversidad de los datos limitados. Para facilitar la convergencia en la situación de doble máscara, proponemos un método de aprendizaje curricular adaptativo a la dificultad, que descompone la entropía de la muestra en componentes estáticos y adaptativos para obtener muestras de fácil a difícil. El experimento demuestra que nuestro marco de entrenamiento eficiente en recursos con doble máscara es cuantitativa y cualitativamente superior a los métodos de ajuste eficiente en parámetros como I2V-Adapter y SimDA, verificando la viabilidad de nuestro método en tareas posteriores bajo recursos limitados. El código estará disponible.

La Supervisión del Proceso Verbal Mejora el Desempeño de los Agentes de Codificación
Verbal Process Supervision Elicits Better Coding Agents

Mar 24

ByHao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao

El surgimiento de los modelos de lenguaje de gran escala y sus aplicaciones como agentes de IA han avanzado significativamente los puntos de referencia más avanzados en la generación de código, transformando las tareas modernas de ingeniería de software. Sin embargo, incluso con modelos de razonamiento calculados en tiempo de prueba, estos sistemas aún enfrentan dificultades con desafíos complejos de ingeniería de software. Este trabajo presenta CURA, un sistema de agente de comprensión y razonamiento de código mejorado con supervisión de procesos verbales (VPS), logrando una mejora del 3.65% sobre los modelos de referencia en puntos de referencia desafiantes como BigCodeBench. Además, CURA, cuando se combina con el modelo o3-mini y las técnicas de VPS, alcanza un rendimiento de vanguardia. Este trabajo representa un paso adelante en la integración de arquitecturas impulsadas por el razonamiento con la generación de código basada en modelos de lenguaje de gran escala, permitiendo que los modelos de lenguaje realicen razonamiento agencial para resolver tareas complejas de ingeniería de software.

Desaprendizaje del Movimiento Humano
Human Motion Unlearning

Mar 24

ByEdoardo De Matteis, Matteo Migliarini, Alessio Sampieri, Indro Spinelli, Fabio Galasso

Introducimos la tarea de desaprendizaje de movimiento humano para prevenir la síntesis de animaciones tóxicas mientras se preserva el rendimiento general de generación de texto a movimiento. Desaprender movimientos tóxicos es un desafío, ya que estos pueden generarse a partir de indicaciones de texto explícitas y de combinaciones implícitas de movimientos seguros que resultan tóxicos (por ejemplo, "patear" es "cargar y balancear una pierna"). Proponemos el primer punto de referencia para el desaprendizaje de movimiento al filtrar movimientos tóxicos de los grandes y recientes conjuntos de datos de texto a movimiento HumanML3D y Motion-X. Proponemos líneas base al adaptar técnicas de desaprendizaje de imágenes de última generación para procesar señales espacio-temporales. Finalmente, proponemos un nuevo modelo de desaprendizaje de movimiento basado en Reemplazo de Código Latente, al que denominamos LCR. LCR no requiere entrenamiento y es adecuado para los espacios latentes discretos de los modelos de difusión de texto a movimiento de última generación. LCR es simple y supera consistentemente a las líneas base tanto cualitativa como cuantitativamente. Página del proyecto: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.

Revisitando la fusión de imágenes para la corrección del balance de blancos con múltiples fuentes de iluminación
Revisiting Image Fusion for Multi-Illuminant White-Balance Correction

Mar 18

ByDavid Serrano-Lozano, Aditya Arora, Luis Herranz, Konstantinos G. Derpanis, Michael S. Brown, Javier Vazquez-Corral

La corrección del balance de blancos (WB) en escenas con múltiples fuentes de iluminación sigue siendo un desafío persistente en visión por computadora. Métodos recientes han explorado enfoques basados en fusión, donde una red neuronal combina linealmente múltiples versiones sRGB de una imagen de entrada, cada una procesada con ajustes predefinidos de WB. Sin embargo, demostramos que estos métodos son subóptimos para escenarios comunes con múltiples fuentes de iluminación. Además, los métodos existentes basados en fusión dependen de conjuntos de datos sRGB de WB que carecen de imágenes dedicadas a múltiples fuentes de iluminación, lo que limita tanto el entrenamiento como la evaluación. Para abordar estos desafíos, presentamos dos contribuciones clave. Primero, proponemos un modelo eficiente basado en transformadores que captura efectivamente las dependencias espaciales entre los ajustes sRGB de WB, mejorando sustancialmente las técnicas de fusión lineal. Segundo, introducimos un conjunto de datos a gran escala de múltiples fuentes de iluminación que comprende más de 16,000 imágenes sRGB renderizadas con cinco configuraciones diferentes de WB, junto con imágenes corregidas de WB. Nuestro método logra una mejora de hasta el 100\% sobre las técnicas existentes en nuestro nuevo conjunto de datos de fusión de imágenes con múltiples fuentes de iluminación.

Replanteamiento de la Evaluación de Imágenes en Super-Resolución
Rethinking Image Evaluation in Super-Resolution

Mar 17

ByShaolin Su, Josep M. Rocafort, Danna Xue, David Serrano-Lozano, Lei Sun, Javier Vazquez-Corral

Si bien las técnicas recientes de super-resolución de imágenes (SR) están mejorando continuamente la calidad perceptual de sus resultados, suelen fallar en las evaluaciones cuantitativas. Esta inconsistencia genera una creciente desconfianza en las métricas de imagen existentes para evaluaciones de SR. Aunque la evaluación de imágenes depende tanto de la métrica como de la verdad de referencia (GT, por sus siglas en inglés), los investigadores generalmente no examinan el papel de las GT, ya que se aceptan comúnmente como referencias "perfectas". Sin embargo, debido a que los datos se recopilaron en los primeros años y a la falta de control sobre otros tipos de distorsiones, señalamos que las GT en los conjuntos de datos de SR existentes pueden exhibir una calidad relativamente pobre, lo que lleva a evaluaciones sesgadas. Siguiendo esta observación, en este artículo nos interesamos en las siguientes preguntas: ¿Son las imágenes GT en los conjuntos de datos de SR existentes 100% confiables para la evaluación de modelos? ¿Cómo afecta la calidad de la GT a esta evaluación? Y, ¿cómo realizar evaluaciones justas si existen GT imperfectas? Para responder a estas preguntas, este artículo presenta dos contribuciones principales. Primero, al analizar sistemáticamente siete modelos de SR de última generación en tres conjuntos de datos de SR del mundo real, mostramos que el rendimiento de SR puede verse afectado consistentemente en todos los modelos por GT de baja calidad, y que los modelos pueden comportarse de manera bastante diferente cuando se controla la calidad de la GT. Segundo, proponemos una nueva métrica de calidad perceptual, el Índice de Calidad Relativa (RQI, por sus siglas en inglés), que mide la discrepancia de calidad relativa entre pares de imágenes, abordando así las evaluaciones sesgadas causadas por GT poco confiables. Nuestro modelo propuesto logra una consistencia significativamente mejor con las opiniones humanas. Esperamos que nuestro trabajo brinde ideas a la comunidad de SR sobre cómo deberían desarrollarse futuros conjuntos de datos, modelos y métricas.

Búsqueda Global-Local en Árbol para la Generación de Escenas 3D Guiada por Lenguaje
Global-Local Tree Search for Language Guided 3D Scene Generation

Mar 24

ByWei Deng, Mengshi Qi, Huadong Ma

Los grandes modelos de visión y lenguaje (VLMs, por sus siglas en inglés), como GPT-4, han logrado un éxito notable en diversos campos. Sin embargo, existen pocos estudios sobre la generación de escenas interiores en 3D con VLMs. Este artículo aborda esta tarea como un problema de planificación sujeto a restricciones de sentido común espacial y de distribución. Para resolver el problema con un VLM, proponemos un nuevo algoritmo de búsqueda en árbol global-local. A nivel global, el método coloca cada objeto secuencialmente y explora múltiples ubicaciones durante cada proceso de colocación, donde el espacio del problema se representa como un árbol. Para reducir la profundidad del árbol, descomponemos la estructura de la escena de manera jerárquica, es decir, a nivel de habitación, nivel de región, nivel de objetos de suelo y nivel de objetos soportados. El algoritmo genera de forma independiente los objetos de suelo en diferentes regiones y los objetos soportados colocados sobre distintos objetos de suelo. A nivel local, también descomponemos la subtarea, la colocación de cada objeto, en múltiples pasos. El algoritmo explora el árbol del espacio del problema. Para aprovechar el modelo VLM y producir las posiciones de los objetos, discretizamos la vista superior del espacio como una cuadrícula densa y llenamos cada celda con diversos emojis para distinguir las celdas. Proporcionamos al VLM la cuadrícula de emojis, y el VLM produce una ubicación razonable para el objeto describiendo la posición con el nombre de los emojis. Los resultados experimentales cuantitativos y cualitativos demuestran que nuestro enfoque genera escenas 3D más plausibles que los métodos más avanzados. Nuestro código fuente está disponible en https://github.com/dw-dengwei/TreeSearchGen.

QuartDepth: Cuantización Post-Entrenamiento para Estimación de Profundidad en Tiempo Real en Dispositivos de Borde
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge

Mar 20

ByXuan Shen, Weize Ma, Jing Liu, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu

La Estimación de Profundidad Monocular (MDE, por sus siglas en inglés) ha surgido como una tarea fundamental en visión por computadora, respaldando numerosas aplicaciones del mundo real. Sin embargo, implementar modelos precisos de estimación de profundidad en dispositivos de borde con recursos limitados, especialmente en Circuitos Integrados de Aplicación Específica (ASICs), es un desafío debido a las altas demandas computacionales y de memoria. Los avances recientes en la estimación de profundidad basada en modelos fundamentales ofrecen resultados impresionantes, pero también amplifican la dificultad de implementación en ASICs. Para abordar este problema, proponemos QuartDepth, que adopta la cuantización posterior al entrenamiento para cuantizar modelos MDE con aceleraciones de hardware para ASICs. Nuestro enfoque implica cuantizar tanto los pesos como las activaciones a una precisión de 4 bits, reduciendo el tamaño del modelo y el costo computacional. Para mitigar la degradación del rendimiento, introducimos un algoritmo de pulido y compensación de activaciones aplicado antes y después de la cuantización de activaciones, así como un método de reconstrucción de pesos para minimizar los errores en la cuantización de pesos. Además, diseñamos un acelerador de hardware flexible y programable al admitir la fusión de kernels y la programabilidad de instrucciones personalizadas, mejorando el rendimiento y la eficiencia. Los resultados experimentales demuestran que nuestro marco logra una precisión competitiva al tiempo que permite una inferencia rápida y una mayor eficiencia energética en ASICs, cerrando la brecha entre la estimación de profundidad de alto rendimiento y la aplicabilidad práctica en dispositivos de borde. Código: https://github.com/shawnricecake/quart-depth.

DynamicVis: Un Modelo Visual Fundamental Eficiente y General para la Comprensión de Imágenes de Percepción Remota
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding

Mar 20

ByKeyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi

El avance de la tecnología de teledetección ha mejorado la resolución espacial de las imágenes satelitales, facilitando representaciones visuales más detalladas para diversas interpretaciones. Sin embargo, los métodos existentes muestran capacidades limitadas de generalización en aplicaciones variadas. Aunque algunos modelos base contemporáneos demuestran potencial, se ven obstaculizados por una adaptabilidad insuficiente entre tareas y procesan principalmente imágenes de baja resolución con tamaños restringidos, lo que les impide aprovechar completamente los datos de alta resolución o aprovechar la semántica de escenas grandes. Es crucial destacar que las imágenes de teledetección difieren fundamentalmente de las imágenes naturales, ya que los objetivos clave en primer plano (por ejemplo, objetos marítimos, estructuras artificiales) suelen ocupar proporciones espaciales mínimas (~1%) y presentan distribuciones dispersas. Modelar eficientemente el conocimiento generalizable entre tareas a partir de tokens 2D extensos (~100,000) representa un desafío significativo, pero sigue siendo crítico para la comprensión de imágenes de teledetección. Motivados por los mecanismos de atención selectiva inherentes al sistema visual humano, proponemos DynamicVis, un modelo base de percepción visual dinámica para imágenes de teledetección. El marco integra una novedosa arquitectura de percepción de regiones dinámicas basada en el modelo de espacio de estados selectivo, que equilibra estratégicamente la extracción de detalles localizados con la integración de contexto global, permitiendo una codificación computacionalmente eficiente de datos a gran escala mientras mantiene la escalabilidad arquitectónica. Para mejorar la transferencia de conocimiento entre tareas, introducimos un paradigma de aprendizaje multi-instancia que utiliza representaciones de meta-embeddings, entrenado con anotaciones a nivel de región en escala de millones. Las evaluaciones en nueve tareas descendentes demuestran la versatilidad del modelo. DynamicVis logra un modelado de características multinivel con una eficiencia excepcional, procesando píxeles (2048x2048) con una latencia de 97 ms (6% de ViT) y un uso de memoria GPU de 833 MB (3% de ViT).