Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

Escalando el Aprendizaje por Refuerzo a Videos Largos
Scaling RL to Long Videos

Jul 10, 2025

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han

923

Presentamos un marco de trabajo integral que escala el razonamiento en modelos de visión y lenguaje (VLMs) para videos largos, aprovechando el aprendizaje por refuerzo. Abordamos los desafíos únicos del razonamiento en videos largos mediante la integración de tres componentes críticos: (1) un conjunto de datos a gran escala, LongVideo-Reason, que comprende 52K pares de preguntas y respuestas sobre videos largos con anotaciones de razonamiento de alta calidad en diversos dominios como deportes, juegos y vlogs; (2) una canalización de entrenamiento en dos etapas que extiende los VLMs con ajuste fino supervisado de cadena de pensamiento (CoT-SFT) y aprendizaje por refuerzo (RL); y (3) una infraestructura de entrenamiento para RL en videos largos, denominada Paralelismo de Secuencia de Refuerzo Multimodal (MR-SP), que incorpora paralelismo de secuencia y un motor basado en vLLM optimizado para videos largos, utilizando incrustaciones de video en caché para un despliegue y prefilling eficientes. En los experimentos, LongVILA-R1-7B logra un rendimiento sólido en benchmarks de preguntas y respuestas sobre videos largos como VideoMME. También supera a Video-R1-7B e incluso iguala a Gemini-1.5-Pro en razonamiento temporal, razonamiento de objetivos y propósitos, razonamiento espacial y razonamiento de trama en nuestro benchmark LongVideo-Reason-eval. Notablemente, nuestro sistema MR-SP alcanza una aceleración de hasta 2.1x en el entrenamiento de RL para videos largos. LongVILA-R1 demuestra ganancias consistentes en el rendimiento a medida que aumenta el número de fotogramas de video de entrada. LongVILA-R1 marca un paso firme hacia el razonamiento en videos largos en VLMs. Además, liberamos nuestro sistema de entrenamiento para disponibilidad pública, que soporta entrenamiento de RL en varias modalidades (video, texto y audio), varios modelos (series VILA y Qwen), e incluso modelos de generación de imágenes y videos. En un solo nodo A100 (8 GPUs), soporta entrenamiento de RL en videos de una hora de duración (por ejemplo, 3,600 fotogramas / alrededor de 256k tokens).

T-LoRA: Personalización de Modelos de Difusión de Imágenes Únicas sin Sobreajuste
T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Jul 8, 2025

Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev

811

Si bien el ajuste fino de modelos de difusión ofrece un enfoque poderoso para personalizar modelos preentrenados y generar objetos específicos, frecuentemente sufre de sobreajuste cuando las muestras de entrenamiento son limitadas, lo que compromete tanto la capacidad de generalización como la diversidad de las salidas. Este artículo aborda la tarea desafiante pero de mayor impacto de adaptar un modelo de difusión utilizando solo una imagen de concepto, ya que la personalización con una sola imagen tiene el mayor potencial práctico. Presentamos T-LoRA, un marco de Adaptación de Bajo Rango Dependiente del Paso Temporal, diseñado específicamente para la personalización de modelos de difusión. En nuestro trabajo demostramos que los pasos temporales más altos en la difusión son más propensos al sobreajuste que los más bajos, lo que requiere una estrategia de ajuste fino sensible al paso temporal. T-LoRA incorpora dos innovaciones clave: (1) una estrategia de ajuste fino dinámico que ajusta las actualizaciones restringidas por rango según los pasos temporales de difusión, y (2) una técnica de parametrización de pesos que garantiza la independencia entre los componentes del adaptador mediante inicialización ortogonal. Experimentos extensos muestran que T-LoRA y sus componentes individuales superan a LoRA estándar y otras técnicas de personalización de modelos de difusión. Logran un equilibrio superior entre la fidelidad al concepto y la alineación con el texto, destacando el potencial de T-LoRA en escenarios con datos limitados y recursos restringidos. El código está disponible en https://github.com/ControlGenAI/T-LoRA.

Razonamiento Visual Fundamentado Mejorado con Evidencia Rastreable: Evaluación y Metodología
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Jul 10, 2025

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang

362

Modelos como OpenAI-o3 son pioneros en el razonamiento visual fundamentado al hacer referencia dinámica a regiones visuales, similar a cómo los humanos "piensan con imágenes". Sin embargo, no existe un punto de referencia para evaluar estas capacidades de manera integral. Para cerrar esta brecha, proponemos TreeBench (Traceable Evidence Evaluation Benchmark), un punto de referencia diagnóstico construido sobre tres principios: (1) percepción visual enfocada en objetivos sutiles en escenas complejas, (2) evidencia rastreable mediante evaluación de cuadros delimitadores, y (3) razonamiento de segundo orden para probar interacciones de objetos y jerarquías espaciales más allá de la simple localización de objetos. Priorizando imágenes con objetos densos, inicialmente muestreamos 1,000 imágenes de alta calidad de SA-1B e incorporamos a ocho expertos en LMM para anotar manualmente preguntas, opciones candidatas y respuestas para cada imagen. Después de tres etapas de control de calidad, TreeBench consta de 405 pares desafiantes de preguntas y respuestas visuales, donde incluso los modelos más avanzados tienen dificultades con este punto de referencia, ya que ninguno alcanza el 60% de precisión, por ejemplo, OpenAI-o3 solo obtiene un 54.87. Además, presentamos TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), un paradigma de entrenamiento para supervisar la localización y el razonamiento conjuntamente con aprendizaje por refuerzo, permitiendo localizaciones precisas y rutas de razonamiento explicables. Inicializado desde Qwen2.5-VL-7B, mejora V* Bench (+16.8), MME-RealWorld (+12.6) y TreeBench (+13.4), demostrando que la rastreabilidad es clave para avanzar en el razonamiento fundamentado en visión. El código está disponible en https://github.com/Haochen-Wang409/TreeVGR.

OST-Bench: Evaluación de las Capacidades de los MLLMs en la Comprensión de Escenas Espacio-Temporales en Línea
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

Jul 10, 2025

JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang

291

Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han demostrado capacidades notables para integrar visión y lenguaje en tareas de razonamiento complejo. Mientras que la mayoría de los benchmarks existentes evalúan los modelos en entornos fuera de línea con un conjunto fijo de entradas previamente registradas, presentamos OST-Bench, un benchmark diseñado para evaluar la comprensión Espacio-Temporal en línea desde la perspectiva de un agente que explora activamente una escena. El aspecto en línea enfatiza la necesidad de procesar y razonar sobre observaciones adquiridas de manera incremental, mientras que el componente Espacio-Temporal requiere integrar las entradas visuales actuales con la memoria histórica para apoyar el razonamiento espacial dinámico. OST-Bench refleja mejor los desafíos de la percepción corporeizada en el mundo real. Construido sobre una canalización eficiente de recopilación de datos, OST-Bench consta de 1.4k escenas y 10k pares de preguntas-respuestas recopilados de ScanNet, Matterport3D y ARKitScenes. Evaluamos varios MLLMs líderes en OST-Bench y observamos que no alcanzan el rendimiento esperado en tareas que requieren razonamiento espacio-temporal complejo. En el entorno en línea, su precisión disminuye a medida que se extiende el horizonte de exploración y crece la memoria. A través de un análisis experimental adicional, identificamos patrones comunes de errores en los modelos y encontramos que tanto las demandas de razonamiento espacial basado en pistas complejas como los requisitos de recuperación de memoria a largo plazo reducen significativamente el rendimiento de los modelos en dos ejes separados, destacando los desafíos centrales que deben abordarse para mejorar el razonamiento corporeizado en línea. Para fomentar la investigación y el desarrollo en este campo, nuestros códigos, conjunto de datos y benchmark están disponibles. Nuestra página del proyecto es: https://rbler1234.github.io/OSTBench.github.io/

Fusión Multi-Granular de Tokens Espacio-Temporales para la Aceleración sin Entrenamiento de LLMs de Video
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

Jul 10, 2025

Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim

243

Los modelos de lenguaje de gran escala (LLMs) para video logran una comprensión sólida de los videos al aprovechar un gran número de tokens espacio-temporales, pero sufren de un escalado computacional cuadrático con respecto al número de tokens. Para abordar este problema, proponemos un método de fusión de tokens espacio-temporales sin necesidad de entrenamiento, denominado STTM. Nuestra idea clave es explotar la redundancia local espacial y temporal en los datos de video, la cual ha sido pasada por alto en trabajos anteriores. STTM primero transforma cada fotograma en tokens espaciales multi-granulares utilizando una búsqueda de grueso a fino sobre una estructura de árbol cuaternario, luego realiza una fusión dirigida por pares a lo largo de la dimensión temporal. Este enfoque de fusión descompuesta supera a los métodos existentes de reducción de tokens en seis benchmarks de preguntas y respuestas sobre videos. Notablemente, STTM logra una aceleración de 2 veces con solo una caída del 0.5% en precisión bajo un presupuesto del 50% de tokens, y una aceleración de 3 veces con apenas un 2% de caída bajo un presupuesto del 30%. Además, STTM es independiente de la consulta, lo que permite la reutilización de la caché KV entre diferentes preguntas para el mismo video. La página del proyecto está disponible en https://www.jshyun.me/projects/sttm.

PyVision: Visión Agéntica con Herramientas Dinámicas
PyVision: Agentic Vision with Dynamic Tooling

Jul 10, 2025

Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei

211

Los LLM se están implementando cada vez más como agentes, sistemas capaces de planificar, razonar y llamar dinámicamente a herramientas externas. Sin embargo, en el razonamiento visual, los enfoques anteriores siguen estando limitados en gran medida por flujos de trabajo predefinidos y conjuntos de herramientas estáticos. En este informe, presentamos PyVision, un marco interactivo y de múltiples turnos que permite a los MLLM generar, ejecutar y refinar de manera autónoma herramientas basadas en Python adaptadas a la tarea en cuestión, desbloqueando una resolución de problemas flexible e interpretable. Desarrollamos una taxonomía de las herramientas creadas por PyVision y analizamos su uso en un conjunto diverso de benchmarks. Cuantitativamente, PyVision logra mejoras consistentes en el rendimiento, aumentando GPT-4.1 en un +7.8% en V* y Claude-4.0-Sonnet en un +31.1% en VLMsAreBlind-mini. Estos resultados apuntan a un cambio más amplio: las herramientas dinámicas permiten a los modelos no solo usar herramientas, sino inventarlas, avanzando hacia un razonamiento visual más agentivo.

Geometría Forzada: Uniendo Difusión de Video y Representación 3D para un Modelado Consistente del Mundo
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

Jul 10, 2025

Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian

202

Los videos representan inherentemente proyecciones 2D de un mundo 3D dinámico. Sin embargo, nuestro análisis sugiere que los modelos de difusión de video entrenados únicamente con datos de video sin procesar a menudo no logran capturar una estructura geométricamente significativa en sus representaciones aprendidas. Para cerrar esta brecha entre los modelos de difusión de video y la naturaleza 3D subyacente del mundo físico, proponemos Geometry Forcing, un método simple pero efectivo que fomenta que los modelos de difusión de video internalicen representaciones latentes en 3D. Nuestra idea clave es guiar las representaciones intermedias del modelo hacia una estructura consciente de la geometría alineándolas con características de un modelo de base geométrica preentrenado. Para ello, introducimos dos objetivos de alineación complementarios: Alineación Angular, que impone consistencia direccional mediante similitud coseno, y Alineación de Escala, que preserva información relacionada con la escala al regresar características geométricas no normalizadas a partir de representaciones de difusión normalizadas. Evaluamos Geometry Forcing en tareas de generación de video condicionadas tanto por la vista de la cámara como por la acción. Los resultados experimentales demuestran que nuestro método mejora sustancialmente la calidad visual y la consistencia 3D en comparación con los métodos de referencia. Página del proyecto: https://GeometryForcing.github.io.

LangSplatV2: Splatting Gaussiano 3D de Lenguaje de Alta Dimensión con más de 450 FPS
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

Jul 9, 2025

Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister

191

En este artículo, presentamos LangSplatV2, que logra el splatting de características de alta dimensión a 476.2 FPS y consultas de texto de vocabulario abierto en 3D a 384.6 FPS para imágenes de alta resolución, proporcionando una aceleración de 42 veces y un aumento de 47 veces sobre LangSplat, respectivamente, junto con una precisión de consulta mejorada. LangSplat emplea Gaussian Splatting para incrustar características de lenguaje CLIP 2D en 3D, mejorando significativamente la velocidad y aprendiendo un campo de lenguaje 3D preciso con semántica SAM. Tales avances en los campos de lenguaje 3D son cruciales para aplicaciones que requieren interacción de lenguaje dentro de escenas complejas. Sin embargo, LangSplat aún no logra un rendimiento de inferencia en tiempo real (8.2 FPS), incluso con GPUs A100 avanzadas, lo que limita severamente su aplicación más amplia. En este artículo, primero realizamos un análisis detallado del tiempo de LangSplat, identificando al decodificador pesado como el principal cuello de botella de velocidad. Nuestra solución, LangSplatV2, asume que cada Gaussiana actúa como un código disperso dentro de un diccionario global, lo que lleva al aprendizaje de un campo de coeficientes dispersos en 3D que elimina por completo la necesidad de un decodificador pesado. Al aprovechar esta dispersión, proponemos además un método eficiente de splatting de coeficientes dispersos con optimización CUDA, renderizando mapas de características de alta dimensión con alta calidad mientras incurre solo en el costo de tiempo de splatting de una característica de ultra baja dimensión. Nuestros resultados experimentales demuestran que LangSplatV2 no solo logra una precisión de consulta mejor o competitiva, sino que también es significativamente más rápido. Los códigos y demostraciones están disponibles en nuestra página del proyecto: https://langsplat-v2.github.io.

Una Revisión sobre la Generación de Narrativas en Videos Largos: Arquitecturas, Consistencia y Calidad Cinematográfica
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

Jul 9, 2025

Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

161

A pesar del progreso significativo que se ha logrado en los modelos generativos de video, los métodos más avanzados actualmente solo pueden producir videos que duran entre 5 y 16 segundos, a menudo etiquetados como "videos de formato largo". Además, los videos que superan los 16 segundos tienen dificultades para mantener apariencias consistentes de los personajes y diseños de escenas a lo largo de la narrativa. En particular, los videos largos con múltiples sujetos aún no logran preservar la consistencia de los personajes y la coherencia del movimiento. Si bien algunos métodos pueden generar videos de hasta 150 segundos de duración, a menudo sufren de redundancia de fotogramas y baja diversidad temporal. Trabajos recientes han intentado producir videos de formato largo que incluyen múltiples personajes, coherencia narrativa y detalles de alta fidelidad. Hemos estudiado exhaustivamente 32 artículos sobre generación de video para identificar componentes arquitectónicos clave y estrategias de entrenamiento que consistentemente producen estas cualidades. También construimos una taxonomía novedosa y exhaustiva de los métodos existentes y presentamos tablas comparativas que categorizan los artículos según sus diseños arquitectónicos y características de rendimiento.

¿Saltar una capa o repetirla? Adaptación de profundidad en tiempo de prueba de LLMs preentrenados
Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

Jul 10, 2025

Ziyue Li, Yang Li, Tianyi Zhou

144

¿Puede una red neuronal preentrenada adaptar su arquitectura a diferentes entradas sin necesidad de ajuste fino? ¿Necesitamos todas las capas para tareas simples, y son adecuadas para tareas desafiantes? Descubrimos que las capas de un modelo de lenguaje grande (LLM) preentrenado pueden manipularse como módulos separados para construir un modelo mejor e incluso más superficial personalizado para cada muestra de prueba. En particular, cada capa del modelo preentrenado puede omitirse/podarse o repetirse múltiples veces como redes neuronales recurrentes (RNN), y apilarse con otras en órdenes arbitrarios, generando una cadena-de-capas (CoLa) por muestra. Este espacio composicional amplía enormemente el alcance de trabajos existentes sobre módulos preentrenados en bucle/recurrentes, poda de capas o redes de salida temprana. Desarrollamos un protocolo de Búsqueda de Árbol de Monte Carlo (MCTS) para explorar e identificar la CoLa óptima para cada muestra en benchmarks de razonamiento matemático y de sentido común. En comparación con un modelo estático de profundidad fija, CoLa permite rutas cortas (pensamiento rápido), recurrencia de la(s) misma(s) capa(s) (pensamiento lento) y la combinación de ambos, ofreciendo arquitecturas más flexibles y dinámicas para diferentes entradas. Realizamos un análisis extenso de la CoLa optimizada por MCTS, lo que lleva a dos hallazgos clave: (1) Para >75% de las muestras con predicciones correctas por el LLM original, podemos encontrar CoLa más cortas, sugiriendo un gran espacio para mejorar la eficiencia de inferencia; (2) Para >60% de las muestras con predicciones originalmente incorrectas, podemos identificar CoLa que logran predicciones correctas, sugiriendo un gran espacio de mejora de rendimiento. Nuestros resultados destacan las limitaciones de usar una arquitectura fija de LLMs preentrenados para inferencia en diferentes muestras y allanan el camino para desbloquear el poder de generalización de la adaptación de profundidad en tiempo de prueba.

Cuello de Botella de Tokens: Un Token para Recordar Dinámicas
Token Bottleneck: One Token to Remember Dynamics

Jul 9, 2025

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun

112

Obtener representaciones visuales compactas y conscientes del tiempo a partir de escenas dinámicas es esencial para la ejecución exitosa de tareas secuenciales de comprensión de escenas, como el seguimiento visual y la manipulación robótica. En este artículo, presentamos Token Bottleneck (ToBo), una canalización de aprendizaje autosupervisado simple pero intuitiva que comprime una escena en un token de cuello de botella y predice la escena subsiguiente utilizando parches mínimos como pistas. La canalización ToBo facilita el aprendizaje de representaciones secuenciales de escenas al codificar de manera conservadora la escena de referencia en un token de cuello de botella compacto durante el paso de compresión. En el paso de expansión, guiamos al modelo para capturar dinámicas temporales al predecir la escena objetivo utilizando el token de cuello de botella junto con algunos parches objetivo como pistas. Este diseño fomenta que la arquitectura visual incorpore dependencias temporales, permitiendo así la comprensión de transiciones dinámicas entre escenas. Experimentos exhaustivos en diversas tareas secuenciales, incluyendo la propagación de etiquetas en video y la manipulación robótica en entornos simulados, demuestran la superioridad de ToBo sobre los métodos de referencia. Además, la implementación de nuestro modelo preentrenado en robots físicos confirma su robustez y efectividad en entornos del mundo real. Validamos además la escalabilidad de ToBo en diferentes escalas de modelos.

Máquina de Tonterías: Caracterizando el Desprecio Emergente por la Verdad en los Modelos de Lenguaje a Gran Escala
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models

Jul 10, 2025

Kaiqu Liang, Haimin Hu, Xuandong Zhao, Dawn Song, Thomas L. Griffiths, Jaime Fernández Fisac

El concepto de "bullshit", tal como lo conceptualizó el filósofo Harry Frankfurt, se refiere a declaraciones realizadas sin tener en cuenta su valor de verdad. Si bien trabajos anteriores han explorado la alucinación y la adulación en los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), proponemos el "machine bullshit" como un marco conceptual general que permite a los investigadores caracterizar el fenómeno más amplio de la pérdida emergente de veracidad en los LLM y arrojar luz sobre sus mecanismos subyacentes. Introducimos el Índice de Bullshit, una métrica novedosa que cuantifica la indiferencia de los LLM hacia la verdad, y proponemos una taxonomía complementaria que analiza cuatro formas cualitativas de bullshit: retórica vacía, evasivas, palabras ambiguas y afirmaciones no verificadas. Realizamos evaluaciones empíricas en el conjunto de datos Marketplace, el conjunto de datos de Neutralidad Política y nuestro nuevo benchmark BullshitEval (2,400 escenarios que abarcan 100 asistentes de IA), diseñado explícitamente para evaluar el machine bullshit. Nuestros resultados demuestran que el ajuste fino de los modelos con aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) exacerba significativamente el bullshit, y que las indicaciones de cadena de pensamiento (CoT, por sus siglas en inglés) en tiempo de inferencia amplifican notablemente formas específicas de bullshit, particularmente la retórica vacía y las evasivas. También observamos un bullshit prevalente en contextos políticos, con las palabras ambiguas como la estrategia dominante. Nuestros hallazgos resaltan desafíos sistemáticos en la alineación de la IA y proporcionan nuevas perspectivas hacia un comportamiento más veraz en los LLM.

Fragmentación Dinámica para el Modelado Jerárquico de Secuencias de Extremo a Extremo
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

Jul 10, 2025

Sukjun Hwang, Brandon Wang, Albert Gu

A pesar del progreso increíble en los modelos de lenguaje (LMs) en los últimos años, en gran parte resultado de alejarse de modelos especializados diseñados para tareas específicas hacia modelos generales basados en arquitecturas potentes (por ejemplo, el Transformer) que aprenden todo a partir de datos brutos, los pasos de preprocesamiento como la tokenización siguen siendo una barrera para los verdaderos modelos de base de extremo a extremo. Introducimos una colección de nuevas técnicas que permiten un mecanismo de fragmentación dinámica que aprende automáticamente estrategias de segmentación dependientes del contenido y del contexto, aprendidas conjuntamente con el resto del modelo. Incorporar esto en una red jerárquica explícita (H-Net) permite reemplazar la pipeline (implícitamente jerárquica) de tokenización-LM-detokenización con un único modelo aprendido completamente de extremo a extremo. Cuando se igualan en términos de cómputo y datos, una H-Net con una etapa de jerarquía que opera a nivel de byte supera a un modelo de lenguaje Transformer fuerte que opera sobre tokens BPE. Iterar la jerarquía en múltiples etapas aumenta aún más su rendimiento al modelar múltiples niveles de abstracción, demostrando un escalamiento significativamente mejor con los datos y equiparando a un Transformer basado en tokens del doble de su tamaño. Las H-Nets preentrenadas en inglés muestran una robustez a nivel de carácter significativamente mayor y aprenden cualitativamente estrategias de fragmentación dependientes de los datos sin heurísticas ni supervisión explícita. Finalmente, la mejora de la H-Net sobre las pipelines tokenizadas se incrementa aún más en lenguajes y modalidades con heurísticas de tokenización más débiles, como el chino y el código, o secuencias de ADN (casi 4 veces más eficiencia en datos que las líneas base), mostrando el potencial de los verdaderos modelos de extremo a extremo que aprenden y escalan mejor a partir de datos no procesados.

Más allá del límite de separabilidad lineal
Beyond the Linear Separability Ceiling

Jul 10, 2025

Enrico Vompa, Tanel Tammet, Mohit Vaishnav

La mayoría de los modelos visual-lingüísticos (VLMs) más avanzados parecen estar limitados por la separabilidad lineal de sus incrustaciones visuales en tareas de razonamiento abstracto. Este trabajo investiga este "cuello de botella de razonamiento lineal" mediante la introducción del Techo de Separabilidad Lineal (LSC), que mide el rendimiento de un clasificador lineal simple sobre las incrustaciones visuales de un VLM. Descubrimos que este cuello de botella es generalizado y no se debe a una percepción deficiente, sino a fallos en las vías de razonamiento del modelo lingüístico. Demostramos que se trata de un problema de alineación solucionable. Sin embargo, la intervención requerida depende de la tarea: activar vías existentes es suficiente para conceptos semánticos, mientras que el razonamiento relacional complejo requiere adaptar los pesos centrales del modelo. Utilizando el ajuste posfijo como control metodológico, encontramos evidencia sólida de la existencia de potentes vías de razonamiento latentes dentro de los VLMs. No obstante, para tareas relacionales complejas que requieren una adaptación más profunda, mejorar explícitamente la calidad de la representación hace que el modelo falle en nuevos formatos de instrucciones, a pesar de que sus incrustaciones permanezcan bien separadas. En última instancia, este trabajo proporciona una nueva perspectiva para el análisis de los VLMs, mostrando que un razonamiento robusto es cuestión de una alineación específica, no simplemente de una mejora en el aprendizaje de representaciones.

Re-Cuello de Botella: Re-Estructuración Latente para Autoencoders Neuronales de Audio
Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders

Jul 10, 2025

Dimitrios Bralios, Jonah Casebeer, Paris Smaragdis

Los códecs de audio neuronales y los autocodificadores han surgido como modelos versátiles para la compresión de audio, transmisión, extracción de características y generación de espacios latentes. Sin embargo, una limitación clave es que la mayoría se entrenan para maximizar la fidelidad de reconstrucción, a menudo descuidando la estructura latente específica necesaria para un rendimiento óptimo en diversas aplicaciones posteriores. Proponemos un marco simple y posterior para abordar esto mediante la modificación del cuello de botella de un autocodificador preentrenado. Nuestro método introduce un "Re-Cuello de Botella", un cuello de botella interno entrenado exclusivamente mediante pérdidas en el espacio latente para inculcar una estructura definida por el usuario. Demostramos la efectividad del marco en tres experimentos. Primero, imponemos un orden en los canales latentes sin sacrificar la calidad de reconstrucción. Segundo, alineamos los latentes con incrustaciones semánticas, analizando el impacto en el modelado de difusión posterior. Tercero, introducimos equivariancia, asegurando que una operación de filtrado en la forma de onda de entrada corresponda directamente a una transformación específica en el espacio latente. En última instancia, nuestro marco de Re-Cuello de Botella ofrece una forma flexible y eficiente de adaptar las representaciones de los modelos de audio neuronales, permitiéndoles cumplir sin problemas las diversas demandas de diferentes aplicaciones con un entrenamiento adicional mínimo.

Creciendo Transformers: Composición Modular y Expansión por Capas sobre un Sustrato Congelado
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

Jul 8, 2025

A. Bochkov

El paradigma predominante para escalar modelos de lenguaje grandes (LLMs) implica un entrenamiento monolítico de extremo a extremo, un proceso intensivo en recursos que carece de flexibilidad. Este artículo explora un enfoque alternativo y constructivo para el desarrollo de modelos, basado en la fundación de incrustaciones de entrada determinísticas y no entrenables. En trabajos previos [1], establecimos que el razonamiento semántico de alto nivel puede emerger en Transformers utilizando incrustaciones congeladas derivadas de la estructura visual de los glifos Unicode. Aquí, demostramos que este sustrato representacional fijo actúa como un "puerto de acoplamiento" universal, permitiendo dos paradigmas potentes y eficientes de escalamiento: la composición modular sin fisuras y el crecimiento progresivo capa por capa. Primero, mostramos que modelos especializados entrenados en conjuntos de datos dispares (por ejemplo, texto en ruso y chino) pueden fusionarse en un único modelo Mixture-of-Experts (MoE) más capaz, después del entrenamiento, sin modificaciones arquitectónicas. Esto se logra simplemente promediando sus logits de salida. El modelo MoE resultante exhibe mejoras inmediatas en el rendimiento en benchmarks de razonamiento como MMLU, superando a sus expertos constituyentes sin olvido catastrófico. Segundo, introducimos una metodología de entrenamiento constructivo capa por capa, donde un Transformer profundo se "hace crecer" apilando y entrenando progresivamente una capa a la vez. Este método demuestra una convergencia estable y una clara correlación entre la profundidad del modelo y la emergencia de habilidades de razonamiento complejo, como las requeridas para SQuAD. Nuestros hallazgos sugieren un cambio de paradigma desde la optimización monolítica hacia un modelo más biológico o constructivo de desarrollo de IA, donde la complejidad se construye de manera incremental y los módulos pueden componerse libremente. Esto abre nuevas vías para un escalamiento eficiente en recursos, aprendizaje continuo y un ecosistema más democratizado para construir sistemas de IA potentes. Liberamos todo el código y modelos para facilitar investigaciones futuras.

SciMaster: Hacia Agentes de IA Científicos de Propósito General, Parte I. X-Master como Base: ¿Podemos Liderar el Último Examen de la Humanidad?
SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?

Jul 7, 2025

Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Weinan E, Yuzhi Zhang, Linfeng Zhang, Siheng Chen

Los rápidos avances de los agentes de IA han avivado la ambición de largo plazo de aprovecharlos para acelerar el descubrimiento científico. Lograr este objetivo requiere una comprensión profunda de las fronteras del conocimiento humano. En este sentido, el Examen Final de la Humanidad (HLE, por sus siglas en inglés) proporciona un punto de referencia excepcionalmente desafiante para evaluar a los agentes de IA científicos. En este trabajo, nuestro objetivo es construir la arquitectura fundamental para agentes de propósito general y validar sus capacidades mediante un rendimiento líder en el HLE. Para lograrlo, presentamos X-Master, un agente de razonamiento aumentado con herramientas diseñado para emular a los investigadores humanos al interactuar de manera flexible con herramientas externas durante su proceso de razonamiento. Este agente, guiado por la conceptualización del código como un lenguaje de interacción, puede aprovechar de manera flexible las bibliotecas integradas de Python y nuestras herramientas personalizadas para mejorar el razonamiento. Además, escalamos sus capacidades a través de X-Masters, un flujo de trabajo de agentes dispersos y apilados que mejora sistemáticamente la amplitud y profundidad del razonamiento. Nuestra solución de código abierto, X-Masters, establece un nuevo récord de vanguardia en el HLE con una puntuación del 32,1%, superando a OpenAI y a Google Deep Research (26,6% y 26,9%) y convirtiéndose en el primero en superar el umbral del 30%. Este trabajo nos permite obtener una comprensión más profunda de la resolución de tareas complejas y acumular una experiencia valiosa que puede informar futuros avances, guiando el entrenamiento de modelos posteriores.

Semántica Emergente Más Allá de las Incrustaciones de Tokens: Modelos de Lenguaje Transformadores con Representaciones Visuales Unicode Congeladas
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations

Jul 7, 2025

A. Bochkov

Comprender el locus de la representación semántica en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es crucial para la interpretabilidad y la innovación arquitectónica. El paradigma dominante postula que los embeddings de entrada entrenables sirven como "vectores de significado" fundamentales. Este artículo desafía esa perspectiva. Construimos modelos Transformer en los que la capa de embeddings está completamente congelada, con vectores derivados no de datos, sino de la estructura visual de los glifos Unicode. Estos embeddings visuales precalculados y no semánticos permanecen fijos durante todo el entrenamiento. Nuestro método es compatible con cualquier tokenizador, incluido un nuevo tokenizador centrado en Unicode que introducimos para garantizar la cobertura universal de texto. A pesar de la ausencia de embeddings entrenables inicializados semánticamente, nuestros modelos convergen, generan texto coherente y, críticamente, superan a modelos arquitectónicamente idénticos con embeddings entrenables en el benchmark de razonamiento MMLU. Atribuimos esto a la "interferencia representacional" en los modelos convencionales, donde la capa de embeddings está sobrecargada con el aprendizaje tanto de características estructurales como semánticas. Nuestros resultados indican que la semántica de alto nivel no es inherente a los embeddings de entrada, sino una propiedad emergente de la arquitectura composicional del Transformer y la escala de datos. Esto redefine el papel de los embeddings, pasando de ser contenedores de significado a primitivos estructurales. Liberamos todo el código y los modelos para fomentar investigaciones futuras.

Creciendo Transformers: Composición Modular y Expansión por Capas sobre un Sustrato Congelado
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

Jul 8, 2025

A. Bochkov

Papers Diarios

Escalando el Aprendizaje por Refuerzo a Videos Largos
Scaling RL to Long Videos

T-LoRA: Personalización de Modelos de Difusión de Imágenes Únicas sin Sobreajuste
T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Razonamiento Visual Fundamentado Mejorado con Evidencia Rastreable: Evaluación y Metodología
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

OST-Bench: Evaluación de las Capacidades de los MLLMs en la Comprensión de Escenas Espacio-Temporales en Línea
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

Fusión Multi-Granular de Tokens Espacio-Temporales para la Aceleración sin Entrenamiento de LLMs de Video
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

PyVision: Visión Agéntica con Herramientas Dinámicas
PyVision: Agentic Vision with Dynamic Tooling

Geometría Forzada: Uniendo Difusión de Video y Representación 3D para un Modelado Consistente del Mundo
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

LangSplatV2: Splatting Gaussiano 3D de Lenguaje de Alta Dimensión con más de 450 FPS
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

Una Revisión sobre la Generación de Narrativas en Videos Largos: Arquitecturas, Consistencia y Calidad Cinematográfica
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

¿Saltar una capa o repetirla? Adaptación de profundidad en tiempo de prueba de LLMs preentrenados
Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

Cuello de Botella de Tokens: Un Token para Recordar Dinámicas
Token Bottleneck: One Token to Remember Dynamics

Máquina de Tonterías: Caracterizando el Desprecio Emergente por la Verdad en los Modelos de Lenguaje a Gran Escala
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models

Fragmentación Dinámica para el Modelado Jerárquico de Secuencias de Extremo a Extremo
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

Más allá del límite de separabilidad lineal
Beyond the Linear Separability Ceiling

Re-Cuello de Botella: Re-Estructuración Latente para Autoencoders Neuronales de Audio
Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders

Creciendo Transformers: Composición Modular y Expansión por Capas sobre un Sustrato Congelado
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

SciMaster: Hacia Agentes de IA Científicos de Propósito General, Parte I. X-Master como Base: ¿Podemos Liderar el Último Examen de la Humanidad?
SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?

Semántica Emergente Más Allá de las Incrustaciones de Tokens: Modelos de Lenguaje Transformadores con Representaciones Visuales Unicode Congeladas
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations

Support

Support

Papers Diarios

Escalando el Aprendizaje por Refuerzo a Videos Largos
Scaling RL to Long Videos

T-LoRA: Personalización de Modelos de Difusión de Imágenes Únicas sin Sobreajuste
T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Razonamiento Visual Fundamentado Mejorado con Evidencia Rastreable: Evaluación y Metodología
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

OST-Bench: Evaluación de las Capacidades de los MLLMs en la Comprensión de Escenas Espacio-Temporales en Línea
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

Fusión Multi-Granular de Tokens Espacio-Temporales para la Aceleración sin Entrenamiento de LLMs de Video
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

PyVision: Visión Agéntica con Herramientas Dinámicas
PyVision: Agentic Vision with Dynamic Tooling

Geometría Forzada: Uniendo Difusión de Video y Representación 3D para un Modelado Consistente del Mundo
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

LangSplatV2: Splatting Gaussiano 3D de Lenguaje de Alta Dimensión con más de 450 FPS
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

Una Revisión sobre la Generación de Narrativas en Videos Largos: Arquitecturas, Consistencia y Calidad Cinematográfica
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

¿Saltar una capa o repetirla? Adaptación de profundidad en tiempo de prueba de LLMs preentrenados
Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

Cuello de Botella de Tokens: Un Token para Recordar Dinámicas
Token Bottleneck: One Token to Remember Dynamics

Máquina de Tonterías: Caracterizando el Desprecio Emergente por la Verdad en los Modelos de Lenguaje a Gran Escala
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models

Fragmentación Dinámica para el Modelado Jerárquico de Secuencias de Extremo a Extremo
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

Más allá del límite de separabilidad lineal
Beyond the Linear Separability Ceiling

Re-Cuello de Botella: Re-Estructuración Latente para Autoencoders Neuronales de Audio
Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders

Creciendo Transformers: Composición Modular y Expansión por Capas sobre un Sustrato Congelado
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

SciMaster: Hacia Agentes de IA Científicos de Propósito General, Parte I. X-Master como Base: ¿Podemos Liderar el Último Examen de la Humanidad?
SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?

Semántica Emergente Más Allá de las Incrustaciones de Tokens: Modelos de Lenguaje Transformadores con Representaciones Visuales Unicode Congeladas
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations