ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

Modelos de Difusión de Lenguaje a Gran Escala
Large Language Diffusion Models

Feb 14
ByShen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
126
9

Los modelos autorregresivos (ARMs) son ampliamente considerados como la piedra angular de los modelos de lenguaje a gran escala (LLMs). Desafiamos esta noción al presentar LLaDA, un modelo de difusión entrenado desde cero bajo el paradigma de preentrenamiento y ajuste fino supervisado (SFT). LLaDA modela distribuciones mediante un proceso de enmascaramiento de datos hacia adelante y un proceso inverso, parametrizado por un Transformer estándar para predecir tokens enmascarados. Al optimizar un límite de verosimilitud, ofrece un enfoque generativo fundamentado para la inferencia probabilística. En una amplia gama de benchmarks, LLaDA demuestra una fuerte escalabilidad, superando nuestras líneas base de ARMs construidas internamente. Notablemente, LLaDA 8B compite con LLMs potentes como LLaMA3 8B en aprendizaje en contexto y, tras el SFT, exhibe impresionantes capacidades de seguimiento de instrucciones en estudios de caso como diálogos multiturno. Además, LLaDA aborda la maldición de la inversión, superando a GPT-4o en una tarea de completar poemas invertidos. Nuestros hallazgos establecen a los modelos de difusión como una alternativa viable y prometedora a los ARMs, desafiando la suposición de que las capacidades clave de los LLMs discutidas anteriormente están intrínsecamente ligadas a los ARMs.

2

El Peligro de Pensar Demasiado: Examinando el Dilema Razonamiento-Acción en Tareas con Agencia
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

Feb 12
ByAlejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
59
2

Los Modelos de Razonamiento Amplio (LRMs, por sus siglas en inglés) representan un avance en las capacidades de resolución de problemas de la IA, pero su efectividad en entornos interactivos puede ser limitada. Este documento introduce y analiza el sobreanálisis en los LRMs, un fenómeno en el que los modelos prefieren cadenas de razonamiento interno prolongadas sobre la interacción ambiental. A través de experimentos en tareas de ingeniería de software utilizando SWE Bench Verified, observamos tres patrones recurrentes: Parálisis del Análisis, Acciones Rebeldes y Desvinculación Prematura. Proponemos un marco para estudiar estos comportamientos, que se correlaciona con las evaluaciones de expertos humanos, y analizamos 4018 trayectorias. Observamos que puntajes más altos de sobreanálisis se correlacionan con un rendimiento disminuido, con modelos de razonamiento mostrando tendencias más fuertes hacia el sobreanálisis en comparación con modelos no razonadores. Nuestro análisis revela que simples esfuerzos para mitigar el sobreanálisis en entornos agentes, como seleccionar la solución con el menor puntaje de sobreanálisis, pueden mejorar el rendimiento del modelo en casi un 30% mientras se reducen los costos computacionales en un 43%. Estos resultados sugieren que mitigar el sobreanálisis tiene fuertes implicaciones prácticas. Sugerimos que al aprovechar las capacidades nativas de llamada de funciones y el aprendizaje por refuerzo selectivo, las tendencias de sobreanálisis podrían ser mitigadas. También compartimos de forma abierta nuestro marco de evaluación y conjunto de datos para facilitar la investigación en esta dirección en https://github.com/AlexCuadron/Overthinking.

3

Informe Técnico de Step-Video-T2V: La Práctica, los Desafíos y el Futuro de los Modelos Fundamentales de Video
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Feb 14
ByGuoqing Ma, Haoyang Huang, Kun Yan, Liangyu Chen, Nan Duan, Shengming Yin, Changyi Wan, Ranchen Ming, Xiaoniu Song, Xing Chen, Yu Zhou, Deshan Sun, Deyu Zhou, Jian Zhou, Kaijun Tan, Kang An, Mei Chen, Wei Ji, Qiling Wu, Wen Sun, Xin Han, Yanan Wei, Zheng Ge, Aojie Li, Bin Wang, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Chen Xu, Chenfei Wu, Chenguang Yu, Dapeng Shi, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang, Guanzhe Huang, Gulin Yan, Haiyang Feng, Hao Nie, Haonan Jia, Hanpeng Hu, Hanqi Chen, Haolong Yan, Heng Wang, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiaoren Wu, Jie Wu, Jie Yang, Jiashuai Liu, Jiashuo Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Lei Liu, Lei Xia, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Ming Li, Mingliang Li, Muhua Cheng, Na Wang, Qiaohui Chen, Qinglin He, Qiuyan Liang, Quan Sun, Ran Sun, Rui Wang, Shaoliang Pang, Shiliang Yang, Sitong Liu, Siqi Liu, Shuli Gao, Tiancheng Cao, Tianyu Wang, Weipeng Ming, Wenqing He, Xu Zhao, Xuelin Zhang, Xianfang Zeng, Xiaojia Liu, Xuan Yang, Yaqi Dai, Yanbo Yu, Yang Li, Yineng Deng, Yingming Wang, Yilei Wang, Yuanwei Lu, Yu Chen, Yu Luo, Yuchu Luo, Yuhe Yin, Yuheng Feng, Yuxiang Yang, Zecheng Tang, Zekai Zhang, Zidong Yang, Binxing Jiao, Jiansheng Chen, Jing Li, Shuchang Zhou, Xiangyu Zhang, Xinhao Zhang, Yibo Zhu, Heung-Yeung Shum, Daxin Jiang
57
3

Presentamos Step-Video-T2V, un modelo preentrenado de texto a video de última generación con 30B parámetros y la capacidad de generar videos de hasta 204 fotogramas de longitud. Se ha diseñado un Variational Autoencoder de compresión profunda, Video-VAE, para tareas de generación de video, logrando ratios de compresión espacial de 16x16 y temporal de 8x, mientras mantiene una calidad excepcional en la reconstrucción de video. Los prompts de los usuarios se codifican utilizando dos codificadores de texto bilingües para manejar tanto inglés como chino. Un DiT con atención completa 3D se entrena utilizando Flow Matching y se emplea para eliminar el ruido de la entrada y convertirlo en fotogramas latentes. Se aplica un enfoque DPO basado en video, Video-DPO, para reducir artefactos y mejorar la calidad visual de los videos generados. También detallamos nuestras estrategias de entrenamiento y compartimos observaciones e insights clave. El rendimiento de Step-Video-T2V se evalúa en un nuevo benchmark de generación de video, Step-Video-T2V-Eval, demostrando su calidad de texto a video de última generación en comparación con motores tanto de código abierto como comerciales. Además, discutimos las limitaciones del paradigma actual de modelos basados en difusión y esbozamos direcciones futuras para los modelos fundacionales de video. Hacemos disponibles tanto Step-Video-T2V como Step-Video-T2V-Eval en https://github.com/stepfun-ai/Step-Video-T2V. La versión en línea también puede accederse desde https://yuewen.cn/videos. Nuestro objetivo es acelerar la innovación de los modelos fundacionales de video y empoderar a los creadores de contenido de video.

4

Muestreo Adaptativo por Región para Transformadores de Difusión
Region-Adaptive Sampling for Diffusion Transformers

Feb 14
ByZiming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang
53
3

Los modelos de difusión (DMs) se han convertido en la opción principal para tareas generativas en diversos dominios. Sin embargo, su dependencia de múltiples pasos secuenciales hacia adelante limita significativamente su rendimiento en tiempo real. Los métodos de aceleración anteriores se han centrado principalmente en reducir el número de pasos de muestreo o reutilizar resultados intermedios, sin aprovechar las variaciones entre las regiones espaciales dentro de la imagen debido a las limitaciones de las estructuras convolucionales U-Net. Aprovechando la flexibilidad de los Transformadores de Difusión (DiTs) para manejar un número variable de tokens, presentamos RAS, una novedosa estrategia de muestreo sin entrenamiento que asigna dinámicamente diferentes ratios de muestreo a las regiones de una imagen según el enfoque del modelo DiT. Nuestra observación clave es que, durante cada paso de muestreo, el modelo se concentra en regiones semánticamente significativas, y estas áreas de enfoque muestran una fuerte continuidad entre pasos consecutivos. Aprovechando esta idea, RAS actualiza solo las regiones que están actualmente en enfoque, mientras que otras regiones se actualizan utilizando ruido almacenado del paso anterior. El enfoque del modelo se determina en función de la salida del paso previo, capitalizando la consistencia temporal que observamos. Evaluamos RAS en Stable Diffusion 3 y Lumina-Next-T2I, logrando aceleraciones de hasta 2.36x y 2.51x, respectivamente, con una degradación mínima en la calidad de generación. Además, un estudio de usuarios revela que RAS ofrece calidades comparables bajo evaluación humana mientras alcanza una aceleración de 1.6x. Nuestro enfoque representa un avance significativo hacia transformadores de difusión más eficientes, potenciando su potencial para aplicaciones en tiempo real.

5

ZeroBench: Un punto de referencia visual imposible para los modelos multimodales grandes contemporáneos
ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

Feb 13
ByJonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie
43
5

Los Modelos Multimodales de Gran Escala (LMMs) presentan importantes deficiencias al interpretar imágenes y, según algunas métricas, tienen una cognición espacial más pobre que niños pequeños o animales. A pesar de esto, obtienen puntuaciones altas en muchos benchmarks visuales populares, con un margen de mejora que se reduce rápidamente debido al continuo avance en el desarrollo de modelos. Para abordar este problema, existe una necesidad urgente de benchmarks difíciles que sigan siendo relevantes durante más tiempo. Llevamos esta idea al límite al introducir ZeroBench, un benchmark ligero de razonamiento visual que es completamente imposible para los LMMs de vanguardia actuales. Nuestro benchmark consta de 100 preguntas curadas manualmente y 334 subpreguntas menos difíciles. Evaluamos 20 LMMs en ZeroBench, todos los cuales obtienen un 0.0%, y analizamos rigurosamente los errores. Para fomentar el avance en la comprensión visual, publicamos ZeroBench de manera abierta.

6

MM-RLHF: El siguiente avance en la alineación multimodal de modelos de lenguaje grandes
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

Feb 14
ByYi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
34
5

A pesar de los avances notables en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), la mayoría de los modelos de vanguardia no han sido sometidos a una alineación exhaustiva con las preferencias humanas. Esta brecha existe porque la investigación actual en alineación ha logrado progresos principalmente en áreas específicas (por ejemplo, la reducción de alucinaciones), mientras que la pregunta más amplia de si alinear los modelos con las preferencias humanas puede mejorar sistemáticamente la capacidad de los MLLMs sigue siendo en gran medida inexplorada. Con este fin, presentamos MM-RLHF, un conjunto de datos que contiene 120k pares de comparación de preferencias anotados por humanos con gran detalle. Este conjunto de datos representa un avance sustancial sobre los recursos existentes, ofreciendo un tamaño, diversidad, granularidad de anotación y calidad superiores. Aprovechando este conjunto de datos, proponemos varias innovaciones clave para mejorar tanto la calidad de los modelos de recompensa como la eficiencia de los algoritmos de alineación. En particular, introducimos un Modelo de Recompensa Basado en Críticas, que genera críticas de las salidas del modelo antes de asignar puntuaciones, ofreciendo una mayor interpretabilidad y retroalimentación más informativa en comparación con los mecanismos tradicionales de recompensa escalar. Además, proponemos Escalado Dinámico de Recompensas, un método que ajusta el peso de la pérdida de cada muestra según la señal de recompensa, optimizando así el uso de pares de comparación de alta calidad. Nuestro enfoque se evalúa rigurosamente en 10 dimensiones distintas y 27 benchmarks, con resultados que demuestran mejoras significativas y consistentes en el rendimiento del modelo. Específicamente, el ajuste fino de LLaVA-ov-7B con MM-RLHF y nuestro algoritmo de alineación conduce a un aumento del 19.5% en las habilidades conversacionales y una mejora del 60% en la seguridad. Hemos liberado el conjunto de datos de preferencias, el modelo de recompensa, el código de entrenamiento y evaluación, así como los benchmarks de modelado de recompensas y seguridad. Para más detalles, visite nuestra página del proyecto: https://mm-rlhf.github.io.

7

ImageRAG: Recuperación Dinámica de Imágenes para la Generación de Imágenes Guiada por Referencia
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

Feb 13
ByRotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried
22
2

Los modelos de difusión permiten la síntesis de contenido visual de alta calidad y diversidad. Sin embargo, presentan dificultades para generar conceptos raros o no vistos. Para abordar este desafío, exploramos el uso de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) con modelos de generación de imágenes. Proponemos ImageRAG, un método que recupera dinámicamente imágenes relevantes basadas en un texto de entrada y las utiliza como contexto para guiar el proceso de generación. Enfoques previos que utilizaron imágenes recuperadas para mejorar la generación entrenaron modelos específicamente para la generación basada en recuperación. En contraste, ImageRAG aprovecha las capacidades de los modelos existentes de condicionamiento de imágenes y no requiere entrenamiento específico para RAG. Nuestro enfoque es altamente adaptable y puede aplicarse a diferentes tipos de modelos, mostrando una mejora significativa en la generación de conceptos raros y detallados utilizando diferentes modelos base. Nuestra página del proyecto está disponible en: https://rotem-shalev.github.io/ImageRAG.

8

Inferencia y Verificación Diversa para Razonamiento Avanzado
Diverse Inference and Verification for Advanced Reasoning

Feb 14
ByIddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell
18
3

Los modelos de lenguaje de razonamiento (LLMs) como OpenAI o1, o3 y DeepSeek R1 han logrado avances significativos en matemáticas y programación, pero aún encuentran desafiantes tareas avanzadas como los problemas de combinatoria de la Olimpiada Internacional de Matemáticas (IMO), los rompecabezas del Corpus de Abstracción y Razonamiento (ARC) y las preguntas del Examen Final de la Humanidad (HLE). Utilizamos un enfoque de inferencia diverso que combina múltiples modelos y métodos en tiempo de prueba. Descubrimos que verificar problemas de matemáticas y código, y realizar muestreo por rechazo en otros problemas, es simple y efectivo. Verificamos automáticamente la corrección de las soluciones a problemas de IMO mediante Lean, y los rompecabezas de ARC mediante código, y encontramos que el método de "mejor de N" responde efectivamente a las preguntas de HLE. Nuestro enfoque aumenta la precisión de las respuestas en problemas de combinatoria de IMO del 33.3% al 77.8%, la precisión en preguntas de HLE del 8% al 37%, y resuelve el 80% de los rompecabezas de ARC que 948 humanos no pudieron resolver y el 26.5% de los rompecabezas de ARC que el modelo o3 con alto poder computacional no resuelve. Las simulaciones en tiempo de prueba, el aprendizaje por refuerzo y el metaaprendizaje con retroalimentación de inferencia mejoran la generalización al adaptar las representaciones gráficas del agente y variar los prompts, el código y los conjuntos de datos. Nuestro enfoque es confiable, robusto y escalable, y en el espíritu de la investigación reproducible, lo haremos públicamente disponible tras su publicación.

9

DarwinLM: Poda Estructurada Evolutiva de Modelos de Lenguaje a Gran Escala
DarwinLM: Evolutionary Structured Pruning of Large Language Models

Feb 11
ByShengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
18
7

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito significativo en diversas tareas de Procesamiento del Lenguaje Natural (NLP). Sin embargo, sus enormes costos computacionales limitan su uso generalizado, especialmente en aplicaciones en tiempo real. La poda estructurada ofrece una solución efectiva al comprimir los modelos y proporcionar directamente mejoras de velocidad de extremo a extremo, independientemente del entorno de hardware. Mientras tanto, diferentes componentes del modelo muestran sensibilidades variables hacia la poda, lo que exige una compresión de modelo no uniforme. Sin embargo, un método de poda no solo debe identificar una subestructura capaz, sino también considerar el entrenamiento posterior a la compresión. Con este fin, proponemos \sysname, un método para la poda estructurada consciente del entrenamiento. \sysname se basa en un proceso de búsqueda evolutiva, generando múltiples modelos descendientes en cada generación mediante mutación y seleccionando los más aptos para sobrevivir. Para evaluar el efecto del entrenamiento posterior, incorporamos un proceso de entrenamiento ligero y de múltiples pasos dentro de la población de descendientes, aumentando progresivamente el número de tokens y eliminando los modelos con bajo rendimiento en cada etapa de selección. Validamos nuestro método mediante experimentos extensos en Llama-2-7B, Llama-3.1-8B y Qwen-2.5-14B-Instruct, logrando un rendimiento de vanguardia en la poda estructurada. Por ejemplo, \sysname supera a ShearedLlama mientras requiere 5 veces menos datos de entrenamiento durante el entrenamiento posterior a la compresión.

10

FoNE: Incrustaciones Numéricas de Token Único Precisas mediante Características de Fourier
FoNE: Precise Single-Token Number Embeddings via Fourier Features

Feb 13
ByTianyi Zhou, Deqing Fu, Mahdi Soltanolkotabi, Robin Jia, Vatsal Sharan
15
3

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) suelen representar números utilizando múltiples tokens, lo que requiere que el modelo agregue estos tokens para interpretar valores numéricos. Esta fragmentación hace que tanto el entrenamiento como la inferencia sean menos eficientes y afecta negativamente el rendimiento del modelo en tareas relacionadas con números. Inspirados por la observación de que los LLMs preentrenados aprenden internamente características de tipo Fourier para los tokens numéricos, proponemos Fourier Number Embedding (FoNE), un método novedoso que mapea directamente los números en el espacio de incrustación utilizando sus características de Fourier. FoNE codifica cada número como un solo token con solo dos dimensiones de incrustación por dígito, capturando eficazmente los valores numéricos sin fragmentación. Esta representación compacta acelera tanto el entrenamiento como la inferencia. En comparación con las incrustaciones tradicionales basadas en subpalabras y dígitos, FoNE no solo reduce la sobrecarga computacional, sino que también logra una mayor precisión en diversas tareas numéricas, incluyendo suma, resta y multiplicación. En la suma de números decimales de 6 dígitos, FoNE requiere 64 veces menos datos para alcanzar un 99% de precisión que las incrustaciones basadas en subpalabras y dígitos, mientras utiliza 3 veces y 6 veces menos tokens por número, respectivamente. Además, FoNE es el único método que logra un 100% de precisión en más de 100,000 ejemplos de prueba para suma, resta y multiplicación. Los códigos y visualizaciones están disponibles en https://fouriernumber.github.io/.

11

Localización precisa de parámetros para la generación textual en modelos de difusión
Precise Parameter Localization for Textual Generation in Diffusion Models

Feb 14
ByŁukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic
12
2

Los modelos de difusión novedosos pueden sintetizar imágenes fotorrealistas con texto integrado de alta calidad. Sorprendentemente, demostramos mediante la manipulación de activaciones de atención que menos del 1% de los parámetros de los modelos de difusión, todos contenidos en las capas de atención, influyen en la generación de contenido textual dentro de las imágenes. Basándonos en esta observación, mejoramos la eficiencia y el rendimiento de la generación textual al enfocarnos en las capas de atención cruzada y conjunta de los modelos de difusión. Introducimos varias aplicaciones que se benefician de la localización de las capas responsables de la generación de contenido textual. Primero, mostramos que un ajuste fino basado en LoRA, aplicado únicamente a las capas localizadas, mejora aún más las capacidades generales de generación de texto de los grandes modelos de difusión, preservando la calidad y diversidad de las generaciones de estos modelos. Luego, demostramos cómo podemos utilizar las capas localizadas para editar el contenido textual en imágenes generadas. Finalmente, extendemos esta idea al caso práctico de prevenir la generación de texto tóxico de manera gratuita. A diferencia de trabajos anteriores, nuestro enfoque de localización es ampliamente aplicable a diversas arquitecturas de modelos de difusión, incluyendo U-Net (por ejemplo, LDM y SDXL) y basadas en transformadores (por ejemplo, DeepFloyd IF y Stable Diffusion 3), utilizando diversos codificadores de texto (desde CLIP hasta modelos de lenguaje grandes como T5). Página del proyecto disponible en https://t2i-text-loc.github.io/.

12

No podemos comprender la IA utilizando nuestro vocabulario actual.
We Can't Understand AI Using our Existing Vocabulary

Feb 11
ByJohn Hewitt, Robert Geirhos, Been Kim
10
4

Este documento de posición argumenta que, para comprender la IA, no podemos depender de nuestro vocabulario existente de palabras humanas. En su lugar, deberíamos esforzarnos por desarrollar neologismos: nuevas palabras que representen conceptos humanos precisos que queremos enseñar a las máquinas, o conceptos de máquinas que necesitamos aprender. Partimos de la premisa de que los humanos y las máquinas tienen conceptos diferentes. Esto significa que la interpretabilidad puede enmarcarse como un problema de comunicación: los humanos deben poder referenciar y controlar los conceptos de las máquinas, y comunicar conceptos humanos a las máquinas. Creemos que crear un lenguaje compartido entre humanos y máquinas mediante el desarrollo de neologismos podría resolver este problema de comunicación. Los neologismos exitosos logran un nivel útil de abstracción: no demasiado detallados, para que sean reutilizables en muchos contextos, y no demasiado generales, para que transmitan información precisa. Como prueba de concepto, demostramos cómo un "neologismo de longitud" permite controlar la extensión de las respuestas de los LLM, mientras que un "neologismo de diversidad" permite muestrear respuestas más variables. En conjunto, argumentamos que no podemos comprender la IA utilizando nuestro vocabulario existente, y que expandirlo a través de neologismos crea oportunidades tanto para controlar como para entender mejor a las máquinas.

13

Ajuste Fino Selectivo de Auto a Supervisado para Generalización en Modelos de Lenguaje Grandes
Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models

Feb 12
BySonam Gupta, Yatin Nandwani, Asaf Yehudai, Dinesh Khandelwal, Dinesh Raghu, Sachindra Joshi
9
2

El ajuste fino de Modelos de Lenguaje Grandes (LLMs) en conjuntos de datos específicos es una práctica común para mejorar el rendimiento en tareas objetivo. Sin embargo, esta mejora de rendimiento a menudo conduce al sobreajuste, donde el modelo se especializa demasiado en la tarea o en las características de los datos de entrenamiento, lo que resulta en una pérdida de generalización. Este documento presenta el Enfoque de Ajuste Fino Selectivo de Auto a Supervisado (S3FT), un enfoque de ajuste fino que logra un mejor rendimiento que el ajuste fino supervisado estándar (SFT) al tiempo que mejora la generalización. S3FT aprovecha la existencia de múltiples respuestas válidas a una consulta. Al utilizar las respuestas correctas del modelo, S3FT reduce la especialización del modelo durante la etapa de ajuste fino. S3FT primero identifica las respuestas correctas del modelo en el conjunto de entrenamiento desplegando un juez apropiado. Luego, ajusta finamente el modelo utilizando las respuestas correctas del modelo y la respuesta correcta (o su paráfrasis) para las muestras restantes. La efectividad de S3FT se demuestra a través de experimentos en tareas de razonamiento matemático, programación en Python y comprensión de lectura. Los resultados muestran que el SFT estándar puede llevar a una caída de rendimiento promedio de hasta 4.4 en múltiples pruebas, como MMLU y TruthfulQA. En contraste, S3FT reduce esta caída a la mitad, es decir, 2.5, lo que indica mejores capacidades de generalización que SFT mientras se desempeña significativamente mejor en las tareas de ajuste fino.

14

AdaPTS: Adaptación de Modelos Fundacionales Univariados para la Predicción Probabilística de Series Temporales Multivariadas
AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting

Feb 14
ByAbdelhakim Benechehab, Vasilii Feofanov, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
9
2

Los modelos fundamentales preentrenados (FMs, por sus siglas en inglés) han demostrado un rendimiento excepcional en tareas de pronóstico de series temporales univariadas. Sin embargo, persisten varios desafíos prácticos, como la gestión de dependencias complejas entre características y la cuantificación de la incertidumbre en las predicciones. Este estudio tiene como objetivo abordar estas limitaciones críticas mediante la introducción de adaptadores: transformaciones en el espacio de características que facilitan el uso efectivo de FMs preentrenados para series temporales univariadas en tareas multivariadas. Los adaptadores funcionan proyectando entradas multivariadas en un espacio latente adecuado y aplicando el FM de manera independiente a cada dimensión. Inspirados por la literatura sobre aprendizaje de representaciones y redes neuronales bayesianas parcialmente estocásticas, presentamos una variedad de adaptadores y estrategias de optimización/inferencia. Los experimentos realizados en conjuntos de datos sintéticos y del mundo real confirman la eficacia de los adaptadores, mostrando mejoras sustanciales en la precisión del pronóstico y la cuantificación de la incertidumbre en comparación con métodos de referencia. Nuestro marco, AdaPTS, posiciona a los adaptadores como una solución modular, escalable y efectiva para aprovechar los FMs de series temporales en contextos multivariados, promoviendo así su adopción más amplia en aplicaciones del mundo real. Publicamos el código en https://github.com/abenechehab/AdaPTS.

15

Modelos Pequeños, Gran Impacto: Adaptación Eficiente Basada en Corpus y Grafos de Modelos de Lenguaje Multilingües Pequeños para Idiomas de Recursos Limitados
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

Feb 14
ByDaniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann
9
2

Los idiomas de bajos recursos (LRLs, por sus siglas en inglés) enfrentan desafíos significativos en el procesamiento del lenguaje natural (PLN) debido a la limitación de datos. Aunque los modelos de lenguaje grandes (LLMs) más avanzados actualmente aún tienen dificultades con los LRLs, los modelos multilingües más pequeños (mLMs), como mBERT y XLM-R, ofrecen mayor promesa debido a que su capacidad se ajusta mejor a los tamaños reducidos de datos de entrenamiento. Este estudio investiga sistemáticamente métodos eficientes en parámetros basados en adaptadores para adaptar mLMs a LRLs, evaluando tres arquitecturas: Cuello de Botella Secuencial, Cuello de Botella Invertible y Adaptación de Bajo Rango. Utilizando texto no estructurado de GlotCC y conocimiento estructurado de ConceptNet, demostramos que pequeños conjuntos de datos de adaptación (por ejemplo, hasta 1 GB de texto libre o unos pocos MB de datos de grafos de conocimiento) generan mejoras en tareas intrínsecas (modelado de lenguaje enmascarado) y extrínsecas (clasificación de temas, análisis de sentimientos y reconocimiento de entidades nombradas). Encontramos que los adaptadores de Cuello de Botella Secuencial sobresalen en el modelado de lenguaje, mientras que los adaptadores de Cuello de Botella Invertible superan ligeramente a otros métodos en tareas posteriores debido a una mejor alineación de incrustaciones y un mayor número de parámetros. Los métodos basados en adaptadores igualan o superan el ajuste fino completo mientras utilizan muchos menos parámetros, y los mLMs más pequeños resultan más efectivos para LRLs que los LLMs masivos como LLaMA-3, GPT-4 y modelos destilados basados en DeepSeek-R1. Aunque la adaptación mejora el rendimiento, el tamaño de los datos de preentrenamiento sigue siendo el factor dominante, especialmente para idiomas con una amplia cobertura de preentrenamiento.

16

STMA: Un Agente de Memoria Espacio-Temporal para la Planificación de Tareas Embebidas a Largo Plazo
STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning

Feb 14
ByMingcong Lei, Yiming Zhao, Ge Wang, Zhixin Mai, Shuguang Cui, Yatong Han, Jinke Ren
6
2

Un objetivo clave de la inteligencia encarnada es permitir que los agentes realicen tareas de largo plazo en entornos dinámicos, manteniendo una toma de decisiones robusta y adaptabilidad. Para lograr este objetivo, proponemos el Agente de Memoria Espacio-Temporal (STMA, por sus siglas en inglés), un marco novedoso diseñado para mejorar la planificación y ejecución de tareas mediante la integración de memoria espacio-temporal. STMA se basa en tres componentes críticos: (1) un módulo de memoria espacio-temporal que captura cambios históricos y ambientales en tiempo real, (2) un grafo de conocimiento dinámico que facilita el razonamiento espacial adaptativo, y (3) un mecanismo planificador-crítico que refina iterativamente las estrategias de tareas. Evaluamos STMA en el entorno TextWorld en 32 tareas, que involucran planificación de múltiples pasos y exploración bajo distintos niveles de complejidad. Los resultados experimentales demuestran que STMA logra una mejora del 31.25% en la tasa de éxito y un aumento del 24.7% en la puntuación promedio en comparación con el modelo de última generación. Los resultados destacan la efectividad de la memoria espacio-temporal para avanzar en las capacidades de memoria de los agentes encarnados.

17

Poda de Vóxeles Dispersos Guiada por Texto para un Anclaje Visual 3D Eficiente
Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

Feb 14
ByWenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
6
2

En este documento, proponemos una arquitectura de convolución multinivel eficiente para el anclaje visual en 3D. Los métodos convencionales tienen dificultades para cumplir con los requisitos de inferencia en tiempo real debido a la arquitectura en dos etapas o basada en puntos. Inspirados por el éxito de la arquitectura de convolución completamente dispersa multinivel en la detección de objetos en 3D, nuestro objetivo es construir un nuevo marco de anclaje visual en 3D siguiendo esta ruta técnica. Sin embargo, en la tarea de anclaje visual en 3D, la representación de la escena en 3D debe interactuar profundamente con las características de texto, y la arquitectura basada en convolución dispersa es ineficiente para esta interacción debido a la gran cantidad de características de voxel. Con este fin, proponemos el podado guiado por texto (TGP, por sus siglas en inglés) y la adición basada en completado (CBA, por sus siglas en inglés) para fusionar profundamente la representación de la escena en 3D y las características de texto de manera eficiente mediante el podado gradual de regiones y el completado de objetivos. Específicamente, TGP esparsifica de forma iterativa la representación de la escena en 3D y, por lo tanto, interactúa eficientemente las características de voxel con las características de texto mediante la atención cruzada. Para mitigar el efecto del podado en la información geométrica delicada, CBA corrige de forma adaptativa la región sobre-podada mediante el completado de voxel con un costo computacional insignificante. En comparación con los métodos anteriores de una sola etapa, nuestro método logra la máxima velocidad de inferencia y supera al método más rápido anterior en un 100\% de FPS. Nuestro método también logra una precisión de vanguardia incluso en comparación con los métodos en dos etapas, con una ventaja de +1.13 en Acc@0.5 en ScanRefer, y ventajas de +2.6 y +3.2 en NR3D y SR3D respectivamente. El código está disponible en https://github.com/GWxuan/TSP3D.

18

Jailbreaking para Jailbreak
Jailbreaking to Jailbreak

Feb 9
ByJeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang
6
2

El entrenamiento de rechazo en Modelos de Lenguaje de Gran Escala (LLMs) previene salidas dañinas, pero esta defensa sigue siendo vulnerable tanto a jailbreaks automatizados como a aquellos creados por humanos. Presentamos un enfoque novedoso de LLM-como-equipo-rojo en el que un humano realiza un jailbreak a un LLM entrenado para rechazar, haciéndolo dispuesto a realizar jailbreaks a sí mismo o a otros LLMs. Nos referimos a los LLMs con jailbreak como atacantes J_2, los cuales pueden evaluar sistemáticamente modelos objetivo utilizando diversas estrategias de equipo rojo y mejorar su rendimiento mediante aprendizaje en contexto a partir de fallos previos. Nuestros experimentos demuestran que Sonnet 3.5 y Gemini 1.5 pro superan a otros LLMs como J_2, logrando tasas de éxito de ataque (ASRs) del 93.0% y 91.0% respectivamente contra GPT-4o (y resultados similares en otros LLMs capaces) en Harmbench. Nuestro trabajo no solo introduce un enfoque escalable para el equipo rojo estratégico, inspirándose en equipos rojos humanos, sino que también destaca el jailbreak-a-jailbreak como un modo de fallo pasado por alto de las salvaguardias. Específicamente, un LLM puede eludir sus propias salvaguardias empleando una versión con jailbreak de sí mismo que esté dispuesta a asistir en más jailbreaks. Para prevenir cualquier uso indebido directo con J_2, mientras avanzamos en la investigación de seguridad en IA, compartimos públicamente nuestra metodología manteniendo privados los detalles específicos de los prompts.

19

V2V-LLM: Conducción Autónoma Cooperativa entre Vehículos con Modelos de Lenguaje Multimodales de Gran Escala
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

Feb 14
ByHsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
5
4

Los vehículos de conducción autónoma actuales dependen principalmente de sus sensores individuales para comprender las escenas circundantes y planificar trayectorias futuras, lo que puede resultar poco fiable cuando los sensores presentan fallos o están ocluidos. Para abordar este problema, se han propuesto métodos de percepción cooperativa mediante comunicación vehículo a vehículo (V2V), pero estos han tendido a centrarse en la detección y el seguimiento. Cómo contribuyen estos enfoques al rendimiento general de la planificación cooperativa sigue siendo un área poco explorada. Inspirados por los recientes avances en el uso de Modelos de Lenguaje de Gran Escala (LLMs) para construir sistemas de conducción autónoma, proponemos un nuevo escenario problemático que integra un LLM en la conducción autónoma cooperativa, junto con el conjunto de datos y punto de referencia propuesto Vehicle-to-Vehicle Question-Answering (V2V-QA). También proponemos nuestro método base Vehicle-to-Vehicle Large Language Model (V2V-LLM), que utiliza un LLM para fusionar información de percepción de múltiples vehículos autónomos conectados (CAVs) y responder preguntas relacionadas con la conducción: fundamentación, identificación de objetos notables y planificación. Los resultados experimentales muestran que nuestro V2V-LLM propuesto puede ser una arquitectura de modelo unificada prometedora para realizar diversas tareas en la conducción autónoma cooperativa, superando a otros métodos base que utilizan diferentes enfoques de fusión. Nuestro trabajo también crea una nueva dirección de investigación que puede mejorar la seguridad de los futuros sistemas de conducción autónoma. Nuestro sitio web del proyecto: https://eddyhkchiu.github.io/v2vllm.github.io/.

20

MRS: Un Muestreador Rápido para Difusión de Reversión a la Media Basado en Resolvedores de EDO y EDE
MRS: A Fast Sampler for Mean Reverting Diffusion based on ODE and SDE Solvers

Feb 11
ByAo Li, Wei Fang, Hongbo Zhao, Le Lu, Ge Yang, Minfeng Xu
5
2

En las aplicaciones de los modelos de difusión, la generación controlable tiene una importancia práctica significativa, pero también presenta desafíos. Los métodos actuales para la generación controlable se centran principalmente en modificar la función de puntuación de los modelos de difusión, mientras que la Difusión de Reversión a la Media (MR Diffusion) modifica directamente la estructura de la ecuación diferencial estocástica (SDE), lo que hace que la incorporación de condiciones de imagen sea más simple y natural. Sin embargo, los muestreadores rápidos actuales que no requieren entrenamiento no son directamente aplicables a MR Diffusion. Por lo tanto, MR Diffusion requiere cientos de NFEs (número de evaluaciones de función) para obtener muestras de alta calidad. En este artículo, proponemos un nuevo algoritmo llamado MRS (MR Sampler) para reducir los NFEs de muestreo de MR Diffusion. Resolvemos la SDE en tiempo inverso y la ecuación diferencial ordinaria de flujo de probabilidad (PF-ODE) asociada con MR Diffusion, y derivamos soluciones semi-analíticas. Las soluciones consisten en una función analítica y un parámetro integral parametrizado por una red neuronal. Basándonos en esta solución, podemos generar muestras de alta calidad en menos pasos. Nuestro enfoque no requiere entrenamiento y es compatible con todas las parametrizaciones principales, incluyendo la predicción de ruido, la predicción de datos y la predicción de velocidad. Experimentos extensos demuestran que MR Sampler mantiene una alta calidad de muestreo con una aceleración de 10 a 20 veces en diez tareas diferentes de restauración de imágenes. Nuestro algoritmo acelera el procedimiento de muestreo de MR Diffusion, haciéndolo más práctico en la generación controlable.

21

Agrupar y Predecir Parches Latentes para un Mejor Modelado de Imágenes Enmascaradas
Cluster and Predict Latents Patches for Improved Masked Image Modeling

Feb 12
ByTimothée Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski
5
2

El Modelado de Imágenes Enmascaradas (MIM, por sus siglas en inglés) ofrece un enfoque prometedor para el aprendizaje de representaciones auto-supervisado; sin embargo, los modelos MIM existentes aún se quedan atrás respecto al estado del arte. En este artículo, analizamos sistemáticamente las representaciones objetivo, las funciones de pérdida y las arquitecturas para presentar CAPI, un novedoso marco de trabajo puramente MIM que se basa en la predicción de agrupamientos latentes. Nuestro enfoque aprovecha una función de pérdida basada en agrupamientos, que es estable para entrenar y muestra propiedades prometedoras de escalabilidad. Nuestro modelo base ViT-L, CAPI, alcanza un 83.8% de precisión en ImageNet y un 32.1% de mIoU en ADE20K con simples pruebas lineales, superando sustancialmente a los métodos MIM anteriores y acercándose al rendimiento del estado del arte actual, DINOv2. Publicamos todo nuestro código y modelos.

22

Diseño de Proteínas De Novo de Extremo a Extremo con Dinámicas Personalizadas Utilizando un Modelo de Difusión Basado en Lenguaje
Agentic End-to-End De Novo Protein Design for Tailored Dynamics Using a Language Diffusion Model

Feb 14
ByBo Ni, Markus J. Buehler
4
2

Las proteínas son máquinas moleculares dinámicas cuyas funciones biológicas, que abarcan la catálisis enzimática, la transducción de señales y la adaptación estructural, están intrínsecamente ligadas a sus movimientos. Sin embargo, diseñar proteínas con propiedades dinámicas específicas sigue siendo un desafío debido a las relaciones complejas y degeneradas entre secuencia, estructura y movimiento molecular. Aquí presentamos VibeGen, un marco de IA generativa que permite el diseño de novo de proteínas de extremo a extremo condicionado por vibraciones de modos normales. VibeGen emplea una arquitectura dual de modelos, que incluye un diseñador de proteínas que genera candidatos de secuencia basados en modos vibratorios especificados y un predictor de proteínas que evalúa su precisión dinámica. Este enfoque combina diversidad, precisión y novedad durante el proceso de diseño. Mediante simulaciones moleculares de átomo completo como validación directa, demostramos que las proteínas diseñadas reproducen con precisión las amplitudes de los modos normales prescritos a lo largo de la cadena principal, adoptando diversas estructuras estables y funcionalmente relevantes. Cabe destacar que las secuencias generadas son de novo, sin mostrar similitudes significativas con proteínas naturales, lo que expande el espacio accesible de proteínas más allá de las restricciones evolutivas. Nuestro trabajo integra la dinámica proteica en el diseño generativo de proteínas y establece un vínculo directo y bidireccional entre la secuencia y el comportamiento vibratorio, abriendo nuevas vías para la ingeniería de biomoléculas con propiedades dinámicas y funcionales personalizadas. Este marco tiene amplias implicaciones para el diseño racional de enzimas flexibles, andamios dinámicos y biomateriales, allanando el camino hacia la ingeniería de proteínas impulsada por IA basada en la dinámica molecular.

23

CLaMP 3: Recuperación de Información Musical Universal a Través de Modalidades No Alineadas e Idiomas No Vistos
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages

Feb 14
ByShangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
4
2

CLaMP 3 es un marco unificado desarrollado para abordar los desafíos de generalización cruzada de modalidades y lenguajes en la recuperación de información musical. Utilizando el aprendizaje contrastivo, alinea todas las principales modalidades musicales, incluyendo partituras, señales de interpretación y grabaciones de audio, con texto multilingüe en un espacio de representación compartido, lo que permite la recuperación entre modalidades no alineadas con el texto como puente. Presenta un codificador de texto multilingüe adaptable a idiomas no vistos, mostrando una sólida generalización cruzada de lenguajes. Aprovechando la generación aumentada por recuperación, creamos M4-RAG, un conjunto de datos a escala web que consta de 2.31 millones de pares música-texto. Este conjunto de datos está enriquecido con metadatos detallados que representan una amplia gama de tradiciones musicales globales. Para avanzar en la investigación futura, lanzamos WikiMT-X, un banco de pruebas que comprende 1,000 tripletes de partituras, audio y descripciones de texto variadas y ricas. Los experimentos muestran que CLaMP 3 logra un rendimiento de vanguardia en múltiples tareas de recuperación de información musical, superando significativamente baselines sólidos anteriores y demostrando una excelente generalización en contextos musicales multimodales y multilingües.

Feb 14
Feb 17
Feb 18