ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

SFT Memoriza, RL Generaliza: Un Estudio Comparativo del Modelo Base Post-entrenamiento
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Jan 28, 2025
Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
1226

El ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL) son técnicas ampliamente utilizadas posteriores al entrenamiento para modelos base. Sin embargo, sus roles en mejorar las capacidades de generalización del modelo siguen siendo poco claros. Este documento estudia la diferencia entre SFT y RL en cuanto a generalización y memorización, centrándose en variantes de reglas basadas en texto y variantes visuales. Presentamos GeneralPoints, un juego de cartas de razonamiento aritmético, y adoptamos V-IRL, un entorno de navegación del mundo real, para evaluar cómo los modelos entrenados con SFT y RL generalizan a variantes no vistas en los dominios tanto textual como visual. Mostramos que RL, especialmente cuando se entrena con una recompensa basada en resultados, generaliza a través de variantes basadas en reglas tanto textuales como visuales. Por el contrario, SFT tiende a memorizar los datos de entrenamiento y tiene dificultades para generalizar escenarios fuera de la distribución. Un análisis adicional revela que RL mejora las capacidades subyacentes de reconocimiento visual del modelo, contribuyendo a su mejor generalización en el dominio visual. A pesar de la superior generalización de RL, demostramos que SFT sigue siendo esencial para el entrenamiento efectivo de RL; SFT estabiliza el formato de salida del modelo, permitiendo que el RL posterior logre sus mejoras de rendimiento. Estos hallazgos demuestran la capacidad de RL para adquirir conocimientos generalizables en tareas complejas y multimodales.

Optimización del Entrenamiento de Modelos de Lenguaje Grandes Utilizando Cuantificación FP4
Optimizing Large Language Model Training Using FP4 Quantization

Jan 28, 2025
Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng
382

El creciente aumento de las demandas computacionales para entrenar modelos de lenguaje grandes (LLMs) requiere métodos más eficientes. El entrenamiento cuantizado presenta una solución prometedora al permitir operaciones aritméticas de baja precisión para reducir estos costos. Si bien la precisión FP8 ha demostrado ser factible, aprovechar FP4 sigue siendo un desafío debido a errores significativos de cuantización y capacidad representativa limitada. Este trabajo introduce el primer marco de entrenamiento FP4 para LLMs, abordando estos desafíos con dos innovaciones clave: un estimador de cuantización diferenciable para actualizaciones precisas de pesos y una estrategia de sujeción y compensación de valores atípicos para evitar el colapso de activaciones. Para garantizar la estabilidad, el marco integra un esquema de entrenamiento de precisión mixta y cuantización por vector. Los resultados experimentales demuestran que nuestro marco FP4 logra una precisión comparable a BF16 y FP8, con una degradación mínima, escalando eficazmente a LLMs de 13B parámetros entrenados con hasta 100B tokens. Con la aparición de hardware de próxima generación que soporta FP4, nuestro marco sienta las bases para un entrenamiento eficiente de ultra baja precisión.

Transformer Sobre-Tokenizado: Escalar el Vocabulario Suele Ser Beneficioso
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Jan 28, 2025
Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
324

La tokenización es un componente fundamental de los modelos de lenguaje grandes (LLMs), sin embargo, su influencia en la escalabilidad y el rendimiento del modelo no está completamente explorada. En este artículo, presentamos Transformadores Sobre-Tokenizados, un nuevo marco que desacopla los vocabularios de entrada y salida para mejorar el rendimiento del modelado del lenguaje. Específicamente, nuestro enfoque amplía los vocabularios de entrada para aprovechar los tokens de varios gramos. A través de experimentos extensos, descubrimos una relación log-lineal entre el tamaño del vocabulario de entrada y la pérdida de entrenamiento, demostrando que los vocabularios de entrada más grandes mejoran consistentemente el rendimiento del modelo, independientemente del tamaño del modelo. Utilizando un vocabulario de entrada grande, logramos un rendimiento comparable a líneas de base de tamaño doble sin costo adicional. Nuestros hallazgos resaltan la importancia de la tokenización en las leyes de escalabilidad y proporcionan información práctica para el diseño de tokenizadores, allanando el camino para LLMs más eficientes y potentes.

DiffSplat: Reutilización de Modelos de Difusión de Imágenes para la Generación Escalable de Splat Gaussianos
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Jan 28, 2025
Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
223

Los avances recientes en la generación de contenido 3D a partir de texto o una sola imagen luchan con conjuntos de datos 3D de alta calidad limitados e inconsistencias en la generación multi-vista 2D. Presentamos DiffSplat, un nuevo marco generativo 3D que genera nativamente manchas gaussianas 3D al domar modelos de difusión texto-imagen a gran escala. Se diferencia de modelos generativos 3D anteriores al utilizar de manera efectiva priors 2D a escala web manteniendo consistencia 3D en un modelo unificado. Para arrancar el entrenamiento, se propone un modelo de reconstrucción ligero para producir instantáneamente cuadrículas de manchas gaussianas multi-vista para la curación escalable de conjuntos de datos. En conjunto con la pérdida de difusión regular en estas cuadrículas, se introduce una pérdida de renderizado 3D para facilitar la coherencia 3D en vistas arbitrarias. La compatibilidad con modelos de difusión de imagen permite adaptaciones fluidas de numerosas técnicas de generación de imagen al ámbito 3D. Experimentos extensos revelan la superioridad de DiffSplat en tareas de generación condicionadas por texto e imagen y aplicaciones posteriores. Estudios de ablación exhaustivos validan la eficacia de cada elección de diseño crítica y proporcionan información sobre el mecanismo subyacente.

Problemas Abiertos en Interpretabilidad Mecanicista
Open Problems in Mechanistic Interpretability

Jan 27, 2025
Lee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath
192

La interpretabilidad mecanicista tiene como objetivo comprender los mecanismos computacionales subyacentes a las capacidades de las redes neuronales para lograr objetivos científicos y de ingeniería concretos. El progreso en este campo promete proporcionar una mayor certeza sobre el comportamiento de los sistemas de IA y arrojar luz sobre emocionantes cuestiones científicas sobre la naturaleza de la inteligencia. A pesar del avance reciente hacia estos objetivos, existen muchos problemas abiertos en el campo que requieren soluciones antes de que se puedan materializar muchos beneficios científicos y prácticos: Nuestros métodos requieren mejoras tanto conceptuales como prácticas para revelar ideas más profundas; debemos determinar la mejor manera de aplicar nuestros métodos en busca de objetivos específicos; y el campo debe enfrentar desafíos sociotécnicos que influyen y son influenciados por nuestro trabajo. Esta revisión prospectiva analiza la frontera actual de la interpretabilidad mecanicista y los problemas abiertos de los que el campo podría beneficiarse al priorizarlos.

Adaptadores de Bajo Rango se Encuentran con la Búsqueda de Arquitectura Neural para la Compresión de LLM
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Jan 23, 2025
J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
112

La rápida expansión de los Modelos de Lenguaje Grandes (LLMs) ha planteado desafíos significativos en cuanto a los recursos computacionales necesarios para el ajuste fino y despliegue. Los avances recientes en adaptadores de bajo rango han demostrado su eficacia en el ajuste fino eficiente en parámetros (PEFT) de estos modelos. Este artículo retrospectivo discute de manera exhaustiva enfoques innovadores que combinan representaciones de bajo rango con técnicas de Búsqueda de Arquitectura Neural (NAS), en particular superredes con compartición de pesos. Se desarrollan soluciones sólidas para comprimir y ajustar finamente modelos pre-entrenados grandes mediante la integración de estas metodologías. Nuestro análisis destaca el potencial de estas estrategias combinadas para democratizar el uso de LLMs, haciéndolos más accesibles para su despliegue en entornos con recursos limitados. Los modelos resultantes muestran huellas de memoria reducidas y tiempos de inferencia más rápidos, allanando el camino para aplicaciones más prácticas y escalables de LLMs. Los modelos y el código están disponibles en https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

TAID: Interpolación de Destilación Temporalmente Adaptativa para Transferencia de Conocimiento Eficiente en Modelos de Lenguaje
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28, 2025
Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
75

Los modelos de lenguaje causales han demostrado capacidades notables, pero su tamaño plantea desafíos significativos para su implementación en entornos con recursos limitados. La destilación de conocimiento, una técnica ampliamente utilizada para transferir conocimiento de un modelo docente grande a un modelo estudiante pequeño, presenta un enfoque prometedor para la compresión de modelos. Un problema importante que persiste radica en las diferencias principales entre los modelos docente y estudiante, a saber, la brecha sustancial de capacidad, el promedio de modo y el colapso de modo, que plantean barreras durante la destilación. Para abordar estos problemas, presentamos la Destilación Interpolada Temporalmente Adaptativa (TAID), un enfoque novedoso de destilación de conocimiento que interpola dinámicamente las distribuciones del estudiante y del docente a través de una distribución intermedia adaptativa, desplazándose gradualmente desde la distribución inicial del estudiante hacia la distribución del docente. Proporcionamos un análisis teórico que demuestra la capacidad de TAID para prevenir el colapso de modo y mostramos empíricamente su eficacia para abordar la brecha de capacidad al mismo tiempo que equilibra el promedio de modo y el colapso de modo. Nuestros experimentos exhaustivos demuestran el rendimiento superior de TAID en varios tamaños y arquitecturas de modelos tanto en escenarios de ajuste de instrucción como de preentrenamiento. Además, presentamos el impacto práctico de TAID al desarrollar dos modelos base compactos de última generación: TAID-LLM-1.5B para tareas de lenguaje y TAID-VLM-2B para tareas de visión-lenguaje. Estos resultados muestran la eficacia de TAID en la creación de modelos eficientes y de alto rendimiento, avanzando en el desarrollo de tecnologías de IA más accesibles.

IndicMMLU-Pro: Evaluación de Modelos de Lenguaje Grandes Indicos en la Comprehensión de Lenguaje Multi-Tarea
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Jan 27, 2025
Sankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri
72

Conocidos por más de 1.5 mil millones de personas en el subcontinente indio, los idiomas indios presentan desafíos y oportunidades únicas para la investigación en procesamiento de lenguaje natural (PLN) debido a su rica herencia cultural, diversidad lingüística y estructuras complejas. IndicMMLU-Pro es un benchmark integral diseñado para evaluar Modelos de Lenguaje Grande (LLMs) en los idiomas indios, construido sobre el marco MMLU Pro (Comprensión de Lenguaje Masivo Multitarea). Cubriendo idiomas principales como Hindi, Bengalí, Guyaratí, Maratí, Canarés, Panyabí, Tamil, Telugu y Urdu, nuestro benchmark aborda los desafíos y oportunidades únicas presentadas por la diversidad lingüística del subcontinente indio. Este benchmark abarca una amplia gama de tareas en comprensión del lenguaje, razonamiento y generación, meticulosamente diseñadas para capturar las complejidades de los idiomas indios. IndicMMLU-Pro proporciona un marco de evaluación estandarizado para impulsar los límites de la investigación en IA de idiomas indios, facilitando el desarrollo de modelos más precisos, eficientes y culturalmente sensibles. Este documento describe los principios de diseño de los benchmarks, la taxonomía de tareas y la metodología de recopilación de datos, y presenta resultados base de modelos multilingües de última generación.

Historias Morales: Un Conjunto de Datos en Francés para Evaluar la Alineación Moral
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28, 2025
Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier
42

Alinear los modelos de lenguaje con los valores humanos es crucial, especialmente a medida que se integran más en la vida cotidiana. Si bien los modelos suelen adaptarse a las preferencias del usuario, es igualmente importante asegurar que se alineen con las normas morales y comportamientos en situaciones sociales del mundo real. A pesar del progreso significativo en idiomas como el inglés y el chino, el francés ha recibido poca atención en esta área, dejando un vacío en la comprensión de cómo los LLMs manejan el razonamiento moral en este idioma. Para abordar esta brecha, presentamos Histoires Morales, un conjunto de datos en francés derivado de Cuentos Morales, creado a través de traducción y posteriormente refinado con la ayuda de hablantes nativos para garantizar la precisión gramatical y la adaptación al contexto cultural francés. También nos basamos en anotaciones de los valores morales dentro del conjunto de datos para garantizar su alineación con las normas francesas. Histoires Morales abarca una amplia gama de situaciones sociales, incluidas diferencias en prácticas de propinas, expresiones de honestidad en relaciones y responsabilidades hacia los animales. Para fomentar la investigación futura, también realizamos experimentos preliminares sobre la alineación de modelos multilingües en datos en francés e inglés y la robustez de la alineación. Descubrimos que si bien los LLMs suelen estar alineados con las normas morales humanas por defecto, pueden ser fácilmente influenciados con la optimización de preferencias del usuario tanto para datos morales como inmorales.

DeepFlow: Servicio de Modelos de Lenguaje a Gran Escala sin Servidor
DeepFlow: Serverless Large Language Model Serving at Scale

Jan 24, 2025
Junhao Hu, Jiang Xu, Zhixia Liu, Yulong He, Yuetao Chen, Hao Xu, Jiang Liu, Baoquan Zhang, Shining Wan, Gengyuan Dan, Zhiyu Dong, Zhihao Ren, Jie Meng, Chao He, Changhong Liu, Tao Xie, Dayun Lin, Qin Zhang, Yue Yu, Hao Feng, Xusheng Chen, Yizhou Shan
32

Este documento presenta DeepFlow, una plataforma de inteligencia artificial escalable y serverless diseñada para servir de manera eficiente modelos de lenguaje grandes (LLMs) a gran escala en entornos de nube. DeepFlow aborda desafíos clave como la asignación de recursos, la eficiencia en el servicio y las latencias de inicio en frío a través de cuatro componentes de diseño principales. En primer lugar, utiliza una abstracción serverless simple llamada el modelo solicitud-trabajo-tarea, que ayuda a gestionar cargas de trabajo de IA en tareas posteriores al entrenamiento y de servicio de modelos. En segundo lugar, construye un motor de servicio interno llamado FlowServe utilizando un diseño inspirado en microkernel, ejecución centrada en NPU y paralelismo basado en SPMD para optimizar el servicio de LLM. El sistema también incluye políticas de programación novedosas adaptadas tanto para configuraciones PD-desagregadas como PD-colocadas. Con optimizaciones como pods precalentados, precarga de DRAM y NPU-fork, DeepFlow puede escalar hasta 64 instancias en segundos. DeepFlow ha estado en producción durante más de un año, operando en un gran clúster de NPU Ascend y proporcionando APIs estándar de la industria para ajuste fino, servicio de agentes y servicio de modelos a nuestros clientes.

Jan 28
Jan 29
Jan 30