Artículos de investigación en IA seleccionados diariamente con traducciones
El reciente lanzamiento de DeepSeek-R1 ha demostrado el inmenso potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de razonamiento general de los modelos de lenguaje de gran escala (LLMs). Si bien DeepSeek-R1 y otros trabajos posteriores se centran principalmente en aplicar RL a problemas de programación competitiva y matemáticas, este artículo presenta SWE-RL, el primer enfoque para escalar el razonamiento basado en RL de LLMs en el ámbito de la ingeniería de software del mundo real. Aprovechando una recompensa basada en reglas ligeras (por ejemplo, la puntuación de similitud entre la solución verdadera y la generada por el LLM), SWE-RL permite que los LLMs recuperen de manera autónoma los procesos de razonamiento y las soluciones de un desarrollador al aprender de extensos datos de evolución de software de código abierto: el registro de todo el ciclo de vida de un software, incluyendo sus instantáneas de código, cambios de código y eventos como problemas y solicitudes de extracción. Entrenado sobre Llama 3, nuestro modelo de razonamiento resultante, Llama3-SWE-RL-70B, alcanza una tasa de resolución del 41.0% en SWE-bench Verified, una colección verificada por humanos de problemas reales de GitHub. Hasta donde sabemos, este es el mejor rendimiento reportado para LLMs de tamaño mediano (<100B) hasta la fecha, incluso comparable a LLMs propietarios líderes como GPT-4o. Sorprendentemente, a pesar de realizar RL únicamente en datos de evolución de software, Llama3-SWE-RL ha desarrollado habilidades de razonamiento generalizado. Por ejemplo, muestra mejoras en cinco tareas fuera de su dominio, a saber, codificación de funciones, uso de bibliotecas, razonamiento de código, matemáticas y comprensión general del lenguaje, mientras que una línea base de ajuste fino supervisado incluso conduce a una degradación del rendimiento en promedio. En general, SWE-RL abre una nueva dirección para mejorar las capacidades de razonamiento de los LLMs mediante el aprendizaje por refuerzo en datos masivos de ingeniería de software.
Los avances recientes en los modelos de lenguaje multimodal de código abierto (MLLMs, por sus siglas en inglés) se han centrado principalmente en mejorar las capacidades fundamentales, dejando un vacío significativo en la alineación con las preferencias humanas. Este artículo presenta OmniAlign-V, un conjunto de datos integral de 200.000 muestras de entrenamiento de alta calidad que incluyen imágenes diversas, preguntas complejas y formatos de respuesta variados, con el objetivo de mejorar la alineación de los MLLMs con las preferencias humanas. También presentamos MM-AlignBench, un punto de referencia anotado por humanos diseñado específicamente para evaluar la alineación de los MLLMs con los valores humanos. Los resultados experimentales muestran que el ajuste fino de los MLLMs con OmniAlign-V, utilizando Ajuste Supervisado (SFT) u Optimización Directa de Preferencias (DPO), mejora significativamente la alineación con las preferencias humanas mientras mantiene o mejora el rendimiento en los puntos de referencia estándar de VQA, preservando sus capacidades fundamentales. Nuestros conjuntos de datos, punto de referencia, código y puntos de control han sido publicados en https://github.com/PhoenixZ810/OmniAlign-V.
Una implementación eficiente de la atención es esencial para modelos grandes debido a su complejidad temporal cuadrática. Afortunadamente, la atención comúnmente exhibe dispersión, es decir, muchos valores en el mapa de atención son cercanos a cero, lo que permite omitir los cálculos correspondientes. Muchos estudios han aprovechado este patrón disperso para acelerar la atención. Sin embargo, la mayoría de los trabajos existentes se centran en optimizar la atención dentro de modelos específicos explotando ciertos patrones dispersos del mapa de atención. Una atención dispersa universal que garantice tanto la aceleración como el rendimiento de extremo a extremo en diversos modelos sigue siendo esquiva. En este artículo, proponemos SpargeAttn, una atención dispersa y cuantizada universal para cualquier modelo. Nuestro método utiliza un filtro en línea de dos etapas: en la primera etapa, predecimos rápida y precisamente el mapa de atención, permitiendo omitir algunas multiplicaciones de matrices en la atención. En la segunda etapa, diseñamos un filtro en línea consciente del softmax que no incurre en sobrecarga adicional y omite más multiplicaciones de matrices. Los experimentos muestran que nuestro método acelera significativamente diversos modelos, incluyendo generación de lenguaje, imágenes y videos, sin sacrificar las métricas de extremo a extremo. Los códigos están disponibles en https://github.com/thu-ml/SpargeAttn.
La consistencia del fondo sigue siendo un desafío significativo en las tareas de edición de imágenes. A pesar de los avances extensos, los trabajos existentes aún enfrentan un compromiso entre mantener la similitud con la imagen original y generar contenido que se alinee con el objetivo. Aquí, proponemos KV-Edit, un enfoque sin entrenamiento que utiliza la caché KV en DiTs para mantener la consistencia del fondo, donde los tokens del fondo se preservan en lugar de regenerarse, eliminando la necesidad de mecanismos complejos o entrenamientos costosos, generando finalmente contenido nuevo que se integra perfectamente con el fondo dentro de las regiones proporcionadas por el usuario. Además, exploramos el consumo de memoria de la caché KV durante la edición y optimizamos la complejidad espacial a O(1) utilizando un método libre de inversión. Nuestro enfoque es compatible con cualquier modelo generativo basado en DiT sin necesidad de entrenamiento adicional. Los experimentos demuestran que KV-Edit supera significativamente a los enfoques existentes en términos de calidad tanto del fondo como de la imagen, incluso superando a los métodos basados en entrenamiento. La página web del proyecto está disponible en https://xilluill.github.io/projectpages/KV-Edit.
La generación de imágenes multicapa es una tarea fundamental que permite a los usuarios aislar, seleccionar y editar capas específicas de una imagen, revolucionando así la interacción con los modelos generativos. En este artículo, presentamos el Anonymous Region Transformer (ART), que facilita la generación directa de imágenes transparentes multicapa variables basadas en un prompt de texto global y un diseño de regiones anónimas. Inspirado por la teoría de esquemas, que sugiere que el conocimiento se organiza en marcos (esquemas) que permiten a las personas interpretar y aprender nueva información vinculándola con conocimientos previos, este diseño de regiones anónimas permite que el modelo generativo determine de manera autónoma qué conjunto de tokens visuales debe alinearse con qué tokens de texto, lo que contrasta con el diseño semántico previamente dominante para la tarea de generación de imágenes. Además, el mecanismo de recorte de regiones por capas, que solo selecciona los tokens visuales pertenecientes a cada región anónima, reduce significativamente los costos de cálculo de atención y permite la generación eficiente de imágenes con numerosas capas distintas (por ejemplo, 50+). En comparación con el enfoque de atención completa, nuestro método es más de 12 veces más rápido y presenta menos conflictos entre capas. Además, proponemos un autocodificador de imágenes transparentes multicapa de alta calidad que admite la codificación y decodificación directa de la transparencia de imágenes multicapa variables de manera conjunta. Al permitir un control preciso y una generación escalable de capas, ART establece un nuevo paradigma para la creación de contenido interactivo.
Los rápidos avances en computación aumentan drásticamente la escala y el costo del entrenamiento de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Predecir con precisión el rendimiento en tareas posteriores antes del entrenamiento del modelo es crucial para una asignación eficiente de recursos, pero sigue siendo un desafío debido a dos limitaciones principales: (1) el "fenómeno de emergencia", en el que las métricas de rendimiento en tareas posteriores solo se vuelven significativas después de un entrenamiento extenso, lo que limita la capacidad de usar modelos más pequeños para la predicción; (2) distribuciones desiguales de dificultad de las tareas y la ausencia de leyes de escalado consistentes, lo que resulta en una variabilidad sustancial de las métricas. Los métodos existentes de predicción de rendimiento adolecen de precisión y fiabilidad limitadas, lo que dificulta la evaluación de las capacidades potenciales de los LLMs. Para abordar estos desafíos, proponemos un marco de predicción de rendimiento en tareas posteriores basado en Agrupación por Dificultad (COD, por sus siglas en inglés). COD primero construye un subconjunto de soporte predecible agrupando tareas según características de dificultad, excluyendo estratégicamente los grupos no emergentes y no escalables. Las puntuaciones en el subconjunto seleccionado sirven como predictores intermedios efectivos del rendimiento en el conjunto completo de evaluación. Con respaldo teórico, derivamos una función de mapeo que transforma las métricas de rendimiento del subconjunto predecible al conjunto completo de evaluación, asegurando así una extrapolación precisa del rendimiento posterior de los LLMs. El método propuesto se ha aplicado para predecir la escalabilidad del rendimiento de un LLM de 70B, proporcionando información útil para la asignación de recursos de entrenamiento y ayudando a monitorear el proceso de entrenamiento. Notablemente, COD logra una precisión predictiva destacada en el LLM de 70B al aprovechar un conjunto de modelos pequeños, demostrando una desviación media absoluta del 1.36% en ocho importantes puntos de referencia de evaluación de LLMs.
La experimentación científica, un pilar fundamental del progreso humano, exige rigor en la fiabilidad, el control metodológico y la interpretabilidad para obtener resultados significativos. A pesar de las crecientes capacidades de los modelos de lenguaje de gran escala (LLMs) para automatizar diversos aspectos del proceso científico, automatizar la experimentación rigurosa sigue siendo un desafío importante. Para abordar esta brecha, proponemos Curie, un marco de agente de IA diseñado para incorporar rigor en el proceso de experimentación a través de tres componentes clave: un módulo de rigor intra-agente para mejorar la fiabilidad, un módulo de rigor inter-agente para mantener el control metodológico y un módulo de conocimiento experimental para mejorar la interpretabilidad. Para evaluar Curie, diseñamos un nuevo punto de referencia experimental compuesto por 46 preguntas en cuatro dominios de la informática, derivadas de artículos de investigación influyentes y proyectos de código abierto ampliamente adoptados. En comparación con la línea base más sólida probada, logramos una mejora de 3.4 veces en la respuesta correcta a las preguntas experimentales. Curie es de código abierto en https://github.com/Just-Curieous/Curie.
Estudios recientes han explorado la combinación de diferentes LoRAs para generar conjuntamente estilo y contenido aprendido. Sin embargo, los métodos existentes no logran preservar de manera efectiva tanto el sujeto original como el estilo simultáneamente o requieren entrenamiento adicional. En este artículo, argumentamos que las propiedades intrínsecas de LoRA pueden guiar eficazmente a los modelos de difusión en la fusión de sujeto y estilo aprendidos. Basándonos en esta idea, proponemos K-LoRA, un enfoque de fusión de LoRA simple pero efectivo que no requiere entrenamiento. En cada capa de atención, K-LoRA compara los elementos Top-K en cada LoRA a fusionar, determinando cuál seleccionar para una fusión óptima. Este mecanismo de selección asegura que las características más representativas tanto del sujeto como del estilo se conserven durante el proceso de fusión, equilibrando eficazmente sus contribuciones. Los resultados experimentales demuestran que el método propuesto integra de manera efectiva la información de sujeto y estilo aprendida por los LoRAs originales, superando a los enfoques basados en entrenamiento de última generación tanto en resultados cualitativos como cuantitativos.
Para utilizar la información visual, el Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés) depende del proceso de percepción de su codificador visual. La integridad y precisión de la percepción visual influyen significativamente en la exactitud del razonamiento espacial, la comprensión detallada y otras tareas. Sin embargo, el MLLM aún carece de la capacidad autónoma para controlar sus propios procesos de percepción visual, por ejemplo, revisar selectivamente regiones específicas de una imagen o enfocarse en información relacionada con categorías de objetos específicas. En este trabajo, proponemos el concepto de Token de Percepción Visual, con el objetivo de dotar al MLLM de un mecanismo para controlar sus procesos de percepción visual. Diseñamos dos tipos de Tokens de Percepción Visual, denominados Token de Selección de Región y Token de Recodificación Visual. Los MLLM generan estos tokens de manera autónoma, al igual que generan texto, y los utilizan para desencadenar acciones adicionales de percepción visual. El Token de Selección de Región identifica explícitamente regiones específicas en una imagen que requieren una percepción adicional, mientras que el Token de Recodificación Visual utiliza sus estados ocultos como señales de control para guiar procesos adicionales de percepción visual. Experimentos extensos demuestran las ventajas de estos tokens en el manejo del razonamiento espacial, la mejora de la comprensión detallada y otras tareas. En promedio, la introducción de los Tokens de Percepción Visual mejora el rendimiento de un modelo de 2B en un 23.6\%, aumentando su puntuación de 0.572 a 0.708, e incluso supera a un modelo de 7B parámetros en un 13.4\% (de 0.624). Por favor, visite nuestro repositorio en https://github.com/yu-rp/VisualPerceptionToken.
La estabilidad del entrenamiento es un desafío persistente en el preentrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés), particularmente para arquitecturas como los Transformers Post-Norm, que son propensos a la explosión y disipación de gradientes. En este artículo, proponemos Desacoplamiento de Escala y Distribución (SDD, por sus siglas en inglés), un enfoque novedoso que estabiliza el entrenamiento al desacoplar explícitamente la escala y la distribución de la matriz de pesos en capas completamente conectadas. SDD aplica un mecanismo de normalización para regular las activaciones y un vector de escala aprendible para mantener gradientes bien condicionados, previniendo efectivamente la explosión y disipación de gradientes. Esta separación mejora la eficiencia de la optimización, especialmente en redes profundas, al garantizar una propagación estable de los gradientes. Los resultados experimentales demuestran que nuestro método estabiliza el entrenamiento en diversas arquitecturas de LLMs y supera a las técnicas existentes en diferentes configuraciones de normalización. Además, el método propuesto es ligero y compatible con frameworks existentes, lo que lo convierte en una solución práctica para estabilizar el entrenamiento de LLMs. El código está disponible en https://github.com/kaihemo/SDD.
Presentamos WebGames, un conjunto de benchmarks integral diseñado para evaluar agentes de IA de navegación web de propósito general a través de una colección de más de 50 desafíos interactivos. Estos desafíos están específicamente diseñados para ser sencillos para los humanos, mientras ponen a prueba sistemáticamente las limitaciones de los sistemas de IA actuales en interacciones fundamentales del navegador, procesamiento avanzado de entradas, tareas cognitivas, automatización de flujos de trabajo y entretenimiento interactivo. Nuestro marco elimina dependencias externas mediante un entorno de pruebas hermético, asegurando una evaluación reproducible con soluciones de referencia verificables. Evaluamos modelos líderes de visión y lenguaje, incluyendo GPT-4o, Claude Computer-Use, Gemini-1.5-Pro y Qwen2-VL, comparándolos con el rendimiento humano. Los resultados revelan una brecha sustancial en las capacidades, con el mejor sistema de IA logrando solo un 43.1% de tasa de éxito en comparación con el 95.7% del rendimiento humano, destacando limitaciones fundamentales en la capacidad de los sistemas de IA actuales para manejar patrones comunes de interacción web que los humanos encuentran intuitivos. El benchmark está disponible públicamente en webgames.convergence.ai, ofreciendo una implementación ligera del lado del cliente que facilita ciclos de evaluación rápidos. Gracias a su arquitectura modular y especificaciones estandarizadas de desafíos, WebGames proporciona una base sólida para medir el progreso en el desarrollo de agentes de navegación web más capaces.
Motivados por la reducción de los costos computacionales y de almacenamiento de los LLM, la compresión de modelos y la compresión de la caché KV han atraído mucha atención por parte de los investigadores. Sin embargo, los métodos actuales se centran predominantemente en mantener el rendimiento de los LLM comprimidos, medido a través de la perplejidad o la precisión simple en tareas de preguntas y respuestas sobre conocimiento de sentido común y razonamiento aritmético básico. En este blog, presentamos una breve revisión de los avances recientes en LLM relacionados con la generación aumentada por recuperación, el razonamiento de múltiples pasos, las herramientas externas y la expresividad computacional, todos los cuales mejoran sustancialmente el rendimiento de los LLM. Luego, proponemos una hipótesis de lotería LLM que sugiere que, para un LLM y una tarea dados, existe un LLM de lotería más pequeño capaz de producir el mismo rendimiento que el LLM original con la ayuda del razonamiento de múltiples pasos y herramientas externas. Basándonos en la revisión del progreso actual en LLM, discutimos y resumimos las capacidades esenciales que el LLM de lotería y la compresión de la caché KV deben poseer, las cuales actualmente se pasan por alto en los métodos existentes.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han experimentado un progreso rápido en tareas de reconocimiento visual en los últimos años. Dada su potencial integración en muchas aplicaciones críticas, es importante comprender las limitaciones de su percepción visual. En este trabajo, estudiamos si los MLLMs pueden percibir detalles visuales pequeños con la misma eficacia que los grandes al responder preguntas sobre imágenes. Observamos que su rendimiento es muy sensible al tamaño del sujeto visual de la pregunta, y además demostramos que este efecto es causal mediante un estudio de intervención. A continuación, analizamos los patrones de atención de los MLLMs al responder preguntas visuales y, de manera intrigante, encontramos que consistentemente saben dónde mirar, incluso cuando proporcionan una respuesta incorrecta. Basándonos en estos hallazgos, proponemos métodos de intervención visual sin entrenamiento que aprovechan el conocimiento interno de cualquier MLLM, en forma de mapas de atención y gradientes, para mejorar su percepción de detalles visuales pequeños. Evaluamos nuestros métodos propuestos en dos MLLMs ampliamente utilizados y siete benchmarks de respuesta a preguntas visuales, y demostramos que pueden mejorar significativamente la precisión de los MLLMs sin requerir ningún entrenamiento. Nuestros resultados esclarecen el riesgo de aplicar MLLMs a tareas de reconocimiento visual que involucran detalles pequeños e indican que la intervención visual utilizando el estado interno del modelo es una dirección prometedora para mitigar este riesgo.
Las evaluaciones de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) suelen basarse en métricas agregadas como la precisión o la preferencia humana, promediando entre usuarios y prompts. Este promedio oculta las variaciones específicas en el rendimiento del modelo según el usuario y el prompt. Para abordar esto, proponemos Prompt-to-Leaderboard (P2L), un método que genera clasificaciones específicas para un prompt. La idea central es entrenar un LLM que tome prompts en lenguaje natural como entrada y produzca un vector de coeficientes de Bradley-Terry, los cuales se utilizan para predecir el voto de preferencia humana. Las clasificaciones dependientes del prompt resultantes permiten una evaluación específica de tareas sin supervisión, el enrutamiento óptimo de consultas a modelos, la personalización y la evaluación automatizada de las fortalezas y debilidades del modelo. Los datos de Chatbot Arena sugieren que P2L captura mejor el panorama matizado del rendimiento de los modelos de lenguaje que las clasificaciones promediadas. Además, nuestros hallazgos indican que la capacidad de P2L para producir evaluaciones específicas de prompt sigue una escala de ley de potencia similar a la observada en los propios LLM. En enero de 2025, el enrutador que entrenamos basado en esta metodología alcanzó el puesto número 1 en la clasificación de Chatbot Arena. Nuestro código está disponible en este enlace de GitHub: https://github.com/lmarena/p2l.
La generación iterativa de datos y el reentrenamiento de modelos son técnicas ampliamente utilizadas para alinear modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Este proceso generalmente implica un modelo de política para generar respuestas alineadas con la política y un modelo de recompensa para guiar la selección de datos de entrenamiento. La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) mejora aún más este proceso al construir pares de preferencias entre respuestas seleccionadas y rechazadas. En este trabajo, buscamos escalar el número de muestras alineadas con la política mediante un muestreo aleatorio repetido para mejorar el rendimiento de la alineación. La práctica convencional selecciona la muestra con la recompensa más alta como elegida y la más baja como rechazada para DPO. Sin embargo, nuestros experimentos revelan que esta estrategia conduce a una disminución en el rendimiento a medida que aumenta el tamaño de la muestra. Para abordar esto, investigamos la construcción de datos de preferencias a través de la lente de la distribución normal subyacente de las recompensas de las muestras. Categorizamos el espacio de recompensas en siete puntos representativos y exploramos sistemáticamente las 21 combinaciones por pares (C_7^2). Mediante evaluaciones en cuatro modelos utilizando AlpacaEval 2, encontramos que seleccionar la respuesta rechazada en la posición de recompensa mu - 2sigma, en lugar de la recompensa mínima, es crucial para un rendimiento óptimo. Finalmente, introducimos una estrategia escalable para la construcción de datos de preferencias que mejora consistentemente el rendimiento del modelo a medida que aumenta la escala de muestreo.
En este artículo presentamos LDGen, un método novedoso para integrar modelos de lenguaje de gran escala (LLMs) en modelos de difusión de texto a imagen existentes, minimizando los requisitos computacionales. Los codificadores de texto tradicionales, como CLIP y T5, presentan limitaciones en el procesamiento multilingüe, lo que dificulta la generación de imágenes en diversos idiomas. Abordamos estos desafíos aprovechando las capacidades avanzadas de los LLMs. Nuestro enfoque emplea una estrategia de representación lingüística que aplica optimización jerárquica de subtítulos y técnicas de instrucción humana para obtener información semántica precisa. Posteriormente, incorporamos un adaptador ligero y un refinador multimodal para facilitar la alineación eficiente de características y la interacción entre los LLMs y las características de la imagen. LDGen reduce el tiempo de entrenamiento y permite la generación de imágenes multilingüe en modo zero-shot. Los resultados experimentales indican que nuestro método supera a los modelos de referencia tanto en la adherencia al prompt como en la calidad estética de las imágenes, al tiempo que admite múltiples idiomas de manera fluida. Página del proyecto: https://zrealli.github.io/LDGen.
Los modelos fundamentales auditivos, incluidos los modelos de lenguaje extenso (LLM) auditivos, procesan todas las entradas de sonido por igual, independientemente de la percepción del oyente. Sin embargo, la percepción auditiva humana es inherentemente selectiva: los oyentes se enfocan en hablantes específicos mientras ignoran a otros en escenas auditivas complejas. Los modelos existentes no incorporan esta selectividad, lo que limita su capacidad para generar respuestas alineadas con la percepción. Para abordar esto, presentamos la Comprensión de Escenas Auditivas Informada por la Intención (II-ASU) y el LLM Guiado por la Atención Auditiva (AAD-LLM), un sistema prototipo que integra señales cerebrales para inferir la atención del oyente. AAD-LLM extiende un LLM auditivo al incorporar grabaciones de electroencefalografía intracraneal (iEEG) para decodificar a qué hablante está prestando atención el oyente y refinar las respuestas en consecuencia. El modelo primero predice el hablante atendido a partir de la actividad neural, luego condiciona la generación de respuestas en este estado de atención inferido. Evaluamos AAD-LLM en la descripción de hablantes, la transcripción y extracción de habla, y la respuesta a preguntas en escenarios con múltiples hablantes, con calificaciones tanto objetivas como subjetivas que muestran una mejor alineación con la intención del oyente. Al dar un primer paso hacia la IA auditiva consciente de la intención, este trabajo explora un nuevo paradigma en el que la percepción del oyente informa la escucha automática, allanando el camino para futuros sistemas auditivos centrados en el oyente. Demostración y código disponibles: https://aad-llm.github.io.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han surgido como herramientas transformadoras en la inteligencia artificial (IA), demostrando capacidades notables en diversas tareas como la generación de texto, el razonamiento y la toma de decisiones. Si bien su éxito se ha impulsado principalmente por avances en el poder computacional y las arquitecturas de aprendizaje profundo, los problemas emergentes —en áreas como la cuantificación de incertidumbre, la toma de decisiones, la inferencia causal y el cambio de distribución— requieren una mayor interacción con el campo de la estadística. Este artículo explora áreas potenciales en las que los estadísticos pueden realizar contribuciones importantes al desarrollo de los LLMs, particularmente aquellos que buscan fomentar la confiabilidad y la transparencia para los usuarios humanos. Así, nos enfocamos en temas como la cuantificación de incertidumbre, la interpretabilidad, la equidad, la privacidad, la marca de agua y la adaptación de modelos. También consideramos posibles roles de los LLMs en el análisis estadístico. Al tender puentes entre la IA y la estadística, buscamos fomentar una colaboración más profunda que avance tanto los fundamentos teóricos como las aplicaciones prácticas de los LLMs, moldeando finalmente su papel en la resolución de desafíos sociales complejos.
Los modelos de espacio de estados (SSMs, por sus siglas en inglés), como Mamba, han surgido como una alternativa eficiente a los transformadores para el modelado de secuencias de contexto largo. Sin embargo, a pesar de su creciente adopción, los SSMs carecen de herramientas de interpretabilidad que han sido cruciales para comprender y mejorar las arquitecturas basadas en atención. Aunque esfuerzos recientes proporcionan información sobre los mecanismos internos de Mamba, no descomponen explícitamente las contribuciones a nivel de tokens, dejando vacíos en la comprensión de cómo Mamba procesa selectivamente las secuencias a través de las capas. En este trabajo, presentamos LaTIM, un método novedoso de descomposición a nivel de tokens tanto para Mamba-1 como para Mamba-2 que permite una interpretabilidad de grano fino. Evaluamos exhaustivamente nuestro método en diversas tareas, incluyendo traducción automática, copia y generación basada en recuperación, demostrando su eficacia para revelar los patrones de interacción token a token de Mamba.
Presentamos Shakti VLM, una familia de modelos de visión y lenguaje con capacidades de 1B y 4B parámetros, diseñada para abordar los desafíos de eficiencia en el aprendizaje multimodal. Si bien los modelos VLM recientes logran un rendimiento sólido mediante el uso de grandes volúmenes de datos de entrenamiento, los modelos Shakti aprovechan innovaciones arquitectónicas para alcanzar resultados competitivos con menos tokens. Los avances clave incluyen la QK-Normalización para la estabilidad de la atención, técnicas híbridas de normalización y codificaciones posicionales mejoradas. Una estrategia de entrenamiento en tres etapas optimiza aún más la eficiencia del aprendizaje. Las evaluaciones muestran que Shakti-VLM-1B y Shakti-VLM-4B sobresalen en comprensión de documentos, razonamiento visual, extracción OCR y razonamiento multimodal general. Nuestros resultados destacan que se puede lograr un alto rendimiento mediante el diseño del modelo y la estrategia de entrenamiento, en lugar de depender únicamente del volumen de datos, lo que convierte a Shakti en una solución eficiente para tareas multimodales a escala empresarial.
Presentamos WiCkeD, un método sencillo para aumentar la complejidad de los benchmarks de opción múltiple existentes al reemplazar aleatoriamente una opción con "Ninguna de las anteriores", una técnica comúnmente utilizada en pruebas educativas. Demostramos que WiCkeD puede aplicarse automáticamente a cualquier benchmark existente, haciéndolo más desafiante. Aplicamos WiCkeD a 6 benchmarks populares y lo utilizamos para evaluar 18 modelos de lenguaje de código abierto (LLMs). El rendimiento de los modelos disminuye en promedio 12.1 puntos con respecto a las versiones originales de los conjuntos de datos. Al utilizar cadena de pensamiento (chain-of-thought) en 3 conjuntos de datos MMLU, la caída en el rendimiento para la variante WiCkeD es similar a la observada cuando se usan los LLMs directamente, lo que muestra que WiCkeD también es desafiante para modelos con capacidades de razonamiento mejoradas. WiCkeD también revela que algunos modelos son más sensibles al razonamiento adicional requerido, proporcionando información adicional en comparación con los benchmarks originales. Publicamos nuestro código y datos en https://github.com/ahmedselhady/wicked-benchmarks.
Los modelos de lenguaje modernos dependen de vocabularios estáticos, fijados antes del preentrenamiento, en contraste con la adquisición adaptativa de vocabulario observada en el aprendizaje del lenguaje humano. Para cerrar esta brecha, presentamos el aprendizaje curricular de vocabulario, un enfoque que mejora la eficiencia del preentrenamiento con ganancias de escalado log-lineal en relación con el tamaño del vocabulario. Nuestro método alterna entre la expansión de vocabulario guiada por entropía y la optimización del modelo, permitiendo que los modelos aprendan representaciones transferibles a través de diversas granularidades de tokenización. Este enfoque da lugar de manera natural a un patrón óptimo de asignación de cómputo: los tokens más largos capturan contenido predecible, mientras que los tokens más cortos se enfocan en contextos más complejos y difíciles de predecir. Los experimentos en modelos GPT a pequeña escala demuestran una mejora en la eficiencia de escalado, reforzando la efectividad de la tokenización dinámica. Publicamos nuestro código para apoyar investigaciones futuras y planeamos extender nuestros experimentos a modelos más grandes y diversos dominios.