Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado un potencial significativo en diversas aplicaciones, lo que ha generado un amplio interés tanto de investigadores como de profesionales. Sin embargo, una evaluación exhaustiva de sus capacidades en contextos largos sigue siendo un área poco explorada. Para abordar estas brechas, presentamos el benchmark MultiModal Needle-in-a-haystack (MMNeedle), diseñado específicamente para evaluar las capacidades de contexto largo de los MLLMs. Además de la entrada de múltiples imágenes, empleamos la técnica de unión de imágenes para aumentar aún más la longitud del contexto de entrada y desarrollamos un protocolo para generar automáticamente etiquetas para la recuperación a nivel de subimagen. Esencialmente, MMNeedle evalúa los MLLMs sometiéndolos a pruebas de estrés para localizar una subimagen objetivo (aguja) dentro de un conjunto de imágenes (pajar) basándose en instrucciones textuales y descripciones del contenido de las imágenes. Esta configuración requiere una comprensión avanzada de contextos visuales extensos y una recuperación efectiva de información dentro de entradas de imágenes de contexto largo. Con este benchmark, evaluamos los MLLMs más avanzados, incluyendo tanto modelos basados en API como modelos de código abierto. Los hallazgos revelan que GPT-4o supera consistentemente a otros modelos en escenarios de contexto largo, pero sufre problemas de alucinación en muestras negativas, es decir, cuando las agujas no están en los pajares. Nuestra evaluación exhaustiva de contexto largo de los MLLMs también arroja luz sobre la considerable brecha de rendimiento entre los modelos basados en API y los de código abierto. Todo el código, datos e instrucciones necesarios para reproducir los principales resultados están disponibles en https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
En la actualidad, los campos del procesamiento de código y lenguaje natural están evolucionando rápidamente. En particular, los modelos han mejorado en el manejo de ventanas de contexto largas: los tamaños de contexto soportados han aumentado en órdenes de magnitud en los últimos años. Sin embargo, existe una escasez de benchmarks para el procesamiento de código que vayan más allá de un solo archivo de contexto, mientras que los más populares se limitan a un solo método. Con este trabajo, buscamos cerrar esta brecha presentando Long Code Arena, un conjunto de seis benchmarks para tareas de procesamiento de código que requieren contexto a nivel de proyecto. Estas tareas cubren diferentes aspectos del procesamiento de código: generación de código basado en bibliotecas, reparación de builds de CI, completado de código a nivel de proyecto, generación de mensajes de commit, localización de errores y resumen de módulos. Para cada tarea, proporcionamos un conjunto de datos verificado manualmente para pruebas, una suite de evaluación y soluciones de referencia de código abierto basadas en LLMs populares para mostrar el uso del conjunto de datos y facilitar su adopción por otros investigadores. Publicamos la página del benchmark en HuggingFace Spaces con un leaderboard, enlaces al HuggingFace Hub para todos los conjuntos de datos y un enlace al repositorio de GitHub con las soluciones de referencia: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
Los transformadores de visión (ViTs) han surgido como un área de enfoque significativa, particularmente por su capacidad para ser entrenados conjuntamente con modelos de lenguaje grandes y para servir como modelos de visión robustos. Sin embargo, el desarrollo de métodos de explicación confiables para ViTs se ha quedado rezagado, especialmente en el contexto de interpretaciones post-hoc de las predicciones de ViTs. Los enfoques existentes de selección de subimágenes, como los modelos de atribución de características y conceptuales, no logran cumplir con este propósito. Este artículo propone cinco desiderata para explicar ViTs: fidelidad, estabilidad, dispersión, estructura multinivel y parsimonia, y demuestra la insuficiencia de los métodos actuales para cumplir con estos criterios de manera integral. Introducimos un marco de explicación bayesiano variacional, denominado ProbAbilistic Concept Explainers (PACE), que modela las distribuciones de los embeddings de parches para proporcionar explicaciones conceptuales post-hoc confiables. Nuestro análisis cualitativo revela las distribuciones de conceptos a nivel de parche, elucidando la efectividad de los ViTs al modelar la distribución conjunta de los embeddings de parches y las predicciones del ViT. Además, estas explicaciones a nivel de parche cierran la brecha entre las explicaciones a nivel de imagen y a nivel de conjunto de datos, completando así la estructura multinivel de PACE. A través de extensos experimentos en conjuntos de datos tanto sintéticos como del mundo real, demostramos que PACE supera a los métodos más avanzados en términos de los desiderata definidos.
Presentamos Self-MoE, un enfoque que transforma un LLM monolítico en un sistema composicional y modular de expertos autoespecializados, denominado MiXSE (Mezcla de Expertos Autoespecializados). Nuestro enfoque aprovecha la autoespecialización, que construye módulos de expertos utilizando datos sintéticos autogenerados, cada uno equipado con un LLM base compartido e incorporando enrutamiento autooptimizado. Esto permite un manejo dinámico y específico de diversas tareas objetivo, mejorando las capacidades generales sin necesidad de datos etiquetados por humanos ni parámetros adicionales. Nuestros resultados empíricos revelan que la especialización de LLMs puede presentar posibles compensaciones en el rendimiento de tareas no especializadas. Por otro lado, nuestro Self-MoE demuestra mejoras sustanciales sobre el LLM base en diversos puntos de referencia, como conocimiento, razonamiento, matemáticas y codificación. También supera consistentemente otros métodos, incluyendo la fusión de instancias y la fusión de pesos, mientras ofrece mayor flexibilidad e interpretabilidad por diseño con expertos semánticos y enrutamiento. Nuestros hallazgos destacan el papel crítico de la modularidad y el potencial de la auto-mejora para lograr sistemas eficientes, escalables y adaptables.
La integración de modelos de lenguaje preentrenados (PLMs, por sus siglas en inglés) como BERT y GPT ha revolucionado el procesamiento del lenguaje natural (NLP), especialmente para el inglés, pero también ha generado desequilibrios lingüísticos. Este artículo identifica estratégicamente la necesidad de equidad lingüística al examinar varias técnicas de edición de conocimiento en contextos multilingües. Evaluamos el rendimiento de modelos como Mistral, TowerInstruct, OpenHathi, Tamil-Llama y Kan-Llama en idiomas que incluyen inglés, alemán, francés, italiano, español, hindi, tamil y kannada. Nuestra investigación revela discrepancias significativas en modelos normales y fusionados en cuanto a la consistencia translingüística. Empleamos estrategias como "cada idioma por sí mismo" (ELFI) y "cada idioma para otros" (ELFO) para someter a prueba estos modelos. Nuestros hallazgos demuestran el potencial de los modelos de lenguaje grandes (LLMs) para superar barreras lingüísticas, sentando las bases para futuras investigaciones orientadas a lograr la inclusividad lingüística en las tecnologías de IA.
Los modelos de habla auto-supervisados (SSL, por sus siglas en inglés) se han adoptado ampliamente recientemente para muchas tareas de procesamiento de habla. El patrón de uso general consiste en emplear modelos SSL como extractores de características y luego entrenar una cabeza de predicción específica para resolver una tarea concreta. Sin embargo, se ha demostrado que diferentes capas de los modelos SSL capturan distintos tipos de información, y los métodos para combinarlos no han sido bien estudiados. Con este fin, extendemos el marco general de utilización de modelos SSL proponiendo una interfaz que conecta el modelo upstream (ascendente) y el downstream (descendente). Bajo esta perspectiva, la técnica dominante de combinar características mediante una suma ponderada por capas puede considerarse como una interfaz específica. Proponemos varios diseños alternativos de interfaz y demostramos que la interfaz de suma ponderada no es óptima para muchas tareas. En particular, mostramos que una interfaz convolucional cuya profundidad escala logarítmicamente con la profundidad del modelo upstream supera consistentemente a muchos otros diseños de interfaz.
El aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) se ha convertido en el método dominante para alinear modelos grandes con las preferencias de los usuarios. A diferencia del ajuste fino, para el cual existen muchos estudios sobre la memorización de datos de entrenamiento, no está claro cómo la memorización se ve afectada o se introduce en el proceso de alineación mediante RLHF. Comprender esta relación es importante, ya que se pueden recopilar y utilizar datos reales de usuarios para alinear modelos grandes; si los datos de los usuarios se memorizan durante RLHF y luego se reproducen, esto podría generar preocupaciones de privacidad. En este trabajo, analizamos cómo la memorización de datos de entrenamiento puede surgir y propagarse a través de cada fase de RLHF. Centramos nuestro estudio en modelos de completado de código, ya que el completado de código es uno de los casos de uso más populares para los modelos de lenguaje grandes. Descubrimos que RLHF reduce significativamente la probabilidad de que los datos utilizados para el modelado de recompensas y el aprendizaje por refuerzo se memoricen, en comparación con la alineación mediante el ajuste fino directo sobre estos datos, pero que los ejemplos ya memorizados durante la etapa de ajuste fino de RLHF, en la mayoría de los casos, permanecerán memorizados después de RLHF.
La tarea de "desaprender" ciertos conceptos en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha atraído una atención considerable recientemente, debido a su importancia para mitigar comportamientos no deseados en los modelos, como la generación de información dañina, privada o incorrecta. Los protocolos actuales para evaluar métodos de desaprendizaje se basan principalmente en pruebas conductuales, sin monitorear la presencia del conocimiento desaprendido dentro de los parámetros del modelo. Este conocimiento residual puede ser explotado de manera adversaria para recuperar la información eliminada después del desaprendizaje. Argumentamos que el desaprendizaje también debería evaluarse internamente, considerando los cambios en las huellas de conocimiento paramétrico de los conceptos desaprendidos. Con este fin, proponemos una metodología general para elicitar direcciones en el espacio de parámetros (denominadas "vectores de concepto") que codifican conceptos concretos, y construimos ConceptVectors, un conjunto de datos de referencia que contiene cientos de conceptos comunes y sus huellas de conocimiento paramétrico en dos LLMs de código abierto. La evaluación en ConceptVectors muestra que los métodos de desaprendizaje existentes tienen un impacto mínimo en los vectores de concepto, mientras que la ablación directa de estos vectores elimina demostrablemente el conocimiento asociado de los LLMs y reduce significativamente su susceptibilidad a la manipulación adversaria. Nuestros resultados destacan las limitaciones en las evaluaciones de desaprendizaje basadas en el comportamiento y abogan por que trabajos futuros incluyan evaluaciones basadas en parámetros. Para apoyar esto, publicamos nuestro código y referencia en https://github.com/yihuaihong/ConceptVectors.