HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

18 papers found

OMG-LLaVA: Uniendo el razonamiento y la comprensión a nivel de imagen, objeto y píxel
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Jun 27

ByTao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan

Los métodos actuales de segmentación universal demuestran capacidades sólidas en la comprensión de imágenes y videos a nivel de píxeles. Sin embargo, carecen de habilidades de razonamiento y no pueden ser controlados mediante instrucciones de texto. En contraste, los grandes modelos multimodales de visión y lenguaje exhiben poderosas capacidades de conversación y razonamiento basadas en la visión, pero carecen de comprensión a nivel de píxeles y tienen dificultades para aceptar indicaciones visuales para una interacción flexible con el usuario. Este artículo propone OMG-LLaVA, un nuevo y elegante marco que combina una poderosa comprensión visual a nivel de píxeles con habilidades de razonamiento. Puede aceptar diversas indicaciones visuales y de texto para una interacción flexible con el usuario. Específicamente, utilizamos un método de segmentación universal como codificador visual, integrando información de la imagen, conocimientos previos de percepción e indicaciones visuales en tokens visuales proporcionados al LLM. El LLM es responsable de comprender las instrucciones de texto del usuario y proporcionar respuestas de texto y resultados de segmentación a nivel de píxeles basados en la información visual. Proponemos la incorporación de conocimientos previos de percepción para integrar mejor estos conocimientos con las características de la imagen. OMG-LLaVA logra razonamiento y comprensión a nivel de imagen, objeto y píxel en un solo modelo, igualando o superando el rendimiento de métodos especializados en múltiples benchmarks. En lugar de utilizar el LLM para conectar a cada especialista, nuestro trabajo apunta al entrenamiento de extremo a extremo en un codificador, un decodificador y un LLM. El código y el modelo han sido liberados para futuras investigaciones.

Step-DPO: Optimización de Preferencias Paso a Paso para el Razonamiento de Cadena Larga en Modelos de Lenguaje
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

Jun 26

ByXin Lai, Zhuotao Tian, Yukang Chen, Senqiao Yang, Xiangru Peng, Jiaya Jia

El razonamiento matemático presenta un desafío significativo para los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) debido a la extensa y precisa cadena de razonamiento requerida para lograr precisión. Garantizar la corrección de cada paso del razonamiento es crucial. Para abordar esto, nuestro objetivo es mejorar la robustez y factualidad de los LLMs aprendiendo a partir de la retroalimentación humana. Sin embargo, la Optimización Directa de Preferencias (DPO, por sus siglas en inglés) ha mostrado beneficios limitados para el razonamiento matemático de cadena larga, ya que los modelos que emplean DPO tienen dificultades para identificar errores detallados en respuestas incorrectas. Esta limitación surge de la falta de supervisión detallada del proceso. Proponemos un método simple, efectivo y eficiente en términos de datos llamado Step-DPO, que trata los pasos individuales de razonamiento como unidades para la optimización de preferencias, en lugar de evaluar las respuestas de manera holística. Además, hemos desarrollado una pipeline de construcción de datos para Step-DPO, permitiendo la creación de un conjunto de datos de alta calidad que contiene 10K pares de preferencias paso a paso. También observamos que en DPO, los datos autogenerados son más efectivos que los generados por humanos o GPT-4, debido a la naturaleza fuera de distribución de estos últimos. Nuestros hallazgos demuestran que tan solo 10K pares de datos de preferencias y menos de 500 pasos de entrenamiento con Step-DPO pueden generar una mejora de casi un 3% en la precisión en MATH para modelos con más de 70B parámetros. Notablemente, Step-DPO, cuando se aplica a Qwen2-72B-Instruct, alcanza puntajes de 70.8% y 94.0% en los conjuntos de prueba de MATH y GSM8K, respectivamente, superando una serie de modelos de código cerrado, incluyendo GPT-4-1106, Claude-3-Opus y Gemini-1.5-Pro. Nuestro código, datos y modelos están disponibles en https://github.com/dvlab-research/Step-DPO.

MUMU: Arranque de la Generación Multimodal de Imágenes a partir de Datos de Texto a Imagen
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

Jun 26

ByWilliam Berman, Alexander Peysakhovich

Entrenamos un modelo para generar imágenes a partir de indicaciones multimodales que intercalan texto e imágenes, como "un <imagen de un hombre> hombre y su <imagen de un perro> perro en un estilo <imagen de un dibujo animado> animado". Inicializamos un conjunto de datos multimodal extrayendo recortes de imágenes semánticamente significativos que corresponden a palabras en los textos descriptivos de datos sintéticamente generados y disponibles públicamente de texto e imágenes. Nuestro modelo, MUMU, está compuesto por un codificador de modelo de visión-lenguaje con un decodificador de difusión y se entrena en un solo nodo GPU 8xH100. A pesar de ser entrenado únicamente con recortes de la misma imagen, MUMU aprende a combinar entradas de diferentes imágenes en una salida coherente. Por ejemplo, una entrada de una persona realista y un dibujo animado generará a la misma persona en estilo de dibujo animado, y una entrada de un sujeto de pie y un patinete generará al sujeto montando el patinete. Como resultado, nuestro modelo generaliza tareas como la transferencia de estilo y la consistencia de personajes. Nuestros resultados muestran el potencial de usar modelos multimodales como controladores de propósito general para la generación de imágenes.

Simulación de Educación en el Aula con Agentes Potenciados por LLM
Simulating Classroom Education with LLM-Empowered Agents

Jun 27

ByZheyuan Zhang, Daniel Zhang-Li, Jifan Yu, Linlu Gong, Jinchang Zhou, Zhiyuan Liu, Lei Hou, Juanzi Li

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han empleado en diversas tareas educativas inteligentes para asistir en la enseñanza. Si bien las exploraciones preliminares se han centrado en agentes independientes potenciados por LLMs para tareas educativas específicas, el potencial de los LLMs dentro de un marco colaborativo multiagente para simular un aula con participación real de usuarios sigue sin explorarse. En este trabajo, proponemos SimClass, un marco de simulación de aula multiagente que involucra la participación del usuario. Identificamos roles representativos en el aula e introducimos un novedoso mecanismo de control de clase para la enseñanza automática, y llevamos a cabo experimentos con usuarios en dos cursos del mundo real. Utilizando el Sistema de Análisis Interactivo de Flanders y los marcos teóricos de Comunidad de Indagación del análisis educativo, demostramos que los LLMs pueden simular eficazmente los patrones de interacción tradicionales en el aula mientras mejoran la experiencia del usuario. También observamos comportamientos grupales emergentes entre los agentes en SimClass, donde los agentes colaboran para crear interacciones dinámicas en las aulas que mejoran el proceso de aprendizaje del usuario. Esperamos que este trabajo siente las bases para la aplicación de sistemas multiagente potenciados por LLMs en la enseñanza virtual en aulas.

SeaKR: Recuperación de Conocimiento Autoconsciente para la Generación Aumentada Adaptativa con Recuperación
SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation

Jun 27

ByZijun Yao, Weijian Qi, Liangming Pan, Shulin Cao, Linmei Hu, Weichuan Liu, Lei Hou, Juanzi Li

Este artículo presenta Self-aware Knowledge Retrieval (SeaKR), un modelo RAG adaptativo novedoso que extrae la incertidumbre auto-consciente de los LLMs a partir de sus estados internos. SeaKR activa la recuperación cuando los LLMs presentan una alta incertidumbre auto-consciente durante la generación. Para integrar de manera efectiva los fragmentos de conocimiento recuperados, SeaKR los reordena basándose en la incertidumbre auto-consciente del LLM, preservando el fragmento que reduce su incertidumbre al máximo. Para facilitar la resolución de tareas complejas que requieren múltiples recuperaciones, SeaKR utiliza su incertidumbre auto-consciente para elegir entre diferentes estrategias de razonamiento. Nuestros experimentos en conjuntos de datos de Respuesta a Preguntas, tanto complejos como simples, muestran que SeaKR supera a los métodos RAG adaptativos existentes. Publicamos nuestro código en https://github.com/THU-KEG/SeaKR.

Alineación de las Preferencias del Profesor con las del Estudiante para la Generación de Datos de Entrenamiento Personalizados
Aligning Teacher with Student Preferences for Tailored Training Data Generation

Jun 27

ByYantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un potencial significativo como copilotos en diversas tareas. El despliegue local de LLMs en dispositivos de borde es necesario cuando se manejan datos sensibles a la privacidad o tareas sensibles a la latencia. Las limitaciones computacionales de estos dispositivos hacen que el despliegue directo de LLMs potentes y de gran escala sea poco práctico, lo que requiere la Distilación de Conocimiento desde modelos de gran escala hacia modelos ligeros. Se ha realizado mucho trabajo para obtener ejemplos de entrenamiento diversos y de calidad a partir de LLMs, pero se ha prestado poca atención a alinear el contenido instructivo del profesor según las preferencias del estudiante, similar a la "enseñanza receptiva" en pedagogía. Por ello, proponemos ARTE, denominado Alineación del Profesor con las Preferencias del Estudiante, un marco que alinea el modelo del profesor con las preferencias del estudiante para generar ejemplos de entrenamiento personalizados para la Distilación de Conocimiento. Específicamente, obtenemos preguntas y razonamientos preliminares del modelo del profesor, luego recopilamos las preferencias del estudiante sobre estas preguntas y razonamientos utilizando el rendimiento del estudiante con aprendizaje en contexto como indicador, y finalmente alineamos el modelo del profesor con las preferencias del estudiante. Al final, repetimos el primer paso con el modelo del profesor alineado para obtener ejemplos de entrenamiento personalizados para el modelo del estudiante en la tarea objetivo. Experimentos extensos en benchmarks académicos demuestran la superioridad de ARTE sobre los conjuntos de datos de ajuste de instrucción existentes destilados de LLMs potentes. Además, investigamos exhaustivamente la generalización de ARTE, incluyendo la generalización de los modelos de estudiante ajustados en su capacidad de razonamiento y la generalización de los modelos del profesor alineados para generar datos de entrenamiento personalizados en diferentes tareas y estudiantes. En resumen, nuestras contribuciones radican en proponer un marco novedoso para la generación de ejemplos de entrenamiento personalizados, demostrar su eficacia en experimentos e investigar la generalización tanto de los modelos de estudiante como de los modelos del profesor alineados en ARTE.

LiveBench: Un punto de referencia desafiante y libre de contaminación para modelos de lenguaje grandes
LiveBench: A Challenging, Contamination-Free LLM Benchmark

Jun 27

ByColin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum

La contaminación del conjunto de prueba, en la que los datos de prueba de un benchmark terminan en el conjunto de entrenamiento de un modelo más reciente, es un obstáculo bien documentado para la evaluación justa de los LLM y puede volver rápidamente obsoletos los benchmarks. Para mitigar esto, muchos benchmarks recientes obtienen nuevas preguntas y evaluaciones mediante crowdsourcing de jueces humanos o LLM; sin embargo, estos pueden introducir sesgos significativos y fallar al calificar preguntas difíciles. En este trabajo, presentamos un nuevo benchmark para LLM diseñado para ser inmune tanto a la contaminación del conjunto de prueba como a los problemas de la evaluación por LLM y el crowdsourcing humano. Lanzamos LiveBench, el primer benchmark que (1) contiene preguntas actualizadas frecuentemente a partir de fuentes de información recientes, (2) califica las respuestas automáticamente según valores objetivos de verdad fundamental, y (3) incluye una amplia variedad de tareas desafiantes, que abarcan matemáticas, programación, razonamiento, lenguaje, seguimiento de instrucciones y análisis de datos. Para lograr esto, LiveBench contiene preguntas basadas en competiciones matemáticas recientes, artículos de arXiv, noticias y conjuntos de datos, e incluye versiones más difíciles y libres de contaminación de tareas de benchmarks anteriores como Big-Bench Hard, AMPS e IFEval. Evaluamos muchos modelos cerrados destacados, así como docenas de modelos de código abierto que van desde 0.5B hasta 110B en tamaño. LiveBench es difícil, con los mejores modelos logrando una precisión inferior al 65%. Publicamos todas las preguntas, el código y las respuestas de los modelos. Las preguntas se agregarán y actualizarán mensualmente, y lanzaremos nuevas tareas y versiones más difíciles de tareas con el tiempo para que LiveBench pueda distinguir entre las capacidades de los LLM a medida que mejoren en el futuro. Damos la bienvenida a la participación y colaboración de la comunidad para expandir las tareas y modelos del benchmark.

¿Pueden los LLMs aprender enseñando? Un estudio preliminar
Can LLMs Learn by Teaching? A Preliminary Study

Jun 20

ByXuefei Ning, Zifu Wang, Shiyao Li, Zinan Lin, Peiran Yao, Tianyu Fu, Matthew B. Blaschko, Guohao Dai, Huazhong Yang, Yu Wang

Enseñar para mejorar los modelos de estudiantes (por ejemplo, la destilación de conocimiento) es una metodología ampliamente estudiada en los LLM (Modelos de Lenguaje de Gran Escala). Sin embargo, para los humanos, enseñar no solo mejora a los estudiantes, sino también a los profesores. Nos preguntamos: ¿Pueden los LLM también aprender enseñando (LbT, por sus siglas en inglés)? De ser así, podríamos desbloquear la posibilidad de avanzar continuamente los modelos sin depender únicamente de datos producidos por humanos o modelos más fuertes. En este artículo, proporcionamos una exploración preliminar de esta ambiciosa agenda. Mostramos que las ideas de LbT pueden incorporarse en los flujos de trabajo existentes de entrenamiento/prompting de LLM y ofrecer mejoras notables. Específicamente, diseñamos tres métodos, cada uno imitando uno de los tres niveles de LbT en humanos: observar el feedback de los estudiantes, aprender del feedback y aprender de manera iterativa, con el objetivo de mejorar la precisión de las respuestas sin entrenamiento y mejorar la capacidad inherente de los modelos mediante fine-tuning. Los hallazgos son alentadores. Por ejemplo, similar al LbT en humanos, observamos que: (1) LbT puede inducir una generalización de débil a fuerte: los modelos fuertes pueden mejorarse a sí mismos enseñando a otros modelos débiles; (2) La diversidad en los estudiantes podría ayudar: enseñar a múltiples estudiantes podría ser mejor que enseñar a un solo estudiante o al propio profesor. Esperamos que esta promesa inicial pueda inspirar futuras investigaciones sobre LbT y, en general, la adopción de técnicas avanzadas en educación para mejorar los LLM. El código está disponible en https://github.com/imagination-research/lbt.

Recuperación del Tamaño del Conjunto de Datos a partir de Pesos LoRA
Dataset Size Recovery from LoRA Weights

Jun 27

ByMohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen

Los ataques de inversión de modelos e inferencia de pertenencia buscan reconstruir y verificar los datos con los que se entrenó un modelo. Sin embargo, no garantizan encontrar todas las muestras de entrenamiento, ya que desconocen el tamaño del conjunto de entrenamiento. En este artículo, presentamos una nueva tarea: la recuperación del tamaño del conjunto de datos, que tiene como objetivo determinar el número de muestras utilizadas para entrenar un modelo, directamente a partir de sus pesos. Luego proponemos DSiRe, un método para recuperar el número de imágenes utilizadas para ajustar un modelo, en el caso común donde el ajuste fino utiliza LoRA. Descubrimos que tanto la norma como el espectro de las matrices LoRA están estrechamente relacionados con el tamaño del conjunto de datos de ajuste fino; aprovechamos este hallazgo para proponer un algoritmo de predicción simple pero efectivo. Para evaluar la recuperación del tamaño del conjunto de datos en los pesos LoRA, desarrollamos y publicamos un nuevo benchmark, LoRA-WiSE, que consta de más de 25000 instantáneas de pesos de más de 2000 modelos ajustados con LoRA de diversos tipos. Nuestro mejor clasificador puede predecir el número de imágenes de ajuste fino con un error absoluto medio de 0.36 imágenes, estableciendo la viabilidad de este ataque.

MoA: Mezcla de Atención Dispersa para la Compresión Automática de Modelos de Lenguaje a Gran Escala
MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

Jun 21

ByTianyu Fu, Haofeng Huang, Xuefei Ning, Genghan Zhang, Boju Chen, Tianqi Wu, Hongyi Wang, Zixiao Huang, Shiyao Li, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang

La atención dispersa puede mitigar eficazmente las demandas significativas de memoria y rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs) en contextos largos. Los métodos existentes suelen emplear una máscara de atención dispersa uniforme, aplicando el mismo patrón disperso en diferentes cabezas de atención y longitudes de entrada. Sin embargo, este enfoque uniforme no logra capturar los diversos patrones de atención inherentes a los LLMs, ignorando sus distintos equilibrios entre precisión y latencia. Para abordar este desafío, proponemos la Mezcla de Atención (MoA, por sus siglas en inglés), que adapta automáticamente configuraciones de atención dispersa distintas a diferentes cabezas y capas. MoA construye y navega un espacio de búsqueda de varios patrones de atención y sus reglas de escalado en relación con las longitudes de las secuencias de entrada. Perfila el modelo, evalúa configuraciones potenciales y determina el plan óptimo de compresión de atención dispersa. MoA se adapta a tamaños de entrada variables, revelando que algunas cabezas de atención amplían su enfoque para acomodar secuencias más largas, mientras que otras cabezas se concentran consistentemente en contextos locales de longitud fija. Los experimentos muestran que MoA aumenta la longitud efectiva del contexto en 3.9 veces con el mismo alcance promedio de atención, mejorando la precisión de recuperación en 1.5-7.1 veces en comparación con la línea base de atención uniforme en los modelos Vicuna-7B, Vicuna-13B y Llama3-8B. Además, MoA reduce las brechas de capacidad entre los modelos dispersos y densos, disminuyendo la caída máxima de rendimiento relativo del 9%-36% a menos del 5% en dos puntos de referencia de comprensión de contexto largo. MoA logra una reducción de memoria GPU de 1.2-1.4 veces y aumenta el rendimiento de decodificación en 5.5-6.7 veces para modelos densos de 7B y 13B en una sola GPU, con un impacto mínimo en el rendimiento.

¿Está resuelta la programación por ejemplos mediante modelos de lenguaje grandes?
Is Programming by Example solved by LLMs?

Jun 12

ByWen-Ding Li, Kevin Ellis

La Programación por Ejemplos (PBE, por sus siglas en inglés) tiene como objetivo generar un algoritmo a partir de ejemplos de entrada-salida. Estos sistemas son importantes tanto desde un punto de vista práctico como teórico: desde la perspectiva del usuario final, se implementan para millones de personas, y desde la perspectiva de la IA, la PBE corresponde a una forma muy general de inferencia inductiva con pocos ejemplos. Dado el éxito de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en tareas de generación de código, investigamos aquí hasta qué punto se puede decir que los LLMs han "resuelto" la PBE. Experimentamos en dominios clásicos como listas y cadenas de texto, y en un dominio poco común de programación gráfica que no está bien representado en los datos típicos de preentrenamiento. Descubrimos que los modelos preentrenados no son efectivos en PBE, pero que pueden ajustarse para obtener un rendimiento mucho mayor, siempre que los problemas de prueba estén dentro de la distribución. Analizamos empíricamente qué hace que estos modelos tengan éxito o fracasen, y damos pasos hacia la comprensión de cómo lograr una mejor generalización fuera de la distribución. Colectivamente, estos resultados sugieren que los LLMs avanzan significativamente hacia la resolución del conjunto típico de tareas de PBE, lo que podría aumentar la flexibilidad y aplicabilidad de los sistemas de PBE, al mismo tiempo que identifican áreas en las que los LLMs aún tienen limitaciones.

T-FREE: Modelos Generativos de Lenguaje sin Tokenizador mediante Representaciones Dispersas para Incrustaciones Eficientes en Memoria
T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

Jun 27

ByBjörn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach

Los tokenizadores son cruciales para codificar información en los Modelos de Lenguaje a Gran Escala, pero su desarrollo ha estancado recientemente y presentan debilidades inherentes. Las principales limitaciones incluyen sobrecarga computacional, uso ineficiente del vocabulario y capas de embeddings y cabezales innecesariamente grandes. Además, su rendimiento está sesgado hacia un corpus de referencia, lo que reduce su efectividad para lenguajes poco representados. Para abordar estos problemas, proponemos T-FREE, que incorpora palabras directamente mediante patrones de activación dispersa sobre tripletes de caracteres y no requiere un corpus de referencia. T-FREE aprovecha inherentemente las similitudes morfológicas y permite una fuerte compresión de las capas de embeddings. En nuestra exhaustiva evaluación experimental, logramos un rendimiento competitivo en tareas posteriores con una reducción de más del 85% en los parámetros de estas capas. Además, T-FREE muestra mejoras significativas en el aprendizaje por transferencia multilingüe.

AUTOHALLUSION: Generación Automática de Puntos de Referencia para Alucinaciones en Modelos de Visión-Lenguaje
AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

Jun 16

ByXiyang Wu, Tianrui Guan, Dianqi Li, Shuaiyi Huang, Xiaoyu Liu, Xijun Wang, Ruiqi Xian, Abhinav Shrivastava, Furong Huang, Jordan Lee Boyd-Graber, Tianyi Zhou, Dinesh Manocha

Los grandes modelos de visión-lenguaje (LVLMs, por sus siglas en inglés) alucinan: ciertos indicios contextuales en una imagen pueden desencadenar un razonamiento excesivamente confiado e incorrecto en el módulo de lenguaje sobre objetos anormales o hipotéticos. Aunque se han desarrollado algunos puntos de referencia para investigar las alucinaciones en los LVLMs, estos se basan principalmente en casos límite diseñados manualmente, cuyos patrones de fallo pueden ser difíciles de generalizar, y el ajuste fino sobre ellos podría socavar su validez. Esto nos motiva a desarrollar el primer enfoque de generación automática de puntos de referencia, AUTOHALLUSION, que aprovecha algunas estrategias principales para crear ejemplos diversos de alucinaciones. Este método explora los módulos de lenguaje en los LVLMs en busca de indicios contextuales y los utiliza para sintetizar imágenes mediante: (1) agregar objetos anormales a los indicios contextuales; (2) para dos objetos que suelen co-ocurrir, mantener uno y excluir al otro; o (3) eliminar objetos estrechamente vinculados a los indicios contextuales. Luego, genera preguntas basadas en imágenes cuyas respuestas verdaderas contradicen el conocimiento previo del módulo de lenguaje. Un modelo debe superar los sesgos contextuales y las distracciones para llegar a respuestas correctas, mientras que respuestas incorrectas o inconsistentes indican alucinaciones. AUTOHALLUSION nos permite crear nuevos puntos de referencia con el mínimo costo, superando así la fragilidad de los puntos de referencia diseñados manualmente. También revela patrones y razones comunes de fallo, proporcionando ideas clave para detectar, evitar o controlar las alucinaciones. Evaluaciones exhaustivas de LVLMs de primer nivel, como GPT-4V(isión), Gemini Pro Vision, Claude 3 y LLaVA-1.5, muestran una tasa de éxito del 97.7% y 98.7% en la inducción de alucinaciones en conjuntos de datos sintéticos y del mundo real de AUTOHALLUSION, allanando el camino para una larga batalla contra las alucinaciones.

Leer en cualquier lugar señalado: Lectura de pantallas GUI con conciencia del diseño mediante el enfoque Tree-of-Lens Grounding
Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

Jun 27

ByYue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang

Las Interfaces Gráficas de Usuario (GUIs) son fundamentales para nuestra interacción con dispositivos digitales. Recientemente, se han realizado crecientes esfuerzos para construir modelos destinados a diversas tareas de comprensión de GUIs. Sin embargo, estos esfuerzos en gran medida pasan por alto una importante tarea relacionada con las GUIs: la lectura de pantallas basada en puntos indicados por el usuario, a la que denominamos la tarea de Punto-y-Lee en Pantalla (Screen Point-and-Read, SPR). Esta tarea es predominantemente manejada por herramientas rígidas de lectura accesible de pantallas, que necesitan urgentemente nuevos modelos impulsados por avances en Modelos de Lenguaje Multimodales de Gran Escala (Multimodal Large Language Models, MLLMs). En este artículo, proponemos un agente de Árbol-de-Lentes (Tree-of-Lens, ToL), que utiliza un novedoso mecanismo de anclaje ToL, para abordar la tarea SPR. Basándose en la coordenada del punto de entrada y la captura de pantalla correspondiente de la GUI, nuestro agente ToL construye un Árbol de Diseño Jerárquico. A partir de este árbol, nuestro agente ToL no solo comprende el contenido del área indicada, sino que también articula el diseño y las relaciones espaciales entre los elementos. Esta información de diseño es crucial para interpretar con precisión la información en la pantalla, lo que distingue a nuestro agente ToL de otras herramientas de lectura de pantalla. También evaluamos exhaustivamente el agente ToL frente a otras líneas de base en un nuevo punto de referencia SPR propuesto, que incluye GUIs de sistemas móviles, web y de operación. Por último, pero no menos importante, probamos el agente ToL en tareas de navegación de GUIs móviles, demostrando su utilidad para identificar acciones incorrectas a lo largo de la trayectoria de ejecución del agente. Código y datos: screen-point-and-read.github.io

Comprender las Necesidades del LLM: Alineación Dual de Preferencias para la Generación Aumentada por Recuperación
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation

Jun 26

ByGuanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen

La generación aumentada por recuperación (RAG, por sus siglas en inglés) ha demostrado ser efectiva para mitigar el problema de alucinación en los modelos de lenguaje de gran escala (LLMs). Sin embargo, la dificultad de alinear el recuperador con las diversas preferencias de conocimiento de los LLMs plantea inevitablemente un desafío en el desarrollo de un sistema RAG confiable. Para abordar este problema, proponemos DPA-RAG, un marco universal diseñado para alinear las diversas preferencias de conocimiento dentro de los sistemas RAG. Específicamente, inicialmente introducimos una canalización de construcción de conocimiento de preferencias e incorporamos cinco estrategias novedosas de aumento de consultas para aliviar la escasez de datos de preferencias. Basado en los datos de preferencias, DPA-RAG logra tanto la alineación externa como interna de las preferencias: 1) Integra conjuntamente capacidades de alineación de preferencias por pares, puntuales y contrastivas en el reranker, logrando la alineación externa de preferencias entre los componentes de RAG. 2) Además, introduce una etapa de pre-alineación antes del ajuste fino supervisado (SFT) convencional, permitiendo que los LLMs capturen implícitamente conocimiento alineado con sus preferencias de razonamiento, logrando la alineación interna de los LLMs. Los resultados experimentales en cuatro conjuntos de datos de preguntas y respuestas intensivas en conocimiento demuestran que DPA-RAG supera a todas las líneas base y se integra sin problemas tanto con lectores LLM de caja negra como de código abierto. Además, el análisis cualitativo y las discusiones proporcionan orientación empírica para lograr sistemas RAG confiables. Nuestro código está disponible públicamente en https://github.com/dongguanting/DPA-RAG.

ArzEn-LLM: Traducción y Reconocimiento de Voz en Árabe Egipcio-Inglés con Cambio de Código Utilizando Modelos de Lenguaje de Gran Escala
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs

Jun 26

ByAhmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa

Motivados por el aumento generalizado del fenómeno de alternancia de códigos entre el árabe egipcio y el inglés en los últimos tiempos, este artículo explora las complejidades de los sistemas de traducción automática (MT) y reconocimiento automático del habla (ASR), centrándose en la traducción de textos con alternancia de códigos entre el árabe egipcio y el inglés hacia cualquiera de estos dos idiomas. Nuestro objetivo es presentar las metodologías empleadas en el desarrollo de estos sistemas, utilizando modelos de lenguaje extenso como LLama y Gemma. En el campo del ASR, exploramos el uso del modelo Whisper para el reconocimiento del árabe egipcio con alternancia de códigos, detallando nuestros procedimientos experimentales, incluyendo el preprocesamiento de datos y las técnicas de entrenamiento. A través de la implementación de un sistema de traducción de voz a texto consecutivo que integra ASR con MT, buscamos superar los desafíos planteados por los recursos limitados y las características únicas del dialecto árabe egipcio. La evaluación frente a métricas establecidas muestra resultados prometedores, con nuestras metodologías logrando una mejora significativa del 56% en la traducción al inglés y del 9.3% en la traducción al árabe en comparación con el estado del arte. Dado que la alternancia de códigos está profundamente arraigada en los idiomas hablados, es crucial que los sistemas ASR puedan manejar este fenómeno de manera efectiva. Esta capacidad es esencial para permitir una interacción fluida en diversos ámbitos, incluyendo negociaciones comerciales, intercambios culturales y discursos académicos. Nuestros modelos y código están disponibles como recursos de código abierto. Código: http://github.com/ahmedheakl/arazn-llm, Modelos: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.

ResumeAtlas: Revisión de la Clasificación de Currículums con Conjuntos de Datos a Gran Escala y Modelos de Lenguaje de Gran Tamaño
ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models

Jun 26

ByAhmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky

La creciente dependencia de plataformas de reclutamiento en línea, junto con la adopción de tecnologías de inteligencia artificial, ha resaltado la necesidad crítica de métodos eficientes para la clasificación de currículos. Sin embargo, desafíos como conjuntos de datos pequeños, la falta de plantillas estandarizadas para currículos y preocupaciones sobre la privacidad dificultan la precisión y efectividad de los modelos de clasificación existentes. En este trabajo, abordamos estos desafíos presentando un enfoque integral para la clasificación de currículos. Recopilamos un conjunto de datos a gran escala de 13,389 currículos provenientes de diversas fuentes y empleamos Modelos de Lenguaje de Gran Escala (LLMs) como BERT y Gemma1.1 2B para la clasificación. Nuestros resultados demuestran mejoras significativas en comparación con enfoques tradicionales de aprendizaje automático, con nuestro mejor modelo alcanzando una precisión top-1 del 92\% y una precisión top-5 del 97.5\%. Estos hallazgos subrayan la importancia de la calidad del conjunto de datos y las arquitecturas avanzadas de modelos para mejorar la precisión y robustez de los sistemas de clasificación de currículos, avanzando así en el campo de las prácticas de reclutamiento en línea.

Evaluación de Representaciones de Estados Mentales en Modelos de Lenguaje
Benchmarking Mental State Representations in Language Models

Jun 25

ByMatteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling

Si bien numerosos trabajos han evaluado el rendimiento generativo de los modelos de lenguaje (LMs) en tareas que requieren razonamiento sobre la Teoría de la Mente, la investigación sobre la representación interna de los estados mentales en estos modelos sigue siendo limitada. Trabajos recientes han utilizado técnicas de sondeo (probing) para demostrar que los LMs pueden representar creencias propias y ajenas. Sin embargo, estas afirmaciones están acompañadas de una evaluación limitada, lo que dificulta determinar cómo las representaciones de los estados mentales se ven afectadas por el diseño del modelo y las decisiones de entrenamiento. Presentamos un extenso benchmark con varios tipos de LMs de diferentes tamaños, enfoques de fine-tuning y diseños de prompts para estudiar la robustez de las representaciones de estados mentales y los problemas de memorización en los sondeos. Nuestros resultados muestran que la calidad de las representaciones internas de las creencias ajenas en los modelos aumenta con el tamaño del modelo y, más crucialmente, con el fine-tuning. Somos los primeros en estudiar cómo las variaciones en los prompts afectan el rendimiento de los sondeos en tareas de Teoría de la Mente. Demostramos que las representaciones de los modelos son sensibles a las variaciones en los prompts, incluso cuando dichas variaciones deberían ser beneficiosas. Finalmente, complementamos experimentos previos de edición de activaciones en tareas de Teoría de la Mente y mostramos que es posible mejorar el rendimiento de razonamiento de los modelos guiando sus activaciones sin necesidad de entrenar ningún sondeo.

Alineación de las Preferencias del Profesor con las del Estudiante para la Generación de Datos de Entrenamiento Personalizados
Aligning Teacher with Student Preferences for Tailored Training Data Generation

Jun 27

ByYantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li