HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

12 papers found

Hacia una Visión Unificada del Aprendizaje de Preferencias para Modelos de Lenguaje Grandes: Una Encuesta
Towards a Unified View of Preference Learning for Large Language Models: A Survey

Sep 4

ByBofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang

Los Modelos de Lenguaje de Gran Tamaño (LLMs) exhiben capacidades notablemente poderosas. Uno de los factores cruciales para lograr el éxito es alinear la salida del LLM con las preferencias humanas. Este proceso de alineación a menudo requiere solo una pequeña cantidad de datos para mejorar eficientemente el rendimiento del LLM. Aunque efectiva, la investigación en esta área abarca múltiples dominios y los métodos involucrados son relativamente complejos de entender. Las relaciones entre diferentes métodos han sido poco exploradas, lo que limita el desarrollo de la alineación de preferencias. En vista de esto, desglosamos las estrategias de alineación populares existentes en diferentes componentes y proporcionamos un marco unificado para estudiar las estrategias de alineación actuales, estableciendo así conexiones entre ellas. En esta revisión, descomponemos todas las estrategias en aprendizaje de preferencias en cuatro componentes: modelo, datos, retroalimentación y algoritmo. Esta visión unificada ofrece una comprensión profunda de los algoritmos de alineación existentes y también abre posibilidades para potenciar las fortalezas de diferentes estrategias. Además, presentamos ejemplos de trabajo detallados de algoritmos existentes prevalentes para facilitar una comprensión integral para los lectores. Finalmente, basándonos en nuestra perspectiva unificada, exploramos los desafíos y las futuras direcciones de investigación para alinear los grandes modelos de lenguaje con las preferencias humanas.

MMEvol: Potenciando Modelos de Lenguaje Multimodales Grandes con Evol-Instruct
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

Sep 9

ByRun Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li

El desarrollo de Modelos de Lenguaje Multimodal Grande (MLLMs) ha experimentado avances significativos. Sin embargo, la cantidad y calidad de los datos de instrucción multimodal han surgido como cuellos de botella significativos en su progreso. La creación manual de datos de instrucción multimodal es tanto demorada como ineficiente, lo que plantea desafíos en la producción de instrucciones de alta complejidad. Además, destilar datos de instrucción de modelos comerciales de caja negra (por ejemplo, GPT-4o, GPT-4V) a menudo resulta en datos de instrucción simplistas, lo que limita el rendimiento a los de estos modelos. El desafío de curar datos de instrucción diversos y complejos sigue siendo sustancial. Proponemos MMEvol, un novedoso marco de evolución de datos de instrucción multimodal que combina evolución de percepción detallada, evolución de razonamiento cognitivo y evolución de interacción. Este enfoque iterativo rompe los cuellos de botella de calidad de datos para generar un conjunto de datos de instrucciones de imagen-texto complejo y diverso, potenciando así a los MLLMs con capacidades mejoradas. Comenzando con un conjunto inicial de instrucciones, SEED-163K, utilizamos MMEvol para ampliar sistemáticamente la diversidad de tipos de instrucciones, integrar pasos de razonamiento para mejorar las capacidades cognitivas y extraer información detallada de las imágenes para mejorar la comprensión visual y la robustez. Para evaluar exhaustivamente la efectividad de nuestros datos, entrenamos LLaVA-NeXT utilizando los datos evolucionados y realizamos experimentos en 13 tareas de visión-lenguaje. En comparación con el modelo base entrenado con los datos iniciales, nuestro enfoque logra una mejora promedio de precisión de 3.1 puntos y alcanza un rendimiento de vanguardia (SOTA) en 9 de estas tareas.

OneGen: Generación Unificada Eficiente en un Solo Paso y Recuperación para LLMs
OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

Sep 8

ByJintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang

A pesar de los avances recientes en los Modelos de Lenguaje de Gran Tamaño (LLMs), que han mejorado significativamente las capacidades generativas para varias tareas de Procesamiento del Lenguaje Natural (NLP), los LLMs aún enfrentan limitaciones al manejar directamente tareas de recuperación. Sin embargo, muchas aplicaciones prácticas requieren la integración fluida de la recuperación y la generación. Este artículo presenta un marco novedoso y eficiente de Generación y Recuperación en un solo paso (OneGen), diseñado para mejorar el rendimiento de los LLMs en tareas que requieren tanto generación como recuperación. El marco propuesto une los enfoques de entrenamiento tradicionalmente separados para la generación y la recuperación al incorporar tokens de recuperación generados de forma autoregresiva. Esto permite que un solo LLM maneje ambas tareas simultáneamente en un solo pase unificado. Realizamos experimentos en dos tipos distintos de tareas compuestas, RAG y Vinculación de Entidades, para validar la capacidad de conexión, efectividad y eficiencia de OneGen en entrenamiento e inferencia. Además, nuestros resultados muestran que integrar generación y recuperación dentro del mismo contexto preserva las capacidades generativas de los LLMs al tiempo que mejora el rendimiento de la recuperación. Hasta donde sabemos, OneGen es el primero en permitir que los LLMs realicen recuperación vectorial durante la generación.

MemoRAG: Avanzando hacia la próxima generación de RAG a través del Descubrimiento de Conocimiento Inspirado en la Memoria
MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

Sep 9

ByHongjin Qian, Peitian Zhang, Zheng Liu, Kelong Mao, Zhicheng Dou

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) aprovecha herramientas de recuperación para acceder a bases de datos externas, mejorando así la calidad de generación de modelos de lenguaje grandes (LLMs) a través de un contexto optimizado. Sin embargo, los métodos de recuperación existentes están inherentemente limitados, ya que solo pueden realizar coincidencias de relevancia entre consultas explícitamente declaradas y conocimiento bien formado, pero no pueden manejar tareas que involucren necesidades de información ambiguas o conocimiento no estructurado. En consecuencia, los sistemas RAG existentes son principalmente efectivos para tareas sencillas de pregunta-respuesta. En este trabajo, proponemos MemoRAG, un paradigma novedoso de generación aumentada por recuperación potenciado por memoria a largo plazo. MemoRAG adopta una arquitectura de doble sistema. Por un lado, emplea un LLM ligero pero de largo alcance para formar la memoria global de la base de datos. Una vez que se presenta una tarea, genera respuestas preliminares, indicando a las herramientas de recuperación dónde localizar información útil dentro de la base de datos. Por otro lado, aprovecha un LLM costoso pero expresivo, que genera la respuesta final basada en la información recuperada. Sobre la base de este marco general, optimizamos aún más el rendimiento de MemoRAG mejorando su mecanismo de indicación y capacidad de memorización. En nuestro experimento, MemoRAG logra un rendimiento superior en una variedad de tareas de evaluación, incluidas las complejas en las que falla el RAG convencional y las sencillas en las que comúnmente se aplica el RAG.

Paper Copilot: Un sistema LLM autoevolutivo y eficiente para asistencia académica personalizada.
Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance

Sep 6

ByGuanyu Lin, Tao Feng, Pengrui Han, Ge Liu, Jiaxuan You

A medida que la investigación científica se multiplica, los investigadores se enfrentan a la desafiante tarea de navegar y leer vastas cantidades de literatura. Las soluciones existentes, como la QA de documentos, no logran proporcionar información personalizada y actualizada de manera eficiente. Presentamos Paper Copilot, un sistema LLM autoevolutivo y eficiente diseñado para asistir a los investigadores, basado en recuperación de pensamientos, perfil de usuario y optimización de alto rendimiento. Específicamente, Paper Copilot puede ofrecer servicios de investigación personalizados, manteniendo una base de datos actualizada en tiempo real. La evaluación cuantitativa demuestra que Paper Copilot ahorra un 69.92\% de tiempo después de una implementación eficiente. Este documento detalla el diseño e implementación de Paper Copilot, resaltando sus contribuciones al soporte académico personalizado y su potencial para agilizar el proceso de investigación.

PUNTOS: Mejorando tu Modelo de Lenguaje Visual con Estrategias Económicas
POINTS: Improving Your Vision-language Model with Affordable Strategies

Sep 7

ByYuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou

En los últimos años, los modelos de visión y lenguaje han avanzado significativamente, destacándose en tareas como el reconocimiento óptico de caracteres y la resolución de problemas geométricos. Sin embargo, persisten varias cuestiones críticas: 1) Los modelos propietarios a menudo carecen de transparencia sobre sus arquitecturas, mientras que los modelos de código abierto necesitan una mayor desglose detallado de sus estrategias de entrenamiento. 2) Los datos de pre-entrenamiento en trabajos de código abierto están poco explorados, con conjuntos de datos añadidos empíricamente, lo que hace que el proceso sea engorroso. 3) El ajuste fino a menudo se centra en añadir conjuntos de datos, lo que conduce a rendimientos decrecientes. Para abordar estos problemas, proponemos las siguientes contribuciones: 1) Entrenamos un modelo base robusto utilizando los últimos avances en modelos de visión y lenguaje, introduciendo mejoras efectivas y realizando un desglose y validación exhaustivos para cada técnica. 2) Inspirados en trabajos recientes sobre grandes modelos de lenguaje, filtramos los datos de pre-entrenamiento utilizando la perplejidad, seleccionando los datos con la perplejidad más baja para el entrenamiento. Este enfoque nos permitió entrenar en un conjunto de datos curado de 1M, logrando un rendimiento competitivo. 3) Durante el ajuste de instrucciones visuales, utilizamos un modelo compuesto en diferentes conjuntos de datos cuando añadir más conjuntos de datos producía mejoras marginales. Estas innovaciones resultaron en un modelo de 9B parámetros que compite con los modelos de última generación. Nuestras estrategias son eficientes y livianas, lo que las hace fácilmente adoptables por la comunidad.

Modelos de Utilidad de Robots: Políticas Generales para la Implementación sin Entrenamiento en Nuevos Entornos
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Sep 9

ByHaritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah

Los modelos de robots, especialmente aquellos entrenados con grandes cantidades de datos, han mostrado recientemente una gran cantidad de capacidades de manipulación y navegación en el mundo real. Varios esfuerzos independientes han demostrado que, con suficientes datos de entrenamiento en un entorno, las políticas de los robots pueden generalizar variaciones demostradas en ese entorno. Sin embargo, la necesidad de ajustar finamente los modelos de robots para cada nuevo entorno contrasta fuertemente con los modelos en lenguaje o visión que pueden ser desplegados sin ajustes para problemas de mundo abierto. En este trabajo, presentamos Modelos de Utilidad de Robot (RUMs), un marco para entrenar y desplegar políticas de robots sin ajustes que pueden generalizar directamente a nuevos entornos sin ningún ajuste fino. Para crear RUMs de manera eficiente, desarrollamos nuevas herramientas para recolectar rápidamente datos para tareas de manipulación móvil, integrar dichos datos en una política con aprendizaje por imitación multimodal, y desplegar políticas en dispositivos en Hello Robot Stretch, un robot de mercancía económico, con un verificador externo de mLLM para reintentos. Entrenamos cinco de estos modelos de utilidad para abrir puertas de armarios, abrir cajones, recoger servilletas, recoger bolsas de papel y reorientar objetos caídos. Nuestro sistema, en promedio, logra una tasa de éxito del 90% en entornos no vistos y objetos no vistos. Además, los modelos de utilidad también pueden tener éxito en diferentes configuraciones de robots y cámaras sin necesidad de más datos, entrenamiento o ajustes finos. Entre nuestras lecciones principales se encuentran la importancia de los datos de entrenamiento sobre el algoritmo de entrenamiento y la clase de política, orientación sobre la escala de datos, la necesidad de demostraciones diversas pero de alta calidad, y una receta para la introspección de robots y reintentos para mejorar el rendimiento en entornos individuales. Nuestro código, datos, modelos, diseños de hardware, así como nuestros videos de experimentos y despliegue están disponibles de forma abierta y se pueden encontrar en nuestro sitio web del proyecto: https://robotutilitymodels.com

Evaluación del ajuste de conocimiento chino en modelos de lenguaje grandes
Benchmarking Chinese Knowledge Rectification in Large Language Models

Sep 9

ByTianhe Lu, Jizhan Fang, Yunzhi Yao, Xin Xu, Ningyu Zhang, Huajun Chen

Si bien los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) exhiben notables capacidades generativas, no están exentos de fallos, especialmente en forma de alucinaciones. Este problema es aún más evidente cuando se aplican LLMs a idiomas y dominios específicos. Por ejemplo, los LLMs pueden generar información sin sentido al manejar poesía antigua china, proverbios o modismos, debido a la falta de conocimiento específico. Con este fin, este artículo presenta un punto de referencia para corregir el conocimiento chino en los LLMs a través de la edición de conocimiento. Específicamente, introducimos un nuevo conjunto de datos chino, CKnowEdit, mediante la recopilación de siete tipos de conocimiento de diversas fuentes, incluidos textos clásicos, modismos y contenido de Baidu Tieba Ruozhiba, teniendo en cuenta la singular polifonía, antítesis y construcciones lógicas inherentes al idioma chino. A través del análisis de este conjunto de datos, descubrimos los desafíos que enfrentan los LLMs actuales para dominar el chino. Además, nuestra evaluación de las técnicas de edición de conocimiento de vanguardia en este conjunto de datos revela un amplio margen para el avance en la rectificación del conocimiento chino. El código y el conjunto de datos están disponibles en https://github.com/zjunlp/EasyEdit.

Iniciativa de Datos de Lenguaje Abierto: Avanzando en la Traducción Automática de Bajo Recurso para el Karakalpak.
Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

Sep 6

ByMukhammadsaid Mamasaidov, Abror Shopulatov

Este estudio presenta varias contribuciones para el idioma karakalpako: un conjunto de datos de prueba FLORES+ traducido al karakalpako, corpus paralelos para uzbeko-karakalpako, ruso-karakalpako e inglés-karakalpako de 100,000 pares cada uno y modelos neuronales afinados de código abierto para la traducción entre estos idiomas. Nuestros experimentos comparan diferentes variantes de modelos y enfoques de entrenamiento, demostrando mejoras sobre las líneas de base existentes. Este trabajo, realizado como parte de la Iniciativa de Datos de Lenguaje Abierto (OLDI) tarea compartida, tiene como objetivo avanzar en las capacidades de traducción automática para el karakalpako y contribuir a la expansión de la diversidad lingüística en las tecnologías de procesamiento del lenguaje natural (NLP).

Evaluación de la Consistencia de Objetos Multivista en Humanos y Modelos de Imágenes
Evaluating Multiview Object Consistency in Humans and Image Models

Sep 9

ByTyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros

Introducimos un punto de referencia para evaluar directamente la alineación entre observadores humanos y modelos de visión en una tarea de inferencia de formas en 3D. Aprovechamos un diseño experimental de las ciencias cognitivas que requiere inferencias visuales sin entrenamiento sobre la forma de un objeto: dadas un conjunto de imágenes, los participantes identifican cuáles contienen objetos iguales/diferentes, a pesar de una considerable variación en el punto de vista. Utilizamos una amplia gama de imágenes que incluyen objetos comunes (por ejemplo, sillas) así como formas abstractas (es decir, objetos generados proceduralmente como 'nonsense'). Tras construir más de 2000 conjuntos de imágenes únicas, administramos estas tareas a participantes humanos, recopilando 35K pruebas de datos conductuales de más de 500 participantes. Esto incluye comportamientos de elección explícitos, así como medidas intermedias, como el tiempo de reacción y datos de mirada. Luego evaluamos el rendimiento de modelos de visión comunes (por ejemplo, DINOv2, MAE, CLIP). Descubrimos que los humanos superan ampliamente a todos los modelos. Utilizando un enfoque de evaluación multi-escala, identificamos similitudes y diferencias subyacentes entre modelos y humanos: aunque el rendimiento humano-modelo está correlacionado, los humanos dedican más tiempo/procesamiento en pruebas desafiantes. Todas las imágenes, datos y código pueden ser accedidos a través de nuestra página del proyecto.

UniDet3D: Detección de Objetos 3D en Interiores con Múltiples Conjuntos de Datos
UniDet3D: Multi-dataset Indoor 3D Object Detection

Sep 6

ByMaksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin

La creciente demanda de los clientes por soluciones inteligentes en robótica y realidad aumentada ha atraído considerable atención a la detección de objetos 3D a partir de nubes de puntos. Sin embargo, los conjuntos de datos internos existentes tomados individualmente son demasiado pequeños y no lo suficientemente diversos para entrenar un modelo potente y general de detección de objetos 3D. Mientras tanto, los enfoques más generales que utilizan modelos base siguen siendo de calidad inferior a aquellos basados en entrenamiento supervisado para una tarea específica. En este trabajo, proponemos un modelo de detección de objetos 3D simple pero efectivo, que se entrena con una mezcla de conjuntos de datos internos y es capaz de funcionar en varios entornos internos. Al unificar diferentes espacios de etiquetas, se facilita el aprendizaje de una representación sólida a través de múltiples conjuntos de datos mediante un esquema de entrenamiento conjunto supervisado. La arquitectura de red propuesta se basa en un codificador transformer básico, lo que facilita la ejecución, personalización y extensión del pipeline de predicción para uso práctico. Experimentos extensos demuestran que se obtienen mejoras significativas sobre los métodos existentes de detección de objetos 3D en 6 evaluaciones internas: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50) y ScanNet++ (+2.7 mAP50). El código está disponible en https://github.com/filapro/unidet3d.

Ideas a partir de la Evaluación Comparativa de Modelos de Lenguaje de Vanguardia en la Generación de Código de Aplicaciones Web
Insights from Benchmarking Frontier Language Models on Web App Code Generation

Sep 8

ByYi Cui

Este documento presenta ideas obtenidas al evaluar 16 modelos de lenguaje grande (LLMs) de vanguardia en el benchmark WebApp1K, una suite de pruebas diseñada para evaluar la capacidad de los LLMs para generar código de aplicaciones web. Los resultados revelan que si bien todos los modelos poseen conocimientos subyacentes similares, su rendimiento se diferencia por la frecuencia de errores que cometen. Al analizar líneas de código (LOC) y distribuciones de fallos, descubrimos que escribir código correcto es más complejo que generar código incorrecto. Además, la ingeniería de indicaciones muestra una eficacia limitada en la reducción de errores más allá de casos específicos. Estos hallazgos sugieren que los avances adicionales en los LLMs de codificación deberían enfocarse en la fiabilidad del modelo y la minimización de errores.

Modelos de Utilidad de Robots: Políticas Generales para la Implementación sin Entrenamiento en Nuevos Entornos
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Sep 9

ByHaritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah