Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Tamaño (LLMs) exhiben capacidades notablemente poderosas. Uno de los factores cruciales para lograr el éxito es alinear la salida del LLM con las preferencias humanas. Este proceso de alineación a menudo requiere solo una pequeña cantidad de datos para mejorar eficientemente el rendimiento del LLM. Aunque efectiva, la investigación en esta área abarca múltiples dominios y los métodos involucrados son relativamente complejos de entender. Las relaciones entre diferentes métodos han sido poco exploradas, lo que limita el desarrollo de la alineación de preferencias. En vista de esto, desglosamos las estrategias de alineación populares existentes en diferentes componentes y proporcionamos un marco unificado para estudiar las estrategias de alineación actuales, estableciendo así conexiones entre ellas. En esta revisión, descomponemos todas las estrategias en aprendizaje de preferencias en cuatro componentes: modelo, datos, retroalimentación y algoritmo. Esta visión unificada ofrece una comprensión profunda de los algoritmos de alineación existentes y también abre posibilidades para potenciar las fortalezas de diferentes estrategias. Además, presentamos ejemplos de trabajo detallados de algoritmos existentes prevalentes para facilitar una comprensión integral para los lectores. Finalmente, basándonos en nuestra perspectiva unificada, exploramos los desafíos y las futuras direcciones de investigación para alinear los grandes modelos de lenguaje con las preferencias humanas.
El desarrollo de Modelos de Lenguaje Multimodal Grande (MLLMs) ha experimentado avances significativos. Sin embargo, la cantidad y calidad de los datos de instrucción multimodal han surgido como cuellos de botella significativos en su progreso. La creación manual de datos de instrucción multimodal es tanto demorada como ineficiente, lo que plantea desafíos en la producción de instrucciones de alta complejidad. Además, destilar datos de instrucción de modelos comerciales de caja negra (por ejemplo, GPT-4o, GPT-4V) a menudo resulta en datos de instrucción simplistas, lo que limita el rendimiento a los de estos modelos. El desafío de curar datos de instrucción diversos y complejos sigue siendo sustancial. Proponemos MMEvol, un novedoso marco de evolución de datos de instrucción multimodal que combina evolución de percepción detallada, evolución de razonamiento cognitivo y evolución de interacción. Este enfoque iterativo rompe los cuellos de botella de calidad de datos para generar un conjunto de datos de instrucciones de imagen-texto complejo y diverso, potenciando así a los MLLMs con capacidades mejoradas. Comenzando con un conjunto inicial de instrucciones, SEED-163K, utilizamos MMEvol para ampliar sistemáticamente la diversidad de tipos de instrucciones, integrar pasos de razonamiento para mejorar las capacidades cognitivas y extraer información detallada de las imágenes para mejorar la comprensión visual y la robustez. Para evaluar exhaustivamente la efectividad de nuestros datos, entrenamos LLaVA-NeXT utilizando los datos evolucionados y realizamos experimentos en 13 tareas de visión-lenguaje. En comparación con el modelo base entrenado con los datos iniciales, nuestro enfoque logra una mejora promedio de precisión de 3.1 puntos y alcanza un rendimiento de vanguardia (SOTA) en 9 de estas tareas.
A pesar de los avances recientes en los Modelos de Lenguaje de Gran Tamaño (LLMs), que han mejorado significativamente las capacidades generativas para varias tareas de Procesamiento del Lenguaje Natural (NLP), los LLMs aún enfrentan limitaciones al manejar directamente tareas de recuperación. Sin embargo, muchas aplicaciones prácticas requieren la integración fluida de la recuperación y la generación. Este artículo presenta un marco novedoso y eficiente de Generación y Recuperación en un solo paso (OneGen), diseñado para mejorar el rendimiento de los LLMs en tareas que requieren tanto generación como recuperación. El marco propuesto une los enfoques de entrenamiento tradicionalmente separados para la generación y la recuperación al incorporar tokens de recuperación generados de forma autoregresiva. Esto permite que un solo LLM maneje ambas tareas simultáneamente en un solo pase unificado. Realizamos experimentos en dos tipos distintos de tareas compuestas, RAG y Vinculación de Entidades, para validar la capacidad de conexión, efectividad y eficiencia de OneGen en entrenamiento e inferencia. Además, nuestros resultados muestran que integrar generación y recuperación dentro del mismo contexto preserva las capacidades generativas de los LLMs al tiempo que mejora el rendimiento de la recuperación. Hasta donde sabemos, OneGen es el primero en permitir que los LLMs realicen recuperación vectorial durante la generación.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) aprovecha herramientas de recuperación para acceder a bases de datos externas, mejorando así la calidad de generación de modelos de lenguaje grandes (LLMs) a través de un contexto optimizado. Sin embargo, los métodos de recuperación existentes están inherentemente limitados, ya que solo pueden realizar coincidencias de relevancia entre consultas explícitamente declaradas y conocimiento bien formado, pero no pueden manejar tareas que involucren necesidades de información ambiguas o conocimiento no estructurado. En consecuencia, los sistemas RAG existentes son principalmente efectivos para tareas sencillas de pregunta-respuesta. En este trabajo, proponemos MemoRAG, un paradigma novedoso de generación aumentada por recuperación potenciado por memoria a largo plazo. MemoRAG adopta una arquitectura de doble sistema. Por un lado, emplea un LLM ligero pero de largo alcance para formar la memoria global de la base de datos. Una vez que se presenta una tarea, genera respuestas preliminares, indicando a las herramientas de recuperación dónde localizar información útil dentro de la base de datos. Por otro lado, aprovecha un LLM costoso pero expresivo, que genera la respuesta final basada en la información recuperada. Sobre la base de este marco general, optimizamos aún más el rendimiento de MemoRAG mejorando su mecanismo de indicación y capacidad de memorización. En nuestro experimento, MemoRAG logra un rendimiento superior en una variedad de tareas de evaluación, incluidas las complejas en las que falla el RAG convencional y las sencillas en las que comúnmente se aplica el RAG.
A medida que la investigación científica se multiplica, los investigadores se enfrentan a la desafiante tarea de navegar y leer vastas cantidades de literatura. Las soluciones existentes, como la QA de documentos, no logran proporcionar información personalizada y actualizada de manera eficiente. Presentamos Paper Copilot, un sistema LLM autoevolutivo y eficiente diseñado para asistir a los investigadores, basado en recuperación de pensamientos, perfil de usuario y optimización de alto rendimiento. Específicamente, Paper Copilot puede ofrecer servicios de investigación personalizados, manteniendo una base de datos actualizada en tiempo real. La evaluación cuantitativa demuestra que Paper Copilot ahorra un 69.92\% de tiempo después de una implementación eficiente. Este documento detalla el diseño e implementación de Paper Copilot, resaltando sus contribuciones al soporte académico personalizado y su potencial para agilizar el proceso de investigación.
En los últimos años, los modelos de visión y lenguaje han avanzado significativamente, destacándose en tareas como el reconocimiento óptico de caracteres y la resolución de problemas geométricos. Sin embargo, persisten varias cuestiones críticas: 1) Los modelos propietarios a menudo carecen de transparencia sobre sus arquitecturas, mientras que los modelos de código abierto necesitan una mayor desglose detallado de sus estrategias de entrenamiento. 2) Los datos de pre-entrenamiento en trabajos de código abierto están poco explorados, con conjuntos de datos añadidos empíricamente, lo que hace que el proceso sea engorroso. 3) El ajuste fino a menudo se centra en añadir conjuntos de datos, lo que conduce a rendimientos decrecientes. Para abordar estos problemas, proponemos las siguientes contribuciones: 1) Entrenamos un modelo base robusto utilizando los últimos avances en modelos de visión y lenguaje, introduciendo mejoras efectivas y realizando un desglose y validación exhaustivos para cada técnica. 2) Inspirados en trabajos recientes sobre grandes modelos de lenguaje, filtramos los datos de pre-entrenamiento utilizando la perplejidad, seleccionando los datos con la perplejidad más baja para el entrenamiento. Este enfoque nos permitió entrenar en un conjunto de datos curado de 1M, logrando un rendimiento competitivo. 3) Durante el ajuste de instrucciones visuales, utilizamos un modelo compuesto en diferentes conjuntos de datos cuando añadir más conjuntos de datos producía mejoras marginales. Estas innovaciones resultaron en un modelo de 9B parámetros que compite con los modelos de última generación. Nuestras estrategias son eficientes y livianas, lo que las hace fácilmente adoptables por la comunidad.
Los modelos de robots, especialmente aquellos entrenados con grandes cantidades de datos, han mostrado recientemente una gran cantidad de capacidades de manipulación y navegación en el mundo real. Varios esfuerzos independientes han demostrado que, con suficientes datos de entrenamiento en un entorno, las políticas de los robots pueden generalizar variaciones demostradas en ese entorno. Sin embargo, la necesidad de ajustar finamente los modelos de robots para cada nuevo entorno contrasta fuertemente con los modelos en lenguaje o visión que pueden ser desplegados sin ajustes para problemas de mundo abierto. En este trabajo, presentamos Modelos de Utilidad de Robot (RUMs), un marco para entrenar y desplegar políticas de robots sin ajustes que pueden generalizar directamente a nuevos entornos sin ningún ajuste fino. Para crear RUMs de manera eficiente, desarrollamos nuevas herramientas para recolectar rápidamente datos para tareas de manipulación móvil, integrar dichos datos en una política con aprendizaje por imitación multimodal, y desplegar políticas en dispositivos en Hello Robot Stretch, un robot de mercancía económico, con un verificador externo de mLLM para reintentos. Entrenamos cinco de estos modelos de utilidad para abrir puertas de armarios, abrir cajones, recoger servilletas, recoger bolsas de papel y reorientar objetos caídos. Nuestro sistema, en promedio, logra una tasa de éxito del 90% en entornos no vistos y objetos no vistos. Además, los modelos de utilidad también pueden tener éxito en diferentes configuraciones de robots y cámaras sin necesidad de más datos, entrenamiento o ajustes finos. Entre nuestras lecciones principales se encuentran la importancia de los datos de entrenamiento sobre el algoritmo de entrenamiento y la clase de política, orientación sobre la escala de datos, la necesidad de demostraciones diversas pero de alta calidad, y una receta para la introspección de robots y reintentos para mejorar el rendimiento en entornos individuales. Nuestro código, datos, modelos, diseños de hardware, así como nuestros videos de experimentos y despliegue están disponibles de forma abierta y se pueden encontrar en nuestro sitio web del proyecto: https://robotutilitymodels.com
Si bien los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) exhiben notables capacidades generativas, no están exentos de fallos, especialmente en forma de alucinaciones. Este problema es aún más evidente cuando se aplican LLMs a idiomas y dominios específicos. Por ejemplo, los LLMs pueden generar información sin sentido al manejar poesía antigua china, proverbios o modismos, debido a la falta de conocimiento específico. Con este fin, este artículo presenta un punto de referencia para corregir el conocimiento chino en los LLMs a través de la edición de conocimiento. Específicamente, introducimos un nuevo conjunto de datos chino, CKnowEdit, mediante la recopilación de siete tipos de conocimiento de diversas fuentes, incluidos textos clásicos, modismos y contenido de Baidu Tieba Ruozhiba, teniendo en cuenta la singular polifonía, antítesis y construcciones lógicas inherentes al idioma chino. A través del análisis de este conjunto de datos, descubrimos los desafíos que enfrentan los LLMs actuales para dominar el chino. Además, nuestra evaluación de las técnicas de edición de conocimiento de vanguardia en este conjunto de datos revela un amplio margen para el avance en la rectificación del conocimiento chino. El código y el conjunto de datos están disponibles en https://github.com/zjunlp/EasyEdit.
Este estudio presenta varias contribuciones para el idioma karakalpako: un conjunto de datos de prueba FLORES+ traducido al karakalpako, corpus paralelos para uzbeko-karakalpako, ruso-karakalpako e inglés-karakalpako de 100,000 pares cada uno y modelos neuronales afinados de código abierto para la traducción entre estos idiomas. Nuestros experimentos comparan diferentes variantes de modelos y enfoques de entrenamiento, demostrando mejoras sobre las líneas de base existentes. Este trabajo, realizado como parte de la Iniciativa de Datos de Lenguaje Abierto (OLDI) tarea compartida, tiene como objetivo avanzar en las capacidades de traducción automática para el karakalpako y contribuir a la expansión de la diversidad lingüística en las tecnologías de procesamiento del lenguaje natural (NLP).
Introducimos un punto de referencia para evaluar directamente la alineación entre observadores humanos y modelos de visión en una tarea de inferencia de formas en 3D. Aprovechamos un diseño experimental de las ciencias cognitivas que requiere inferencias visuales sin entrenamiento sobre la forma de un objeto: dadas un conjunto de imágenes, los participantes identifican cuáles contienen objetos iguales/diferentes, a pesar de una considerable variación en el punto de vista. Utilizamos una amplia gama de imágenes que incluyen objetos comunes (por ejemplo, sillas) así como formas abstractas (es decir, objetos generados proceduralmente como 'nonsense'). Tras construir más de 2000 conjuntos de imágenes únicas, administramos estas tareas a participantes humanos, recopilando 35K pruebas de datos conductuales de más de 500 participantes. Esto incluye comportamientos de elección explícitos, así como medidas intermedias, como el tiempo de reacción y datos de mirada. Luego evaluamos el rendimiento de modelos de visión comunes (por ejemplo, DINOv2, MAE, CLIP). Descubrimos que los humanos superan ampliamente a todos los modelos. Utilizando un enfoque de evaluación multi-escala, identificamos similitudes y diferencias subyacentes entre modelos y humanos: aunque el rendimiento humano-modelo está correlacionado, los humanos dedican más tiempo/procesamiento en pruebas desafiantes. Todas las imágenes, datos y código pueden ser accedidos a través de nuestra página del proyecto.
La creciente demanda de los clientes por soluciones inteligentes en robótica y realidad aumentada ha atraído considerable atención a la detección de objetos 3D a partir de nubes de puntos. Sin embargo, los conjuntos de datos internos existentes tomados individualmente son demasiado pequeños y no lo suficientemente diversos para entrenar un modelo potente y general de detección de objetos 3D. Mientras tanto, los enfoques más generales que utilizan modelos base siguen siendo de calidad inferior a aquellos basados en entrenamiento supervisado para una tarea específica. En este trabajo, proponemos un modelo de detección de objetos 3D simple pero efectivo, que se entrena con una mezcla de conjuntos de datos internos y es capaz de funcionar en varios entornos internos. Al unificar diferentes espacios de etiquetas, se facilita el aprendizaje de una representación sólida a través de múltiples conjuntos de datos mediante un esquema de entrenamiento conjunto supervisado. La arquitectura de red propuesta se basa en un codificador transformer básico, lo que facilita la ejecución, personalización y extensión del pipeline de predicción para uso práctico. Experimentos extensos demuestran que se obtienen mejoras significativas sobre los métodos existentes de detección de objetos 3D en 6 evaluaciones internas: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50) y ScanNet++ (+2.7 mAP50). El código está disponible en https://github.com/filapro/unidet3d.
Este documento presenta ideas obtenidas al evaluar 16 modelos de lenguaje grande (LLMs) de vanguardia en el benchmark WebApp1K, una suite de pruebas diseñada para evaluar la capacidad de los LLMs para generar código de aplicaciones web. Los resultados revelan que si bien todos los modelos poseen conocimientos subyacentes similares, su rendimiento se diferencia por la frecuencia de errores que cometen. Al analizar líneas de código (LOC) y distribuciones de fallos, descubrimos que escribir código correcto es más complejo que generar código incorrecto. Además, la ingeniería de indicaciones muestra una eficacia limitada en la reducción de errores más allá de casos específicos. Estos hallazgos sugieren que los avances adicionales en los LLMs de codificación deberían enfocarse en la fiabilidad del modelo y la minimización de errores.