Artículos de investigación en IA seleccionados diariamente con traducciones
Recientemente, el uso de un potente modelo de lenguaje de gran escala (LLM, por sus siglas en inglés) propietario (por ejemplo, GPT-4) como evaluador de respuestas extensas se ha convertido en el estándar de facto. Sin embargo, para profesionales con tareas de evaluación a gran escala y criterios personalizados en consideración (por ejemplo, legibilidad para niños), el uso de LLMs propietarios como evaluadores es poco confiable debido a su naturaleza de código cerrado, versiones no controladas y costos prohibitivos. En este trabajo, proponemos Prometheus, un LLM completamente de código abierto que iguala las capacidades de evaluación de GPT-4 cuando se acompañan los materiales de referencia adecuados (respuesta de referencia, rúbrica de puntuación). Primero construimos la Colección de Retroalimentación, un nuevo conjunto de datos que consta de 1,000 rúbricas de puntuación detalladas, 20,000 instrucciones y 100,000 respuestas y retroalimentaciones lingüísticas generadas por GPT-4. Utilizando la Colección de Retroalimentación, entrenamos Prometheus, un LLM evaluador de 13B que puede evaluar cualquier texto extenso basado en una rúbrica de puntuación personalizada proporcionada por el usuario. Los resultados experimentales muestran que Prometheus obtiene una correlación de Pearson de 0.897 con evaluadores humanos al evaluar con 45 rúbricas de puntuación personalizadas, lo que es comparable a GPT-4 (0.882) y supera ampliamente a ChatGPT (0.392). Además, la medición de la correlación con GPT-4 utilizando 1,222 rúbricas de puntuación personalizadas en cuatro benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) muestra tendencias similares, respaldando la capacidad de Prometheus como LLM evaluador. Por último, Prometheus logra la mayor precisión en dos benchmarks de preferencia humana (HHH Alignment & MT Bench Human Judgment) en comparación con modelos de recompensa de código abierto entrenados explícitamente en conjuntos de datos de preferencia humana, destacando su potencial como un modelo de recompensa universal. Hacemos público nuestro código, conjunto de datos y modelo en https://github.com/kaistAI/Prometheus.
Plan-and-Write es un enfoque jerárquico común en la generación de textos narrativos extensos, que primero crea un plan para guiar la escritura narrativa. Siguiendo este enfoque, varios estudios dependen simplemente de solicitar a los modelos de lenguaje grandes que generen planes, lo que a menudo produce resultados subóptimos. En este artículo, proponemos un nuevo marco llamado Extracción Iterativa de Planes Guiada por Evaluación para la generación de textos narrativos extensos (EIPE-text), que extrae planes del corpus de narrativas y utiliza los planes extraídos para construir un planificador mejorado. EIPE-text consta de tres etapas: extracción de planes, aprendizaje e inferencia. En la etapa de extracción de planes, extrae y mejora iterativamente los planes del corpus narrativo y construye un corpus de planes. Proponemos un mecanismo de evaluación basado en preguntas y respuestas (QA) para evaluar automáticamente los planes y generar instrucciones detalladas de refinamiento de planes que guíen la mejora iterativa. En la etapa de aprendizaje, construimos un planificador mejorado mediante ajuste fino con el corpus de planes o aprendizaje en contexto con ejemplos del corpus de planes. Finalmente, aprovechamos un enfoque jerárquico para generar narrativas extensas. Evaluamos la efectividad de EIPE-text en los dominios de novelas y narración de historias. Tanto las evaluaciones basadas en GPT-4 como las evaluaciones humanas demuestran que nuestro método puede generar narrativas extensas más coherentes y relevantes. Nuestro código será publicado en el futuro.
Exploramos el uso del lenguaje como representación perceptual para la navegación visión-lenguaje. Nuestro enfoque utiliza sistemas de visión preexistentes (para generación de descripciones de imágenes y detección de objetos) para convertir la vista panorámica egocéntrica de un agente en cada paso temporal en descripciones en lenguaje natural. Luego, ajustamos un modelo de lenguaje preentrenado para seleccionar una acción, basada en la vista actual y el historial de trayectoria, que mejor cumpla con las instrucciones de navegación. A diferencia de la configuración estándar que adapta un modelo de lenguaje preentrenado para trabajar directamente con características visuales continuas de modelos de visión preentrenados, nuestro enfoque utiliza el lenguaje (discreto) como representación perceptual. Exploramos dos casos de uso de nuestro enfoque de navegación basada en lenguaje (LangNav) en el benchmark de navegación visión-lenguaje R2R: generar trayectorias sintéticas a partir de un modelo de lenguaje grande (GPT-4) con el cual ajustar un modelo de lenguaje más pequeño; y transferencia de simulación a realidad, donde transferimos una política aprendida en un entorno simulado (ALFRED) a un entorno del mundo real (R2R). Nuestro enfoque demuestra mejoras sobre líneas base sólidas que dependen de características visuales en configuraciones donde solo están disponibles unas pocas trayectorias de referencia (10-100), mostrando el potencial de usar el lenguaje como representación perceptual para tareas de navegación.