Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un gran potencial para integrar diversos modelos expertos con el fin de abordar tareas complejas en lenguaje y visión. A pesar de su importancia en el avance del campo de la Generación de Contenido mediante Inteligencia Artificial (AIGC, por sus siglas en inglés), su potencial en la creación inteligente de contenido de audio sigue sin explorarse. En este trabajo, abordamos el problema de crear contenido de audio con narrativas que incluyen voz, música y efectos de sonido, guiados por instrucciones de texto. Presentamos WavJourney, un sistema que aprovecha los LLMs para conectar diversos modelos de audio en la generación de contenido sonoro. Dada una descripción textual de una escena auditiva, WavJourney primero solicita a los LLMs que generen un guion estructurado dedicado a la narración de audio. Este guion incorpora diversos elementos de audio, organizados en función de sus relaciones espacio-temporales. Como representación conceptual del audio, el guion proporciona una justificación interactiva e interpretable para la participación humana. Posteriormente, el guion se introduce en un compilador de guiones, que lo convierte en un programa informático. Cada línea del programa llama a un modelo específico de generación de audio o a una función de operación computacional (por ejemplo, concatenar, mezclar). El programa informático se ejecuta para obtener una solución explicable para la generación de audio. Demostramos la practicidad de WavJourney en diversos escenarios del mundo real, incluyendo ciencia ficción, educación y radionovelas. El diseño explicable e interactivo de WavJourney fomenta la co-creación humano-máquina en diálogos de múltiples rondas, mejorando el control creativo y la adaptabilidad en la producción de audio. WavJourney audioliza la imaginación humana, abriendo nuevas vías para la creatividad en la creación de contenido multimedia.
Las adaptaciones de bajo rango (LoRA, por sus siglas en inglés) se emplean con frecuencia para ajustar modelos de lenguaje de gran escala (LLMs) en nuevas tareas. Este artículo investiga la composición de LoRA para la generalización entre tareas e introduce LoraHub, un marco estratégico diseñado para el ensamblaje intencional de módulos LoRA entrenados en diversas tareas, con el objetivo de lograr un rendimiento adaptable en tareas no vistas. Con solo unos pocos ejemplos de una tarea novedosa, LoraHub permite la combinación fluida de múltiples módulos LoRA, eliminando la necesidad de experiencia humana. Cabe destacar que la composición no requiere parámetros adicionales del modelo ni gradientes. Nuestros resultados empíricos, obtenidos del benchmark Big-Bench Hard (BBH), sugieren que LoraHub puede imitar eficazmente el rendimiento del aprendizaje en contexto (in-context learning) en escenarios de pocos ejemplos (few-shot), sin necesidad de incluir ejemplos en contexto junto a cada entrada de inferencia. Una contribución significativa de nuestra investigación es el fomento de una comunidad para LoRA, donde los usuarios pueden compartir sus módulos LoRA entrenados, facilitando así su aplicación a nuevas tareas. Anticipamos que este recurso ampliará el acceso y fomentará avances en la inteligencia general, así como en los LLMs en producción. El código estará disponible en https://github.com/sail-sg/lorahub.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) obtienen mejores resultados cuando generan un razonamiento paso a paso, conocido como "Cadena de Pensamiento" (CoT, por sus siglas en inglés), antes de responder una pregunta. Sin embargo, no está claro si este razonamiento declarado es una explicación fiel del razonamiento real del modelo (es decir, su proceso para responder la pregunta). Investigamos hipótesis sobre cómo el razonamiento CoT puede no ser fiel, examinando cómo cambian las predicciones del modelo cuando intervenimos en el CoT (por ejemplo, añadiendo errores o parafraseándolo). Los modelos muestran una gran variación entre tareas en cuanto a la medida en que condicionan sus respuestas al CoT, a veces dependiendo fuertemente de él y otras ignorándolo en gran medida. El impulso en el rendimiento del CoT no parece provenir únicamente del cómputo adicional en tiempo de prueba ni de la información codificada a través de la formulación específica del CoT. A medida que los modelos se vuelven más grandes y capaces, generan un razonamiento menos fiel en la mayoría de las tareas que estudiamos. En general, nuestros resultados sugieren que el CoT puede ser fiel si se eligen cuidadosamente circunstancias como el tamaño del modelo y la tarea.
Con los avances en IA generativa, ha surgido el emocionante potencial de que los agentes autónomos gestionen tareas cotidianas mediante comandos en lenguaje natural. Sin embargo, los agentes actuales se crean y prueban principalmente en entornos sintéticos simplificados, lo que limita sustancialmente la representación de escenarios del mundo real. En este artículo, construimos un entorno para el comando y control de agentes que es altamente realista y reproducible. Específicamente, nos enfocamos en agentes que realizan tareas en sitios web, y creamos un entorno con sitios web completamente funcionales de cuatro dominios comunes: comercio electrónico, discusiones en foros sociales, desarrollo colaborativo de software y gestión de contenido. Nuestro entorno está enriquecido con herramientas (por ejemplo, un mapa) y bases de conocimiento externas (por ejemplo, manuales de usuario) para fomentar la resolución de tareas de manera similar a la humana. Basándonos en nuestro entorno, publicamos un conjunto de tareas de referencia centradas en evaluar la corrección funcional de la finalización de tareas. Las tareas en nuestro benchmark son diversas, de largo alcance y están diseñadas para emular tareas que los humanos realizan habitualmente en Internet. Diseñamos e implementamos varios agentes autónomos, integrando técnicas recientes como el razonamiento antes de actuar. Los resultados demuestran que resolver tareas complejas es un desafío: nuestro mejor agente basado en GPT-4 solo alcanza una tasa de éxito de tareas de extremo a extremo del 10.59%. Estos resultados resaltan la necesidad de un mayor desarrollo de agentes robustos, que los modelos de lenguaje de última generación están lejos de un rendimiento perfecto en estas tareas de la vida real, y que WebArena puede usarse para medir dicho progreso. Nuestro código, datos, recursos para la reproducción del entorno y demostraciones en video están disponibles públicamente en https://webarena.dev/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en diversos puntos de referencia de razonamiento cuantitativo y conocimiento. Sin embargo, muchos de estos puntos de referencia están perdiendo utilidad a medida que los LLMs obtienen puntuaciones cada vez más altas, a pesar de no alcanzar aún un rendimiento experto en estos dominios. Presentamos ARB, un nuevo punto de referencia compuesto por problemas avanzados de razonamiento en múltiples campos. ARB ofrece una prueba más desafiante que los puntos de referencia anteriores, con problemas en matemáticas, física, biología, química y derecho. Como subconjunto de ARB, introducimos un conjunto desafiante de problemas de matemáticas y física que requieren razonamiento simbólico avanzado y conocimiento del dominio. Evaluamos modelos recientes como GPT-4 y Claude en ARB y demostramos que los modelos actuales obtienen puntuaciones muy por debajo del 50% en tareas más exigentes. Para mejorar tanto las capacidades de evaluación automática como asistida, introducimos un enfoque de evaluación basado en rúbricas, permitiendo que GPT-4 califique sus propios pasos intermedios de razonamiento. Además, realizamos una evaluación humana del subconjunto simbólico de ARB, encontrando una prometedora concordancia entre los anotadores y las puntuaciones de evaluación basadas en la rúbrica de GPT-4.
Los sistemas de recomendación tradicionales aprovechan el historial de preferencias de ítems de los usuarios para recomendar contenido novedoso que les pueda gustar. Sin embargo, las interfaces de diálogo modernas que permiten a los usuarios expresar preferencias basadas en lenguaje ofrecen una modalidad fundamentalmente diferente para la entrada de preferencias. Inspirados por los recientes éxitos de los paradigmas de "prompting" en modelos de lenguaje de gran escala (LLMs), estudiamos su uso para hacer recomendaciones a partir de preferencias basadas tanto en ítems como en lenguaje, en comparación con métodos de filtrado colaborativo (CF) basados en ítems de última generación. Para respaldar esta investigación, recopilamos un nuevo conjunto de datos que incluye preferencias basadas en ítems y en lenguaje, obtenidas de los usuarios junto con sus calificaciones sobre una variedad de ítems recomendados (sesgados) y ítems aleatorios (no sesgados). Entre numerosos resultados experimentales, encontramos que los LLMs ofrecen un rendimiento competitivo en recomendaciones para preferencias puramente basadas en lenguaje (sin preferencias de ítems) en casos cercanos al "cold-start", en comparación con los métodos de CF basados en ítems, a pesar de no haber recibido entrenamiento supervisado para esta tarea específica (zero-shot) o contar con solo unas pocas etiquetas (few-shot). Esto es particularmente prometedor, ya que las representaciones de preferencias basadas en lenguaje son más explicables y examinables que las representaciones basadas en ítems o vectores.
La cobertura de código es una métrica ampliamente utilizada para cuantificar el grado en que los elementos de un programa, como declaraciones o ramas, son ejecutados durante las pruebas. Calcular la cobertura de código es un proceso que consume muchos recursos, ya que requiere la compilación y ejecución del código, además de la sobrecarga adicional asociada a la instrumentación. Además, calcular la cobertura de cualquier fragmento de código exige el contexto completo del programa. Utilizar el Aprendizaje Automático para amortizar este proceso costoso podría reducir el gasto asociado a la cobertura de código al requerir únicamente el contexto del código fuente, y la tarea de predecir la cobertura de código puede ser un nuevo punto de referencia para evaluar la capacidad de los modelos de comprender el código. Proponemos una nueva tarea de referencia llamada Predicción de Cobertura de Código para Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Formalizamos esta tarea para evaluar la capacidad de los LLMs de entender la ejecución del código al determinar qué líneas de un método son ejecutadas por un caso de prueba y entradas dados. Creamos y publicamos un conjunto de datos al que llamamos COVERAGEEVAL, ejecutando pruebas y código del conjunto de datos HumanEval y recopilando información sobre la cobertura de código. Reportamos el rendimiento de cuatro LLMs de última generación utilizados para tareas relacionadas con el código, incluyendo GPT-4 y GPT-3.5-Turbo de OpenAI, BARD de Google y Claude de Anthropic, en la tarea de Predicción de Cobertura de Código. Finalmente, argumentamos que la cobertura de código como métrica y fuente de datos de preentrenamiento es valiosa para el rendimiento general de los LLMs en tareas de ingeniería de software.
Proponemos Strivec, una representación neuronal novedosa que modela una escena 3D como un campo de radiancia con mallas de características tensoriales locales distribuidas de manera dispersa y factorizadas de forma compacta. Nuestro enfoque aprovecha la descomposición tensorial, siguiendo el trabajo reciente TensoRF, para modelar las mallas tensoriales. A diferencia de TensoRF, que utiliza un tensor global y se centra en su descomposición vector-matriz, proponemos utilizar una nube de tensores locales y aplicar la clásica descomposición CANDECOMP/PARAFAC (CP) para factorizar cada tensor en tripletes de vectores que expresan distribuciones de características locales a lo largo de ejes espaciales y codifican de manera compacta un campo neuronal local. También aplicamos mallas tensoriales multi-escala para descubrir las similitudes geométricas y de apariencia, y explotamos la coherencia espacial con la factorización tri-vectorial en múltiples escalas locales. Las propiedades finales del campo de radiancia se obtienen mediante la agregación de características neuronales de múltiples tensores locales en todas las escalas. Nuestros tensores tri-vectoriales se distribuyen de manera dispersa alrededor de la superficie real de la escena, descubierta mediante una reconstrucción gruesa rápida, aprovechando la dispersión de una escena 3D. Demostramos que nuestro modelo puede lograr una mejor calidad de renderizado mientras utiliza significativamente menos parámetros que métodos anteriores, incluyendo TensoRF e Instant-NGP.
Si bien muchos problemas del mundo real podrían beneficiarse del aprendizaje por refuerzo, estos rara vez se ajustan al molde de los MDP (Procesos de Decisión de Markov): la interacción con el entorno suele ser costosa y la especificación de funciones de recompensa es un desafío. Motivados por estos retos, trabajos previos han desarrollado enfoques basados en datos que aprenden completamente a partir de muestras de las dinámicas de transición y ejemplos de estados de alto retorno. Estos métodos suelen aprender una función de recompensa a partir de estados de alto retorno, utilizan esa función para etiquetar las transiciones y luego aplican un algoritmo de aprendizaje por refuerzo offline a estas transiciones. Aunque estos métodos pueden lograr buenos resultados en muchas tareas, pueden ser complejos, a menudo requiriendo regularización y actualizaciones de diferencias temporales. En este artículo, proponemos un método para el control offline basado en ejemplos que aprende un modelo implícito de transiciones multi-paso, en lugar de una función de recompensa. Demostramos que este modelo implícito puede representar los valores Q para el problema de control basado en ejemplos. En una variedad de tareas de control offline basadas en estados e imágenes, nuestro método supera a los enfoques de referencia que utilizan funciones de recompensa aprendidas; experimentos adicionales demuestran una mayor robustez y escalabilidad con el tamaño del conjunto de datos.