Artículos de investigación en IA seleccionados diariamente con traducciones
Avanzar en la frontera de las arquitecturas subcuadráticas para Modelos de Lenguaje (ML) es crucial en el campo en rápida evolución del procesamiento del lenguaje natural. Las innovaciones actuales, incluidos los Modelos de Espacio de Estados, fueron inicialmente celebrados por superar el rendimiento del Transformer en tareas de modelado del lenguaje. Sin embargo, estos modelos han revelado deficiencias en capacidades esenciales de Aprendizaje en Contexto, un dominio en el que el Transformer tradicionalmente destaca. El modelo Based surgió como una solución híbrida, combinando un Transformer Lineal con un kernel inspirado en la expansión de Taylor de funciones exponenciales, aumentado por redes convolucionales. Al reflejar la destreza en contexto del Transformer, se convirtió en un fuerte contendiente en el campo. En nuestro trabajo, presentamos una alteración singular y elegante al kernel Based que amplifica sus capacidades de Aprendizaje en Contexto, evaluadas con la tarea de Recuerdo Asociativo de Múltiples Consultas y el proceso general de modelado del lenguaje, como se demuestra en el conjunto de datos Pile.
Este artículo aborda el desafío de procesar documentos extensos utilizando modelos generativos basados en transformadores. Para evaluar diferentes enfoques, introducimos BABILong, un nuevo punto de referencia diseñado para evaluar las capacidades de los modelos en la extracción y procesamiento de hechos distribuidos dentro de textos extensos. Nuestra evaluación, que incluye pruebas comparativas para GPT-4 y RAG, revela que los métodos comunes solo son efectivos para secuencias de hasta 10^4 elementos. En contraste, el ajuste fino de GPT-2 con mejoras de memoria recurrente le permite manejar tareas que involucran hasta 10^7 elementos. Este logro representa un avance significativo, ya que es, con mucho, la entrada más larga procesada por cualquier modelo de red neuronal abierto hasta la fecha, demostrando una mejora sustancial en las capacidades de procesamiento para secuencias largas.
Aprovechar los historiales de interacción prolongados de los usuarios es esencial para las recomendaciones de contenido personalizadas. El éxito de los modelos de lenguaje preentrenados (PLMs) en el procesamiento del lenguaje natural (NLP) ha llevado a su uso para codificar los historiales de los usuarios y los elementos candidatos, enmarcando las recomendaciones de contenido como tareas de emparejamiento semántico textual. Sin embargo, los trabajos existentes aún enfrentan dificultades para procesar textos históricos de usuarios muy extensos y la insuficiente interacción usuario-elemento. En este artículo, presentamos un marco de recomendación basado en contenido, SPAR, que aborda eficazmente los desafíos de extraer intereses holísticos del usuario a partir de un historial de interacción prolongado. Lo logra aprovechando PLMs, capas de poli-atención y mecanismos de dispersión de atención para codificar el historial del usuario de manera basada en sesiones. Las características del lado del usuario y del elemento se fusionan adecuadamente para la predicción de interacción, manteniendo representaciones independientes para ambos lados, lo que resulta eficiente para el despliegue práctico del modelo. Además, mejoramos la creación de perfiles de usuario al explotar modelos de lenguaje de gran escala (LLM) para extraer intereses globales del historial de interacción del usuario. Experimentos extensos en dos conjuntos de datos de referencia demuestran que nuestro marco supera a los métodos más avanzados (SoTA) existentes.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han convertido en una herramienta dominante e importante para los investigadores en PLN en una amplia gama de tareas. Hoy en día, muchos investigadores utilizan LLMs en la generación de datos sintéticos, evaluación de tareas, ajuste fino, destilación y otros flujos de trabajo de investigación que involucran modelos en el ciclo. Sin embargo, surgen desafíos al utilizar estos modelos que se derivan de su escala, su naturaleza de código cerrado y la falta de herramientas estandarizadas para estos flujos de trabajo nuevos y emergentes. El rápido ascenso a la prominencia de estos modelos y estos desafíos únicos ha tenido impactos adversos inmediatos en la ciencia abierta y en la reproducibilidad del trabajo que los utiliza. En este artículo, presentamos DataDreamer, una biblioteca de Python de código abierto que permite a los investigadores escribir código simple para implementar flujos de trabajo potentes con LLMs. DataDreamer también ayuda a los investigadores a adherirse a las mejores prácticas que proponemos para fomentar la ciencia abierta y la reproducibilidad. La biblioteca y la documentación están disponibles en https://github.com/datadreamer-dev/DataDreamer.
La creación de videos ha ganado popularidad, aunque la experiencia y el esfuerzo requeridos para la edición suelen representar barreras para los principiantes. En este artículo, exploramos la integración de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en el flujo de trabajo de edición de videos para reducir estas barreras. Nuestra visión de diseño se materializa en LAVE, un sistema novedoso que ofrece asistencia mediante agentes impulsados por LLMs y funciones de edición aumentadas por lenguaje. LAVE genera automáticamente descripciones en lenguaje natural para el material del usuario, lo que sirve como base para permitir que el LLM procese los videos y asista en tareas de edición. Cuando el usuario proporciona objetivos de edición, el agente planifica y ejecuta acciones relevantes para cumplirlos. Además, LAVE permite a los usuarios editar videos ya sea mediante el agente o mediante manipulación directa de la interfaz de usuario, ofreciendo flexibilidad y permitiendo el refinamiento manual de las acciones del agente. Nuestro estudio de usuarios, que incluyó a ocho participantes desde principiantes hasta editores competentes, demostró la efectividad de LAVE. Los resultados también arrojan luz sobre las percepciones de los usuarios respecto al paradigma de edición asistida por LLMs propuesto y su impacto en la creatividad y el sentido de co-creación de los usuarios. Basándonos en estos hallazgos, proponemos implicaciones de diseño para informar el desarrollo futuro de la edición de contenido asistida por agentes.
La evaluación automática comparativa ha surgido como un enfoque prometedor para evaluar la calidad de las respuestas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Sin embargo, analizar los resultados de este método de evaluación plantea desafíos de escalabilidad e interpretabilidad. En este artículo, presentamos LLM Comparator, una novedosa herramienta de análisis visual para examinar de manera interactiva los resultados de la evaluación automática comparativa. La herramienta facilita flujos de trabajo interactivos que permiten a los usuarios comprender cuándo y por qué un modelo tiene un rendimiento mejor o peor que un modelo de referencia, y en qué se diferencian cualitativamente las respuestas de dos modelos. Diseñamos y desarrollamos la herramienta de manera iterativa en estrecha colaboración con investigadores e ingenieros de una gran empresa tecnológica. Este artículo detalla los desafíos de los usuarios que identificamos, el diseño y desarrollo de la herramienta, y un estudio observacional con participantes que evalúan regularmente sus modelos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son cada vez más prevalentes en los sistemas conversacionales debido a su capacidad avanzada de comprensión y generación en contextos generales. Sin embargo, su efectividad en diálogos orientados a tareas (TOD, por sus siglas en inglés), que requieren no solo la generación de respuestas sino también un seguimiento efectivo del estado del diálogo (DST, por sus siglas en inglés) dentro de tareas y dominios específicos, sigue siendo menos satisfactoria. En este trabajo, proponemos un enfoque novedoso, FnCTOD, para resolver el DST con LLMs mediante el uso de llamadas a funciones. Este método mejora el DST en modo zero-shot, permitiendo la adaptación a diversos dominios sin necesidad de una recopilación extensiva de datos o ajuste del modelo. Nuestros resultados experimentales demuestran que nuestro enfoque logra un rendimiento excepcional tanto con modelos de código abierto de tamaño moderado como con modelos propietarios: con el uso de indicaciones en contexto, permite que varios modelos de 7B o 13B parámetros superen el estado del arte (SOTA, por sus siglas en inglés) anterior logrado por ChatGPT, y mejora el rendimiento de ChatGPT superando el SOTA en un 5.6% de JGA promedio. Los resultados individuales para GPT-3.5 y GPT-4 se incrementan en un 4.8% y un 14%, respectivamente. También mostramos que, al realizar un ajuste fino en una pequeña colección de diálogos orientados a tareas diversos, podemos equipar a modelos de tamaño moderado, específicamente un modelo LLaMA2-Chat de 13B parámetros, con capacidades de llamadas a funciones y un rendimiento en DST comparable al de ChatGPT, manteniendo sus capacidades conversacionales. Planeamos hacer público el código experimental y el modelo.
Los modelos de difusión han demostrado ser altamente efectivos en la generación de imágenes y videos; sin embargo, aún enfrentan desafíos de composición al generar imágenes de tamaños variables debido a datos de entrenamiento de escala única. Adaptar modelos de difusión preentrenados de gran tamaño para resoluciones más altas requiere recursos computacionales y de optimización sustanciales, pero lograr una capacidad de generación comparable a la de modelos de baja resolución sigue siendo esquivo. Este artículo propone un novedoso modelo de difusión en cascada auto-guiado que aprovecha el conocimiento rico obtenido de un modelo bien entrenado de baja resolución para una rápida adaptación a la generación de imágenes y videos de mayor resolución, empleando paradigmas de ajuste sin sintonización o con sintonización económica de ampliación. Al integrar una secuencia de módulos de ampliación multi-escala, el modelo de difusión en cascada auto-guiado puede adaptarse eficientemente a una resolución más alta, preservando la composición original y las capacidades de generación. Además, proponemos una estrategia de reprogramación de ruido guiada por pivote para acelerar el proceso de inferencia y mejorar los detalles estructurales locales. En comparación con el ajuste fino completo, nuestro enfoque logra una aceleración de entrenamiento de 5X y requiere solo 0.002M parámetros adicionales de ajuste. Experimentos extensivos demuestran que nuestro enfoque puede adaptarse rápidamente a la síntesis de imágenes y videos de mayor resolución con solo 10k pasos de ajuste fino, prácticamente sin tiempo adicional de inferencia.
Este artículo demuestra que un modelo de lenguaje progresivamente alineado puede efectivamente conectar codificadores de visión congelados y modelos de lenguaje grandes (LLMs). Si bien la arquitectura fundamental y los métodos de pre-entrenamiento de los codificadores de visión y los LLMs han sido ampliamente estudiados, la arquitectura y la estrategia de entrenamiento de los adaptadores visión-lenguaje varían significativamente en trabajos recientes. Nuestra investigación realiza una exploración exhaustiva de la arquitectura de resampling de perceiver de última generación y establece una línea base sólida. Sin embargo, observamos que la alineación visión-lenguaje con el resampler de perceiver muestra una convergencia lenta y una escalabilidad limitada, junto con una falta de supervisión directa. Para abordar este problema, proponemos PaLM2-VAdapter, que emplea un modelo de lenguaje progresivamente alineado como adaptador visión-lenguaje. En comparación con la línea base sólida que utiliza el resampler de perceiver, nuestro método muestra empíricamente una convergencia más rápida, un mayor rendimiento y una escalabilidad más robusta. Experimentos extensos en diversas tareas de Respuesta a Preguntas Visuales (VQA) y generación de descripciones, tanto en imágenes como en videos, demuestran que nuestro modelo exhibe capacidades de comprensión visual y razonamiento multimodal de última generación. Notablemente, nuestro método logra estos avances con un 30~70% menos de parámetros que los modelos grandes visión-lenguaje de última generación, marcando una mejora significativa en eficiencia.
Reconstruir y renderizar objetos 3D a partir de vistas altamente dispersas es de importancia crítica para promover las aplicaciones de las técnicas de visión 3D y mejorar la experiencia del usuario. Sin embargo, las imágenes de vistas dispersas solo contienen información 3D muy limitada, lo que conlleva dos desafíos significativos: 1) Dificultad para establecer consistencia multivista, ya que las imágenes disponibles para emparejar son muy pocas; 2) Información del objeto parcialmente omitida o altamente comprimida debido a una cobertura de vistas insuficiente. Para abordar estos desafíos, proponemos GaussianObject, un marco para representar y renderizar el objeto 3D mediante splatting Gaussiano, que logra una alta calidad de renderizado con solo 4 imágenes de entrada. Primero introducimos técnicas de visual hull y eliminación de flotadores, que inyectan explícitamente prioridades estructurales en el proceso de optimización inicial para ayudar a establecer consistencia multivista, obteniendo una representación Gaussiana 3D aproximada. Luego construimos un modelo de reparación Gaussiano basado en modelos de difusión para complementar la información omitida del objeto, donde los Gaussianos se refinan aún más. Diseñamos una estrategia de autogeneración para obtener pares de imágenes para entrenar el modelo de reparación. Nuestro GaussianObject es evaluado en varios conjuntos de datos desafiantes, incluyendo MipNeRF360, OmniObject3D y OpenIllumination, logrando fuertes resultados de reconstrucción a partir de solo 4 vistas y superando significativamente a los métodos estado del arte anteriores.
Presentamos la Interfaz Universal de Manipulación (UMI, por sus siglas en inglés) — un marco de recopilación de datos y aprendizaje de políticas que permite la transferencia directa de habilidades desde demostraciones humanas en entornos reales a políticas robóticas implementables. UMI utiliza pinzas portátiles junto con un diseño cuidadoso de la interfaz para permitir la recopilación de datos portátil, de bajo costo y rica en información para demostraciones desafiantes de manipulación bimanual y dinámica. Para facilitar el aprendizaje de políticas implementables, UMI incorpora una interfaz de política cuidadosamente diseñada con coincidencia de latencia en tiempo de inferencia y una representación de acciones basada en trayectorias relativas. Las políticas aprendidas resultantes son independientes del hardware y pueden implementarse en múltiples plataformas robóticas. Equipado con estas características, el marco UMI desbloquea nuevas capacidades de manipulación robótica, permitiendo comportamientos dinámicos, bimanuales, precisos y de largo alcance generalizables sin necesidad de ajustes adicionales, simplemente cambiando los datos de entrenamiento para cada tarea. Demostramos la versatilidad y eficacia de UMI con experimentos exhaustivos en el mundo real, donde las políticas aprendidas a través de UMI generalizan sin ajustes previos a entornos y objetos novedosos cuando se entrenan con diversas demostraciones humanas. El sistema de hardware y software de UMI es de código abierto y está disponible en https://umi-gripper.github.io.
La diversidad de contextos en los que se despliegan los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) requiere la capacidad de modificar o personalizar los comportamientos predeterminados del modelo para incorporar requisitos y preferencias matizados. Una interfaz conveniente para especificar tales ajustes del modelo es el feedback verbal de alto nivel, como "No uses emojis al redactar correos electrónicos para mi jefe". Sin embargo, aunque escribir feedback de alto nivel es mucho más simple que recopilar anotaciones para el aprendizaje por refuerzo a partir de feedback humano (RLHF, por sus siglas en inglés), encontramos que simplemente proporcionar dicho feedback al modelo conduce a una sobregeneralización del mismo en contextos donde no es relevante. Estudiamos el problema de incorporar feedback verbal sin dicha sobregeneralización, lo que inspira un nuevo método llamado Críticas Contextualizadas con Optimización de Preferencias Restringidas (C3PO, por sus siglas en inglés). C3PO utiliza una pieza de feedback de alto nivel para generar un pequeño conjunto de datos sintéticos de preferencias que especifica cómo debería (y no debería) aplicarse el feedback. Luego, ajusta el modelo de acuerdo con los datos sintéticos de preferencias mientras minimiza la divergencia del modelo original para prompts donde el feedback no aplica. Nuestros resultados experimentales indican que nuestro enfoque aplica efectivamente el feedback verbal a escenarios relevantes mientras preserva los comportamientos existentes para otros contextos. Tanto para el feedback de alto nivel generado por humanos como por GPT-4, C3PO adhiere efectivamente al feedback proporcionado de manera comparable a las líneas base en contexto, mientras reduce la sobregeneralización en un 30%.