Artículos de investigación en IA seleccionados diariamente con traducciones
En el marco tradicional de RAG, las unidades básicas de recuperación suelen ser cortas. Los recuperadores comunes como DPR normalmente trabajan con párrafos de Wikipedia de 100 palabras. Este diseño obliga al recuperador a buscar en un gran corpus para encontrar la unidad "aguja". En contraste, los lectores solo necesitan extraer respuestas de las unidades cortas recuperadas. Este diseño desequilibrado, con un recuperador "pesado" y un lector "ligero", puede llevar a un rendimiento subóptimo. Para aliviar este desequilibrio, proponemos un nuevo marco llamado LongRAG, que consta de un "recuperador largo" y un "lector largo". LongRAG procesa toda Wikipedia en unidades de 4K tokens, que es 30 veces más largo que antes. Al aumentar el tamaño de la unidad, reducimos significativamente el número total de unidades de 22M a 700K. Esto reduce considerablemente la carga del recuperador, lo que resulta en una puntuación de recuperación notable: recall@1 de respuestas = 71% en NQ (anteriormente 52%) y recall@2 de respuestas = 72% (anteriormente 47%) en HotpotQA (full-wiki). Luego, alimentamos las unidades recuperadas top-k (aproximadamente 30K tokens) a un LLM de contexto largo existente para realizar la extracción de respuestas en modo zero-shot. Sin requerir ningún entrenamiento, LongRAG logra un EM de 62.7% en NQ, que es el mejor resultado conocido. LongRAG también alcanza un 64.3% en HotpotQA (full-wiki), que está a la par del modelo SoTA. Nuestro estudio ofrece ideas sobre la hoja de ruta futura para combinar RAG con LLMs de contexto largo.
Ofreciendo una solución prometedora a los desafíos de escalabilidad asociados con la evaluación humana, el paradigma de "LLM como juez" está ganando rápidamente tracción como un enfoque para evaluar modelos de lenguaje grandes (LLMs). Sin embargo, aún existen muchas preguntas abiertas sobre las fortalezas y debilidades de este paradigma, y qué posibles sesgos puede presentar. En este artículo, presentamos un estudio exhaustivo del rendimiento de varios LLMs actuando como jueces. Utilizamos TriviaQA como punto de referencia para evaluar el razonamiento de conocimiento objetivo de los LLMs y los comparamos con anotaciones humanas que mostraron un alto acuerdo entre anotadores. Nuestro estudio incluye 9 modelos jueces y 9 modelos examinados, tanto básicos como ajustados por instrucciones. Evaluamos la alineación del modelo juez en diferentes tamaños de modelos, familias y prompts de juez. Entre otros resultados, nuestra investigación redescubre la importancia de utilizar el kappa de Cohen como métrica de alineación en lugar del simple porcentaje de acuerdo, mostrando que jueces con un alto porcentaje de acuerdo pueden asignar puntuaciones muy diferentes. Encontramos que tanto Llama-3 70B como GPT-4 Turbo tienen una excelente alineación con los humanos, pero en términos de clasificación de modelos examinados, son superados tanto por JudgeLM-7B como por el juez léxico Contains, que tienen hasta 34 puntos menos de alineación humana. A través del análisis de errores y varios otros estudios, incluidos los efectos de la longitud de las instrucciones y el sesgo de indulgencia, esperamos proporcionar lecciones valiosas para el uso futuro de LLMs como jueces.
Los creadores de contenido en video necesitan herramientas eficientes para reutilizar material, una tarea que a menudo requiere búsquedas manuales o automatizadas complejas. Crear un nuevo video a partir de grandes bibliotecas de contenido sigue siendo un desafío. En este artículo presentamos la tarea de Video Library Question Answering (VLQA) mediante una arquitectura interoperable que aplica Generación Aumentada por Recuperación (RAG) a bibliotecas de video. Proponemos un sistema que utiliza modelos de lenguaje de gran escala (LLMs) para generar consultas de búsqueda, recuperando momentos relevantes de video indexados por metadatos de habla y visuales. Un módulo de generación de respuestas integra las consultas del usuario con estos metadatos para producir respuestas con marcas de tiempo específicas en los videos. Este enfoque muestra potencial en la recuperación de contenido multimedia y en la creación asistida por IA de contenido en video.
Aunque los Transformers se utilizan ampliamente para tareas de Procesamiento del Lenguaje Natural, especialmente en traducción automática, carecen de una memoria explícita para almacenar conceptos clave de los textos procesados. Este artículo explora las propiedades del contenido de la memoria de trabajo simbólica añadida al decodificador del modelo Transformer. Dicha memoria de trabajo mejora la calidad de las predicciones del modelo en tareas de traducción automática y funciona como una representación neuro-simbólica de la información que es importante para que el modelo realice traducciones correctas. El estudio del contenido de la memoria reveló que las palabras clave del texto traducido se almacenan en la memoria de trabajo, lo que señala la relevancia del contenido de la memoria respecto al texto procesado. Además, la diversidad de tokens y partes del discurso almacenados en la memoria se correlaciona con la complejidad de los corpus utilizados en la tarea de traducción automática.
Los últimos años han sido testigos de grandes avances en la generación de videos. Sin embargo, el desarrollo de métricas automáticas para videos está significativamente rezagado. Ninguna de las métricas existentes es capaz de proporcionar puntuaciones confiables sobre videos generados. La principal barrera es la falta de un conjunto de datos a gran escala anotado por humanos. En este artículo, presentamos VideoFeedback, el primer conjunto de datos a gran escala que contiene puntuaciones multi-aspecto proporcionadas por humanos sobre 37.6K videos sintetizados a partir de 11 modelos generativos de video existentes. Entrenamos MantisScore (inicializado a partir de Mantis) basado en VideoFeedback para permitir la evaluación automática de la calidad de los videos. Los experimentos muestran que la correlación de Spearman entre MantisScore y los humanos puede alcanzar 77.1 en VideoFeedback-test, superando a las mejores métricas anteriores en aproximadamente 50 puntos. Resultados adicionales en EvalCrafter, GenAI-Bench y VBench, conjuntos de datos retenidos, muestran que MantisScore tiene consistentemente una correlación mucho mayor con los juicios humanos que otras métricas. Debido a estos resultados, creemos que MantisScore puede servir como un excelente sustituto de los evaluadores humanos para (1) calificar diferentes modelos de video para seguir el progreso y (2) simular retroalimentación humana detallada en Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) para mejorar los modelos actuales de generación de videos.
Los desafíos en la evaluación automatizada de sistemas de Generación Aumentada por Recuperación (RAG) para Preguntas y Respuestas (QA) incluyen problemas de alucinación en conocimientos específicos de dominio y la falta de benchmarks de referencia estándar para tareas internas de empresas. Esto resulta en dificultades para evaluar variantes de RAG, como RAG-Fusion (RAGF), en el contexto de una tarea de QA de producto en Infineon Technologies. Para resolver estos problemas, proponemos un marco de evaluación integral que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs) para generar grandes conjuntos de datos de consultas sintéticas basadas en consultas reales de usuarios y documentos del dominio, utiliza LLM-como-juez para calificar documentos recuperados y respuestas, evalúa la calidad de las respuestas y clasifica diferentes variantes de agentes de Generación Aumentada por Recuperación (RAG) mediante la competencia automatizada basada en Elo de RAGElo. La calificación de LLM-como-juez de una muestra aleatoria de consultas sintéticas muestra una correlación positiva moderada con la puntuación de expertos del dominio en relevancia, precisión, completitud y exactitud. Si bien RAGF superó a RAG en puntuación Elo, un análisis de significancia frente a anotaciones de expertos también muestra que RAGF supera significativamente a RAG en completitud, pero tiene un rendimiento inferior en precisión. Además, el asistente RAGF de Infineon demostró un rendimiento ligeramente superior en relevancia de documentos según las puntuaciones MRR@5. Encontramos que RAGElo se alinea positivamente con las preferencias de los anotadores humanos, aunque aún se requiere precaución. Finalmente, el enfoque de RAGF conduce a respuestas más completas según las anotaciones de expertos y mejores respuestas en general según los criterios de evaluación de RAGElo.
Los modelos de texto a imagen están ganando cada vez más popularidad, revolucionando el panorama de la creación de arte digital al permitir la generación de contenido visual altamente detallado y creativo. Estos modelos se han empleado ampliamente en diversos dominios, particularmente en la generación de arte, donde facilitan un amplio espectro de expresión creativa y democratizan el acceso a la creación artística. En este artículo, presentamos STYLEBREEDER, un conjunto de datos integral de 6.8 millones de imágenes y 1.8 millones de prompts generados por 95,000 usuarios en Artbreeder, una plataforma que se ha convertido en un importante centro de exploración creativa con más de 13 millones de usuarios. Introducimos una serie de tareas con este conjunto de datos destinadas a identificar diversos estilos artísticos, generar contenido personalizado y recomendar estilos basados en los intereses del usuario. Al documentar estilos únicos generados por usuarios que trascienden categorías convencionales como 'cyberpunk' o 'Picasso', exploramos el potencial de estilos únicos creados de manera colaborativa que podrían ofrecer profundas perspectivas sobre la psique creativa colectiva de los usuarios en todo el mundo. También evaluamos diferentes métodos de personalización para mejorar la expresión artística e introducimos un atlas de estilos, poniendo estos modelos disponibles en formato LoRA para uso público. Nuestra investigación demuestra el potencial de los modelos de difusión de texto a imagen para descubrir y promover expresiones artísticas únicas, democratizando aún más la IA en el arte y fomentando una comunidad artística más diversa e inclusiva. El conjunto de datos, el código y los modelos están disponibles en https://stylebreeder.github.io bajo una licencia de Dominio Público (CC0).
La visión basada en eventos ha captado una atención creciente debido a sus características únicas, como su alta resolución temporal y amplio rango dinámico. Recientemente, se ha utilizado en la super-resolución de video (VSR) para mejorar la estimación de flujo y la alineación temporal. En lugar de enfocarse en el aprendizaje de movimiento, en este artículo proponemos el primer método de VSR que utiliza señales de eventos para la mejora de texturas. Nuestro método, llamado EvTexture, aprovecha los detalles de alta frecuencia de los eventos para recuperar mejor las regiones de textura en VSR. En EvTexture, presentamos una nueva rama de mejora de texturas. Además, introducimos un módulo iterativo de mejora de texturas para explorar progresivamente la información de eventos de alta resolución temporal en la restauración de texturas. Esto permite un refinamiento gradual de las regiones de textura a través de múltiples iteraciones, lo que resulta en detalles de alta resolución más precisos y ricos. Los resultados experimentales muestran que nuestro EvTexture alcanza un rendimiento de vanguardia en cuatro conjuntos de datos. Para el conjunto de datos Vid4, que contiene texturas ricas, nuestro método puede obtener una mejora de hasta 4.67 dB en comparación con métodos recientes basados en eventos. Código: https://github.com/DachunKai/EvTexture.
La amplia aplicabilidad y la creciente omnipresencia de los LLM (Modelos de Lenguaje de Gran Escala) han impulsado la necesidad de alinear las respuestas de estos modelos con las preferencias de los usuarios y las partes interesadas. Se han propuesto muchos enfoques de optimización de preferencias que ajustan los parámetros de los LLM para lograr una buena alineación. Sin embargo, se sabe que dicho ajuste de parámetros interfiere con el rendimiento del modelo en muchas tareas. Además, mantenerse al día con las preferencias cambiantes de los usuarios es complicado en tales situaciones. La alineación en tiempo de decodificación con guía de un modelo de recompensa resuelve estos problemas a costa de un mayor tiempo de inferencia. No obstante, la mayoría de estos métodos no logran encontrar el equilibrio adecuado entre la exploración y la explotación de la recompensa, a menudo debido a la formulación confusa de estos dos aspectos, para proporcionar respuestas bien alineadas. Para remediar esto, desacoplamos estos dos aspectos y los implementamos de manera evolutiva: la exploración se fomenta decodificando a partir de instrucciones mutadas, y la explotación se representa como el reemplazo periódico de generaciones poco recompensadas con otras bien recompensadas. Evidencias empíricas indican que esta estrategia supera a muchos enfoques de optimización de preferencias y alineación en tiempo de decodificación en dos puntos de referencia de alineación ampliamente aceptados: AlpacaEval 2 y MT-Bench. Nuestra implementación estará disponible en: https://darwin-alignment.github.io.
La adopción generalizada de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha generado preocupaciones sobre su seguridad y fiabilidad, particularmente en relación con su vulnerabilidad a ataques adversarios. En este artículo, proponemos una perspectiva novedosa que atribuye esta vulnerabilidad a una especificación incorrecta de la recompensa durante el proceso de alineación. Introducimos una métrica llamada ReGap para cuantificar el grado de especificación incorrecta de la recompensa y demostramos su efectividad y robustez en la detección de indicaciones (prompts) maliciosas con puertas traseras. Basándonos en estas ideas, presentamos ReMiss, un sistema de pruebas de penetración automatizado que genera indicaciones adversarias contra diversos LLMs alineados con objetivos específicos. ReMiss logra tasas de éxito en ataques de vanguardia en el benchmark AdvBench, manteniendo al mismo tiempo la legibilidad humana de las indicaciones generadas. Un análisis detallado resalta las ventajas únicas que ofrece el objetivo de especificación incorrecta de la recompensa propuesto en comparación con métodos anteriores.
Si bien la situación ha mejorado para los modelos de solo texto, actualmente parece ser nuevamente el caso que los modelos multimodales (texto e imagen) se desarrollan más rápido que las formas de evaluarlos. En este artículo, trasladamos un paradigma de evaluación recientemente desarrollado para modelos de texto a modelos multimodales, específicamente la evaluación a través del juego orientado a objetivos (autojuego), complementando la evaluación basada en referencias y en preferencias. En concreto, definimos juegos que desafían la capacidad de un modelo para representar una situación a partir de información visual y alinear dichas representaciones mediante el diálogo. Encontramos que los modelos cerrados más grandes tienen un desempeño bastante bueno en los juegos que definimos, mientras que incluso los mejores modelos de pesos abiertos tienen dificultades con ellos. Tras un análisis más profundo, descubrimos que las excepcionales capacidades de descripción profunda de los modelos más grandes impulsan parte de su rendimiento. Aún hay margen de mejora para ambos tipos de modelos, lo que asegura la relevancia continua del punto de referencia.
Los modelos de lenguaje han demostrado capacidades impresionantes en diversas tareas de procesamiento del lenguaje natural, pero enfrentan dificultades en tareas de planificación que requieren simulaciones de múltiples pasos. Inspirados por los procesos cognitivos humanos, este artículo investiga el poder de planificación óptima de los modelos de lenguaje que pueden construir un mapa cognitivo de un entorno dado. Nuestros experimentos demuestran que el mapa cognitivo mejora significativamente el rendimiento tanto en la generación de planificación óptima como alcanzable en la tarea de planificación de rutas en Gridworld. Observamos que nuestro método exhibe dos características clave similares a la cognición humana: la generalización de su capacidad de planificación a entornos extrapolados y la rápida adaptación con datos de entrenamiento limitados. Esperamos que nuestros hallazgos en la tarea de Gridworld proporcionen insights para modelar procesos cognitivos humanos en modelos de lenguaje, lo que podría conducir al desarrollo de sistemas más avanzados y robustos que se asemejen mejor a la cognición humana.
El florecimiento de las tecnologías de realidad virtual y realidad aumentada (VR/AR) ha impulsado una creciente demanda para la creación de entornos inmersivos, dinámicos y de alta calidad. Sin embargo, las técnicas generativas existentes se centran únicamente en objetos dinámicos o realizan extrapolaciones a partir de una única imagen en perspectiva, lo que no satisface las necesidades de las aplicaciones de VR/AR. En este trabajo, abordamos la desafiante tarea de elevar una única panorámica a una experiencia inmersiva en 4D. Por primera vez, demostramos la capacidad de generar escenas dinámicas omnidireccionales con vistas de 360 grados en resolución 4K, proporcionando así una experiencia de usuario inmersiva. Nuestro método introduce una canalización que facilita animaciones naturales de escenas y optimiza un conjunto de Gaussianas 4D utilizando técnicas eficientes de splatting para una exploración en tiempo real. Para superar la falta de datos y modelos anotados en 4D a escala de escena, especialmente en formatos panorámicos, proponemos un nuevo Desenredador Panorámico que adapta conocimientos previos de difusión 2D genéricos para animar de manera consistente en imágenes de 360 grados, transformándolas en videos panorámicos con escenas dinámicas en regiones específicas. Posteriormente, elevamos el video panorámico a un entorno inmersivo en 4D mientras preservamos la consistencia espacial y temporal. Al transferir conocimientos previos de modelos 2D en el dominio de perspectiva al dominio panorámico y realizar la elevación a 4D con regularización de apariencia y geometría espacial, logramos por primera vez una generación de alta calidad de Panorámica-a-4D en una resolución de (4096 x 2048). Visite el sitio web del proyecto en https://4k4dgen.github.io.
La opacidad en el desarrollo de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) está generando una creciente preocupación sobre la posible contaminación de los benchmarks públicos en los datos de preentrenamiento. Los métodos existentes para detectar contaminación suelen basarse en la superposición de texto entre los datos de entrenamiento y evaluación, lo cual puede ser demasiado superficial para reflejar formas más profundas de contaminación. En este artículo, primero presentamos una forma de contaminación multilingüe que infla el rendimiento de los LLMs mientras evade los métodos de detección actuales, inyectada deliberadamente al sobreajustar los LLMs en versiones traducidas de los conjuntos de prueba de benchmarks. Luego, proponemos enfoques basados en generalización para desenmascarar dicha contaminación profundamente oculta. Específicamente, examinamos el cambio en el rendimiento del LLM después de modificar el benchmark original reemplazando las opciones de respuesta incorrectas con respuestas correctas de otras preguntas. Los modelos contaminados difícilmente pueden generalizar a situaciones más sencillas, donde las opciones incorrectas pueden ni siquiera estar equivocadas, ya que todas las opciones son correctas en su memorización. Los resultados experimentales demuestran que la contaminación multilingüe puede engañar fácilmente a los métodos de detección existentes, pero no al nuestro. Además, discutimos el uso potencial de la contaminación multilingüe para interpretar los mecanismos de funcionamiento de los LLMs y para mejorar las capacidades multilingües de los LLMs después del entrenamiento. El código y el conjunto de datos que utilizamos pueden obtenerse en https://github.com/ShangDataLab/Deep-Contam.
Con la proliferación de modelos específicos de dominio, la fusión de modelos ha surgido como un conjunto de técnicas que combinan las capacidades de múltiples modelos en uno que puede realizar múltiples tareas sin el costo de entrenamiento adicional. En este artículo, proponemos una nueva técnica de fusión de modelos, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), que emplea una novedosa técnica de poda, MAGPRUNE, que muestra ventajas significativas sobre DARE y TIES. MAGPRUNE primero clasifica los parámetros en orden de su magnitud y asigna probabilidades de descarte (p) más altas a los parámetros con rangos más bajos, correspondientes a magnitudes menores. Para aproximar las incrustaciones originales, MAGPRUNE emplea una operación de reescalado en los parámetros que sobreviven al descarte aleatorio por 1/(1 - p). En tres modelos expertos considerados para la fusión (LM, Math, Code) y los conjuntos de datos de referencia correspondientes (AlpacaEval, GSM8K, MBPP), DELLA muestra una mejora promedio de 2.4 puntos sobre los métodos base que emplean la poda de parámetros delta (una mejora de 3.6 puntos sobre TIES, 1.2 puntos sobre DARE), y 11.1 puntos sobre la línea base sin poda (TA). Publicamos el código fuente en: https://github.com/declare-lab/della.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) representa un avance significativo en la inteligencia artificial al combinar una fase de recuperación con una fase generativa, donde esta última suele estar impulsada por modelos de lenguaje de gran escala (LLMs). Las prácticas comunes actuales en RAG implican el uso de LLMs "instruidos", que se ajustan mediante entrenamiento supervisado para mejorar su capacidad de seguir instrucciones y se alinean con las preferencias humanas utilizando técnicas de vanguardia. Contrario a la creencia popular, nuestro estudio demuestra que los modelos base superan a sus contrapartes instruidas en tareas de RAG en un 20% en promedio bajo nuestras configuraciones experimentales. Este hallazgo desafía las suposiciones predominantes sobre la superioridad de los LLMs instruidos en aplicaciones de RAG. Investigaciones adicionales revelan una situación más matizada, cuestionando aspectos fundamentales de RAG y sugiriendo la necesidad de discusiones más amplias sobre el tema; o, como diría Fromm, "Rara vez basta una mirada a las estadísticas para comprender el significado de las cifras".
Predecir la eficacia y seguridad de los fármacos in vivo requiere información sobre las respuestas biológicas (por ejemplo, morfología celular y expresión génica) a perturbaciones de pequeñas moléculas. Sin embargo, los métodos actuales de aprendizaje de representaciones moleculares no proporcionan una visión integral de los estados celulares bajo estas perturbaciones y tienen dificultades para eliminar el ruido, lo que obstaculiza la generalización del modelo. Introducimos el enfoque de Alineación de Información (InfoAlign) para aprender representaciones moleculares a través del método del cuello de botella de información en células. Integramos moléculas y datos de respuesta celular como nodos en un grafo de contexto, conectándolos con aristas ponderadas basadas en criterios químicos, biológicos y computacionales. Para cada molécula en un lote de entrenamiento, InfoAlign optimiza la representación latente del codificador con un objetivo de minimalidad para descartar información estructural redundante. Un objetivo de suficiencia decodifica la representación para alinearla con diferentes espacios de características del vecindario de la molécula en el grafo de contexto. Demostramos que el objetivo de suficiencia propuesto para la alineación es más estricto que los métodos contrastivos basados en codificadores existentes. Empíricamente, validamos las representaciones de InfoAlign en dos tareas posteriores: predicción de propiedades moleculares frente a hasta 19 métodos de referencia en cuatro conjuntos de datos, además de la coincidencia molécula-morfología en modo zero-shot.
Proponemos Ruby Teaming, un método que mejora Rainbow Teaming al incorporar una caché de memoria como su tercera dimensión. La dimensión de memoria proporciona pistas al mutador para generar indicaciones de mayor calidad, tanto en términos de tasa de éxito de ataque (ASR, por sus siglas en inglés) como de diversidad de calidad. El archivo de indicaciones generado por Ruby Teaming tiene un ASR del 74%, lo que representa un 20% más que el valor de referencia. En cuanto a la diversidad de calidad, Ruby Teaming supera a Rainbow Teaming en un 6% y un 3% en el Índice de Equidad de Shannon (SEI) y el Índice de Diversidad de Simpson (SDI), respectivamente.
Evaluar políticas de conducción basadas en visión es un desafío. Por un lado, la evaluación en bucle abierto con datos reales es sencilla, pero estos resultados no reflejan el rendimiento en bucle cerrado. Por otro lado, la evaluación en bucle cerrado es posible en simulación, pero es difícil de escalar debido a sus significativas demandas computacionales. Además, los simuladores disponibles actualmente presentan una gran brecha de dominio con respecto a los datos reales. Esto ha resultado en la incapacidad de sacar conclusiones claras del creciente cuerpo de investigación sobre conducción autónoma de extremo a extremo. En este artículo, presentamos NAVSIM, un punto intermedio entre estos paradigmas de evaluación, donde utilizamos grandes conjuntos de datos en combinación con un simulador no reactivo para permitir la evaluación a gran escala en el mundo real. Específicamente, recopilamos métricas basadas en simulación, como el progreso y el tiempo hasta la colisión, desplegando abstracciones de vista aérea de las escenas de prueba para un horizonte de simulación corto. Nuestra simulación es no reactiva, es decir, la política evaluada y el entorno no se influyen mutuamente. Como demostramos empíricamente, este desacoplamiento permite el cálculo de métricas en bucle abierto mientras se alinea mejor con las evaluaciones en bucle cerrado que los errores de desplazamiento tradicionales. NAVSIM permitió una nueva competencia celebrada en CVPR 2024, donde 143 equipos presentaron 463 entradas, lo que resultó en varios nuevos hallazgos. En un gran conjunto de escenarios desafiantes, observamos que métodos simples con requisitos computacionales moderados, como TransFuser, pueden igualar arquitecturas recientes de conducción de extremo a extremo a gran escala, como UniAD. Nuestro marco modular puede extenderse potencialmente con nuevos conjuntos de datos, estrategias de curación de datos y métricas, y se mantendrá continuamente para albergar futuros desafíos. Nuestro código está disponible en https://github.com/autonomousvision/navsim.
Los modelos generativos de lenguaje y visión-lenguaje a gran escala (LLMs y VLMs) sobresalen en el aprendizaje en contexto con pocos ejemplos para la toma de decisiones y el seguimiento de instrucciones. Sin embargo, requieren demostraciones de alta calidad que se incluyan en su ventana de contexto. En este trabajo, nos preguntamos: ¿Pueden los LLMs y VLMs generar sus propios ejemplos de prompts a partir de demostraciones genéricas y subóptimas? Proponemos el Aprendizaje de Abstracción en Contexto (ICAL, por sus siglas en inglés), un método que construye una memoria de insights de experiencia multimodal a partir de demostraciones subóptimas y retroalimentación humana. Dada una demostración ruidosa en un nuevo dominio, los VLMs abstraen la trayectoria en un programa general corrigiendo acciones ineficientes y anotando abstracciones cognitivas: relaciones de tareas, cambios de estado de objetos, subobjetivos temporales y construcciones de tareas. Estas abstracciones se refinan y adaptan de manera interactiva mediante retroalimentación humana mientras el agente intenta ejecutar la trayectoria en un entorno similar. Las abstracciones resultantes, cuando se utilizan como ejemplos en el prompt, mejoran significativamente la toma de decisiones en agentes LLM y VLM aumentados con recuperación. Nuestro agente ICAL supera el estado del arte en el seguimiento de instrucciones basado en diálogo en TEACh, agentes web multimodales en VisualWebArena y anticipación de acciones en Ego4D. En TEACh, logramos una mejora del 12.6% en el éxito condicionado al objetivo. En VisualWebArena, nuestra tasa de éxito en tareas mejora sobre el estado del arte, pasando del 14.3% al 22.7%. En la previsión de acciones de Ego4D, mejoramos sobre GPT-4V con pocos ejemplos y mantenemos la competitividad con modelos supervisados. Mostramos que el ajuste fino de nuestro agente en contexto aumentado con recuperación produce mejoras adicionales. Nuestro enfoque reduce significativamente la dependencia de ejemplos elaborados por expertos y supera consistentemente el aprendizaje en contexto a partir de planes de acción que carecen de tales insights.
Proponemos una pipeline simple pero efectiva para estilizar una escena 3D, aprovechando el poder de los modelos de difusión de imágenes 2D. Dado un modelo NeRF reconstruido a partir de un conjunto de imágenes multivista, realizamos la transferencia de estilo 3D refinando el modelo NeRF original utilizando imágenes estilizadas generadas por un modelo de difusión imagen-a-imagen alineado con el estilo. Dado un prompt de estilo objetivo, primero generamos imágenes multivista perceptualmente similares utilizando un modelo de difusión condicionado por profundidad con un mecanismo de compartición de atención. Luego, basándonos en las imágenes multivista estilizadas, proponemos guiar el proceso de transferencia de estilo con la pérdida de Wasserstein segmentada basada en los mapas de características extraídos de un modelo CNN preentrenado. Nuestra pipeline consta de pasos desacoplados, permitiendo a los usuarios probar diversas ideas de prompts y previsualizar el resultado 3D estilizado antes de proceder a la etapa de ajuste fino del NeRF. Demostramos que nuestro método puede transferir diversos estilos artísticos a escenas 3D del mundo real con una calidad competitiva.
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) ajustados para la recuperación de texto han demostrado resultados de vanguardia en varios puntos de referencia de recuperación de información (IR, por sus siglas en inglés). Sin embargo, el entrenamiento supervisado para mejorar estos modelos requiere numerosos ejemplos etiquetados, que generalmente no están disponibles o son costosos de adquirir. En este trabajo, exploramos la efectividad de extender la adaptación de ingeniería inversa al contexto de la recuperación de información (RE-AdaptIR, por sus siglas en inglés). Utilizamos RE-AdaptIR para mejorar los modelos de IR basados en LLMs utilizando únicamente datos no etiquetados. Demostramos un mejor rendimiento tanto en los dominios de entrenamiento como en dominios donde los modelos no han visto consultas (zero-shot). Analizamos los cambios de rendimiento en varios escenarios de ajuste fino y ofrecemos hallazgos de utilidad inmediata para los profesionales.
Los Modelos Fundacionales Multimodales (MMFMs, por sus siglas en inglés) han demostrado un rendimiento notable en diversas tareas de visión por computadora y procesamiento del lenguaje natural. Sin embargo, su desempeño en tareas específicas, como la comprensión de documentos, sigue siendo limitado. Además, requieren más recursos computacionales, tiempo y esfuerzo de ingeniería para ajustar y desplegar en comparación con los modelos unimodales tradicionales. En este informe, presentamos la Generación Estructurada Multimodal, un marco general que restringe los logits de salida de los MMFMs congelados para obligarlos a razonar antes de responder con salidas estructuradas que las APIs posteriores puedan analizar y utilizar. Ofrecemos una descripción detallada de nuestro enfoque, incluyendo los detalles técnicos, discusiones teóricas y los resultados finales de evaluación en el 2º Desafío de Modelos Fundacionales Multimodales organizado por la conferencia de Visión por Computadora y Reconocimiento de Patrones (CVPR). Nuestro enfoque obtuvo el segundo puntaje más alto en el conjunto de pruebas ocultas para la Fase 2 y el tercer puntaje más alto en general. Esto demuestra la capacidad del método para generalizar en tareas no vistas. Además, confirma que la ingeniería simple puede superar pasos de modelado costosos y complicados, como discutimos inicialmente en nuestro artículo, Generación Estructurada Aumentada por Recuperación: Extracción de Información de Documentos Comerciales como Uso de Herramientas. Todos nuestros scripts, pasos de despliegue y resultados de evaluación están disponibles en https://github.com/leloykun/MMFM-Challenge.
Los modelos existentes de detección de contenido tóxico enfrentan limitaciones significativas, como la falta de transparencia, personalización y reproducibilidad. Estos desafíos surgen de la naturaleza cerrada de sus datos de entrenamiento y la escasez de explicaciones sobre su mecanismo de evaluación. Para abordar estos problemas, proponemos un mecanismo de creación de conjuntos de datos que integra procesos de votación y cadena de pensamiento, produciendo un conjunto de datos de código abierto de alta calidad para la detección de contenido tóxico. Nuestra metodología garantiza métricas de clasificación diversas para cada muestra e incluye tanto puntuaciones de clasificación como razonamientos explicativos para las clasificaciones. Utilizamos el conjunto de datos creado a través de nuestro mecanismo propuesto para entrenar nuestro modelo, el cual luego se compara con detectores ampliamente utilizados existentes. Nuestro enfoque no solo mejora la transparencia y la personalización, sino que también facilita un mejor ajuste fino para casos de uso específicos. Este trabajo contribuye con un marco robusto para el desarrollo de modelos de detección de contenido tóxico, enfatizando la apertura y la adaptabilidad, allanando así el camino para soluciones de moderación de contenido más efectivas y específicas para el usuario.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) intentan imitar el comportamiento humano respondiendo a las personas de una manera que les resulte agradable, incluyendo la adherencia a sus valores. Sin embargo, los humanos provienen de diversas culturas con valores diferentes. Es crucial comprender si los LLMs muestran valores distintos al usuario basándose en los valores estereotípicos del país conocido del usuario. Solicitamos a diferentes LLMs una serie de solicitudes de consejos basadas en las 5 Dimensiones Culturales de Hofstede, una forma cuantificable de representar los valores de un país. En cada solicitud, incorporamos personajes que representan 36 países diferentes y, por separado, los idiomas predominantemente asociados a cada país, para analizar la consistencia en la comprensión cultural de los LLMs. A través de nuestro análisis de las respuestas, descubrimos que los LLMs pueden diferenciar entre un extremo de un valor y otro, así como entender que los países tienen valores distintos, pero no siempre mantienen estos valores al dar consejos, y no comprenden la necesidad de responder de manera diferente según los distintos valores culturales. Basándonos en estos hallazgos, presentamos recomendaciones para entrenar LLMs alineados con valores y sensibles culturalmente. Más importante aún, la metodología y el marco desarrollados aquí pueden ayudar a comprender y mitigar los problemas de alineación cultural y lingüística con los LLMs.
Presentamos un nuevo enfoque basado en el algoritmo de Aprendizaje Federado Personalizado MeritFed, que puede aplicarse a tareas de Procesamiento de Lenguaje Natural con datos heterogéneos. Lo evaluamos en la tarea de Traducción Automática de Bajos Recursos, utilizando el conjunto de datos de la Tarea Compartida de Traducción Automática Multilingüe a Gran Escala (Small Track #2) y el subconjunto de lenguas sami del benchmark multilingüe para lenguas fino-ugrias. Además de su eficacia, MeritFed también es altamente interpretable, ya que puede aplicarse para rastrear el impacto de cada idioma utilizado en el entrenamiento. Nuestro análisis revela que el tamaño del conjunto de datos objetivo afecta la distribución de pesos entre los idiomas auxiliares, que los idiomas no relacionados no interfieren con el entrenamiento, y que los parámetros auxiliares del optimizador tienen un impacto mínimo. Nuestro enfoque es fácil de aplicar con unas pocas líneas de código, y proporcionamos scripts para reproducir los experimentos en https://github.com/VityaVitalich/MeritFed.