Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han abierto nuevas vías para aplicaciones en IA Encarnada. Basándonos en trabajos previos como EgoThink, presentamos VidEgoThink, un completo banco de pruebas para evaluar las capacidades de comprensión de video egocéntrico. Con el objetivo de cerrar la brecha entre MLLMs y el control de bajo nivel en IA Encarnada, diseñamos cuatro tareas clave interrelacionadas: respuesta a preguntas de video, planificación jerárquica, fundamentos visuales y modelado de recompensas. Para minimizar los costos de anotación manual, desarrollamos un proceso automático de generación de datos basado en el conjunto de datos Ego4D, aprovechando el conocimiento previo y las capacidades multimodales de GPT-4o. Luego, tres anotadores humanos filtran los datos generados para garantizar diversidad y calidad, lo que resulta en el banco de pruebas VidEgoThink. Realizamos experimentos exhaustivos con tres tipos de modelos: MLLMs basados en API, MLLMs basados en imágenes de código abierto y MLLMs basados en videos de código abierto. Los resultados experimentales indican que todos los MLLMs, incluido GPT-4o, tienen un rendimiento deficiente en todas las tareas relacionadas con la comprensión de video egocéntrico. Estos hallazgos sugieren que los modelos base aún requieren avances significativos para aplicarse de manera efectiva a escenarios en primera persona en IA Encarnada. En conclusión, VidEgoThink refleja una tendencia de investigación hacia el uso de MLLMs para visión egocéntrica, similar a las capacidades humanas, lo que permite la observación activa y la interacción en entornos del mundo real complejos.
Las tareas de codificación han sido valiosas para evaluar los Modelos de Lenguaje Grandes (LLMs), ya que exigen la comprensión de instrucciones de alto nivel, razonamiento complejo y la implementación de programas funcionales, capacidades fundamentales para avanzar en la Inteligencia Artificial General. A pesar del progreso en los Modelos Multimodales Grandes (LMMs), que extienden los LLMs con capacidades de percepción y comprensión visual, sigue existiendo una notable falta de referencias de codificación que evalúen rigurosamente estos modelos, especialmente en tareas que enfatizan el razonamiento visual. Para abordar esta brecha, presentamos HumanEval-V, un nuevo y ligero referente diseñado específicamente para evaluar las capacidades de comprensión y razonamiento visual de los LMMs a través de la generación de código. HumanEval-V incluye 108 tareas de codificación en Python de nivel básico cuidadosamente elaboradas, derivadas de plataformas como CodeForces y Stack Overflow. Cada tarea se adapta modificando el contexto y los patrones algorítmicos de los problemas originales, con elementos visuales redibujados para garantizar la distinción de la fuente, evitando posibles fugas de datos. Se requiere que los LMMs completen la solución de código basándose en el contexto visual proporcionado y una firma de función predefinida en Python que describe los requisitos de la tarea. Cada tarea está equipada con casos de prueba meticulosamente elaborados para garantizar una evaluación exhaustiva y confiable de las soluciones generadas por el modelo. Evaluamos 19 LMMs de última generación utilizando HumanEval-V, revelando desafíos significativos. Modelos propietarios como GPT-4o solo logran un 13% de aprobación@1 y un 36.4% de aprobación@10, mientras que los modelos de peso abierto con 70 mil millones de parámetros obtienen menos del 4% de aprobación@1. Estudios de ablación revelan además las limitaciones de los LMMs actuales en razonamiento visual y capacidades de codificación. Estos resultados subrayan áreas clave para futuras investigaciones con el fin de mejorar las capacidades de los LMMs. Hemos compartido nuestro código y referente en https://github.com/HumanEval-V/HumanEval-V-Benchmark.
El Análisis del Diseño de Documentos es crucial para los sistemas de comprensión de documentos del mundo real, pero se enfrenta a un desafiante equilibrio entre velocidad y precisión: los métodos multimodales que aprovechan tanto características de texto como visuales logran una mayor precisión pero sufren de una latencia significativa, mientras que los métodos unimodales que dependen únicamente de características visuales ofrecen velocidades de procesamiento más rápidas a expensas de la precisión. Para abordar este dilema, presentamos DocLayout-YOLO, un enfoque novedoso que mejora la precisión manteniendo ventajas de velocidad a través de optimizaciones específicas para documentos tanto en el pre-entrenamiento como en el diseño del modelo. Para un pre-entrenamiento robusto de documentos, presentamos el algoritmo Mesh-candidate BestFit, que enmarca la síntesis de documentos como un problema de empaquetado de contenedores bidimensional, generando el conjunto de datos DocSynth-300K a gran escala y diverso. El pre-entrenamiento en el conjunto de datos resultante DocSynth-300K mejora significativamente el rendimiento de ajuste fino en varios tipos de documentos. En cuanto a la optimización del modelo, proponemos un Módulo Receptivo Controlable de Global a Local capaz de manejar mejor las variaciones multiescala de los elementos del documento. Además, para validar el rendimiento en diferentes tipos de documentos, presentamos un banco de pruebas complejo y desafiante llamado DocStructBench. Experimentos extensos en conjuntos de datos secundarios demuestran que DocLayout-YOLO destaca tanto en velocidad como en precisión. El código, los datos y los modelos están disponibles en https://github.com/opendatalab/DocLayout-YOLO.
Los recientes avances en modelos grandes multimodales (LMMs) han mejorado significativamente el rendimiento en diversas tareas, con esfuerzos continuos para integrar modalidades adicionales como video y audio. Sin embargo, la mayoría de los LMMs existentes siguen siendo vulnerables a las alucinaciones, la discrepancia entre la entrada multimodal factual y la salida textual generada, lo que ha limitado su aplicabilidad en varios escenarios del mundo real. Este artículo presenta la primera investigación sistemática de alucinaciones en LMMs que involucra las tres modalidades más comunes: lenguaje, visual y audio. Nuestro estudio revela dos contribuyentes clave a las alucinaciones: la excesiva dependencia en priors unimodales y correlaciones espurias entre modalidades. Para abordar estos desafíos, introducimos el benchmark La Maldición de las Multi-Modalidades (CMM), que evalúa de manera integral las alucinaciones en LMMs, proporcionando un análisis detallado de sus problemas subyacentes. Nuestros hallazgos resaltan vulnerabilidades clave, incluyendo desequilibrios en la integración de modalidades y sesgos provenientes de los datos de entrenamiento, subrayando la necesidad de un aprendizaje cruzado equilibrado y estrategias mejoradas de mitigación de alucinaciones. Basándonos en nuestras observaciones y hallazgos, sugerimos posibles direcciones de investigación que podrían mejorar la confiabilidad de los LMMs.
La planificación autónoma ha sido una búsqueda constante desde los inicios de la inteligencia artificial. Basados en solucionadores de problemas curados, los primeros agentes de planificación podían ofrecer soluciones precisas para tareas específicas pero carecían de generalización. La aparición de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) y sus potentes capacidades de razonamiento ha reavivado el interés en la planificación autónoma al generar automáticamente soluciones razonables para tareas dadas. Sin embargo, investigaciones previas y nuestros experimentos muestran que los actuales agentes de lenguaje aún carecen de habilidades de planificación a nivel humano. Incluso el modelo de razonamiento de vanguardia, OpenAI o1, solo alcanza un 15.6% en uno de los complejos puntos de referencia de planificación del mundo real. Esto destaca una pregunta crítica: ¿Qué impide a los agentes de lenguaje alcanzar la planificación a nivel humano? Aunque estudios existentes han resaltado un bajo rendimiento en la planificación de agentes, los problemas subyacentes más profundos y los mecanismos y limitaciones de las estrategias propuestas para abordarlos siguen siendo insuficientemente comprendidos. En este trabajo, aplicamos el estudio de atribución de características e identificamos dos factores clave que obstaculizan la planificación de agentes: el papel limitado de las restricciones y la influencia decreciente de las preguntas. También encontramos que aunque las estrategias actuales ayudan a mitigar estos desafíos, no los resuelven completamente, lo que indica que los agentes aún tienen un largo camino por recorrer antes de alcanzar la inteligencia a nivel humano.
La fusión de modelos se ha convertido en una de las tecnologías clave para mejorar las capacidades y eficiencia de los Modelos de Lenguaje Grandes (LLMs). Sin embargo, nuestra comprensión de las ganancias de rendimiento esperadas y los principios al fusionar cualquier par de modelos sigue siendo limitada. En este trabajo, introducimos el parentesco de modelos, el grado de similitud o relación entre LLMs, análogo a la evolución biológica. Con un análisis empírico exhaustivo, encontramos que existe una cierta relación entre el parentesco de modelos y las ganancias de rendimiento después de la fusión de modelos, lo que puede ayudar a guiar nuestra selección de modelos candidatos. Inspirados por esto, proponemos una nueva estrategia de fusión de modelos: Fusión Codiciosa Top-k con Parentesco de Modelos, que puede ofrecer un mejor rendimiento en conjuntos de datos de referencia. Específicamente, descubrimos que el uso del parentesco de modelos como criterio puede ayudarnos a realizar continuamente la fusión de modelos, aliviando la degradación (óptimos locales) en la evolución del modelo, mientras que el parentesco de modelos puede servir como guía para escapar de estas trampas. El código está disponible en https://github.com/zjunlp/ModelKinship.
Los modelos de consistencia (CMs) son una potente clase de modelos generativos basados en difusión optimizados para un muestreo rápido. La mayoría de los CMs existentes se entrenan utilizando pasos de tiempo discretizados, lo que introduce hiperparámetros adicionales y es propenso a errores de discretización. Si bien las formulaciones en tiempo continuo pueden mitigar estos problemas, su éxito ha sido limitado por la inestabilidad en el entrenamiento. Para abordar esto, proponemos un marco teórico simplificado que unifica las parametrizaciones previas de modelos de difusión y CMs, identificando las causas fundamentales de la inestabilidad. Basándonos en este análisis, introducimos mejoras clave en la parametrización del proceso de difusión, la arquitectura de la red y los objetivos de entrenamiento. Estos cambios nos permiten entrenar CMs en tiempo continuo a una escala sin precedentes, alcanzando 1.5B de parámetros en ImageNet 512x512. Nuestro algoritmo de entrenamiento propuesto, utilizando solo dos pasos de muestreo, logra puntuaciones FID de 2.06 en CIFAR-10, 1.48 en ImageNet 64x64 y 1.88 en ImageNet 512x512, reduciendo la brecha en las puntuaciones FID con los mejores modelos de difusión existentes a menos del 10%.
A medida que los modelos de lenguaje grandes (LLMs) continúan evolucionando, resulta vital contar con métricas de evaluación eficientes para evaluar su capacidad de comprimir información y reducir la redundancia. Si bien métricas tradicionales como la Entropía de Matriz ofrecen información valiosa, son intensivas computacionalmente para modelos a gran escala debido a su complejidad temporal \( O(n^3) \) con la Descomposición de Valores Singulares (SVD). Para mitigar este problema, introducimos la Norma Nuclear de Matriz, que no solo sirve como una métrica para cuantificar la capacidad de compresión de datos de LLM, sino que también proporciona una aproximación convexa de la rango de matriz para capturar tanto la discriminabilidad predictiva como la diversidad. Al emplear la \( L_{1,2}-norma \) para aproximar aún más la norma nuclear, podemos evaluar eficazmente las capacidades de compresión de información del modelo. Este enfoque reduce la complejidad temporal a \( O(n^2) \) y elimina la necesidad de cálculos de SVD. En consecuencia, la Norma Nuclear de Matriz logra velocidades de 8 a 24 veces más rápidas que la Entropía de Matriz para el modelo CEREBRAS-GPT a medida que los tamaños aumentan de 111M a 6.7B. Esta brecha de rendimiento se hace más pronunciada con modelos más grandes, como se validó en pruebas con otros modelos como Pythia. Además, evaluaciones en benchmarks y respuestas de modelos confirman que nuestra propuesta de Norma Nuclear de Matriz es una herramienta confiable, escalable y eficiente para evaluar el rendimiento de LLMs, logrando un equilibrio entre precisión y eficiencia computacional. El código está disponible en https://github.com/MLGroupJLU/MatrixNuclearNorm.
El rápido avance de los modelos de difusión texto-a-imagen (T2I) ha permitido que generen resultados sin precedentes a partir de textos dados. Sin embargo, a medida que las entradas de texto se hacen más largas, los métodos de codificación existentes como CLIP enfrentan limitaciones, y alinear las imágenes generadas con textos largos se vuelve desafiante. Para abordar estos problemas, proponemos LongAlign, que incluye un método de codificación a nivel de segmento para procesar textos largos y un método de optimización de preferencias descompuestas para un entrenamiento efectivo de alineación. Para la codificación a nivel de segmento, los textos largos se dividen en múltiples segmentos y se procesan por separado. Este método supera los límites de longitud de entrada máxima de los modelos de codificación preentrenados. Para la optimización de preferencias, proporcionamos modelos de preferencias basados en CLIP descompuestos para ajustar finamente los modelos de difusión. Específicamente, para utilizar modelos de preferencias basados en CLIP para la alineación T2I, profundizamos en sus mecanismos de puntuación y encontramos que las puntuaciones de preferencia pueden descomponerse en dos componentes: una parte relevante para el texto que mide la alineación T2I y una parte irrelevante para el texto que evalúa otros aspectos visuales de preferencia humana. Además, encontramos que la parte irrelevante para el texto contribuye a un problema común de sobreajuste durante el ajuste fino. Para abordar esto, proponemos una estrategia de reponderación que asigna diferentes pesos a estos dos componentes, reduciendo así el sobreajuste y mejorando la alineación. Después de ajustar finamente 512 veces 512 Stable Diffusion (SD) v1.5 durante aproximadamente 20 horas utilizando nuestro método, el SD ajustado finamente supera a modelos de base más sólidos en la alineación T2I, como PixArt-alpha y Kandinsky v2.2. El código está disponible en https://github.com/luping-liu/LongAlign.
El paradigma actual para la alineación de seguridad de grandes modelos de lenguaje (LLMs) sigue un enfoque de talla única: el modelo se niega a interactuar con cualquier contenido considerado inseguro por el proveedor del modelo. Este enfoque carece de flexibilidad ante las variadas normas sociales en diferentes culturas y regiones. Además, los usuarios pueden tener diversas necesidades de seguridad, lo que hace que un modelo con estándares de seguridad estáticos sea demasiado restrictivo para ser útil, así como demasiado costoso de reajustar. Proponemos Alineación de Seguridad Controlable (CoSA), un marco diseñado para adaptar modelos a diversos requisitos de seguridad sin necesidad de volver a entrenarlos. En lugar de alinear un modelo fijo, alineamos modelos para seguir configuraciones de seguridad: descripciones en lenguaje natural de comportamientos de seguridad deseados, que se proporcionan como parte de la indicación del sistema. Para ajustar el comportamiento de seguridad del modelo, los usuarios autorizados solo necesitan modificar dichas configuraciones de seguridad en tiempo de inferencia. Para habilitar esto, proponemos CoSAlign, un método centrado en datos para alinear LLMs y adaptarlos fácilmente a diversas configuraciones de seguridad. Además, ideamos un protocolo de evaluación de controlabilidad novedoso que considera tanto la utilidad como la seguridad configurada, resumiéndolas en CoSA-Score, y creamos CoSApien, un banco de pruebas creado por humanos que consiste en casos de uso reales de LLM con diversos requisitos de seguridad y indicaciones de evaluación correspondientes. Demostramos que CoSAlign conduce a ganancias sustanciales de controlabilidad sobre baselines sólidos, incluida la alineación en contexto. Nuestro marco fomenta una mejor representación y adaptación a los valores humanos pluralistas en LLMs, aumentando así su practicidad.
Los grandes modelos de lenguaje (LLMs) han demostrado capacidades impresionantes en diversas tareas, pero su rendimiento es altamente sensible a los estímulos utilizados. Esta variabilidad plantea desafíos para una evaluación precisa y la satisfacción del usuario. La investigación actual a menudo pasa por alto las variaciones de estímulos a nivel de instancia y sus implicaciones en las evaluaciones subjetivas. Para abordar estas deficiencias, presentamos ProSA, un marco diseñado para evaluar y comprender la sensibilidad al estímulo en los LLMs. ProSA incorpora una métrica de sensibilidad novedosa, PromptSensiScore, y aprovecha la confianza de decodificación para dilucidar los mecanismos subyacentes. Nuestro extenso estudio, que abarca múltiples tareas, revela que la sensibilidad al estímulo fluctúa entre conjuntos de datos y modelos, siendo que los modelos más grandes muestran una mayor robustez. Observamos que los ejemplos de poca muestra pueden aliviar este problema de sensibilidad, y las evaluaciones subjetivas también son susceptibles a las sensibilidades al estímulo, especialmente en tareas complejas orientadas al razonamiento. Además, nuestros hallazgos indican que una mayor confianza del modelo se correlaciona con una mayor robustez al estímulo. Creemos que este trabajo servirá como una herramienta útil para estudiar la sensibilidad al estímulo de los LLMs. El proyecto se encuentra disponible en: https://github.com/open-compass/ProSA.
Los modelos de Recuperación Esparsa Aprendida (LSR) utilizan vocabularios de transformadores pre-entrenados, los cuales a menudo dividen entidades en fragmentos sin sentido. La división de entidades puede reducir la precisión de recuperación y limitar la capacidad del modelo para incorporar conocimiento del mundo actualizado que no está incluido en los datos de entrenamiento. En este trabajo, mejoramos el vocabulario LSR con conceptos y entidades de Wikipedia, lo que permite al modelo resolver ambigüedades de manera más efectiva y mantenerse al día con el conocimiento en evolución. Central en nuestro enfoque es una cabeza de Vocabulario Dinámico (DyVo), la cual aprovecha los embeddings de entidades existentes y un componente de recuperación de entidades que identifica entidades relevantes para una consulta o documento. Utilizamos la cabeza DyVo para generar pesos de entidades, los cuales luego se fusionan con pesos de piezas de palabras para crear representaciones conjuntas para indexación y recuperación eficientes utilizando un índice invertido. En experimentos en tres conjuntos de datos de clasificación de documentos ricos en entidades, el modelo DyVo resultante supera sustancialmente a los baselines de última generación.
La eficiencia de los modelos grandes de visión y lenguaje (LVLMs) se ve limitada por el cuello de botella computacional del mecanismo de atención durante la fase de precarga y el cuello de botella de memoria al recuperar la caché clave-valor (KV) en la fase de decodificación, especialmente en escenarios que involucran imágenes o videos de alta resolución. El contenido visual a menudo presenta una redundancia sustancial, lo que resulta en mapas de atención altamente dispersos dentro de los LVLMs. Esta dispersión se puede aprovechar para acelerar el cálculo de atención o comprimir la caché KV a través de varios enfoques. Sin embargo, la mayoría de los estudios se centran en abordar solo uno de estos cuellos de botella y no respaldan adecuadamente el ajuste dinámico de la dispersión en relación con capas o tareas distintas. En este artículo, presentamos ZipVL, un marco de inferencia eficiente diseñado para LVLMs que resuelve tanto los cuellos de botella computacionales como de memoria a través de una estrategia dinámica de asignación de ratio de tokens importantes. Este ratio se determina de forma adaptativa en función de la distribución específica de capa de los puntajes de atención, en lugar de hiperparámetros fijos, mejorando así la eficiencia para tareas menos complejas mientras se mantiene un alto rendimiento para las más desafiantes. Luego seleccionamos tokens importantes en función de sus puntajes de atención normalizados y realizamos el mecanismo de atención únicamente en esos tokens importantes para acelerar la fase de precarga. Para mitigar el cuello de botella de memoria en la fase de decodificación, empleamos cuantización de precisión mixta en la caché KV, donde se utiliza cuantización de bits altos para las cachés de tokens importantes, mientras que se aplica cuantización de bits bajos a las de menor importancia. Nuestros experimentos demuestran que ZipVL puede acelerar la fase de precarga en 2.6 veces y reducir el uso de memoria de la GPU en un 50.0%, con una reducción mínima de precisión de solo 0.2% en el benchmark Video-MME sobre el modelo LongVA-7B, mejorando efectivamente la eficiencia de generación de LVLMs.
Los modelos generativos de imágenes basados en espacios latentes, como los Modelos de Difusión Latente (LDMs) y los Modelos de Imagen de Máscara (MIMs), han logrado un notable éxito en tareas de generación de imágenes. Estos modelos suelen aprovechar autoencoders reconstructivos como VQGAN o VAE para codificar píxeles en un espacio latente más compacto y aprender la distribución de datos en el espacio latente en lugar de hacerlo directamente desde los píxeles. Sin embargo, esta práctica plantea una pregunta pertinente: ¿Es verdaderamente la elección óptima? En respuesta, comenzamos con una observación intrigante: a pesar de compartir el mismo espacio latente, los modelos autoregresivos se quedan significativamente rezagados respecto a LDMs y MIMs en la generación de imágenes. Este hallazgo contrasta fuertemente con el campo de NLP, donde el modelo autoregresivo GPT ha establecido una presencia dominante. Para abordar esta discrepancia, presentamos una perspectiva unificada sobre la relación entre el espacio latente y los modelos generativos, enfatizando la estabilidad del espacio latente en la modelización generativa de imágenes. Además, proponemos un tokenizador de imágenes discreto simple pero efectivo para estabilizar el espacio latente en la modelización generativa de imágenes. Los resultados experimentales muestran que la modelización autoregresiva de imágenes con nuestro tokenizador (DiGIT) beneficia tanto la comprensión de imágenes como la generación de imágenes con el principio de predicción del siguiente token, que es inherentemente sencillo para los modelos GPT pero desafiante para otros modelos generativos. Notablemente, por primera vez, un modelo autoregresivo de estilo GPT para imágenes supera a LDMs, lo que también muestra una mejora sustancial similar a GPT al aumentar el tamaño del modelo. Nuestros hallazgos subrayan el potencial de un espacio latente optimizado y la integración de la tokenización discreta en el avance de las capacidades de los modelos generativos de imágenes. El código está disponible en https://github.com/DAMO-NLP-SG/DiGIT.
Los modelos de lenguaje grandes (LLMs) han tenido un impacto significativo en muchos aspectos de nuestras vidas. Sin embargo, evaluar y garantizar su conocimiento cronológico sigue siendo un desafío. Los enfoques existentes no logran abordar la naturaleza acumulativa del conocimiento, a menudo dependiendo de una única marca de tiempo. Para superar esto, presentamos ChroKnowBench, un conjunto de datos de referencia diseñado para evaluar el conocimiento acumulado cronológicamente en tres aspectos clave: múltiples dominios, dependencia temporal, estado temporal. Nuestro conjunto de datos de referencia distingue entre el conocimiento que evoluciona (por ejemplo, descubrimientos científicos, leyes modificadas) y el conocimiento que permanece constante (por ejemplo, verdades matemáticas, hechos de sentido común). Sobre la base de este conjunto de datos de referencia, presentamos ChroKnowledge (Categorización Cronológica del Conocimiento), un marco novedoso basado en muestreo para evaluar y actualizar el conocimiento cronológico no paramétrico de los LLMs. Nuestra evaluación muestra: (1) La capacidad de extraer conocimiento temporal varía según el formato de datos en el que el modelo fue entrenado. (2) Los LLMs recuerdan parcialmente el conocimiento o muestran un límite en los límites temporales en lugar de recordar todos los aspectos del conocimiento correctamente. Por lo tanto, aplicamos nuestro ChroKnowPrompt, una solicitud detallada para extraer conocimiento cronológico recorriendo paso a paso los períodos de tiempo circundantes. Observamos que nuestro marco actualiza con éxito el conocimiento general a lo largo de toda la línea de tiempo tanto en el dominio biomédico (+11.9%) como en el dominio general (+2.8%), demostrando su efectividad en refinar el conocimiento temporal. Este enfoque no paramétrico también permite actualizaciones de conocimiento no solo en modelos de código abierto, sino también en LLMs propietarios, garantizando una aplicabilidad integral en todos los tipos de modelos. Realizamos un análisis exhaustivo basado en las características temporales de ChroKnowPrompt y validamos el potencial de varios modelos para extraer conocimiento temporal intrínseco a través de nuestro método.
Este artículo presenta un nuevo paradigma de aprendizaje denominado Metamorfosis Neural (NeuMeta), que tiene como objetivo construir redes neuronales auto-morfables. Contrariamente a la creación de modelos separados para diferentes arquitecturas o tamaños, NeuMeta aprende directamente el continuo manifiesto de pesos de las redes neuronales. Una vez entrenado, podemos muestrear pesos para redes de cualquier tamaño directamente desde el manifiesto, incluso para configuraciones previamente no vistas, sin necesidad de volver a entrenar. Para lograr este objetivo ambicioso, NeuMeta entrena funciones implícitas neuronales como hiperredes. Estas aceptan coordenadas dentro del espacio del modelo como entrada y generan valores de peso correspondientes en el manifiesto. En otras palabras, la función implícita se aprende de tal manera que los pesos predichos se desempeñan bien en diferentes tamaños de modelos. Al entrenar esos modelos, observamos que el rendimiento final está estrechamente relacionado con la suavidad del manifiesto aprendido. En la búsqueda de mejorar esta suavidad, empleamos dos estrategias. Primero, permutamos las matrices de pesos para lograr suavidad intra-modelo, resolviendo el problema de la Ruta Hamiltoniana más corta. Además, agregamos ruido a las coordenadas de entrada al entrenar la función implícita, asegurando que los modelos con diferentes tamaños muestren salidas consistentes. De esta manera, NeuMeta muestra resultados prometedores en la síntesis de parámetros para diversas configuraciones de red. Nuestras extensas pruebas en clasificación de imágenes, segmentación semántica y generación de imágenes revelan que NeuMeta mantiene un rendimiento a tamaño completo incluso con una tasa de compresión del 75%.
Los modelos de lenguaje visual/multimodal (VLMs) se están implementando cada vez más en entornos de atención médica en todo el mundo, lo que hace necesario contar con referencias sólidas para garantizar su seguridad, eficacia y equidad. Los conjuntos de datos de preguntas y respuestas de opción múltiple (QA) derivados de exámenes médicos nacionales han sido durante mucho tiempo herramientas valiosas de evaluación, pero los conjuntos de datos existentes son en su mayoría solo de texto y están disponibles en un conjunto limitado de idiomas y países. Para abordar estos desafíos, presentamos WorldMedQA-V, un conjunto de datos de referencia multilingüe y multimodal actualizado diseñado para evaluar VLMs en el ámbito de la salud. WorldMedQA-V incluye 568 preguntas y respuestas de opción múltiple etiquetadas emparejadas con 568 imágenes médicas de cuatro países (Brasil, Israel, Japón y España), cubriendo los idiomas originales y traducciones al inglés validadas por médicos nativos, respectivamente. Se proporciona el rendimiento base para modelos comunes de código abierto y cerrado en el idioma local y en traducciones al inglés, con y sin imágenes proporcionadas al modelo. El objetivo del conjunto de datos de referencia WorldMedQA-V es lograr una mejor adaptación de los sistemas de IA a los diversos entornos de atención médica en los que se implementan, fomentando aplicaciones más equitativas, efectivas y representativas.
Estudiamos cómo las características emergen, desaparecen y persisten a través de modelos ajustados finamente en diferentes dominios de texto. Más específicamente, partimos de un modelo de lenguaje Transformer de una capa base que se entrena en una combinación del corpus BabyLM y una colección de código Python de The Stack. Este modelo base se adapta a dos nuevos dominios de texto: TinyStories y el lenguaje de programación Lua, respectivamente; luego, estos dos modelos se fusionan utilizando interpolación lineal esférica. Nuestra exploración tiene como objetivo proporcionar una comprensión más profunda sobre la estabilidad y transformación de características en escenarios típicos de transferencia de aprendizaje utilizando modelos a pequeña escala y auto-codificadores dispersos.
Los grandes modelos de lenguaje (LLMs) entrenados con Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) han demostrado capacidades notables, pero sus funciones de recompensa subyacentes y procesos de toma de decisiones siguen siendo opacos. Este artículo introduce un enfoque novedoso para interpretar LLMs aplicando Aprendizaje Inverso por Refuerzo (IRL) para recuperar sus funciones de recompensa implícitas. Realizamos experimentos en LLMs alineados con toxicidad de diferentes tamaños, extrayendo modelos de recompensa que logran hasta un 80.40% de precisión en predecir las preferencias humanas. Nuestro análisis revela ideas clave sobre la no identificabilidad de las funciones de recompensa, la relación entre el tamaño del modelo y la interpretabilidad, y posibles problemas en el proceso de RLHF. Demostramos que los modelos de recompensa derivados de IRL pueden ser utilizados para ajustar finamente nuevos LLMs, lo que resulta en un rendimiento comparable o mejorado en pruebas de toxicidad. Este trabajo proporciona una nueva perspectiva para comprender y mejorar la alineación de LLMs, con implicaciones para el desarrollo y despliegue responsables de estos sistemas poderosos.
Los Modelos de Lenguaje Grandes (LLMs) han avanzado significativamente en la generación y comprensión de texto, con progresos recientes que se extienden a LLMs multimodales que integran entradas visuales y de audio. Sin embargo, estos modelos siguen teniendo dificultades con la comprensión temporal detallada y cruzada entre modalidades, especialmente al correlacionar eventos a través de flujos de audio y video. Abordamos estos desafíos con dos contribuciones clave: un nuevo conjunto de datos y un modelo, llamados OCTAV y OMCAT respectivamente. OCTAV (Omni Context and Temporal Audio Video) es un conjunto de datos novedoso diseñado para capturar transiciones de eventos entre audio y video. En segundo lugar, OMCAT (Omni Context Aware Transformer) es un modelo potente que aprovecha RoTE (Incrustaciones de Tiempo Rotativas), una extensión innovadora de RoPE, para mejorar el anclaje temporal y la eficiencia computacional en tareas ancladas en el tiempo. A través de un sólido proceso de entrenamiento en tres etapas -alineación de características, ajuste de instrucciones y entrenamiento específico de OCTAV- OMCAT destaca en la comprensión temporal cruzada entre modalidades. Nuestro modelo demuestra un rendimiento de vanguardia en tareas de Preguntas y Respuestas Audiovisuales (AVQA) y en el banco de pruebas OCTAV, mostrando mejoras significativas en razonamiento temporal y alineación cruzada entre modalidades, como se valida a través de experimentos exhaustivos y estudios de ablación. Nuestro conjunto de datos y código estarán disponibles públicamente. El enlace a nuestra página de demostración es https://om-cat.github.io.
Los enfoques modernos de Preguntas y Respuestas (QA) y Razonamiento basados en Modelos de Lenguaje Grandes (LLMs) comúnmente utilizan técnicas de generación de texto, como Cadena de Pensamiento (CoT), asumiendo que la generación resultante tendrá una exploración y razonamiento más detallados sobre el espacio y alcance de las preguntas. Sin embargo, dichos métodos tienen dificultades para generar salidas fieles al proceso intermedio de razonamiento producido por el modelo. En el otro extremo del espectro, los métodos neuro-simbólicos como Cadena de Pensamiento Fiel (F-CoT) proponen combinar LLMs con solucionadores simbólicos externos. Si bien tales enfoques presumen un alto grado de fidelidad, generalmente requieren un modelo entrenado para generación de código y tienen dificultades con tareas que son ambiguas o difíciles de formalizar estrictamente. Introducimos Razonamiento y Exploración Asistidos por Lógica Fiel (\ours), un enfoque novedoso e interpretable para atravesar el espacio del problema utilizando descomposiciones de tareas. Utilizamos el LLM para planificar una solución, formalizamos suavemente la consulta en hechos y predicados utilizando un código de programación lógica y simulamos la ejecución de ese código mediante una búsqueda exhaustiva de múltiples saltos sobre el espacio definido. Nuestro método nos permite calcular la fidelidad del proceso de razonamiento con respecto al código generado y analizar los pasos de la búsqueda de múltiples saltos sin depender de solucionadores externos. Nuestros métodos logran los mejores resultados en 7 de 9 diversos bancos de pruebas de razonamiento. También demostramos que la fidelidad del modelo se correlaciona positivamente con el rendimiento general y además demostramos que {\ours} permite señalar los factores decisivos suficientes para y que conducen a la respuesta correcta con un razonamiento óptimo durante la búsqueda de múltiples saltos.
La calibración del modelo de lenguaje se refiere a la alineación entre la confianza del modelo y el rendimiento real de sus respuestas. Mientras que estudios previos señalan el fenómeno de sobreconfianza en los Modelos de Lenguaje Grandes (LLMs) y muestran que los LLMs entrenados con Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) son sobreconfiados con una probabilidad de salida más afilada, en este estudio revelamos que RLHF tiende a llevar a los modelos a expresar sobreconfianza verbalizada en sus propias respuestas. Investigamos la causa subyacente de esta sobreconfianza y demostramos que los modelos de recompensa utilizados para la Optimización de Políticas Proximales (PPO) exhiben sesgos inherentes hacia puntuaciones de alta confianza independientemente de la calidad real de las respuestas. Basándonos en esta percepción, proponemos dos variantes de PPO: PPO-M: PPO con Modelado de Recompensa Calibrado y PPO-C: PPO con Cálculo de Recompensa Calibrado. PPO-M integra puntuaciones de confianza explícitas en el entrenamiento del modelo de recompensa, lo que calibra los modelos de recompensa para capturar mejor la alineación entre la calidad de la respuesta y la confianza verbalizada. PPO-C ajusta la puntuación de recompensa durante PPO basándose en la diferencia entre la recompensa actual y el promedio móvil de recompensas pasadas. Tanto PPO-M como PPO-C pueden integrarse fácilmente en el actual proceso de PPO y no requieren etiquetas doradas adicionales. Evaluamos nuestros métodos en Llama3-8B y Mistral-7B en seis conjuntos de datos diversos que incluyen generación de opción múltiple y abierta. Los resultados experimentales demuestran que ambos métodos pueden reducir el error de calibración y mantener un rendimiento comparable al PPO estándar. Además, mostramos que no comprometen las capacidades del modelo en entornos de conversación abierta.
Los modelos de lenguaje grandes (LLMs) han demostrado un potencial significativo en el desarrollo de aplicaciones y sistemas inteligentes como agentes basados en LLM y sistemas operativos de agentes (AIOS). Sin embargo, cuando estas aplicaciones y sistemas interactúan con el sistema de archivos subyacente, el sistema de archivos sigue siendo el paradigma tradicional: dependiente de la navegación manual a través de comandos precisos. Este paradigma plantea un cuello de botella para la usabilidad de estos sistemas, ya que los usuarios deben navegar por jerarquías de carpetas complejas y recordar nombres de archivos crípticos. Para abordar esta limitación, proponemos un sistema de archivos semántico basado en LLM (LSFS) para la gestión de archivos impulsada por comandos. A diferencia de los enfoques convencionales, LSFS incorpora LLMs para permitir que los usuarios o agentes interactúen con archivos a través de comandos en lenguaje natural, facilitando la gestión semántica de archivos. A nivel macro, desarrollamos un conjunto de API completo para lograr funcionalidades de gestión de archivos semánticos, como la recuperación semántica de archivos, el monitoreo y resumen de actualizaciones de archivos, y el rollback semántico de archivos. A nivel micro, almacenamos archivos construyendo índices semánticos para ellos, diseñamos e implementamos llamadas al sistema de diferentes operaciones semánticas (por ejemplo, CRUD, agrupar por, unir) impulsadas por una base de datos vectorial. Nuestros experimentos muestran que LSFS ofrece mejoras significativas sobre los sistemas de archivos tradicionales en términos de conveniencia para el usuario, la diversidad de funciones admitidas, y la precisión y eficiencia de las operaciones de archivos. Además, con la integración de LLM, nuestro sistema permite tareas de gestión de archivos más inteligentes, como la síntesis de contenido y la comparación de versiones, mejorando aún más sus capacidades.