Artículos de investigación en IA seleccionados diariamente con traducciones
Los avances recientes en modelos multimodales resaltan el valor de las leyendas reescritas para mejorar el rendimiento, sin embargo, aún existen desafíos clave. Por ejemplo, si bien las leyendas sintéticas a menudo ofrecen una calidad superior y una alineación imagen-texto, no está claro si pueden reemplazar completamente los Textos Alternativos: el papel de las leyendas sintéticas y su interacción con los Textos Alternativos originales obtenidos de la web en la pre-entrenamiento aún no se comprende bien. Además, diferentes modelos fundamentales multimodales pueden tener preferencias únicas por formatos de leyendas específicas, pero los esfuerzos para identificar las leyendas óptimas para cada modelo siguen siendo limitados. En este trabajo, proponemos un novedoso, controlable y escalable proceso de generación de leyendas diseñado para producir diversos formatos de leyendas adaptados a varios modelos multimodales. Al examinar las Leyendas Sintéticas Cortas (SSC) hacia las Leyendas Sintéticas Densas (DSC+) como estudios de caso, exploramos sistemáticamente sus efectos e interacciones con los Textos Alternativos a través de modelos como CLIP, LLMs multimodales y modelos de difusión. Nuestros hallazgos revelan que un enfoque híbrido que incluye tanto leyendas sintéticas como Textos Alternativos puede superar el uso de leyendas sintéticas solamente, mejorando tanto la alineación como el rendimiento, con cada modelo demostrando preferencias por formatos de leyendas particulares. Este análisis exhaustivo proporciona información valiosa para optimizar estrategias de subtitulado, avanzando así en el pre-entrenamiento de modelos fundamentales multimodales.
La arquitectura del transformador predomina en varios modelos. Como el núcleo del transformador, la atención tiene una complejidad computacional de O(N^2), en comparación con O(N) para transformaciones lineales. Al manejar longitudes de secuencia largas, la atención se convierte en el componente principal que consume tiempo. Aunque la cuantificación ha demostrado ser un método efectivo para acelerar la inferencia del modelo, los métodos de cuantificación existentes se centran principalmente en optimizar la capa lineal. En respuesta, primero analizamos detalladamente la viabilidad de la cuantificación en la atención. A continuación, proponemos SageAttention, un método de cuantificación altamente eficiente y preciso para la atención. Las OPS (operaciones por segundo) de nuestro enfoque superan a FlashAttention2 y xformers aproximadamente 2.1 veces y 2.7 veces, respectivamente. SageAttention también logra un rendimiento de precisión superior a FlashAttention3. Experimentos exhaustivos confirman que nuestro enfoque incurre en casi ninguna pérdida de métricas de extremo a extremo en diversos modelos, incluidos los de procesamiento de lenguaje grande, generación de imágenes y generación de video.
Presentamos un modelo base para la estimación métrica de profundidad monocular de cero disparos. Nuestro modelo, Depth Pro, sintetiza mapas de profundidad de alta resolución con nitidez sin igual y detalles de alta frecuencia. Las predicciones son métricas, con escala absoluta, sin depender de la disponibilidad de metadatos como intrínsecos de cámara. Y el modelo es rápido, produciendo un mapa de profundidad de 2.25 megapíxeles en 0.3 segundos en una GPU estándar. Estas características son posibles gracias a una serie de contribuciones técnicas, que incluyen un eficiente transformador de visión multi-escala para predicciones densas, un protocolo de entrenamiento que combina conjuntos de datos reales y sintéticos para lograr una alta precisión métrica junto con un seguimiento fino de bordes, métricas de evaluación dedicadas para la precisión de bordes en mapas de profundidad estimados, y una estimación de longitud focal de vanguardia a partir de una sola imagen. Experimentos extensos analizan opciones de diseño específicas y demuestran que Depth Pro supera trabajos previos en múltiples dimensiones. Publicamos el código y los pesos en https://github.com/apple/ml-depth-pro
El desarrollo de grandes modelos multimodales de video (LMMs) se ha visto obstaculizado por la dificultad de curar grandes cantidades de datos crudos de alta calidad de la web. Para abordar esto, proponemos un enfoque alternativo creando un conjunto de datos sintético de alta calidad específicamente para seguir instrucciones en video, denominado LLaVA-Video-178K. Este conjunto de datos incluye tareas clave como subtitulado detallado, preguntas abiertas de respuesta (QA) y QA de opción múltiple. Al entrenar en este conjunto de datos, en combinación con datos de ajuste visual de instrucciones existentes, presentamos LLaVA-Video, un nuevo LMM de video. Nuestros experimentos demuestran que LLaVA-Video logra un rendimiento sólido en varios puntos de referencia de video, resaltando la efectividad de nuestro conjunto de datos. Planeamos publicar el conjunto de datos, su canal de generación y los puntos de control del modelo.
Es deseable pero desafiante generar videos largos ricos en contenido en una escala de minutos. Los grandes modelos de lenguaje autoregresivos (LLMs, por sus siglas en inglés) han logrado un gran éxito en la generación de secuencias coherentes y largas de tokens en el campo del procesamiento del lenguaje natural, mientras que la exploración de LLMs autoregresivos para la generación de videos se limita a la generación de videos cortos de varios segundos. En este trabajo, realizamos un análisis profundo de los desafíos que impiden a los generadores de videos basados en LLMs autoregresivos generar videos largos. Basándonos en las observaciones y análisis, proponemos Loong, un nuevo generador de videos basado en LLMs autoregresivos que puede generar videos de un minuto de duración. Específicamente, modelamos los tokens de texto y los tokens de video como una secuencia unificada para los LLMs autoregresivos y entrenamos el modelo desde cero. Proponemos un entrenamiento progresivo de corto a largo con un esquema de reponderación de pérdida para mitigar el problema de desequilibrio de pérdida en el entrenamiento de videos largos. Investigamos además estrategias de inferencia, incluyendo la re-codificación de tokens de video y estrategias de muestreo, para disminuir la acumulación de errores durante la inferencia. Nuestro Loong propuesto puede ser entrenado con videos de 10 segundos y ser extendido para generar videos largos de nivel de minutos condicionados a indicaciones de texto, como se demuestra en los resultados. Más muestras están disponibles en: https://epiphqny.github.io/Loong-video.
El Pre-entrenamiento Contrastivo de Lenguaje-Imagen (CLIP) ha sido un método aclamado para entrenar codificadores de visión con el fin de generar representaciones de imágenes/texto que facilitan diversas aplicaciones. Recientemente, CLIP ha sido ampliamente adoptado como la columna vertebral visual de modelos de lenguaje multimodales grandes (MLLMs) para conectar entradas de imágenes en interacciones de lenguaje. El éxito de CLIP como modelo base de visión-lenguaje depende de alinear anotaciones de texto ruidosas extraídas de la web a niveles de imagen. Sin embargo, tales criterios pueden resultar insuficientes para tareas posteriores que requieren representaciones de visión detalladas, especialmente cuando la comprensión a nivel de región es exigente para MLLMs. En este documento, mejoramos la capacidad de localización de CLIP con varios avances. Proponemos un método de pre-entrenamiento llamado Pre-entrenamiento Contrastivo Localizado de Lenguaje-Imagen (CLOC) al complementar CLIP con pérdida contrastiva y módulos de región-texto. Formulamos un nuevo concepto, incrustaciones promptables, cuyo codificador produce incrustaciones de imagen fáciles de transformar en representaciones de región dadas pistas espaciales. Para respaldar el pre-entrenamiento a gran escala, diseñamos un marco de titulación enriquecido visualmente y localizado espacialmente para generar eficazmente pseudoetiquetas de región-texto a escala. Al escalar a miles de millones de imágenes anotadas, CLOC permite incrustaciones regionales de alta calidad para tareas de reconocimiento y recuperación de regiones de imágenes, y puede ser un reemplazo directo de CLIP para mejorar MLLMs, especialmente en tareas de referencia y anclaje.
Presentamos LLaVA-Critic, el primer modelo multimodal grande de código abierto (LMM, por sus siglas en inglés) diseñado como un evaluador general para evaluar el rendimiento en una amplia gama de tareas multimodales. LLaVA-Critic se entrena utilizando un conjunto de datos de instrucciones de críticos de alta calidad que incorpora diversos criterios de evaluación y escenarios. Nuestros experimentos demuestran la efectividad del modelo en dos áreas clave: (1) LMM-como-Juez, donde LLaVA-Critic proporciona puntuaciones de evaluación confiables, desempeñándose al nivel o superando a los modelos GPT en múltiples pruebas de evaluación; y (2) Aprendizaje de Preferencias, donde genera señales de recompensa para el aprendizaje de preferencias, mejorando las capacidades de alineación del modelo. Este trabajo resalta el potencial de los LMM de código abierto en la auto-crítica y evaluación, sentando las bases para futuras investigaciones sobre mecanismos de retroalimentación de alineación escalables y superhumanos para LMMs.
Los modelos de lenguaje de gran tamaño (LLMs) han demostrado ser notablemente eficientes, tanto en una amplia gama de tareas de procesamiento de lenguaje natural como más allá de ellas. Sin embargo, un análisis teórico exhaustivo sobre los orígenes de su impresionante rendimiento sigue siendo esquivo. En este artículo, abordamos esta tarea desafiante al establecer una equivalencia entre modelos de lenguaje autoregresivos genéricos con un vocabulario de tamaño T y una ventana de contexto de tamaño K, y cadenas de Markov definidas en un espacio de estados finitos de tamaño O(T^K). Derivamos varios hallazgos sorprendentes relacionados con la existencia de una distribución estacionaria de las cadenas de Markov que capturan el poder de inferencia de los LLMs, su velocidad de convergencia a esta distribución, y la influencia de la temperatura en esta última. Luego demostramos límites de pre-entrenamiento y generalización en contexto, y mostramos cómo la equivalencia establecida nos permite enriquecer su interpretación. Finalmente, ilustramos nuestras garantías teóricas con experimentos en varios LLMs recientes para resaltar cómo capturan el comportamiento observado en la práctica.
La orientación sin clasificador (CFG, por sus siglas en inglés) es crucial para mejorar tanto la calidad de generación como la alineación entre la condición de entrada y la salida final en modelos de difusión. Si bien generalmente se requiere una escala de orientación alta para mejorar estos aspectos, también provoca sobresaturación y artefactos poco realistas. En este artículo, revisamos la regla de actualización de CFG e introducimos modificaciones para abordar este problema. Primero descomponemos el término de actualización en CFG en componentes paralelos y ortogonales con respecto a la predicción del modelo condicional y observamos que el componente paralelo causa principalmente sobresaturación, mientras que el componente ortogonal mejora la calidad de la imagen. En consecuencia, proponemos reducir el peso del componente paralelo para lograr generaciones de alta calidad sin sobresaturación. Además, establecemos una conexión entre CFG y el ascenso de gradiente e introducimos un nuevo método de reescalado y momento para la regla de actualización de CFG basado en esta percepción. Nuestro enfoque, denominado orientación proyectada adaptativa (APG), conserva las ventajas de mejora de calidad de CFG al permitir el uso de escalas de orientación más altas sin sobresaturación. APG es fácil de implementar e introduce prácticamente ningún costo computacional adicional al proceso de muestreo. A través de experimentos extensos, demostramos que APG es compatible con varios modelos de difusión condicional y muestreadores, lo que resulta en una mejora en los puntajes de FID, recall y saturación, manteniendo una precisión comparable a CFG, convirtiendo nuestro método en una alternativa superior y lista para usar en lugar de la orientación estándar sin clasificador.
Los modelos de lenguaje grandes (LLMs) se aplican cada vez más a tareas de razonamiento complejo que requieren ejecutar varios pasos complejos antes de recibir alguna recompensa. Asignar adecuadamente crédito a estos pasos es esencial para mejorar el rendimiento del modelo. La Optimización de Políticas Proximales (PPO), un algoritmo de aprendizaje por refuerzo (RL) de vanguardia utilizado para el ajuste fino de LLM, emplea redes de valor para abordar la asignación de crédito. Sin embargo, las redes de valor enfrentan desafíos al predecir con precisión las recompensas acumulativas esperadas en tareas de razonamiento complejo, lo que a menudo resulta en actualizaciones de alta varianza y un rendimiento subóptimo. En este trabajo, evaluamos sistemáticamente la eficacia de las redes de valor y revelamos sus importantes deficiencias en tareas de LLM con un fuerte componente de razonamiento, demostrando que apenas superan una línea base aleatoria al comparar pasos alternativos. Para abordar esto, proponemos VinePPO, un enfoque sencillo que aprovecha la flexibilidad de los entornos de lenguaje para calcular estimaciones imparciales basadas en Monte Carlo, evitando la necesidad de grandes redes de valor. Nuestro método supera consistentemente a PPO y otras líneas base sin RL en los conjuntos de datos MATH y GSM8K con menos actualizaciones de gradiente (hasta 9 veces menos) y menos tiempo de reloj (hasta 3.0 veces menos). Estos resultados enfatizan la importancia de una asignación precisa de crédito en el ajuste fino de RL de LLM y demuestran el potencial de VinePPO como una alternativa superior.
Los asistentes de voz, como Siri y Google Assistant, suelen modelar el audio y el texto por separado, lo que resulta en la pérdida de información del habla y en una mayor complejidad. Los esfuerzos recientes para abordar esto con Modelos de Lenguaje Grande (LLMs) de Habla de Extremo a Extremo entrenados con ajuste fino supervisado (SFT) han llevado a que los modelos "olviden" capacidades de los LLMs solo de texto. Nuestro trabajo propone un paradigma alternativo para entrenar LLMs de Habla sin datos de instrucción, utilizando la respuesta de un LLM solo de texto a transcripciones como auto-supervisión. Es importante destacar que este proceso se puede realizar sin respuestas anotadas. Mostramos que nuestro Asistente de Voz Destilado (DiVA) se generaliza a Preguntas y Respuestas Habladas, Clasificación y Traducción. Además, demostramos que DiVA satisface mejor las preferencias de los usuarios, logrando una tasa de éxito del 72\% en comparación con modelos de vanguardia como Qwen 2 Audio, a pesar de utilizar >100 veces menos cómputo de entrenamiento.
Los embeddings densos de documentos son fundamentales para la recuperación neural. El paradigma dominante consiste en entrenar y construir embeddings ejecutando codificadores directamente en documentos individuales. En este trabajo, argumentamos que estos embeddings, aunque efectivos, están implícitamente fuera de contexto para casos de uso específicos de recuperación, y que un embedding contextualizado de documentos debería tener en cuenta tanto el documento como los documentos vecinos en contexto, de manera análoga a los embeddings de palabras contextualizados. Proponemos dos métodos complementarios para embeddings contextualizados de documentos: primero, un objetivo alternativo de aprendizaje contrastivo que incorpora explícitamente los documentos vecinos en la pérdida contextual intra-batch; segundo, una nueva arquitectura contextual que codifica explícitamente la información de documentos vecinos en la representación codificada. Los resultados muestran que ambos métodos logran un mejor rendimiento que los biencoders en varios escenarios, con diferencias especialmente pronunciadas fuera de dominio. Alcanzamos resultados de vanguardia en el banco de pruebas MTEB sin minería de negativos difíciles, destilación de puntuaciones, instrucciones específicas del conjunto de datos, intercambio de ejemplos intra-GPU o tamaños de lote extremadamente grandes. Nuestro método puede aplicarse para mejorar el rendimiento en cualquier conjunto de datos de aprendizaje contrastivo y cualquier biencoder.
En los últimos años, el Pre-entrenamiento de Lenguaje-Imagen Contrastivo (CLIP) se ha convertido en un pilar de la inteligencia multimodal. Sin embargo, estudios recientes han identificado que la pérdida de información en el proceso de codificación de CLIP es sustancial, y CLIP tiende a capturar solo características de gran escala de la entrada. Esta deficiencia limita significativamente la capacidad de un único modelo CLIP para manejar imágenes ricas en detalles visuales. En este trabajo, proponemos una estrategia simple pero efectiva y agnóstica al modelo, llamada Reciclaje Diversificado de Múltiples (DMU), para CLIP. DMU ajusta eficientemente una serie de modelos CLIP que capturan diferentes espacios de características, a partir de un punto de control CLIP pre-entrenado denso, compartiendo parámetros excepto para la Red de Retroalimentación (FFN). Estos modelos pueden luego transformarse en un CLIP-MoE con una capacidad de modelo mayor, lo que resulta en un rendimiento significativamente mejorado con un mínimo gasto computacional. Hasta donde sabemos, el Reciclaje Diversificado de Múltiples es el primer enfoque en introducir MoE escasamente activados en los modelos fundamentales de CLIP. Experimentos extensos demuestran el rendimiento significativo de CLIP-MoE en varias tareas de recuperación de cero disparo, clasificación de imágenes de cero disparo y pruebas de modelos de lenguaje multimodal grande (MLLM) aguas abajo al servir como codificador de visión. Además, el Reciclaje Diversificado de Múltiples permite la conversión de cualquier modelo CLIP denso en CLIP-MoEs, que pueden reemplazar CLIP de manera sencilla en un enfoque de conectar y usar sin necesidad de adaptación adicional en marcos de trabajo aguas abajo. A través del Reciclaje Diversificado de Múltiples, nuestro objetivo es proporcionar ideas valiosas para futuras investigaciones sobre el desarrollo de sistemas de aprendizaje multimodal más eficientes y efectivos.
Los ingenieros de software principalmente escriben código editando programas existentes. En contraste, los modelos de lenguaje grandes (LLMs) sintetizan programas de forma autoregresiva en un solo paso. Una explicación para esto es la escasez de datos de edición de código de código abierto. Mientras que los datos de instrucción de alta calidad para la síntesis de código ya son escasos, los datos de edición de alta calidad son aún más escasos. Para llenar este vacío, desarrollamos un algoritmo de generación de datos sintéticos llamado LintSeq. Este algoritmo refactoriza código existente en una secuencia de ediciones de código utilizando un linter para muestrear de forma procedural las inserciones sin errores que se pueden utilizar para escribir programas secuencialmente. Produce secuencias de edición como cadenas de texto que consisten en diferencias de programa consecutivas. Para probar LintSeq, lo utilizamos para refactorizar un conjunto de datos de pares de instrucciones + programa en tuplas de instrucción + secuencia de diferencias de programa. Luego, ajustamos finamente una serie de LLMs más pequeños que van desde 2.6B hasta 14B parámetros en ambas versiones del conjunto de datos, comparando el rendimiento de cero disparos en bancos de pruebas de síntesis de código. Mostramos que durante el muestreo repetido, los modelos ajustados finamente a secuencias de edición producen programas más diversos que las líneas de base. Esto resulta en una mejor escalabilidad en tiempo de inferencia para la cobertura del banco de pruebas en función de las muestras, es decir, la fracción de problemas "pass@k" resueltos por cualquier intento dado "k" intentos. Por ejemplo, en HumanEval pass@50, los LLMs pequeños ajustados finamente en secuencias de edición sintéticas son competitivos con GPT-4 y superan a los modelos ajustados finamente en el conjunto de datos base en un +20% (+/-3%) en puntuación absoluta. Finalmente, también preentrenamos nuestros propios LMs diminutos para la comprensión de código. Mostramos que ajustar finamente modelos pequeños en ediciones de código sintéticas resulta en una síntesis de código de última generación para la clase de modelos en dispositivos. Nuestro LM de secuencia de edición de 150M parámetros coincide o supera a los modelos de código con el doble de parámetros, tanto con como sin muestreo repetido, incluidos Codex y AlphaCode.
Los modelos de contexto largo (LCMs) han avanzado notablemente en los últimos años, ofreciendo a los usuarios una gran comodidad para manejar tareas que implican un contexto extenso, como la sumarización de documentos. A medida que la comunidad prioriza cada vez más la fidelidad de los resultados generados, simplemente garantizar la precisión de las salidas de LCM resulta insuficiente, dado que resulta bastante desafiante para los humanos verificar los resultados a partir de un contexto extremadamente extenso. Sin embargo, aunque se han realizado algunos esfuerzos para evaluar si los LCMs responden verdaderamente basándose en el contexto, estos trabajos se limitan a tareas específicas o dependen en gran medida de recursos de evaluación externos como GPT-4. En este trabajo, presentamos L-CiteEval, un completo banco de pruebas multi-tarea para la comprensión de contextos largos con citas, con el objetivo de evaluar tanto la capacidad de comprensión como la fidelidad de los LCMs. L-CiteEval abarca 11 tareas de diversos ámbitos, que van desde longitudes de contexto de 8K a 48K, y proporciona un conjunto de evaluación completamente automatizado. A través de pruebas con 11 LCMs de vanguardia de código cerrado y de código abierto, observamos que aunque estos modelos muestran diferencias menores en sus resultados generados, los modelos de código abierto quedan significativamente rezagados respecto a sus contrapartes de código cerrado en cuanto a la precisión y recuperación de citas. Esto sugiere que los LCMs de código abierto actuales tienden a responder basándose en su conocimiento inherente en lugar del contexto dado, lo que representa un riesgo significativo para la experiencia del usuario en aplicaciones prácticas. También evaluamos el enfoque RAG y observamos que RAG puede mejorar significativamente la fidelidad de los LCMs, aunque con una ligera disminución en la calidad de generación. Además, descubrimos una correlación entre los mecanismos de atención de los LCMs y el proceso de generación de citas.
Se ha demostrado que la Generación con Recuperación Aumentada (RAG) mejora la precisión factual de los Modelos de Lenguaje Grandes (LLMs), pero los métodos existentes a menudo sufren de capacidades de razonamiento limitadas en el uso efectivo de la evidencia recuperada, especialmente al utilizar LLMs de código abierto. Para mitigar esta brecha, presentamos un nuevo marco, Open-RAG, diseñado para mejorar las capacidades de razonamiento en RAG con LLMs de código abierto. Nuestro marco transforma un LLM denso arbitrario en un modelo de mezcla de expertos (MoE) escaso y eficiente en parámetros capaz de manejar tareas de razonamiento complejas, incluyendo consultas de un solo y múltiples saltos. Open-RAG entrena de manera única al modelo para navegar distracciones desafiantes que parecen relevantes pero son engañosas. Como resultado, Open-RAG aprovecha el aprendizaje latente, seleccionando dinámicamente expertos relevantes e integrando conocimiento externo de manera efectiva para respuestas más precisas y contextualmente relevantes. Además, proponemos un método de recuperación adaptativa híbrido para determinar la necesidad de recuperación y equilibrar la compensación entre el aumento de rendimiento y la velocidad de inferencia. Los resultados experimentales muestran que Open-RAG basado en Llama2-7B supera a los LLMs y modelos RAG de última generación como ChatGPT, Self-RAG y Command R+ en varias tareas intensivas en conocimiento. Ponemos nuestro código y modelos de código abierto en https://openragmoe.github.io/
Investigamos las representaciones internas de los modelos visión-lenguaje (VLMs) para abordar las alucinaciones, un desafío persistente a pesar de los avances en el tamaño y entrenamiento de los modelos. Proyectamos las representaciones internas de imágenes de los VLMs a su vocabulario de lenguaje y observamos probabilidades de salida más seguras en objetos reales que en objetos alucinados. Adicionalmente, utilizamos estas probabilidades de salida para localizar espacialmente objetos reales. Basándonos en este enfoque, introducimos un algoritmo de borrado de conocimiento que elimina las alucinaciones mediante la ortogonalización lineal de características de imagen con respecto a características de objetos alucinados. Mostramos que ediciones dirigidas a las representaciones latentes de un modelo pueden reducir las alucinaciones hasta un 25.7% en el conjunto de datos COCO2014 mientras se preserva el rendimiento. Nuestros hallazgos demuestran cómo una comprensión más profunda de las representaciones latentes de los VLMs puede mejorar la fiabilidad y permitir capacidades novedosas, como la segmentación de cero disparos.
Los Modelos de Lenguaje Grandes (LLMs), conocidos por su versatilidad en datos textuales, están siendo cada vez más explorados por su potencial para mejorar la segmentación de imágenes médicas, una tarea crucial para la precisión en la imagenología diagnóstica. Este estudio explora la mejora de los Transformadores de Visión (ViTs) para la segmentación de imágenes médicas mediante la integración de bloques de transformadores LLM pre-entrenados. Nuestro enfoque, que incorpora un bloque de transformador LLM congelado en el codificador de un modelo basado en ViT, conduce a mejoras sustanciales en el rendimiento de segmentación en diversas modalidades de imágenes médicas. Proponemos un Mecanismo de Atención Híbrido que combina el aprendizaje de características globales y locales con un Bloque de Fusión Multi-Escala para la agregación de características en diferentes escalas. El modelo mejorado muestra ganancias significativas en el rendimiento, incluido un aumento promedio en el puntaje Dice de 0.74 a 0.79 y mejoras en la precisión, exactitud y el Índice de Jaccard. Estos resultados demuestran la efectividad de los transformadores basados en LLM en la mejora de la segmentación de imágenes médicas, resaltando su potencial para aumentar significativamente la precisión y robustez del modelo. El código fuente y nuestra implementación están disponibles en: https://bit.ly/3zf2CVs
Los agentes autónomos han demostrado un potencial significativo en automatizar tareas complejas de toma de decisiones multietapa. Sin embargo, incluso los modelos visión-lenguaje de vanguardia (VLMs), como GPT-4o, aún no alcanzan el rendimiento a nivel humano, especialmente en entornos web intrincados y tareas de planificación a largo plazo. Para abordar estas limitaciones, presentamos Reflective Monte Carlo Tree Search (R-MCTS), un algoritmo novedoso en tiempo de prueba diseñado para mejorar la capacidad de los agentes de IA, por ejemplo, potenciados por GPT-4o, para explorar el espacio de decisiones sobre la marcha. R-MCTS amplía el MCTS tradicional mediante 1) la incorporación de reflexión contrastiva, permitiendo a los agentes aprender de interacciones pasadas y mejorar dinámicamente su eficiencia de búsqueda; y 2) utilizando debates multiagente para proporcionar una evaluación de estado confiable. Además, mejoramos el rendimiento del agente mediante el ajuste fino de GPT-4o a través del autoaprendizaje, utilizando recorridos de árbol generados por R-MCTS sin etiquetas proporcionadas por humanos. En el desafiante benchmark VisualWebArena, nuestro agente basado en GPT-4o y R-MCTS logra una mejora relativa del 6% al 30% en diversas tareas en comparación con el estado del arte anterior. Además, demostramos que el conocimiento adquirido de la búsqueda en tiempo de prueba puede transferirse de manera efectiva de regreso a GPT-4o mediante el ajuste fino. El GPT-4o ajustado iguala el 97% del rendimiento de R-MCTS mientras reduce el uso de cómputo por un factor de cuatro en el tiempo de prueba. Además, los resultados cualitativos revelan que el modelo GPT-4o ajustado demuestra la capacidad de explorar el entorno, evaluar un estado y retroceder a estados viables cuando detecta que el estado actual no puede conducir al éxito. Además, nuestro trabajo demuestra las propiedades de escalado de cómputo tanto en el entrenamiento, la recolección de datos con R-MCTS, como en el tiempo de prueba. Estos resultados sugieren una dirección de investigación prometedora para mejorar el razonamiento y las capacidades de planificación de los VLMs para aplicaciones agentes a través de la búsqueda en tiempo de prueba y el autoaprendizaje.
Trabajos recientes en renderizado de volumen, como NeRF y 3D Gaussian Splatting (3DGS), avanzan significativamente en la calidad y eficiencia del renderizado con la ayuda del campo de radiación neural implícita aprendido o de los Gaussianos 3D. Al renderizar sobre una representación explícita, el 3DGS básico y sus variantes ofrecen eficiencia en tiempo real al optimizar el modelo paramétrico con supervisión de una sola vista por iteración durante el entrenamiento, adoptado de NeRF. En consecuencia, ciertas vistas son sobreajustadas, lo que conduce a una apariencia insatisfactoria en la síntesis de vistas novedosas y geometrías 3D imprecisas. Para resolver los problemas mencionados, proponemos un nuevo método de optimización de 3DGS que incorpora cuatro contribuciones clave: 1) Transformamos el paradigma convencional de entrenamiento de una sola vista en una estrategia de entrenamiento multi-vista. Con nuestra regulación multi-vista propuesta, los atributos Gaussianos 3D se optimizan aún más sin sobreajustar ciertas vistas de entrenamiento. Como solución general, mejoramos la precisión general en una variedad de escenarios y diferentes variantes Gaussianas. 2) Inspirados en el beneficio introducido por vistas adicionales, proponemos además un esquema de guía cruzada intrínseca, lo que conduce a un procedimiento de entrenamiento de grueso a fino en relación con diferentes resoluciones. 3) Basándonos en nuestro entrenamiento regulado multi-vista, proponemos además una estrategia de densificación cruzada de rayos, densificando más núcleos Gaussianos en las regiones de intersección de rayos a partir de una selección de vistas. 4) Al investigar más a fondo la estrategia de densificación, encontramos que el efecto de la densificación debe mejorarse cuando ciertas vistas son distintas de manera drástica. Como solución, proponemos una novedosa estrategia de densificación aumentada multi-vista, donde se anima a los Gaussianos 3D a densificarse a un número suficiente en consecuencia, lo que resulta en una mayor precisión de reconstrucción.
Recientemente ha surgido un sentimiento creciente de que los modernos modelos grandes multimodales (LMMs) han abordado la mayoría de los desafíos clave relacionados con la comprensión de videos cortos. Como resultado, tanto la academia como la industria están desplazando gradualmente su atención hacia los desafíos más complejos planteados por la comprensión de videos de larga duración. Sin embargo, ¿es esto realmente así? Nuestros estudios indican que los LMMs todavía carecen de muchas capacidades de razonamiento fundamentales incluso al tratar con videos cortos. Presentamos Vinoground, un banco de pruebas de evaluación LMM contrafactual temporal que abarca 1000 pares de videos cortos y subtítulos naturales. Demostramos que los LMMs existentes luchan severamente por distinguir las diferencias temporales entre diferentes acciones y transformaciones de objetos. Por ejemplo, el mejor modelo GPT-4o solo obtiene ~50% en nuestros puntajes de texto y video, mostrando una gran brecha en comparación con la línea base humana de ~90%. Todos los modelos multimodales de código abierto y los modelos basados en CLIP tienen un rendimiento mucho peor, produciendo principalmente un rendimiento aleatorio. A través de este trabajo, arrojamos luz sobre el hecho de que el razonamiento temporal en videos cortos es un problema que aún no se ha resuelto por completo. El conjunto de datos y el código de evaluación están disponibles en https://vinoground.github.io.
Exploramos la aparición de comportamiento inteligente en sistemas artificiales al investigar cómo la complejidad de los sistemas basados en reglas influye en las capacidades de los modelos entrenados para predecir estas reglas. Nuestro estudio se centra en autómatas celulares elementales (ECA), sistemas unidimensionales simples pero potentes que generan comportamientos que van desde triviales hasta altamente complejos. Al entrenar distintos Modelos de Lenguaje Grandes (LLMs) en diferentes ECAs, evaluamos la relación entre la complejidad del comportamiento de las reglas y la inteligencia exhibida por los LLMs, reflejada en su rendimiento en tareas posteriores. Nuestros hallazgos revelan que las reglas con mayor complejidad conducen a modelos que exhiben una mayor inteligencia, como se demuestra en su rendimiento en tareas de razonamiento y predicción de movimientos de ajedrez. Tanto los sistemas uniformes como los periódicos, y a menudo también los sistemas altamente caóticos, resultaron en un rendimiento deficiente en tareas posteriores, resaltando un punto óptimo de complejidad propicio para la inteligencia. Conjeturamos que la inteligencia surge de la capacidad de predecir la complejidad y que crear inteligencia puede requerir solo exposición a la complejidad.
Presentamos Synthio, un enfoque novedoso para aumentar conjuntos de datos de clasificación de audio a pequeña escala con datos sintéticos. Nuestro objetivo es mejorar la precisión de la clasificación de audio con datos etiquetados limitados. Las técnicas tradicionales de aumento de datos, que aplican transformaciones artificiales (por ejemplo, añadir ruido aleatorio o enmascarar segmentos), tienen dificultades para crear datos que capturen la verdadera diversidad presente en audios del mundo real. Para abordar esta limitación, proponemos aumentar el conjunto de datos con audio sintético generado a partir de modelos de difusión de texto a audio (T2A). Sin embargo, sintetizar aumentos efectivos es un desafío porque no solo el dato generado debe ser acústicamente consistente con el conjunto de datos a pequeña escala subyacente, sino que también debe tener suficiente diversidad compositiva. Para superar el primer desafío, alineamos las generaciones del modelo T2A con el conjunto de datos a pequeña escala utilizando optimización de preferencias. Esto garantiza que las características acústicas de los datos generados permanezcan consistentes con el conjunto de datos a pequeña escala. Para abordar el segundo desafío, proponemos una técnica novedosa de generación de subtítulos que aprovecha las capacidades de razonamiento de los Modelos de Lenguaje Grandes para (1) generar subtítulos de audio diversos y significativos y (2) refinar iterativamente su calidad. Los subtítulos generados se utilizan luego para incitar al modelo T2A alineado. Evaluamos exhaustivamente Synthio en diez conjuntos de datos y cuatro configuraciones simuladas de datos limitados. Los resultados indican que nuestro método supera consistentemente a todos los baselines en un rango de 0.1% a 39% utilizando un modelo T2A entrenado solo en AudioSet débilmente subtitulado.
Demostramos que pequeños modelos de lenguaje generativos preentrenados con fundamentos, con millones de parámetros, pueden aprender las reglas latentes de un proceso a partir de datos asociados con dicho proceso. Inspirados por la novela corta de Stefan Zweig "Schachnovelle," también conocida como "The Royal Game" en inglés, mostramos que modelos de lenguaje pequeños preentrenados con 28M y 125M de parámetros pueden ser finamente ajustados con instrucciones utilizando entre 1,000 y 1,000,000 ejemplos para aprender las reglas del ajedrez, proponer movimientos legales y resolver con precisión problemas de ajedrez. También exploramos el impacto de épocas sucesivas de ajuste fino del modelo de lenguaje en los resultados mejorados y demostramos reducciones en las alucinaciones del modelo al aumentar el número de ejemplos de ajuste fino con instrucciones.
La fusión de modelos, como la sopa de modelos, es la práctica de combinar diferentes modelos con la misma arquitectura sin entrenamiento adicional. En este trabajo, presentamos una metodología de fusión de modelos que aborda la dificultad de ajustar modelos de Lenguaje Grande (LLMs) para tareas específicas en idiomas no ingleses, donde a menudo no se dispone de datos específicos de la tarea. Nos centramos en el razonamiento matemático y, sin datos matemáticos en el idioma de interés, facilitamos la transferencia interlingüística al combinar capacidades de lenguaje y matemáticas. Partiendo del mismo modelo preentrenado, ajustamos finamente "expertos" separados con datos de instrucción matemática en inglés y datos de instrucción genérica en el idioma de interés. Luego, reemplazamos las capas superiores e inferiores del transformador del experto en matemáticas directamente con capas del experto en lenguaje, lo que mejora el rendimiento matemático en el idioma de interés. Los modelos fusionados resultantes superan a los expertos individuales y a otros métodos de fusión en el banco de pruebas matemáticas, MGSM, en un 10% en cuatro idiomas principales donde los datos de instrucción matemática son escasos. Además, este intercambio de capas es simple, económico e intuitivo, ya que se basa en un análisis interpretativo de los cambios de parámetros más importantes durante el ajuste fino de cada experto. La capacidad de recomponer con éxito LLMs para la transferencia interlingüística de esta manera abre futuras posibilidades para combinar la experiencia del modelo, crear soluciones modulares y transferir capacidades de razonamiento entre idiomas de forma posterior.
Los avances recientes en Modelos de Lenguaje 3D a Gran Escala (3DLLMs) han destacado su potencial en la construcción de agentes de propósito general en el mundo real en 3D, sin embargo, persisten desafíos debido a la falta de datos robustos de alta calidad para seguir instrucciones, lo que resulta en una capacidad discriminativa limitada y generalización de los 3DLLMs. En este documento, presentamos Robin3D, un potente 3DLLM entrenado con datos a gran escala de seguimiento de instrucciones generados por nuestro novedoso motor de datos, Motor de Generación de Instrucciones Robustas (RIG). RIG genera dos tipos clave de datos de instrucciones: 1) los datos de Seguimiento de Instrucciones Adversariales, que presentan muestras mixtas negativas y positivas para mejorar la comprensión discriminativa del modelo. 2) los datos de Seguimiento de Instrucciones Diversas, que contienen diversos estilos de instrucciones para mejorar la generalización del modelo. Como resultado, construimos 1 millón de datos de seguimiento de instrucciones, compuestos por 344K muestras Adversariales, 508K muestras Diversas y 165K muestras del conjunto de entrenamiento de referencia. Para manejar mejor estas instrucciones complejas, Robin3D primero incorpora un Proyector Aumentado por Relaciones para mejorar la comprensión espacial, y luego fortalece la capacidad de referencia y anclaje de objetos a través del Vínculo de Características de Identificación. Robin3D supera consistentemente a métodos anteriores en cinco benchmarks ampliamente utilizados de aprendizaje multimodal en 3D, sin necesidad de ajustes finos específicos de la tarea. Destacadamente, logramos una mejora del 7.8\% en la tarea de anclaje (Multi3DRefer) y una mejora del 6.9\% en la tarea de descripción (Scan2Cap).
El ajuste fino basado en indicaciones se ha convertido en un método esencial para extraer información codificada en modelos de lenguaje pre-entrenados para una variedad de tareas, incluida la clasificación de texto. Para tareas de clasificación multi-clase, el ajuste fino basado en indicaciones en escenarios de recursos limitados ha dado como resultado niveles de rendimiento comparables a los de los métodos de ajuste fino completo. Estudios previos han utilizado plantillas de indicaciones elaboradas y verbalizadores, mapeando del espacio de términos de etiqueta al espacio de clase, para resolver el problema de clasificación como una tarea de modelado de lenguaje enmascarado. Sin embargo, el ajuste fino basado en indicaciones cruzadas y detalladas con un verbalizador enriquecido automáticamente permanece inexplorado, principalmente debido a la dificultad y costos de seleccionar manualmente términos de etiqueta de dominio para el verbalizador, lo cual requiere humanos con experiencia en el dominio. Para abordar este desafío, presentamos SciPrompt, un marco diseñado para recuperar automáticamente términos relacionados con temas científicos para tareas de clasificación de texto con recursos limitados. Con este fin, seleccionamos términos de etiqueta semánticamente correlacionados y específicos del dominio dentro del contexto de la literatura científica para la ampliación del verbalizador. Además, proponemos una nueva estrategia de verbalización que utiliza puntajes de correlación como pesos adicionales para mejorar el rendimiento de predicción del modelo de lenguaje durante el ajuste del modelo. Nuestro método supera a los métodos de ajuste fino basados en indicaciones de última generación en tareas de clasificación de texto científico en configuraciones de pocos y cero disparos, especialmente en la clasificación de temas científicos detallados y emergentes.