Artículos de investigación en IA seleccionados diariamente con traducciones
En este documento, investigamos los factores subyacentes que potencialmente mejoran las capacidades de razonamiento matemático de los grandes modelos de lenguaje (LLMs). Sostenemos que la ley de escalado de datos para las capacidades de razonamiento matemático en los LLMs modernos está lejos de estar saturada, resaltando cómo la calidad del modelo mejora con el aumento en la cantidad de datos. Para respaldar esta afirmación, presentamos la serie de modelos Skywork-Math, ajustados finamente supervisados (SFT) en LLMs comunes de 7B utilizando nuestro conjunto de datos Skywork-MathQA de 2.5M instancias propuesto. Skywork-Math 7B ha logrado precisión impresionante del 51.2% en el benchmark MATH a nivel de competencia y 83.9% en el benchmark GSM8K utilizando solo datos SFT, superando a una versión temprana de GPT-4 en MATH. El rendimiento superior de los modelos Skywork-Math contribuye a nuestras novedosas tuberías de síntesis de datos en dos etapas y ajuste fino de modelos, que incluyen tres métodos de aumento diferentes y un conjunto diverso de problemas iniciales, asegurando tanto la cantidad como la calidad del conjunto de datos Skywork-MathQA en diferentes niveles de dificultad. Lo más importante, proporcionamos varias lecciones prácticas para mejorar las habilidades de razonamiento matemático en LLMs tanto para aplicaciones de investigación como de la industria.
Hemos avanzado significativamente hacia la construcción de modelos fundamentales de difusión de video. Dado que estos modelos se entrenan utilizando datos no supervisados a gran escala, se ha vuelto crucial adaptar estos modelos a tareas específicas posteriores. La adaptación de estos modelos a través de un ajuste fino supervisado requiere la recopilación de conjuntos de datos objetivo de videos, lo cual es desafiante y tedioso. En este trabajo, utilizamos modelos de recompensa pre-entrenados que se aprenden a través de preferencias sobre potentes modelos discriminativos de visión para adaptar los modelos de difusión de video. Estos modelos contienen información de gradiente densa con respecto a los píxeles RGB generados, lo cual es crítico para un aprendizaje eficiente en espacios de búsqueda complejos, como los videos. Mostramos que retropropagar gradientes desde estos modelos de recompensa a un modelo de difusión de video puede permitir un alineamiento eficiente en términos de cómputo y muestra del modelo de difusión de video. Presentamos resultados a través de una variedad de modelos de recompensa y modelos de difusión de video, demostrando que nuestro enfoque puede aprender de manera mucho más eficiente en términos de consultas de recompensa y cálculo que enfoques previos sin gradientes. Nuestro código, pesos de modelo y más visualizaciones están disponibles en https://vader-vid.github.io.
Aunque la mayoría de los modelos multimodales grandes actuales (LMMs) ya pueden entender fotos de escenas naturales y retratos, su comprensión de imágenes abstractas, como gráficos, mapas o diseños, y sus capacidades de razonamiento visual siguen siendo bastante rudimentarias. A menudo tienen dificultades con tareas simples cotidianas, como leer la hora en un reloj, entender un diagrama de flujo o planificar una ruta utilizando un mapa de carreteras. En vista de esto, diseñamos un autoinstrucción multimodal, utilizando grandes modelos de lenguaje y sus capacidades de código para sintetizar imágenes abstractas masivas e instrucciones de razonamiento visual en escenarios diarios. Nuestra estrategia crea sin esfuerzo un punto de referencia multimodal con 11,193 instrucciones para ocho escenarios visuales: gráficos, tablas, mapas simulados, paneles de control, diagramas de flujo, grafos de relaciones, planos de planta y rompecabezas visuales. Este punto de referencia, construido con líneas simples y elementos geométricos, expone las deficiencias de la mayoría de los LMMs avanzados como Claude-3.5-Sonnet y GPT-4o en la comprensión de imágenes abstractas, el razonamiento de relaciones espaciales y la inducción de elementos visuales. Además, para verificar la calidad de nuestros datos sintéticos, ajustamos finamente un LMM utilizando 62,476 instrucciones sintéticas de gráficos, tablas y mapas de carreteras. Los resultados demuestran una mejor comprensión de gráficos y un rendimiento de navegación en mapas, y también muestran beneficios potenciales para otras tareas de razonamiento visual. Nuestro código está disponible en: https://github.com/zwq2018/Multi-modal-Self-instruct.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han surgido recientemente como un enfoque significativo en el ámbito académico e industrial. A pesar de su eficacia en escenarios multimodales generales, las capacidades de resolución de problemas matemáticos en contextos visuales siguen siendo insuficientemente exploradas. Identificamos tres áreas clave dentro de los MLLMs que necesitan ser mejoradas: la codificación visual de diagramas matemáticos, el alineamiento diagrama-lenguaje y las habilidades de razonamiento matemático. Esto plantea una demanda urgente de datos a gran escala y de alta calidad, así como de tuberías de entrenamiento en matemáticas visuales. En este documento, proponemos MAVIS, el primer paradigma de ajuste de instrucción visual matemática para MLLMs, que implica una serie de conjuntos de datos visuales matemáticos y MLLMs especializados. Dirigiéndonos a los tres problemas, MAVIS consta de tres etapas progresivas de entrenamiento desde cero. En primer lugar, creamos MAVIS-Caption, que consta de 558K pares de diagramas y subtítulos, para ajustar finamente un codificador de visión específico para matemáticas (CLIP-Math) a través de aprendizaje por contraste, diseñado para mejorar la codificación visual de diagramas. En segundo lugar, utilizamos MAVIS-Caption para alinear el CLIP-Math con un modelo de lenguaje de gran escala (LLM) mediante una capa de proyección, mejorando el alineamiento visión-lenguaje en dominios matemáticos. En tercer lugar, introducimos MAVIS-Instruct, que incluye 900K problemas matemáticos visuales meticulosamente recopilados y anotados, los cuales se adoptan para ajustar finalmente la instrucción del MLLM para habilidades de razonamiento matemático robustas. En MAVIS-Instruct, incorporamos razonamientos completos de cadena de pensamiento (CoT) para cada problema, y minimizamos la redundancia textual, concentrando así el modelo hacia los elementos visuales. Los Datos y Modelos se encuentran disponibles en https://github.com/ZrrSkywalker/MAVIS
Entrenar Modelos de Lenguaje Grandes (LLMs) es intensivo en memoria debido al gran número de parámetros y estados de optimización asociados. GaLore, un método reciente, reduce el uso de memoria proyectando los gradientes de peso en un subespacio de rango bajo sin comprometer el rendimiento. Sin embargo, GaLore depende de operaciones de Descomposición de Valores Singulares (SVD) que consumen mucho tiempo para identificar el subespacio, y las frecuentes actualizaciones del subespacio conllevan a un importante sobrecoste en el tiempo de entrenamiento. Además, GaLore ofrece mejoras mínimas en precisión y eficiencia en comparación con LoRA en escenarios de ajuste fino más accesibles. Para abordar estas limitaciones, presentamos Q-Galore, un enfoque novedoso que reduce sustancialmente el uso de memoria combinando cuantización y proyección de rango bajo, superando los beneficios de GaLore. Nuestro método se basa en dos observaciones clave: (i) el subespacio de gradientes exhibe propiedades diversas, con algunas capas convergiendo temprano en el entrenamiento mientras que otras están sujetas a cambios frecuentes; (ii) las matrices de proyección son altamente resistentes a la cuantización de bajo bit. Aprovechando estas percepciones, Q-GaLore actualiza adaptativamente el subespacio de gradientes en función de sus estadísticas de convergencia, logrando un rendimiento comparable mientras reduce significativamente el número de operaciones SVD. Mantenemos las matrices de proyección en formato INT4 y los pesos en formato INT8, incorporando redondeo estocástico para capturar la información acumulada de gradientes. Este enfoque permite una trayectoria de entrenamiento de alta precisión utilizando solo pesos de baja precisión. Demostramos que Q-GaLore logra un rendimiento altamente competitivo con una eficiencia de memoria excepcional. En la pre-entrenamiento, Q-GaLore facilita el entrenamiento de un modelo LLaMA-7B desde cero en una sola NVIDIA RTX 4060 Ti con solo 16 GB de memoria. En el ajuste fino, reduce el consumo de memoria hasta en un 50% en comparación con LoRA y GaLore, superando consistentemente a QLoRA al mismo costo de memoria.
Proponemos una nueva estructura híbrida Mamba-Transformer, denominada MambaVision, diseñada específicamente para aplicaciones de visión. Nuestra contribución principal incluye la reconfiguración de la formulación Mamba para mejorar su capacidad de modelado eficiente de características visuales. Además, realizamos un estudio exhaustivo de ablación sobre la viabilidad de integrar Transformadores de Visión (ViT) con Mamba. Nuestros resultados demuestran que dotar a la arquitectura Mamba con varios bloques de autoatención en las capas finales mejora significativamente la capacidad de modelado para capturar dependencias espaciales de largo alcance. Basándonos en nuestros hallazgos, presentamos una familia de modelos MambaVision con una arquitectura jerárquica para cumplir con diversos criterios de diseño. Para la clasificación de imágenes en el conjunto de datos ImageNet-1K, las variantes del modelo MambaVision logran un nuevo rendimiento de Estado del Arte (SOTA) en términos de precisión Top-1 y rendimiento de imágenes. En tareas posteriores como detección de objetos, segmentación de instancias y segmentación semántica en los conjuntos de datos MS COCO y ADE20K, MambaVision supera a estructuras de tamaño comparable y muestra un rendimiento más favorable. Código: https://github.com/NVlabs/MambaVision.
Un número creciente de aplicaciones dependen de un pequeño conjunto de modelos de lenguaje (LMs) de código cerrado. Esta dependencia podría introducir nuevos riesgos de seguridad si los LMs desarrollan capacidades de auto-reconocimiento. Inspirados en los métodos de verificación de identidad humana, proponemos un enfoque novedoso para evaluar el auto-reconocimiento en LMs utilizando "preguntas de seguridad" generadas por el modelo. Nuestro test puede ser administrado externamente para hacer un seguimiento de los modelos más avanzados, ya que no requiere acceso a los parámetros internos del modelo o a las probabilidades de salida. Utilizamos nuestro test para examinar el auto-reconocimiento en diez de los LMs de código abierto y cerrado más capaces actualmente disponibles públicamente. Nuestros experimentos extensivos no encontraron evidencia empírica de auto-reconocimiento general o consistente en ningún LM examinado. En cambio, nuestros resultados sugieren que, dadas un conjunto de alternativas, los LMs buscan seleccionar la "mejor" respuesta, independientemente de su origen. Además, encontramos indicios de que las preferencias sobre qué modelos producen las mejores respuestas son consistentes entre los LMs. También descubrimos nuevas perspectivas sobre consideraciones de sesgo de posición para los LMs en entornos de elección múltiple.
Con los notables avances en la generación de imágenes y en la generación de texto de formato abierto, la creación de contenido imagen-texto entrelazado se ha convertido en un campo cada vez más intrigante. La generación de historias multimodales, caracterizada por producir textos narrativos e imágenes vívidas de manera entrelazada, ha surgido como una tarea valiosa y práctica con amplias aplicaciones. Sin embargo, esta tarea plantea desafíos significativos, ya que requiere la comprensión de la compleja interacción entre textos e imágenes, y la capacidad de generar secuencias largas de textos y visuales coherentes y contextualmente relevantes. En este trabajo, proponemos SEED-Story, un método novedoso que aprovecha un Modelo de Lenguaje Multimodal Grande (MLLM) para generar historias multimodales extendidas. Nuestro modelo, construido sobre la potente capacidad de comprensión del MLLM, predice tokens de texto, así como tokens visuales, que posteriormente se procesan con un des-tokenizador visual adaptado para producir imágenes con personajes y estilos consistentes. Además, proponemos un mecanismo de atención multimodal para permitir la generación de historias con hasta 25 secuencias (solo 10 para entrenamiento) de manera altamente eficiente y autoregresiva. Asimismo, presentamos un conjunto de datos a gran escala y alta resolución llamado StoryStream para entrenar nuestro modelo y evaluar cuantitativamente la tarea de generación de historias multimodales en diversos aspectos.
La capacidad excepcional de razonamiento matemático es una de las características clave que demuestran el poder de los modelos de lenguaje grandes (LLMs). Cómo definir y evaluar de manera integral las habilidades matemáticas de los LLMs, e incluso reflejar la experiencia del usuario en escenarios del mundo real, ha surgido como un problema crítico. Los benchmarks actuales se centran predominantemente en las capacidades de resolución de problemas, lo que presenta un riesgo sustancial de sobreajuste del modelo y no logra representar con precisión las auténticas habilidades de razonamiento matemático. En este documento, argumentamos que si un modelo realmente comprende un problema, debería poder aplicarse de manera robusta y rápida en una amplia variedad de tareas. Motivados por esto, presentamos MATHCHECK, una lista de verificación bien diseñada para probar la generalización de tareas y la robustez del razonamiento, así como una herramienta automática para generar listas de verificación de manera eficiente. MATHCHECK incluye múltiples tareas de razonamiento matemático y tipos de pruebas de robustez para facilitar una evaluación integral tanto de la habilidad de razonamiento matemático como de las pruebas de comportamiento. Utilizando MATHCHECK, desarrollamos MATHCHECK-GSM y MATHCHECK-GEO para evaluar el razonamiento textual matemático y las capacidades de razonamiento multimodal, respectivamente, sirviendo como versiones mejoradas de benchmarks como GSM8k, GeoQA, UniGeo y Geometry3K. Adoptamos MATHCHECK-GSM y MATHCHECK-GEO para evaluar más de 20 LLMs y 11 MLLMs, evaluando sus habilidades de razonamiento matemático de manera integral. Nuestros resultados demuestran que, si bien los LLMs de vanguardia como GPT-4o continúan destacándose en diversas habilidades en la lista de verificación, muchas otras familias de modelos muestran un declive significativo. Experimentos adicionales indican que, en comparación con los benchmarks matemáticos tradicionales, MATHCHECK refleja mejor las verdaderas habilidades matemáticas y representa de manera más lineal la inteligencia matemática, respaldando así nuestro diseño. Con nuestro MATHCHECK, podemos realizar fácilmente un análisis detallado del comportamiento para investigar a fondo los modelos.
Los Modelos de Lenguaje Multimodales Grandes (MLLMs) existentes enfatizan cada vez más la comprensión compleja de varios elementos visuales, incluidos múltiples objetos, información de texto y relaciones espaciales. Su desarrollo para la percepción visual integral depende de la disponibilidad de conjuntos de datos imagen-texto de alta calidad que ofrezcan diversos elementos visuales y descripciones de imágenes a lo largo. Sin embargo, la escasez de tales conjuntos de datos hiperdetallados actualmente obstaculiza el progreso dentro de la comunidad de MLLM. El cuello de botella se origina en las capacidades perceptivas limitadas de los motores de subtítulos actuales, que no logran proporcionar anotaciones completas y precisas. Para facilitar la investigación de vanguardia de los MLLMs sobre la percepción visual integral, proponemos por lo tanto la Fusión Perceptual, utilizando un motor de subtítulos de bajo presupuesto pero altamente efectivo para descripciones completas y precisas de imágenes. Específicamente, la Fusión Perceptual integra diversos expertos en percepción como priors de imagen para proporcionar información explícita sobre elementos visuales y adopta un MLLM eficiente como pivote central para imitar las habilidades de percepción avanzadas de los MLLMs. Seleccionamos cuidadosamente 1M imágenes altamente representativas del conjunto de datos LAION no curado y generamos descripciones densas utilizando nuestro motor, denominado DenseFusion-1M. Experimentos extensos validan que nuestro motor supera a sus contrapartes, donde el conjunto de datos resultante mejora significativamente las habilidades de percepción y cognición de los MLLMs existentes en diversos benchmarks de visión-lenguaje, especialmente con imágenes de alta resolución como entradas. El conjunto de datos y el código están disponibles públicamente en https://github.com/baaivision/DenseFusion.
Se ha puesto un enfoque significativo en integrar modelos de lenguaje grandes (LLMs, por sus siglas en inglés) con varias herramientas en el desarrollo de agentes de propósito general. Esto plantea un desafío para las capacidades de uso de herramientas de los LLMs. Sin embargo, existen brechas evidentes entre las evaluaciones de uso de herramientas existentes y los escenarios del mundo real. Las evaluaciones actuales a menudo utilizan consultas generadas por IA, tareas de un solo paso, herramientas ficticias e interacciones solo de texto, lo que no logra revelar de manera efectiva las habilidades de resolución de problemas del agente en el mundo real. Para abordar esto, proponemos GTA, un punto de referencia para Agentes de Herramientas Generales, que presenta tres aspectos principales: (i) Consultas de usuarios reales: consultas escritas por humanos con objetivos del mundo real simples pero con uso implícito de herramientas, lo que requiere que el LLM razone sobre las herramientas adecuadas y planifique los pasos de la solución. (ii) Herramientas reales desplegadas: una plataforma de evaluación equipada con herramientas en las categorías de percepción, operación, lógica y creatividad para evaluar el rendimiento real de ejecución de tareas de los agentes. (iii) Entradas multimodales reales: archivos de imagen auténticos, como escenas espaciales, capturas de pantalla de páginas web, tablas, fragmentos de código y materiales impresos/manuscritos, utilizados como contextos de consulta para alinearse estrechamente con escenarios del mundo real. Diseñamos 229 tareas del mundo real y cadenas de herramientas ejecutables para evaluar los LLMs principales. Nuestros hallazgos muestran que las consultas de usuarios del mundo real son desafiantes para los LLMs existentes, con GPT-4 completando menos del 50% de las tareas y la mayoría de los LLMs logrando menos del 25%. Esta evaluación revela los cuellos de botella en las capacidades de uso de herramientas de los LLMs actuales en escenarios del mundo real, lo que proporciona una dirección futura para avanzar en agentes de herramientas de propósito general. El código y el conjunto de datos están disponibles en https://github.com/open-compass/GTA.
Presentamos MELLE, un enfoque novedoso de modelado de lenguaje basado en tokens de valores continuos para la síntesis de texto a voz (TTS). MELLE genera de forma autorregresiva tramas continuas de espectrogramas mel directamente a partir de la condición de texto, evitando la necesidad de cuantificación vectorial, originalmente diseñada para compresión de audio y que sacrifica fidelidad en comparación con los espectrogramas mel. Específicamente, (i) en lugar de la pérdida de entropía cruzada, aplicamos pérdida por regresión con una función de pérdida de flujo de espectrograma propuesta para modelar la distribución de probabilidad de los tokens de valores continuos. (ii) hemos incorporado inferencia variacional en MELLE para facilitar mecanismos de muestreo, mejorando así la diversidad de salidas y la robustez del modelo. Los experimentos demuestran que, en comparación con los modelos de lenguaje de códec de dos etapas VALL-E y sus variantes, el MELLE de una sola etapa mitiga problemas de robustez al evitar las deficiencias inherentes de muestrear códigos discretos, logra un rendimiento superior en múltiples métricas y, lo más importante, ofrece un paradigma más simplificado. Consulte https://aka.ms/melle para demostraciones de nuestro trabajo.
En los últimos años, se ha presenciado un rápido desarrollo de grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Basados en los potentes LLMs, los modelos de lenguaje multi-modales (MLLMs) amplían la modalidad desde el texto a un espectro más amplio de dominios, atrayendo una atención generalizada debido a la amplia gama de escenarios de aplicación. Dado que los LLMs y MLLMs dependen de vastas cantidades de parámetros de modelo y datos para lograr capacidades emergentes, la importancia de los datos está recibiendo una atención y reconocimiento cada vez mayores. Al rastrear y analizar trabajos recientes orientados a los datos para MLLMs, encontramos que el desarrollo de modelos y datos no son dos caminos separados, sino más bien interconectados. Por un lado, datos más vastos y de mayor calidad contribuyen a un mejor rendimiento de los MLLMs, por otro lado, los MLLMs pueden facilitar el desarrollo de datos. La coevolución de datos multi-modales y MLLMs requiere una visión clara de 1) en qué etapa de desarrollo de los MLLMs se pueden emplear enfoques centrados en datos específicos para mejorar qué capacidades, y 2) mediante qué capacidades y desempeñando qué roles pueden los modelos contribuir a los datos multi-modales. Para promover la coevolución de datos y modelos para la comunidad de MLLM, revisamos sistemáticamente los trabajos existentes relacionados con MLLMs desde la perspectiva de coevolución de datos y modelos. Un proyecto mantenido regularmente asociado con esta encuesta está disponible en https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
Las redes neuronales (NN) logran resultados notables en diversas tareas, pero carecen de características clave: interpretabilidad, soporte para características categóricas e implementaciones livianas adecuadas para dispositivos de borde. Si bien los esfuerzos en curso buscan abordar estos desafíos, los Árboles de Impulso de Gradiente (GBT) cumplen inherentemente con estos requisitos. Como resultado, los GBT se han convertido en el método preferido para tareas de aprendizaje supervisado en muchas aplicaciones del mundo real y competiciones. Sin embargo, su aplicación en escenarios de aprendizaje en línea, especialmente en aprendizaje por refuerzo (RL), ha sido limitada. En este trabajo, cerramos esta brecha presentando el Aprendizaje por Refuerzo con Impulso de Gradiente (GBRL), un marco que extiende las ventajas de los GBT al dominio del RL. Utilizando el marco GBRL, implementamos varios algoritmos actor-critic y comparamos su rendimiento con sus contrapartes de NN. Inspirados por las estructuras compartidas en NN, introducimos un enfoque de intercambio de árboles para funciones de política y valor con tasas de aprendizaje distintas, mejorando la eficiencia de aprendizaje a lo largo de millones de interacciones. GBRL logra un rendimiento competitivo en una amplia gama de tareas, destacándose en dominios con características estructuradas o categóricas. Además, presentamos una implementación de alto rendimiento acelerada por GPU que se integra perfectamente con bibliotecas de RL ampliamente utilizadas (disponible en https://github.com/NVlabs/gbrl). GBRL amplía el conjunto de herramientas para los practicantes de RL, demostrando la viabilidad y promesa de los GBT dentro del paradigma de RL, especialmente en dominios caracterizados por características estructuradas o categóricas.
Los Modelos de Lenguaje de Gran Tamaño han demostrado una notable eficacia en la generación de datos en tiempo real, como texto y audio, gracias a su mecanismo de atención temporal unidireccional, que modela las correlaciones entre el token actual y los tokens anteriores. Sin embargo, la transmisión de video sigue siendo mucho menos explorada, a pesar de la creciente necesidad de procesamiento de video en directo. Los modelos de difusión de video de última generación aprovechan la atención temporal bidireccional para modelar las correlaciones entre el fotograma actual y todos los fotogramas circundantes (es decir, incluyendo los futuros), lo que les impide procesar videos en tiempo real. Para abordar este problema, presentamos Live2Diff, el primer intento de diseñar un modelo de difusión de video con atención temporal unidireccional, dirigido específicamente a la traducción de video en directo. En comparación con trabajos anteriores, nuestro enfoque garantiza consistencia y suavidad temporal al correlacionar el fotograma actual con sus predecesores y algunos fotogramas iniciales de calentamiento, sin incluir fotogramas futuros. Además, utilizamos un esquema de reducción de ruido altamente eficiente que cuenta con un mecanismo de caché KV y el encolamiento, para facilitar la traducción de video en tiempo real a velocidades de fotogramas interactivas. Experimentos extensos demuestran la efectividad del mecanismo de atención propuesto y del encolamiento, superando a los métodos anteriores en cuanto a suavidad temporal y/o eficiencia.
La modelización del movimiento es crítica en la Interpolación de Cuadros de Video basada en flujo (VFI). Los paradigmas existentes consideran combinaciones lineales de flujos bidireccionales o predicen directamente flujos bilaterales para marcas de tiempo específicas sin explorar priors de movimiento favorables, careciendo así de la capacidad de modelar efectivamente la dinámica espacio-temporal en videos del mundo real. Para abordar esta limitación, en este estudio, presentamos Modelización de Movimiento Implícito Generalizable (GIMM), un enfoque novedoso y efectivo para la modelización del movimiento en VFI. Específicamente, para habilitar GIMM como un paradigma efectivo de modelización del movimiento, diseñamos un proceso de codificación de movimiento para modelar el movimiento espacio-temporal latente a partir de flujos bidireccionales extraídos de estimadores de flujo pre-entrenados, representando efectivamente priors de movimiento específicos de la entrada. Luego, predecimos implícitamente flujos ópticos de paso de tiempo arbitrario entre dos cuadros de entrada adyacentes a través de una red neuronal adaptativa basada en coordenadas, con coordenadas espacio-temporales y movimiento latente como entradas. Nuestro GIMM puede ser integrado fácilmente con trabajos existentes de VFI basados en flujo sin necesidad de modificaciones adicionales. Mostramos que GIMM tiene un mejor rendimiento que el estado actual de la técnica en los benchmarks de VFI.
Las representaciones de Mapas de Vista Aérea (BEV) desde Arriba hacia Abajo son populares para la navegación de robots terrestres debido a su riqueza y flexibilidad para tareas posteriores. Aunque métodos recientes han demostrado promesa en la predicción de mapas BEV a partir de imágenes de Vista en Primera Persona (FPV), su generalizabilidad está limitada a regiones pequeñas capturadas por conjuntos de datos actuales basados en vehículos autónomos. En este contexto, mostramos que un enfoque más escalable hacia la predicción de mapas generalizables puede lograrse utilizando dos plataformas de mapeo de gran escala generadas por la multitud, Mapillary para imágenes FPV y OpenStreetMap para mapas BEV semánticos. Presentamos Map It Anywhere (MIA), un motor de datos que permite la curación y modelado fluido de datos de predicción de mapas etiquetados de plataformas de mapas de código abierto existentes. Utilizando nuestro motor de datos MIA, demostramos la facilidad de recolectar automáticamente un conjunto de datos de 1.2 millones de pares de imágenes FPV y mapas BEV abarcando geografías diversas, paisajes, factores ambientales, modelos de cámaras y escenarios de captura. Posteriormente, entrenamos un modelo simple de cámara agnóstico en este conjunto de datos para la predicción de mapas BEV. Evaluaciones extensas utilizando benchmarks establecidos y nuestro conjunto de datos muestran que los datos curados por MIA permiten un preentrenamiento efectivo para la predicción generalizable de mapas BEV, con un rendimiento de cero disparos que supera en un 35% a los baselines entrenados en conjuntos de datos existentes. Nuestro análisis resalta la promesa de utilizar mapas públicos a gran escala para desarrollar y probar percepciones BEV generalizables, allanando el camino para una navegación autónoma más robusta.
En este documento de perspectiva, presentamos el concepto de Inteligencia Artificial Generalista Especializada (SGAI o simplemente SGI) como un hito crucial hacia la Inteligencia Artificial General (AGI). En comparación con escalar directamente habilidades generales, SGI se define como IA que se especializa en al menos una tarea, superando a expertos humanos, mientras retiene habilidades generales. Este camino de fusión permite a SGI alcanzar rápidamente áreas de alto valor. Categorizamos SGI en tres etapas basadas en el nivel de dominio sobre habilidades profesionales y rendimiento general. Además, discutimos la necesidad de SGI para abordar problemas asociados con modelos de lenguaje grandes, como su insuficiente generalidad, capacidades especializadas, incertidumbre en la innovación y aplicaciones prácticas. Además, proponemos un marco conceptual para desarrollar SGI que integra las fortalezas del procesamiento cognitivo de Sistemas 1 y 2. Este marco consta de tres capas y cuatro componentes clave, que se centran en mejorar las habilidades individuales y facilitar la evolución colaborativa. Concluimos resumiendo los posibles desafíos y sugiriendo direcciones futuras. Esperamos que el SGI propuesto proporcione ideas para futuras investigaciones y aplicaciones hacia la consecución de AGI.
Si bien el campo de la reconstrucción de escenas 3D está dominado por NeRFs debido a su calidad fotorrealista, recientemente ha surgido el Splatting Gaussiano 3D (3DGS), que ofrece una calidad similar con velocidades de renderización en tiempo real. Sin embargo, ambos métodos destacan principalmente en escenas 3D bien controladas, mientras que los datos en entornos no controlados, caracterizados por oclusiones, objetos dinámicos e iluminación variable, siguen siendo desafiantes. Los NeRFs pueden adaptarse fácilmente a tales condiciones a través de vectores de incrustación por imagen, pero 3DGS tiene dificultades debido a su representación explícita y la falta de parámetros compartidos. Para abordar esto, presentamos WildGaussians, un enfoque novedoso para manejar oclusiones y cambios de apariencia con 3DGS. Al aprovechar las características robustas de DINO e integrar un módulo de modelado de apariencia dentro de 3DGS, nuestro método logra resultados de vanguardia. Demostramos que WildGaussians iguala la velocidad de renderización en tiempo real de 3DGS mientras supera tanto a 3DGS como a NeRF en el manejo de datos en entornos no controlados, todo dentro de un marco arquitectónico simple.
Proponemos OmniNOCS, un conjunto de datos monoculares a gran escala con mapas de Espacio de Coordenadas Normalizadas en 3D (NOCS), máscaras de objetos y anotaciones de cajas delimitadoras en 3D para escenas interiores y exteriores. OmniNOCS tiene 20 veces más clases de objetos y 200 veces más instancias que los conjuntos de datos NOCS existentes (NOCS-Real275, Wild6D). Utilizamos OmniNOCS para entrenar un modelo novedoso de predicción de NOCS monoculares basado en transformadores (NOCSformer) que puede predecir NOCS precisos, máscaras de instancias y poses a partir de detecciones de objetos en 2D de diversas clases. Es el primer modelo de NOCS que puede generalizarse a una amplia gama de clases cuando se le proporcionan cajas en 2D. Evaluamos nuestro modelo en la tarea de predicción de cajas delimitadoras orientadas en 3D, donde logra resultados comparables a métodos de detección en 3D de última generación como Cube R-CNN. A diferencia de otros métodos de detección en 3D, nuestro modelo también proporciona formas y segmentaciones detalladas y precisas de objetos en 3D. Proponemos un nuevo punto de referencia para la tarea de predicción de NOCS basado en OmniNOCS, que esperamos sirva como una línea base útil para trabajos futuros en esta área. Nuestro conjunto de datos y código estarán disponibles en el sitio web del proyecto: https://omninocs.github.io.
La tarea de evaluación estética de imágenes personalizadas busca adaptar modelos de predicción de puntuación estética a las preferencias individuales con solo unos pocos datos proporcionados por el usuario. Sin embargo, la escalabilidad y capacidades de generalización de los enfoques actuales están considerablemente restringidas por su dependencia de una base de datos curada costosa. Para superar este desafío de escalabilidad de larga data, presentamos un enfoque único que aprovecha bases de datos fácilmente disponibles para evaluación estética de imágenes general e evaluación de calidad de imágenes. Específicamente, consideramos cada base de datos como una tarea de regresión de puntuación de imagen distinta que muestra diferentes grados de potencial de personalización. Al determinar combinaciones óptimas de vectores de tarea, conocidos por representar rasgos específicos de cada base de datos, creamos con éxito modelos personalizados para individuos. Este enfoque de integrar múltiples modelos nos permite aprovechar una cantidad sustancial de datos. Nuestros extensos experimentos demuestran la efectividad de nuestro enfoque en generalizar a dominios previamente no vistos, un desafío que los enfoques anteriores han luchado por lograr, lo que lo hace altamente aplicable a escenarios del mundo real. Nuestro enfoque novedoso avanza significativamente en el campo al ofrecer soluciones escalables para evaluación estética personalizada y establecer altos estándares para futuras investigaciones.