Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos SlowFast-LLaVA (o SF-LLaVA para abreviar), un modelo de lenguaje grande para video (LLM) sin entrenamiento que puede capturar conjuntamente la semántica espacial detallada y el contexto temporal a largo plazo sin exceder el presupuesto de tokens de los LLM comúnmente utilizados. Esto se logra mediante el uso de un diseño SlowFast de dos flujos de entrada para LLM de video para agregar características de fotogramas de video muestreados de manera efectiva. Específicamente, el camino lento extrae características a una baja velocidad de cuadros mientras mantiene tantos detalles espaciales como sea posible (por ejemplo, con 24x24 tokens), y el camino rápido opera a una alta velocidad de cuadros pero utiliza una zancada de agrupamiento espacial más grande (por ejemplo, submuestreo 6x) para centrarse en las señales de movimiento. Como resultado, este diseño nos permite capturar adecuadamente características espaciales y temporales que son beneficiosas para comprender detalles a lo largo del video. Los resultados experimentales muestran que SF-LLaVA supera a los métodos existentes sin entrenamiento en una amplia gama de tareas de video. En algunos benchmarks, logra un rendimiento comparable o incluso mejor en comparación con los LLM de video de última generación que se ajustan finamente en conjuntos de datos de video.
Los modelos de lenguaje grandes (LLMs) dirigidos a diferentes escalas y tamaños de implementación actualmente se producen mediante el entrenamiento de cada variante desde cero; esto es extremadamente intensivo en cómputo. En este documento, investigamos si podar un LLM existente y luego volver a entrenarlo con una fracción (<3%) de los datos de entrenamiento originales puede ser una alternativa adecuada al entrenamiento completo repetido. Con este fin, desarrollamos un conjunto de prácticas de compresión prácticas y efectivas para LLMs que combinan la poda de profundidad, ancho, atención y MLP con el reentrenamiento basado en destilación de conocimientos; llegamos a estas mejores prácticas a través de una exploración empírica detallada de estrategias de poda para cada eje, métodos para combinar ejes, estrategias de destilación y técnicas de búsqueda para llegar a arquitecturas comprimidas óptimas. Utilizamos esta guía para comprimir la familia de LLMs Nemotron-4 en un factor de 2-4 veces, y comparamos su rendimiento con modelos de tamaño similar en una variedad de tareas de modelado de lenguaje. Derivar modelos de 8B y 4B a partir de un modelo de 15B ya preentrenado utilizando nuestro enfoque requiere hasta 40 veces menos tokens de entrenamiento por modelo en comparación con el entrenamiento desde cero; esto resulta en ahorros de costos computacionales de 1.8x para el entrenamiento de la familia completa de modelos (15B, 8B y 4B). Los modelos Minitron muestran una mejora de hasta un 16% en las puntuaciones de MMLU en comparación con el entrenamiento desde cero, se desempeñan de manera comparable a otros modelos comunitarios como Mistral 7B, Gemma 7B y Llama-3 8B, y superan a las técnicas de compresión de vanguardia de la literatura. Hemos hecho públicos los pesos del modelo Minitron en Huggingface, con material suplementario correspondiente que incluye código de ejemplo disponible en GitHub.
La enorme escala de los modelos base de vanguardia ha limitado su accesibilidad para los científicos, ya que los experimentos personalizados en modelos grandes requieren hardware costoso y una ingeniería compleja que resulta poco práctica para la mayoría de los investigadores. Para mitigar estos problemas, presentamos NNsight, un paquete de Python de código abierto con una API simple y flexible que puede expresar intervenciones en cualquier modelo de PyTorch mediante la construcción de gráficos de computación. También presentamos NDIF, una plataforma de investigación colaborativa que brinda a los investigadores acceso a LLMs a escala de base a través de la API de NNsight. El código, la documentación y los tutoriales están disponibles en https://www.nnsight.net.
Comprender los mecanismos de conocimiento en Modelos de Lenguaje Grandes (LLMs) es crucial para avanzar hacia una IA general confiable. Este documento revisa el análisis de mecanismos de conocimiento desde una nueva taxonomía que incluye la utilización y evolución del conocimiento. La utilización del conocimiento profundiza en el mecanismo de memorización, comprensión y aplicación, y creación. La evolución del conocimiento se centra en la progresión dinámica del conocimiento dentro de LLMs individuales y de grupo. Además, discutimos qué conocimiento han adquirido los LLMs, las razones de la fragilidad del conocimiento paramétrico y el potencial conocimiento oscuro (hipótesis) que será difícil de abordar. Esperamos que este trabajo pueda ayudar a comprender el conocimiento en LLMs y proporcionar ideas para investigaciones futuras.
Los modelos multimodales grandes (LMMs) tienen un gran potencial en diversos ámbitos, desde la asistencia personal en tareas diarias hasta aplicaciones sofisticadas como el diagnóstico médico. Sin embargo, sus capacidades presentan limitaciones en el ámbito de los videojuegos, como desafíos con la comprensión de escenas, alucinaciones y descripciones inexactas del contenido de los videojuegos, especialmente en modelos de código abierto. Este artículo describe el desarrollo de VideoGameBunny, un modelo de estilo LLaVA basado en Bunny, específicamente diseñado para comprender imágenes de videojuegos. Publicamos puntos de control intermedios, registros de entrenamiento y un extenso conjunto de datos que incluye 185,259 imágenes de videojuegos de 413 títulos, junto con 389,565 pares imagen-instrucción que incluyen leyendas de imágenes, pares de preguntas y respuestas, y una representación JSON de 16 elementos de 136,974 imágenes. Nuestros experimentos muestran que nuestros datos de alta calidad relacionados con videojuegos tienen el potencial de hacer que un modelo relativamente pequeño supere al modelo de última generación mucho más grande LLaVa-1.6-34b (que tiene más de 4 veces el número de parámetros). Nuestro estudio allana el camino para futuras investigaciones en la comprensión de videojuegos en tareas como jugar, comentar y depurar. El código y los datos están disponibles en https://videogamebunny.github.io/
El aprendizaje por refuerzo multiagente (MARL) ha destacado recientemente en la resolución de desafiantes problemas cooperativos y competitivos de múltiples agentes en diversos entornos, principalmente con pocos agentes y observabilidad completa. Además, una variedad de tareas cruciales relacionadas con la robótica, como la navegación y evasión de obstáculos de múltiples robots, que tradicionalmente se abordaban con métodos no aprendibles clásicos (por ejemplo, búsqueda heurística), actualmente se sugiere que se resuelvan mediante métodos basados en el aprendizaje o híbridos. Sin embargo, en este ámbito, es difícil, por no decir imposible, realizar una comparación justa entre enfoques clásicos, basados en el aprendizaje y híbridos debido a la falta de un marco unificado que admita tanto el aprendizaje como la evaluación. Con este fin, presentamos POGEMA, un conjunto de herramientas completo que incluye un entorno rápido para el aprendizaje, un generador de instancias de problemas, la colección de instancias predefinidas, un kit de visualización y una herramienta de evaluación que permite la evaluación automatizada. Introducimos y especificamos un protocolo de evaluación que define una variedad de métricas relacionadas con el dominio, calculadas sobre la base de los indicadores de evaluación principales (como la tasa de éxito y la longitud del camino), lo que permite una comparación justa y múltiple. Se presentan los resultados de dicha comparación, que involucra una variedad de métodos MARL, basados en búsqueda y híbridos de última generación.
Los modelos multimodales grandes (LMMs) están procesando entradas cada vez más largas y ricas. A pesar del progreso, hay pocos benchmarks públicos disponibles para medir dicho desarrollo. Para mitigar esta brecha, presentamos LongVideoBench, un benchmark de preguntas y respuestas que incluye entradas entrelazadas de video-idioma de hasta una hora de duración. Nuestro benchmark incluye 3,763 videos de longitud variable recopilados de la web con sus subtítulos en diversos temas, diseñados para evaluar de manera integral a los LMMs en la comprensión multimodal a largo plazo. Para lograr esto, interpretamos el desafío principal como recuperar y razonar con precisión sobre información multimodal detallada de entradas largas. Como tal, formulamos una nueva tarea de preguntas y respuestas de video denominada razonamiento referencial. Específicamente, como parte de la pregunta, contiene una consulta referencial que hace referencia a contextos de video relacionados, llamados contexto referido. Luego, se requiere que el modelo razona sobre detalles relevantes del video del contexto referido. Siguiendo el paradigma del razonamiento referencial, curamos 6,678 preguntas de opción múltiple anotadas por humanos en 17 categorías detalladas, estableciendo uno de los benchmarks más completos para la comprensión de videos de formato largo. Las evaluaciones sugieren que LongVideoBench presenta desafíos significativos incluso para los modelos propietarios más avanzados (por ejemplo, GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), mientras que sus contrapartes de código abierto muestran una brecha de rendimiento aún mayor. Además, nuestros resultados indican que el rendimiento del modelo en el benchmark mejora solo cuando son capaces de procesar más fotogramas, posicionando a LongVideoBench como un benchmark valioso para evaluar LMMs de contexto largo de próxima generación.
El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es un impulsor clave de la calidad y la seguridad en los modelos de lenguaje grandes de última generación. Sin embargo, una estrategia sorprendentemente simple y sólida en tiempo de inferencia es la selección de la Mejor de N muestras que elige la mejor generación entre N candidatos. En este documento, proponemos Destilación Mejor-de-N (BOND), un algoritmo novedoso de RLHF que busca emular Mejor-de-N pero sin su significativo costo computacional en tiempo de inferencia. Específicamente, BOND es un algoritmo de emparejamiento de distribuciones que obliga a la distribución de generaciones de la política a acercarse a la distribución Mejor-de-N. Utilizamos la divergencia de Jeffreys (una combinación lineal de KL directa e inversa) para equilibrar entre la cobertura de modo y el comportamiento de búsqueda de modo, y derivamos una formulación iterativa que utiliza un anclaje móvil para eficiencia. Demostramos la efectividad de nuestro enfoque y varias elecciones de diseño a través de experimentos en resumen abtractivo y modelos Gemma. Alinear las políticas de Gemma con BOND supera a otros algoritmos de RLHF al mejorar los resultados en varios benchmarks.
Aunque los Campos de Radiancia Neurales (NeRFs) han demostrado una calidad excepcional, su prolongada duración de entrenamiento sigue siendo una limitación. Los NeRFs generalizables basados en MVS, aunque capaces de mitigar el tiempo de entrenamiento, a menudo incurren en compensaciones en calidad. Este artículo presenta un enfoque novedoso llamado BoostMVSNeRFs para mejorar la calidad de renderizado de NeRFs basados en MVS en escenas a gran escala. Identificamos primero limitaciones en los métodos de NeRF basados en MVS, como la cobertura restringida del viewport y artefactos debido a vistas de entrada limitadas. Luego, abordamos estas limitaciones proponiendo un nuevo método que selecciona y combina múltiples volúmenes de coste durante el renderizado de volumen. Nuestro método no requiere entrenamiento y puede adaptarse a cualquier método de NeRF basado en MVS de manera feed-forward para mejorar la calidad de renderizado. Además, nuestro enfoque también es entrenable de extremo a extremo, permitiendo el ajuste fino en escenas específicas. Demostramos la efectividad de nuestro método a través de experimentos en conjuntos de datos a gran escala, mostrando mejoras significativas en la calidad de renderizado en escenas a gran escala y escenarios exteriores ilimitados. Publicamos el código fuente de BoostMVSNeRFs en https://su-terry.github.io/BoostMVSNeRFs/.
Los modelos de difusión entrelazan la generación de contenido y estilo durante el proceso de eliminación de ruido, lo que conduce a modificaciones no deseadas en el contenido cuando se aplican directamente a tareas de estilización. Los métodos existentes luchan por controlar efectivamente el modelo de difusión para cumplir con los requisitos a nivel estético para la estilización. En este documento, presentamos Artist, un enfoque sin entrenamiento que controla estéticamente la generación de contenido y estilo de un modelo de difusión preentrenado para estilización impulsada por texto. Nuestra idea clave es desentrañar la eliminación de ruido del contenido y estilo en procesos de difusión separados mientras comparten información entre ellos. Proponemos métodos de control de contenido y estilo simples pero efectivos que suprimen la generación de contenido irrelevante para el estilo, lo que resulta en resultados de estilización armoniosos. Experimentos extensos demuestran que nuestro método sobresale en alcanzar los requisitos de estilización a nivel estético, preservando detalles intrincados en la imagen de contenido y alineándose bien con la indicación de estilo. Además, mostramos la alta capacidad de control de la intensidad de estilización desde diversas perspectivas. El código será publicado, página principal del proyecto: https://DiffusionArtist.github.io
A pesar de que los modelos de Coincidencia de Flujo y de difusión han surgido como paradigmas generativos potentes para variables continuas como imágenes y videos, su aplicación a datos discretos de alta dimensión, como el lenguaje, sigue siendo limitada. En este trabajo, presentamos Coincidencia de Flujo Discreto, un novedoso paradigma de flujo discreto diseñado específicamente para generar datos discretos. Coincidencia de Flujo Discreto ofrece varias contribuciones clave: (i) trabaja con una familia general de trayectorias de probabilidad que interpolan entre distribuciones fuente y objetivo; (ii) permite una fórmula genérica para muestrear de estas trayectorias de probabilidad utilizando posteriores aprendidos como el desenredador de probabilidad (predicción-x) y la predicción de ruido (predicción-epsilon); (iii) en la práctica, enfocarse en trayectorias de probabilidad específicas definidas con diferentes programadores mejora considerablemente la perplejidad generativa en comparación con modelos de difusión y flujo discretos anteriores; y (iv) al escalar los modelos de Coincidencia de Flujo Discreto hasta 1.7B parámetros, alcanzamos 6.7% Pass@1 y 13.4% Pass@10 en HumanEval y 6.7% Pass@1 y 20.6% Pass@10 en los puntos de referencia de codificación MBPP de 1 disparo. Nuestro enfoque es capaz de generar datos discretos de alta calidad de manera no autoregresiva, cerrando significativamente la brecha entre modelos autoregresivos y modelos de flujo discreto.
La generación de escenas en 3D tiene una alta demanda en diversos ámbitos, incluyendo la realidad virtual, los videojuegos y la industria cinematográfica. Gracias a las potentes capacidades generativas de los modelos de difusión de texto a imagen que proporcionan priors confiables, la creación de escenas en 3D utilizando solo indicaciones de texto se ha vuelto viable, avanzando significativamente en las investigaciones sobre la generación de escenas en 3D impulsadas por texto. Para obtener supervisión de múltiples vistas a partir de modelos de difusión en 2D, los métodos predominantes suelen emplear el modelo de difusión para generar una imagen local inicial, seguida de la generación iterativa de la imagen local utilizando modelos de difusión para generar gradualmente escenas. Sin embargo, estos enfoques basados en la expansión propensos a producir resultados de generación de escenas globalmente inconsistentes sin un alto grado de completitud, lo que restringe sus aplicaciones más amplias. Para abordar estos problemas, presentamos HoloDreamer, un marco que primero genera un panorama de alta definición como una inicialización holística de la escena en 3D completa, y luego aprovecha el Splatting Gaussiano en 3D (3D-GS) para reconstruir rápidamente la escena en 3D, facilitando así la creación de escenas en 3D consistentes visualmente y completamente cerradas. Específicamente, proponemos la Generación de Panorama Estilizado Equirectangular, un proceso que combina múltiples modelos de difusión para permitir la generación de panoramas equirectangulares estilizados y detallados a partir de indicaciones de texto complejas. Posteriormente, se introduce la Reconstrucción de Panorama de Dos Etapas Mejorada, realizando una optimización de dos etapas de 3D-GS para rellenar la región faltante y mejorar la integridad de la escena. Experimentos exhaustivos demostraron que nuestro método supera a trabajos previos en cuanto a consistencia visual general, armonía, calidad de reconstrucción y robustez de renderizado al generar escenas completamente cerradas.
Los sistemas de inteligencia artificial (IA) de propósito general se construyen sobre vastas extensiones de datos web públicos, ensamblados en corpora como C4, RefinedWeb y Dolma. Hasta donde sabemos, realizamos la primera auditoría a gran escala y longitudinal de los protocolos de consentimiento para los dominios web subyacentes a los corpora de entrenamiento de IA. Nuestra auditoría de 14,000 dominios web proporciona una visión amplia de los datos web rastreables y cómo están evolucionando con el tiempo las preferencias de consentimiento para su uso. Observamos una proliferación de cláusulas específicas de IA para limitar su uso, diferencias agudas en las restricciones para los desarrolladores de IA, así como inconsistencias generales entre las intenciones expresadas en los Términos de Servicio de los sitios web y sus archivos robots.txt. Diagnosticamos estos como síntomas de protocolos web ineficaces, no diseñados para hacer frente al uso generalizado de internet para la IA. Nuestros análisis longitudinales muestran que en un solo año (2023-2024) ha habido un rápido aumento de las restricciones de datos de fuentes web, lo que hace que aproximadamente un 5%+ de todos los tokens en C4, o más del 28% de las fuentes críticas más activamente mantenidas en C4, estén completamente restringidos para su uso. En cuanto a las restricciones de rastreo de los Términos de Servicio, un total del 45% de C4 está ahora restringido. Si se respetan o se hacen cumplir, estas restricciones están sesgando rápidamente la diversidad, frescura y leyes de escalado para los sistemas de IA de propósito general. Esperamos ilustrar la crisis emergente en el consentimiento de datos, cerrando gran parte del internet abierto, no solo para la IA comercial, sino también para la IA no comercial y los propósitos académicos.
Los modelos de difusión han logrado un gran avance en la animación de imágenes debido a sus potentes capacidades generativas. Sin embargo, mantener la consistencia espacio-temporal con información detallada de la imagen estática de entrada a lo largo del tiempo (por ejemplo, estilo, fondo y objeto de la imagen estática de entrada) y garantizar la suavidad en las narrativas de video animadas guiadas por indicaciones textuales sigue siendo un desafío. En este documento, presentamos Cinemo, un enfoque novedoso de animación de imágenes que busca lograr una mejor controlabilidad del movimiento, así como una mayor consistencia temporal y suavidad. En general, proponemos tres estrategias efectivas en las etapas de entrenamiento e inferencia de Cinemo para alcanzar nuestro objetivo. En la etapa de entrenamiento, Cinemo se enfoca en aprender la distribución de residuos de movimiento, en lugar de predecir directamente lo siguiente a través de un modelo de difusión de movimiento. Además, se propone una estrategia basada en el índice de similitud estructural para permitir que Cinemo tenga una mejor controlabilidad de la intensidad del movimiento. En la etapa de inferencia, se introduce una técnica de refinamiento de ruido basada en la transformación discreta del coseno para mitigar cambios repentinos de movimiento. Estas tres estrategias permiten que Cinemo produzca resultados altamente consistentes, suaves y controlables en términos de movimiento. En comparación con métodos anteriores, Cinemo ofrece una controlabilidad del usuario más simple y precisa. Experimentos extensos contra varios métodos de vanguardia, incluyendo herramientas comerciales y enfoques de investigación, a través de múltiples métricas, demuestran la efectividad y superioridad de nuestro enfoque propuesto.
El ajuste fino basado en recompensas es crucial para alinear las políticas de lenguaje con los comportamientos deseados (por ejemplo, creatividad y seguridad). Un desafío clave aquí es desarrollar modelos de lenguaje direccionables que equilibren múltiples objetivos (conflictivos) de manera flexible y eficiente. Este documento presenta la Política de Lenguaje Condicionada (PLC), un marco general para ajustar finamente modelos de lenguaje en múltiples objetivos. Basándose en técnicas de entrenamiento multi-tarea y ajuste fino eficiente de parámetros, la PLC puede aprender modelos direccionables que intercambian objetivos conflictivos de manera efectiva en el momento de la inferencia. Es importante destacar que esto no requiere entrenar o mantener múltiples modelos para lograr diferentes equilibrios entre los objetivos. A través de un extenso conjunto de experimentos y abstracciones, mostramos que el marco de PLC aprende modelos direccionables que superan y dominan en la frontera de Pareto a los enfoques actuales más avanzados para el ajuste fino multi-objetivo.
Basados en el poder de los Modelos de Lenguaje Multimodales (MLMs), numerosos modelos de lenguaje multimodales grandes (MLLMs) han logrado recientemente un rendimiento notable en diversas tareas de visión y lenguaje en múltiples puntos de referencia. Sin embargo, la mayoría de los MLLMs y puntos de referencia existentes se centran principalmente en escenarios de entrada de una sola imagen, dejando sin explorar el rendimiento de los MLLMs al manejar múltiples imágenes realistas. Aunque algunos puntos de referencia consideran múltiples imágenes, sus dimensiones de evaluación y muestras son muy limitadas. Por lo tanto, en este documento, proponemos un nuevo punto de referencia, MIBench, para evaluar exhaustivamente las habilidades detalladas de los MLLMs en escenarios de múltiples imágenes. Específicamente, MIBench categoriza las habilidades de múltiples imágenes en tres escenarios: instrucción de múltiples imágenes (MII), búsqueda de conocimiento multimodal (MKS) y aprendizaje multimodal en contexto (MIC), y construye 13 tareas con un total de 13 mil muestras anotadas. Durante la construcción de datos, para MII y MKS, extraemos opciones correctas de anotaciones manuales y creamos distracciones desafiantes para obtener preguntas de opción múltiple. Para MIC, para permitir una evaluación profunda, establecemos cuatro sub-tareas y transformamos los conjuntos de datos originales en formatos de aprendizaje en contexto. Evaluamos varios MLLMs de código abierto y de código cerrado en el MIBench propuesto. Los resultados revelan que aunque los modelos actuales sobresalen en tareas de una sola imagen, muestran deficiencias significativas cuando se enfrentan a entradas de múltiples imágenes, como percepción detallada confusa, razonamiento limitado de múltiples imágenes y aprendizaje inestable en contexto. Los datos anotados en MIBench están disponibles en https://huggingface.co/datasets/StarBottle/MIBench.
Los agentes de lenguaje, construidos sobre modelos de lenguaje (LMs), son sistemas que pueden interactuar con entornos complejos, como la web abierta. En este trabajo, examinamos si dichos agentes pueden llevar a cabo tareas realistas y que consumen tiempo en la web, por ejemplo, monitorear mercados inmobiliarios o localizar negocios relevantes cercanos. Presentamos AssistantBench, un nuevo y desafiante banco de pruebas que consta de 214 tareas realistas que pueden ser evaluadas automáticamente, abarcando diferentes escenarios y dominios. Descubrimos que AssistantBench expone las limitaciones de los sistemas actuales, incluidos los modelos de lenguaje y los modelos de lenguaje aumentados con recuperación, ya que ningún modelo alcanza una precisión de más de 25 puntos. Si bien los LMs de libro cerrado tienen un buen desempeño, muestran una baja precisión ya que tienden a alucinar hechos. Los agentes web de vanguardia alcanzan una puntuación cercana a cero. Además, presentamos SeePlanAct (SPA), un nuevo agente web que supera significativamente a los agentes anteriores, y un conjunto de SPA y modelos de libro cerrado alcanza el mejor rendimiento general. Además, analizamos los fallos de los sistemas actuales y destacamos que la navegación web sigue siendo un desafío importante.
Los modelos existentes de texto a música pueden producir audio de alta calidad con gran diversidad. Sin embargo, las indicaciones textuales por sí solas no pueden controlar con precisión las características musicales temporales como acordes y ritmo de la música generada. Para abordar este desafío, presentamos MusiConGen, un modelo de texto a música basado en Transformer condicionado temporalmente que se basa en el marco preentrenado de MusicGen. Nuestra innovación radica en un mecanismo eficiente de ajuste fino, diseñado para GPUs de consumo, que integra ritmo y acordes extraídos automáticamente como señal de condición. Durante la inferencia, la condición puede ser características musicales extraídas de una señal de audio de referencia, o una secuencia de acordes simbólicos definida por el usuario, BPM e indicaciones textuales. Nuestra evaluación de rendimiento en dos conjuntos de datos -- uno derivado de características extraídas y otro de entradas creadas por el usuario -- demuestra que MusiConGen puede generar pistas de acompañamiento realistas que se ajustan bien a las condiciones especificadas. Publicamos el código y los puntos de control del modelo en código abierto y proporcionamos ejemplos de audio en línea, https://musicongen.github.io/musicongen_demo/.
Presentamos LocoTrack, un modelo altamente preciso y eficiente diseñado para la tarea de rastrear cualquier punto (TAP) a lo largo de secuencias de video. Enfoques anteriores en esta tarea a menudo se basan en mapas de correlación 2D locales para establecer correspondencias desde un punto en la imagen de consulta hasta una región local en la imagen objetivo, lo que a menudo tiene dificultades con regiones homogéneas o características repetitivas, lo que conduce a ambigüedades en la coincidencia. LocoTrack supera este desafío con un enfoque novedoso que utiliza correspondencias de todos los pares a través de regiones, es decir, correlación 4D local, para establecer correspondencias precisas, con correspondencia bidireccional y suavidad de coincidencia que mejoran significativamente la robustez contra ambigüedades. También incorporamos un codificador de correlación liviano para mejorar la eficiencia computacional, y una arquitectura compacta de Transformer para integrar información temporal a largo plazo. LocoTrack logra una precisión inigualable en todos los benchmarks de TAP-Vid y opera a una velocidad casi 6 veces más rápida que el estado del arte actual.
La generación de diseño es la tarea fundamental del diseño inteligente, que requiere la integración de la estética visual y la expresión armoniosa de la entrega de contenido. Sin embargo, los métodos existentes todavía enfrentan desafíos en la generación de diseños precisos y visualmente atractivos, incluyendo bloqueos, superposiciones o desalineaciones espaciales entre diseños, que están estrechamente relacionados con la estructura espacial de los diseños gráficos. Observamos que estos métodos se centran excesivamente en la información del contenido y carecen de restricciones en la estructura espacial del diseño, lo que resulta en un desequilibrio en el aprendizaje de características conscientes del contenido y conscientes de la gráfica. Para abordar este problema, proponemos la Generación de Diseño con Equilibrio de Contenido y Gráficos con Modelo de Difusión basado en Transformadores (CGB-DM). Específicamente, primero diseñamos un regulador que equilibra el peso del contenido y gráfico predicho, superando la tendencia de prestar más atención al contenido en el lienzo. En segundo lugar, introducimos una restricción gráfica de cuadro delimitador de prominencia para mejorar aún más la alineación de características geométricas entre las representaciones de diseño e imágenes. Además, adaptamos un modelo de difusión basado en transformadores como la columna vertebral, cuya potente capacidad de generación garantiza la calidad en la generación de diseños. Los extensos resultados experimentales indican que nuestro método ha logrado un rendimiento de vanguardia tanto en evaluaciones cuantitativas como cualitativas. Nuestro marco de modelo también puede expandirse a otros campos de diseño gráfico.
La termografía tiene una variedad de aplicaciones, desde el monitoreo agrícola hasta la inspección de edificios y la imagen en condiciones de visibilidad reducida, como en condiciones de poca luz, niebla y lluvia. Sin embargo, la reconstrucción de escenas térmicas en 3D presenta varios desafíos debido a la resolución comparativamente más baja y a las características limitadas presentes en las imágenes de infrarrojo de onda larga (LWIR). Para superar estos desafíos, proponemos un marco unificado para la reconstrucción de escenas a partir de un conjunto de imágenes LWIR y RGB, utilizando un campo de radiancia multiespectral para representar una escena vista por cámaras visibles e infrarrojas, aprovechando así la información a lo largo de ambos espectros. Calibramos las cámaras RGB e infrarrojas entre sí, como paso de preprocesamiento utilizando un sencillo objetivo de calibración. Demostramos nuestro método en conjuntos de fotografías RGB y LWIR del mundo real capturadas desde una cámara térmica portátil, mostrando la efectividad de nuestro método en la representación de escenas a lo largo de los espectros visible e infrarrojo. Mostramos que nuestro método es capaz de superresolución térmica, así como de eliminar visualmente obstáculos para revelar objetos que están ocultos en los canales RGB o térmico. Consulte https://yvette256.github.io/thermalnerf para ver los resultados en video, así como nuestro código y la liberación del conjunto de datos.
Introducimos los Jacobianos Residuales Temporales como una representación novedosa para habilitar la transferencia de movimiento basada en datos. Nuestro enfoque no asume acceso a ningún esqueleto o fotogramas clave de forma intermedia, produce movimientos geométrica y temporalmente consistentes, y puede ser utilizado para transferir secuencias de movimiento largas. Central en nuestro enfoque están dos redes neuronales acopladas que predicen individualmente cambios geométricos y temporales locales que posteriormente se integran, espacial y temporalmente, para producir las mallas animadas finales. Las dos redes son entrenadas conjuntamente, se complementan entre sí en la producción de señales espaciales y temporales, y son supervisadas directamente con información posicional en 3D. Durante la inferencia, en ausencia de fotogramas clave, nuestro método resuelve esencialmente un problema de extrapolación de movimiento. Probamos nuestra configuración en mallas diversas (formas sintéticas y escaneadas) para demostrar su superioridad en generar animaciones realistas y de aspecto natural en formas corporales no vistas en comparación con alternativas de estado del arte. Un video complementario y el código están disponibles en https://temporaljacobians.github.io/.
Este artículo presenta GET-Zero, una arquitectura de modelo y procedimiento de entrenamiento para aprender una política de control consciente de la incorporación que puede adaptarse inmediatamente a cambios de hardware sin necesidad de volver a entrenar. Para lograrlo, presentamos el Transformador de Incorporación de Grafos (GET), un modelo transformer que aprovecha la conectividad del grafo de incorporación como un sesgo estructural aprendido en el mecanismo de atención. Utilizamos clonación de comportamiento para destilar datos de demostración de políticas expertas específicas de la incorporación en un modelo GET consciente de la incorporación que se condiciona a la configuración de hardware del robot para tomar decisiones de control. Realizamos un estudio de caso en una tarea de rotación de objetos hábilmente en la mano utilizando diferentes configuraciones de una mano robótica de cuatro dedos con articulaciones eliminadas y extensiones de longitud de enlace. El uso del modelo GET junto con una pérdida de auto-modelado permite a GET-Zero generalizar de forma directa a variaciones no vistas en la estructura del grafo y la longitud del enlace, lo que resulta en una mejora del 20% sobre los métodos base. Todo el código y los resultados cualitativos en video se encuentran en https://get-zero-paper.github.io
Los avances recientes en Modelos Multimodales Grandes (LMMs) han logrado un progreso significativo en el campo de la respuesta visual a preguntas de una sola imagen. Sin embargo, estos modelos enfrentan desafíos sustanciales al enfrentarse a consultas que abarcan extensas colecciones de imágenes, similares a escenarios del mundo real como buscar en grandes álbumes de fotos, encontrar información específica en internet o monitorear cambios ambientales a través de imágenes satelitales. Este documento explora la tarea de Respuesta a Preguntas Visuales de Múltiples Imágenes (MIQA): dada una gran cantidad de imágenes y una consulta en lenguaje natural, la tarea consiste en generar una respuesta relevante y fundamentada. Proponemos un nuevo punto de referencia público, denominado "Montones Visuales (VHs)", diseñado específicamente para evaluar las capacidades de los LMMs en la recuperación visual y el razonamiento sobre conjuntos de imágenes no relacionadas, donde realizamos evaluaciones exhaustivas que demuestran que incluso los modelos robustos de código cerrado tienen dificultades significativas. Para abordar estas deficiencias, presentamos MIRAGE (Generación Aumentada de Recuperación de Múltiples Imágenes), un marco de trabajo de recuperación/QA novedoso diseñado para LMMs que enfrenta los desafíos de MIQA con mejoras marcadas en eficiencia y precisión sobre los métodos base. Nuestra evaluación muestra que MIRAGE supera a los modelos GPT-4o de código cerrado hasta en un 11% en el punto de referencia VHs y ofrece mejoras de hasta 3.4 veces en eficiencia sobre enfoques multi-etapa centrados en texto.