Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos multimodales más avanzados de hoy en día siguen siendo propietarios. Los modelos de peso abierto más sólidos dependen en gran medida de datos sintéticos de VLMs propietarios para lograr un buen rendimiento, destilando eficazmente estos modelos cerrados en modelos abiertos. Como resultado, la comunidad todavía carece de conocimientos fundamentales sobre cómo construir VLMs eficientes desde cero. Presentamos Molmo, una nueva familia de VLMs que son de última generación en su clase de apertura. Nuestra innovación clave es un nuevo conjunto de datos de subtítulos de imágenes altamente detallado recopilado completamente por anotadores humanos utilizando descripciones basadas en voz. Para permitir una amplia gama de interacciones de usuario, también introducimos una mezcla diversa de conjuntos de datos para el ajuste fino que incluye preguntas y respuestas en entornos naturales y datos innovadores de punteo 2D. El éxito de nuestro enfoque se basa en elecciones cuidadosas para los detalles de la arquitectura del modelo, un proceso de entrenamiento bien ajustado y, lo más crítico, la calidad de nuestros conjuntos de datos recién recopilados, todos los cuales serán publicados. El modelo de 72B de primera clase dentro de la familia Molmo no solo supera a otros en la clase de modelos abiertos de peso y datos, sino que también se compara favorablemente con sistemas propietarios como GPT-4o, Claude 3.5 y Gemini 1.5 tanto en pruebas académicas como en evaluaciones humanas. Próximamente publicaremos todos los pesos de nuestro modelo, datos de subtítulos y ajuste fino, y código fuente. Algunos pesos de modelo seleccionados, código de inferencia y demostración están disponibles en https://molmo.allenai.org.
El pre-entrenamiento de modelos de lenguaje a gran escala ha dependido tradicionalmente de expertos humanos para diseñar heurísticas que mejoren la calidad de los corpus, lo que ha dado lugar a numerosas reglas desarrolladas hasta la fecha. Sin embargo, estas reglas carecen de la flexibilidad necesaria para abordar eficazmente las características únicas de cada ejemplo individual. Mientras tanto, aplicar reglas personalizadas a cada ejemplo resulta impracticable para los expertos humanos. En este documento, demostramos que incluso modelos de lenguaje pequeños, con tan solo 0.3 mil millones de parámetros, pueden mostrar capacidades sustanciales de refinamiento de datos comparables a las de expertos humanos. Presentamos Programming Every Example (ProX), un nuevo marco que trata el refinamiento de datos como una tarea de programación, lo que permite a los modelos refinar corpus generando y ejecutando operaciones detalladas, como normalización de cadenas, para cada ejemplo individual a gran escala. Los resultados experimentales muestran que los modelos pre-entrenados con datos curados por ProX superan en rendimiento tanto a los datos originales como a los datos filtrados por otros métodos de selección en más del 2% en diversas pruebas posteriores. Su efectividad abarca diferentes tamaños de modelos y corpus de pre-entrenamiento, incluidos C4, RedPajama-V2 y FineWeb. Además, ProX muestra un potencial significativo en el pre-entrenamiento continuo específico de dominio: sin un diseño específico del dominio, los modelos entrenados en OpenWebMath y refinados por ProX superan a los métodos basados en reglas creadas por humanos, mejorando la precisión promedio en un 7.6% en comparación con Mistral-7B, con un 14.6% para Llama-2-7B y un 20.3% para CodeLlama-7B, todo dentro de los 10 mil millones de tokens para ser comparables con modelos como Llemma-7B entrenados en 200 mil millones de tokens. Un análisis adicional destaca que ProX ahorra significativamente FLOPs de entrenamiento, ofreciendo un camino prometedor para el pre-entrenamiento eficiente de LLM. Estamos compartiendo ProX como código abierto con un corpus de más de 100 mil millones, modelos y compartiendo todos los detalles de entrenamiento e implementación para investigación reproducible e innovación futura. Código: https://github.com/GAIR-NLP/ProX
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado capacidades notables en el procesamiento del lenguaje natural, sin embargo, sus inexactitudes factuales y alucinaciones limitan su aplicación, especialmente en dominios críticos como la atención médica. Los métodos de recuperación de contexto, al introducir información relevante como entrada, han surgido como un enfoque crucial para mejorar la veracidad y confiabilidad de los LLMs. Este estudio explora los límites de los métodos de recuperación de contexto dentro del ámbito de la atención médica, optimizando sus componentes y comparando su rendimiento con alternativas abiertas y cerradas. Nuestros hallazgos revelan cómo los LLMs abiertos, cuando se complementan con un sistema de recuperación optimizado, pueden lograr un rendimiento comparable a las mayores soluciones privadas en benchmarks de atención médica establecidos (respuesta a preguntas de opción múltiple). Reconociendo la falta de realismo al incluir las posibles respuestas dentro de la pregunta (una configuración que solo se encuentra en exámenes médicos), y después de evaluar una fuerte degradación en el rendimiento de un LLM en ausencia de esas opciones, ampliamos el sistema de recuperación de contexto en esa dirección. En particular, proponemos OpenMedPrompt, un proceso que mejora la generación de respuestas abiertas más confiables, acercando esta tecnología a una aplicación práctica.
Aprovechando modelos de difusión 2D preentrenados y muestreo de destilación de puntajes (SDS), métodos recientes han mostrado resultados prometedores para la generación de avatares 3D a partir de texto. Sin embargo, generar avatares 3D de alta calidad capaces de animación expresiva sigue siendo un desafío. En este trabajo, presentamos DreamWaltz-G, un nuevo marco de aprendizaje para la generación de avatares 3D animables a partir de texto. El núcleo de este marco radica en la Destilación de Puntajes Guiada por Esqueleto y la representación híbrida de Avatar Gaussiano 3D. Específicamente, la destilación de puntajes guiada por esqueleto propuesta integra controles de esqueleto de plantillas humanas 3D en modelos de difusión 2D, mejorando la consistencia de la supervisión de SDS en términos de vista y postura humana. Esto facilita la generación de avatares de alta calidad, mitigando problemas como múltiples caras, miembros adicionales y borrosidad. La representación de avatar gaussiano 3D híbrido propuesta se basa en los eficientes gaussianos 3D, combinando campos implícitos neuronales y mallas 3D parametrizadas para permitir renderizado en tiempo real, optimización estable de SDS y animación expresiva. Experimentos extensos demuestran que DreamWaltz-G es altamente efectivo en la generación y animación de avatares 3D, superando a los métodos existentes tanto en calidad visual como en expresividad de animación. Nuestro marco también admite diversas aplicaciones, incluyendo la recreación de video humano y la composición de escenas con varios sujetos.
Los recientes avances en renderizado diferenciable y neural han logrado avances impresionantes en una variedad de tareas en 2D y 3D, por ejemplo, síntesis de vistas novedosas, reconstrucción 3D. Típicamente, el renderizado diferenciable se basa en una cobertura densa de puntos de vista de la escena, de modo que la geometría pueda ser desambiguada únicamente a partir de observaciones de apariencia. Varias dificultades surgen cuando solo se dispone de unas pocas vistas de entrada, a menudo denominado renderizado neural escaso o de pocos disparos. Dado que se trata de un problema subdeterminado, la mayoría de los enfoques existentes introducen el uso de regularización, junto con una diversidad de priors aprendidos y hechos a mano. Un problema recurrente en la literatura de renderizado escaso es la falta de un conjunto de datos y protocolo de evaluación homogéneos y actualizados. Mientras que los conjuntos de datos de alta resolución son comunes en la literatura de reconstrucción densa, los métodos de renderizado escaso a menudo se evalúan con imágenes de baja resolución. Además, las divisiones de datos son inconsistentes entre diferentes manuscritos y las imágenes de prueba de ground-truth a menudo están disponibles públicamente, lo que puede llevar a un sobreajuste. En este trabajo, proponemos el conjunto de datos y evaluación de Sparse Rendering (SpaRe). Introducimos un nuevo conjunto de datos que sigue la configuración del conjunto de datos DTU MVS. El conjunto de datos está compuesto por 97 nuevas escenas basadas en activos sintéticos de alta calidad. Cada escena tiene hasta 64 vistas de cámara y 7 configuraciones de iluminación, renderizadas a una resolución de 1600x1200. Publicamos una división de entrenamiento de 82 escenas para fomentar enfoques generalizables, y proporcionamos una plataforma de evaluación en línea para los conjuntos de validación y prueba, cuyas imágenes de ground-truth permanecen ocultas. Proponemos dos configuraciones escasas diferentes (3 y 9 imágenes de entrada respectivamente). Esto proporciona una herramienta poderosa y conveniente para una evaluación reproducible, y permite a los investigadores acceder fácilmente a una tabla de clasificación pública con los puntajes de rendimiento de vanguardia. Disponible en: https://sparebenchmark.github.io/
Los métodos de super resolución de imágenes basados en difusión han logrado un éxito notable al aprovechar grandes modelos de difusión pre-entrenados de texto a imagen como priors. Sin embargo, estos métodos aún enfrentan dos desafíos: la necesidad de docenas de pasos de muestreo para lograr resultados satisfactorios, lo que limita la eficiencia en escenarios reales, y la negligencia de modelos de degradación, que son información auxiliar crítica en la resolución del problema de super resolución. En este trabajo, presentamos un novedoso modelo de super resolución de un solo paso, que aborda significativamente el problema de eficiencia de los métodos de super resolución basados en difusión. A diferencia de las estrategias de ajuste fino existentes, diseñamos un módulo de Adaptación de Bajo Rango Guiado por Degradación (LoRA) específicamente para super resolución, que corrige los parámetros del modelo en función de la información de degradación preestimada de imágenes de baja resolución. Este módulo no solo facilita un modelo de super resolución poderoso dependiente de datos o de degradación, sino que también preserva el prior generativo del modelo de difusión pre-entrenado tanto como sea posible. Además, adaptamos un novedoso proceso de entrenamiento al introducir una estrategia de generación de muestras negativas en línea. Combinado con la estrategia de guía sin clasificador durante la inferencia, mejora en gran medida la calidad perceptual de los resultados de super resolución. Experimentos extensos han demostrado la eficiencia y efectividad superiores del modelo propuesto en comparación con los métodos de vanguardia recientes.
Presentamos un enfoque novedoso para sintetizar movimientos hábiles para manos simuladas físicamente en tareas que requieren coordinación entre el control de dos manos con alta precisión temporal. En lugar de aprender directamente una política conjunta para controlar dos manos, nuestro enfoque realiza un control bimanual a través de un aprendizaje cooperativo donde cada mano es tratada como un agente individual. Las políticas individuales para cada mano se entrenan primero por separado y luego se sincronizan a través de la manipulación del espacio latente en un entorno centralizado para servir como una política conjunta para el control de dos manos. Al hacerlo, evitamos realizar directamente el aprendizaje de políticas en el espacio de estado-acción conjunto de dos manos con dimensiones más altas, mejorando significativamente la eficiencia general del entrenamiento. Demostramos la efectividad de nuestro enfoque propuesto en la desafiante tarea de tocar la guitarra. El guitarrista virtual entrenado con nuestro enfoque puede sintetizar movimientos a partir de datos de referencia no estructurados de prácticas generales de tocar la guitarra, y tocar con precisión ritmos diversos con patrones complejos de presión de acordes y selección de cuerdas basados en las pestañas de guitarra de entrada que no existen en las referencias. Junto con este documento, proporcionamos los datos de captura de movimiento que recopilamos como referencia para el entrenamiento de políticas. El código está disponible en: https://pei-xu.github.io/guitar.
Los Modelos de Lenguaje Grandes (LLMs) han revolucionado la ingeniería de software (SE), demostrando capacidades notables en diversas tareas de codificación. Si bien los esfuerzos recientes han dado lugar a agentes de software autónomos basados en LLMs para tareas de desarrollo de extremo a extremo, estos sistemas suelen estar diseñados para tareas específicas de SE. Presentamos HyperAgente, un novedoso sistema multiagente generalista diseñado para abordar un amplio espectro de tareas de SE en diferentes lenguajes de programación al imitar los flujos de trabajo de los desarrolladores humanos. Compuesto por cuatro agentes especializados - Planificador, Navegador, Editor de Código y Ejecutor - HyperAgente gestiona todo el ciclo de vida de las tareas de SE, desde la concepción inicial hasta la verificación final. A través de evaluaciones exhaustivas, HyperAgente logra un rendimiento de vanguardia en diversas tareas de SE: alcanza una tasa de éxito del 25.01% en SWE-Bench-Lite y del 31.40% en SWE-Bench-Verified para la resolución de problemas de GitHub, superando los métodos existentes. Además, HyperAgente demuestra un rendimiento de vanguardia en la generación de código a nivel de repositorio (RepoExec) y en la localización de fallas y reparación de programas (Defects4J), superando con frecuencia a sistemas especializados. Este trabajo representa un avance significativo hacia agentes autónomos y versátiles capaces de manejar tareas de SE complejas y de múltiples pasos en diversos dominios y lenguajes, potencialmente transformando las prácticas de desarrollo de software asistido por IA.
El video se ha convertido en una forma de medio popular para compartir y consumir información. Sin embargo, tomar notas mientras se ve un video requiere un tiempo y esfuerzo significativos. Para abordar esto, proponemos un novedoso sistema interactivo, NoTeeline, para tomar notas en tiempo real y personalizadas. NoTeeline permite a los usuarios apuntar rápidamente puntos clave (micronotas), que se expanden automáticamente en notas completas que capturan el contenido de las micronotas del usuario y son coherentes con su estilo de escritura. En un estudio dentro de sujetos (N=12), encontramos que NoTeeline ayuda a los usuarios a crear notas de alta calidad que capturan la esencia de sus micronotas con una corrección factual más alta (93.2%), mientras reflejan con precisión su estilo de escritura. Al usar NoTeeline, los participantes experimentaron una reducción significativa del esfuerzo mental, capturaron notas satisfactorias escribiendo un 47% menos de texto y completaron la toma de notas con un 43.9% menos de tiempo en comparación con una línea base de toma de notas manual.
La tecnología de geo-localización basada en visión para UAV, que sirve como una fuente secundaria de información GPS además de los sistemas globales de navegación por satélite (GNSS), aún puede operar de forma independiente en entornos sin señal GPS. Métodos recientes basados en aprendizaje profundo atribuyen esta tarea al emparejamiento y recuperación de imágenes. Al recuperar imágenes de vista de dron en una base de datos de imágenes satelitales geoetiquetadas, se puede obtener información de localización aproximada. Sin embargo, debido a los altos costos y preocupaciones de privacidad, suele ser difícil obtener grandes cantidades de imágenes de vista de dron de un área continua. Los conjuntos de datos de vista de dron existentes están mayormente compuestos por fotografías aéreas a pequeña escala con la fuerte suposición de que existe una imagen de referencia perfectamente alineada de uno a uno para cualquier consulta, dejando una brecha significativa con respecto al escenario de localización práctica. En este trabajo, construimos un conjunto de datos de geo-localización de UAV de área contigua de gran alcance llamado GTA-UAV, que presenta múltiples altitudes de vuelo, actitudes, escenas y objetivos utilizando videojuegos modernos. Basándonos en este conjunto de datos, introducimos una tarea de geo-localización de UAV más práctica que incluye coincidencias parciales de datos emparejados de vistas cruzadas, y ampliamos la recuperación a nivel de imagen a la localización real en términos de distancia (metros). Para la construcción de pares de vistas de dron y satélite, adoptamos un enfoque de aprendizaje contrastivo basado en pesos, que permite un aprendizaje efectivo evitando pasos adicionales de emparejamiento en el postprocesamiento. Los experimentos demuestran la efectividad de nuestros datos y método de entrenamiento para la geo-localización de UAV, así como las capacidades de generalización a escenarios del mundo real.
Presentamos un marco novedoso que aprende un campo de radiance neural dinámico (NeRF) para humanos parlantes de cuerpo completo a partir de videos monoculares. Trabajos previos representan solo la postura corporal o la cara. Sin embargo, los humanos se comunican con todo su cuerpo, combinando la postura corporal, gestos de manos, así como expresiones faciales. En este trabajo, proponemos TalkinNeRF, una red unificada basada en NeRF que representa el movimiento humano holístico en 4D. Dado un video monocular de un sujeto, aprendemos módulos correspondientes para el cuerpo, la cara y las manos, que se combinan para generar el resultado final. Para capturar la articulación compleja de los dedos, aprendemos un campo de deformación adicional para las manos. Nuestra representación multi-identidad permite el entrenamiento simultáneo para varios sujetos, así como una animación robusta bajo posturas completamente nuevas. También puede generalizarse a identidades nuevas, dado solo un video corto como entrada. Demostramos un rendimiento de vanguardia para animar humanos parlantes de cuerpo completo, con una articulación detallada de las manos y expresiones faciales.
Presentamos un enfoque simple y auto-supervisado para el problema de Seguimiento de Cualquier Punto (TAP). Entrenamos un transformador de coincidencia global para encontrar pistas consistentes en ciclos a través de videos mediante paseos aleatorios contrastivos, utilizando la coincidencia global basada en atención del transformador para definir las matrices de transición para un paseo aleatorio en un grafo espacio-temporal. La capacidad de realizar comparaciones "entre todos los pares" entre puntos permite que el modelo obtenga una alta precisión espacial y un fuerte señal de aprendizaje contrastivo, evitando muchas de las complejidades de enfoques recientes (como la coincidencia de grueso a fino). Para lograr esto, proponemos una serie de decisiones de diseño que permiten que las arquitecturas de coincidencia global sean entrenadas a través de auto-supervisión utilizando consistencia de ciclos. Por ejemplo, identificamos que los métodos basados en transformadores son sensibles a soluciones rápidas, y proponemos un esquema de aumento de datos para abordarlos. Nuestro método logra un rendimiento sólido en los benchmarks de TapVid, superando a métodos de seguimiento auto-supervisados anteriores, como DIFT, y es competitivo con varios métodos supervisados.