Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Chameleon, una familia de modelos mixtos basados en tokens con fusión temprana, capaces de comprender y generar imágenes y texto en cualquier secuencia arbitraria. Describimos un enfoque de entrenamiento estable desde el inicio, una receta de alineación y una parametrización arquitectónica diseñada específicamente para el entorno mixto basado en tokens con fusión temprana. Los modelos se evalúan en una amplia gama de tareas, incluyendo respuesta visual a preguntas, generación de descripciones de imágenes, generación de texto, generación de imágenes y generación mixta de largo formato. Chameleon demuestra capacidades amplias y generales, incluyendo un rendimiento de vanguardia en tareas de generación de descripciones de imágenes, supera a Llama-2 en tareas exclusivas de texto mientras compite con modelos como Mixtral 8x7B y Gemini-Pro, y realiza generación de imágenes no trivial, todo en un solo modelo. Además, iguala o supera el rendimiento de modelos mucho más grandes, como Gemini Pro y GPT-4V, según evaluaciones humanas en una nueva prueba de generación mixta de largo formato, donde el prompt o las salidas contienen secuencias mixtas de imágenes y texto. Chameleon representa un avance significativo en el modelado unificado de documentos multimodales completos.
La Adaptación de Bajo Rango (LoRA, por sus siglas en inglés) es un método ampliamente utilizado para el ajuste fino eficiente en parámetros de modelos de lenguaje grandes. LoRA ahorra memoria al entrenar únicamente perturbaciones de bajo rango en matrices de pesos seleccionadas. En este trabajo, comparamos el rendimiento de LoRA y el ajuste fino completo en dos dominios objetivo: programación y matemáticas. Consideramos tanto el ajuste fino por instrucciones (aproximadamente 100K pares de instrucción-respuesta) como el régimen de preentrenamiento continuado (aproximadamente 10B tokens no estructurados). Nuestros resultados muestran que, en la mayoría de los casos, LoRA tiene un rendimiento sustancialmente inferior al ajuste fino completo. Sin embargo, LoRA exhibe una forma deseable de regularización: mantiene mejor el rendimiento del modelo base en tareas fuera del dominio objetivo. Demostramos que LoRA proporciona una regularización más fuerte en comparación con técnicas comunes como la decaimiento de pesos y el dropout; también ayuda a mantener generaciones más diversas. Mostramos que el ajuste fino completo aprende perturbaciones con un rango que es 10-100 veces mayor que las configuraciones típicas de LoRA, lo que posiblemente explica algunas de las brechas reportadas. Concluimos proponiendo mejores prácticas para el ajuste fino con LoRA.
Los avances en reconstrucción 3D han permitido la captura de alta calidad, pero requieren que un usuario capture cientos o miles de imágenes para crear una escena 3D. Presentamos CAT3D, un método para crear cualquier cosa en 3D simulando este proceso de captura del mundo real mediante un modelo de difusión multivista. Dado cualquier número de imágenes de entrada y un conjunto de vistas novedosas objetivo, nuestro modelo genera vistas novedosas altamente consistentes de una escena. Estas vistas generadas pueden usarse como entrada para técnicas robustas de reconstrucción 3D, produciendo representaciones 3D que pueden renderizarse desde cualquier ángulo en tiempo real. CAT3D puede crear escenas 3D completas en tan solo un minuto, superando a los métodos existentes para la creación de escenas 3D a partir de una sola imagen o pocas vistas. Consulte nuestra página del proyecto para ver resultados y demostraciones interactivas en https://cat3d.github.io.
Los modelos de lenguaje grandes son ampliamente reconocidos por su eficacia en el aprendizaje en contexto con pocos ejemplos (ICL, por sus siglas en inglés). Los avances recientes en los modelos fundacionales multimodales han permitido ventanas de contexto de una longitud sin precedentes, lo que presenta una oportunidad para explorar su capacidad para realizar ICL con muchos más ejemplos demostrativos. En este trabajo, evaluamos el rendimiento de los modelos fundacionales multimodales al escalar desde ICL con pocos ejemplos hasta ICL con muchos ejemplos. Realizamos pruebas comparativas de GPT-4o y Gemini 1.5 Pro en 10 conjuntos de datos que abarcan múltiples dominios (imágenes naturales, imágenes médicas, percepción remota e imágenes moleculares) y tareas (clasificación multiclase, multietiqueta y de grano fino). Observamos que el ICL con muchos ejemplos, incluyendo hasta casi 2,000 ejemplos demostrativos multimodales, conduce a mejoras sustanciales en comparación con el ICL con pocos ejemplos (<100 ejemplos) en todos los conjuntos de datos. Además, el rendimiento de Gemini 1.5 Pro continúa mejorando de manera log-lineal hasta el número máximo de ejemplos probados en muchos conjuntos de datos. Dados los altos costos de inferencia asociados con los largos mensajes requeridos para el ICL con muchos ejemplos, también exploramos el impacto de agrupar múltiples consultas en una sola llamada API. Demostramos que agrupar hasta 50 consultas puede conducir a mejoras en el rendimiento tanto en el ICL con cero ejemplos como con muchos ejemplos, con ganancias sustanciales en el escenario de cero ejemplos en múltiples conjuntos de datos, mientras se reduce drásticamente el costo y la latencia por consulta. Finalmente, medimos la eficiencia de datos en ICL de los modelos, o la tasa a la que los modelos aprenden de más ejemplos demostrativos. Encontramos que, aunque GPT-4o y Gemini 1.5 Pro logran un rendimiento similar en el escenario de cero ejemplos en los conjuntos de datos, Gemini 1.5 Pro exhibe una mayor eficiencia de datos en ICL que GPT-4o en la mayoría de los conjuntos de datos. Nuestros resultados sugieren que el ICL con muchos ejemplos podría permitir a los usuarios adaptar eficientemente los modelos fundacionales multimodales a nuevas aplicaciones y dominios. Nuestro código está disponible públicamente en https://github.com/stanfordmlgroup/ManyICL.
Este artículo presenta Grounding DINO 1.5, un conjunto de modelos avanzados de detección de objetos en conjuntos abiertos desarrollado por IDEA Research, cuyo objetivo es impulsar la "vanguardia" de la detección de objetos en conjuntos abiertos. El conjunto incluye dos modelos: Grounding DINO 1.5 Pro, un modelo de alto rendimiento diseñado para una mayor capacidad de generalización en una amplia gama de escenarios, y Grounding DINO 1.5 Edge, un modelo eficiente optimizado para una mayor velocidad requerida en muchas aplicaciones que necesitan implementación en el edge. El modelo Grounding DINO 1.5 Pro avanza respecto a su predecesor al escalar la arquitectura del modelo, integrar un backbone de visión mejorado y ampliar el conjunto de datos de entrenamiento a más de 20 millones de imágenes con anotaciones de grounding, logrando así una comprensión semántica más rica. El modelo Grounding DINO 1.5 Edge, aunque diseñado para la eficiencia con escalas de características reducidas, mantiene capacidades de detección robustas al ser entrenado en el mismo conjunto de datos exhaustivo. Los resultados empíricos demuestran la efectividad de Grounding DINO 1.5, con el modelo Grounding DINO 1.5 Pro alcanzando un 54.3 AP en el benchmark de detección COCO y un 55.7 AP en el benchmark de transferencia zero-shot LVIS-minival, estableciendo nuevos récords en detección de objetos en conjuntos abiertos. Además, el modelo Grounding DINO 1.5 Edge, cuando se optimiza con TensorRT, alcanza una velocidad de 75.2 FPS mientras logra un rendimiento zero-shot de 36.2 AP en el benchmark LVIS-minival, haciéndolo más adecuado para escenarios de edge computing. Ejemplos de modelos y demostraciones con API serán lanzados en https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
En este trabajo, recuperamos la estructura 3D subyacente de escenas que no son geométricamente consistentes. Nos enfocamos en el análisis de imágenes dibujadas a mano de caricaturas y anime. Muchas caricaturas son creadas por artistas sin un motor de renderizado 3D, lo que significa que cada nueva imagen de una escena se dibuja manualmente. Las imágenes dibujadas a mano suelen ser representaciones fieles del mundo, pero solo en un sentido cualitativo, ya que es difícil para los humanos dibujar múltiples perspectivas de un objeto o escena de manera 3D consistente. Sin embargo, las personas pueden percibir fácilmente escenas 3D a partir de entradas inconsistentes. En este trabajo, corregimos las inconsistencias en los dibujos 2D para recuperar una estructura 3D plausible, de modo que los dibujos deformados sean consistentes entre sí. Nuestro proceso consta de una herramienta de anotación fácil de usar, estimación de la pose de la cámara y deformación de imágenes para recuperar una estructura densa. Nuestro método deforma las imágenes para que obedezcan un modelo de cámara en perspectiva, lo que permite que nuestros resultados alineados se integren en métodos de reconstrucción de síntesis de nuevas vistas para experimentar caricaturas desde ángulos nunca antes dibujados. Nuestra página del proyecto es https://toon3d.studio/.
Presentamos Dual3D, un novedoso marco de generación de texto a 3D que produce activos 3D de alta calidad a partir de textos en solo 1 minuto. El componente clave es un modelo de difusión latente multimodal de vistas múltiples. Dados los latentes ruidosos de múltiples vistas, el modo 2D puede desruidizarlos eficientemente con una única red de desruido latente, mientras que el modo 3D puede generar una superficie neuronal de triple plano para un desruido consistente basado en renderizado. La mayoría de los módulos para ambos modos se ajustan a partir de un modelo preentrenado de difusión latente de texto a imagen, evitando así el costoso entrenamiento desde cero. Para superar el alto costo de renderizado durante la inferencia, proponemos una estrategia de inferencia de conmutación multimodal que utiliza solo 1/10 de los pasos de desruido en el modo 3D, generando con éxito un activo 3D en apenas 10 segundos sin sacrificar la calidad. La textura del activo 3D puede mejorarse aún más mediante nuestro eficiente proceso de refinamiento de texturas en poco tiempo. Experimentos exhaustivos demuestran que nuestro método ofrece un rendimiento de vanguardia mientras reduce significativamente el tiempo de generación. Nuestra página del proyecto está disponible en https://dual3d.github.io.
El aprendizaje en simulación y la transferencia de la política aprendida al mundo real tiene el potencial de habilitar robots generalistas. El principal desafío de este enfoque es abordar las brechas entre simulación y realidad (sim-to-real). Métodos anteriores a menudo requieren conocimiento específico del dominio a priori. Argumentamos que una forma directa de obtener dicho conocimiento es pedir a los humanos que observen y asistan la ejecución de políticas robóticas en el mundo real. Los robots pueden entonces aprender de los humanos para cerrar diversas brechas sim-to-real. Proponemos TRANSIC, un enfoque basado en datos para permitir una transferencia exitosa de simulación a realidad basado en un marco de humano-en-el-bucle. TRANSIC permite a los humanos aumentar las políticas de simulación para superar diversas brechas sim-to-real no modeladas de manera holística mediante intervención y corrección en línea. Se pueden aprender políticas residuales a partir de correcciones humanas e integrarlas con políticas de simulación para su ejecución autónoma. Demostramos que nuestro enfoque puede lograr una transferencia exitosa de simulación a realidad en tareas de manipulación complejas y ricas en contacto, como el ensamblaje de muebles. A través de la integración sinérgica de políticas aprendidas en simulación y de humanos, TRANSIC es efectivo como un enfoque holístico para abordar diversas brechas sim-to-real, a menudo coexistentes. Muestra propiedades atractivas, como escalar con el esfuerzo humano. Videos y código están disponibles en https://transic-robot.github.io/.