Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje aumentados con recuperación pueden adaptarse mejor a los cambios en el estado del mundo e incorporar conocimiento de cola larga. Sin embargo, la mayoría de los métodos existentes recuperan solo fragmentos cortos y contiguos de un corpus de recuperación, lo que limita la comprensión holística del contexto general del documento. Introducimos un enfoque novedoso que consiste en incrustar, agrupar y resumir recursivamente fragmentos de texto, construyendo un árbol con diferentes niveles de resumen de abajo hacia arriba. En el momento de la inferencia, nuestro modelo RAPTOR recupera información de este árbol, integrando datos a lo largo de documentos extensos en diferentes niveles de abstracción. Experimentos controlados muestran que la recuperación con resúmenes recursivos ofrece mejoras significativas sobre los modelos de lenguaje aumentados con recuperación tradicionales en varias tareas. En tareas de respuesta a preguntas que involucran razonamiento complejo y de múltiples pasos, demostramos resultados de vanguardia; por ejemplo, al combinar la recuperación de RAPTOR con el uso de GPT-4, podemos mejorar el mejor rendimiento en el benchmark QuALITY en un 20% en precisión absoluta.
¿Siguen siendo relevantes los modelos de lenguaje basados en n-gramas en esta era de los grandes modelos de lenguaje neuronal (LLMs)? Nuestra respuesta es sí, y demostramos su valor tanto en el análisis de texto como en la mejora de los LLMs neuronales. Sin embargo, esto requiere modernizar los modelos de n-gramas en dos aspectos. Primero, los entrenamos con la misma escala de datos que los LLMs neuronales: 1.4 billones de tokens. Este es el modelo de n-gramas más grande jamás construido. Segundo, los modelos de n-gramas existentes utilizan valores pequeños de n, lo que limita su rendimiento; en su lugar, permitimos que n sea arbitrariamente grande, introduciendo un nuevo modelo de lenguaje infty-gram con retroceso (backoff). En lugar de precalcular tablas de conteo de n-gramas (lo cual sería muy costoso), desarrollamos un motor llamado infini-gram —basado en arreglos de sufijos— que puede calcular probabilidades de infty-gram (así como de n-gram con n arbitrario) con una latencia de nivel de milisegundos. El marco de infty-gram y el motor infini-gram nos permiten realizar muchos análisis novedosos e interesantes sobre texto escrito por humanos y generado por máquinas: encontramos que el modelo de lenguaje infty-gram tiene una precisión bastante alta para la predicción del siguiente token (47%), y puede complementar a los LLMs neuronales para reducir significativamente sus perplejidades en el modelado del lenguaje. Al analizar texto generado por máquinas, también observamos irregularidades en el nivel de concordancia entre la máquina y el infty-gram con respecto a la longitud del sufijo, lo que indica deficiencias en el preentrenamiento de los LLMs neuronales y en los embeddings posicionales de los Transformers. Hemos liberado nuestro motor infini-gram como código abierto con la esperanza de fomentar más estudios sobre cómo utilizar mejor la información textual recuperada de grandes corpus de texto.
Los robots con patas que navegan en entornos abarrotados deben ser ágiles para ejecutar tareas de manera eficiente y seguros para evitar colisiones con obstáculos o humanos. Los estudios existentes desarrollan controladores conservadores (< 1.0 m/s) para garantizar la seguridad o se centran en la agilidad sin considerar colisiones potencialmente fatales. Este artículo presenta Agile But Safe (ABS), un marco de control basado en aprendizaje que permite una locomoción ágil y libre de colisiones para robots cuadrúpedos. ABS incluye una política ágil para ejecutar habilidades motoras ágiles entre obstáculos y una política de recuperación para prevenir fallos, logrando de manera colaborativa una navegación a alta velocidad y sin colisiones. El cambio de política en ABS está gobernado por una red de valor de alcance-evasión basada en teoría de control aprendida, que también guía la política de recuperación como una función objetivo, protegiendo así al robot en un bucle cerrado. El proceso de entrenamiento implica el aprendizaje de la política ágil, la red de valor de alcance-evasión, la política de recuperación y una red de representación de exterocepción, todo en simulación. Estos módulos entrenados pueden implementarse directamente en el mundo real con sensores y computación a bordo, permitiendo una navegación a alta velocidad y sin colisiones en espacios confinados, tanto interiores como exteriores, con obstáculos estáticos y dinámicos.
Los modelos de difusión de video han ido ganando cada vez más atención por su capacidad para producir videos que son tanto coherentes como de alta fidelidad. Sin embargo, el proceso iterativo de eliminación de ruido lo hace computacionalmente intensivo y lento, lo que limita sus aplicaciones. Inspirados por el Modelo de Consistencia (CM), que destila modelos de difusión de imágenes preentrenados para acelerar el muestreo con un número mínimo de pasos, y su exitosa extensión, el Modelo de Consistencia Latente (LCM) en la generación condicional de imágenes, proponemos AnimateLCM, que permite la generación de videos de alta fidelidad en un número mínimo de pasos. En lugar de realizar directamente el aprendizaje de consistencia en el conjunto de datos de video crudo, proponemos una estrategia de aprendizaje de consistencia desacoplada que separa la destilación de los conocimientos previos de generación de imágenes y los conocimientos previos de generación de movimiento, lo que mejora la eficiencia del entrenamiento y aumenta la calidad visual de la generación. Además, para permitir la combinación de adaptadores plug-and-play en la comunidad de difusión estable para lograr diversas funciones (por ejemplo, ControlNet para la generación controlable), proponemos una estrategia eficiente para adaptar los adaptadores existentes a nuestro modelo de consistencia de video condicionado por texto destilado o para entrenar adaptadores desde cero sin afectar la velocidad de muestreo. Validamos la estrategia propuesta en la generación de video condicionada por imágenes y en la generación de video condicionada por diseño, logrando resultados de primer nivel. Los resultados experimentales validan la eficacia de nuestro método propuesto. El código y los pesos se harán públicos. Más detalles están disponibles en https://github.com/G-U-N/AnimateLCM.
Extender los modelos de lenguaje de gran escala para manejar eficazmente contextos largos requiere ajuste fino mediante instrucciones en secuencias de entrada de longitud similar. Para abordar esto, presentamos LongAlign: una receta que incluye los datos de instrucción, el entrenamiento y la evaluación para la alineación de contextos largos. Primero, construimos un conjunto de datos de seguimiento de instrucciones largas utilizando Self-Instruct. Para garantizar la diversidad de los datos, este cubre una amplia gama de tareas provenientes de diversas fuentes de contextos largos. Segundo, adoptamos estrategias de empaquetado y agrupación ordenada para acelerar el ajuste fino supervisado en datos con distribuciones de longitud variada. Además, desarrollamos un método de ponderación de pérdidas para equilibrar la contribución a la pérdida entre diferentes secuencias durante el entrenamiento con empaquetado. Tercero, introducimos el benchmark LongBench-Chat para evaluar las capacidades de seguimiento de instrucciones en consultas de 10k a 100k de longitud. Los experimentos muestran que LongAlign supera las recetas existentes para modelos de lenguaje en tareas de contexto largo hasta en un 30\%, manteniendo también su competencia en el manejo de tareas cortas y genéricas. El código, los datos y los modelos alineados para contextos largos están disponibles en https://github.com/THUDM/LongAlign.
Para lograr un razonamiento fiel que se alinee con las expectativas humanas, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) necesitan fundamentar su razonamiento en conocimientos del mundo real (por ejemplo, hechos de la web, reglas matemáticas y físicas). Las herramientas ayudan a los LLMs a acceder a este conocimiento externo, pero persisten desafíos para afinar los agentes basados en LLMs (por ejemplo, Toolformer) para invocar herramientas en problemas de razonamiento de múltiples pasos, donde las llamadas a herramientas interconectadas requieren una planificación holística y eficiente del uso de herramientas. En este trabajo, proponemos un nuevo método para que los LLMs aprovechen mejor las herramientas en el razonamiento de múltiples pasos. Nuestro método, Cadena de Abstracción (Chain-of-Abstraction, CoA), entrena a los LLMs para que primero decodifiquen cadenas de razonamiento con marcadores de posición abstractos, y luego invoquen herramientas de dominio para concretar cada cadena de razonamiento llenándola con conocimientos específicos. Esta planificación con cadenas abstractas permite a los LLMs aprender estrategias de razonamiento más generales, que son robustas frente a cambios en el conocimiento de dominio (por ejemplo, resultados matemáticos) relevantes para diferentes preguntas de razonamiento. También permite a los LLMs realizar la decodificación y la invocación de herramientas externas en paralelo, lo que evita el retraso en la inferencia causado por la espera de respuestas de las herramientas. En dominios de razonamiento matemático y preguntas y respuestas de Wiki, demostramos que nuestro método supera consistentemente a los enfoques anteriores basados en cadena de pensamiento y herramientas aumentadas, tanto en conjuntos de prueba dentro de la distribución como fuera de ella, con una mejora promedio de ~6% en la precisión absoluta de preguntas y respuestas. Los agentes basados en LLMs entrenados con nuestro método también muestran un uso más eficiente de las herramientas, con una velocidad de inferencia en promedio ~1.4 veces más rápida que los LLMs aumentados con herramientas de referencia.
La generación de modelos 3D se encuentra en el núcleo de la gráfica por computadora y ha sido el foco de décadas de investigación. Con el surgimiento de representaciones neuronales avanzadas y modelos generativos, el campo de la generación de contenido 3D se está desarrollando rápidamente, permitiendo la creación de modelos 3D cada vez más diversos y de alta calidad. El rápido crecimiento de este campo hace que sea difícil mantenerse al tanto de todos los avances recientes. En este estudio, nuestro objetivo es introducir las metodologías fundamentales de los métodos de generación 3D y establecer una hoja de ruta estructurada, que abarca la representación 3D, los métodos de generación, los conjuntos de datos y las aplicaciones correspondientes. Específicamente, presentamos las representaciones 3D que sirven como base para la generación 3D. Además, ofrecemos una visión general exhaustiva de la literatura en rápido crecimiento sobre los métodos de generación, categorizados por el tipo de paradigmas algorítmicos, incluyendo la generación directa, la generación basada en optimización, la generación procedural y la síntesis generativa de nuevas vistas. Por último, discutimos los conjuntos de datos disponibles, las aplicaciones y los desafíos abiertos. Esperamos que este estudio ayude a los lectores a explorar este emocionante tema y fomente avances adicionales en el campo de la generación de contenido 3D.
La rápida evolución de los Modelos de Lenguaje a Gran Escala (LLMs), ejemplificada por arquitecturas como GPT-4, ha transformado el panorama del procesamiento del lenguaje natural. Este artículo presenta un enfoque pionero para abordar las preocupaciones de eficiencia asociadas con el preentrenamiento de LLMs, proponiendo el uso de la destilación de conocimiento para la transferencia entre arquitecturas. Aprovechando los conocimientos del mecanismo eficiente Hyena, nuestro método reemplaza las cabezas de atención en los modelos transformadores por Hyena, ofreciendo una alternativa rentable al preentrenamiento tradicional mientras enfrenta el desafío de procesar información contextual larga, inherente a los mecanismos de atención cuadrática. A diferencia de los métodos convencionales centrados en la compresión, nuestra técnica no solo mejora la velocidad de inferencia, sino que también supera el preentrenamiento en términos de precisión y eficiencia. En la era de los LLMs en evolución, nuestro trabajo contribuye a la búsqueda de soluciones de IA sostenibles, equilibrando el poder computacional y el impacto ambiental.
La simulación de videos realistas ha demostrado un potencial significativo en diversas aplicaciones, desde la realidad virtual hasta la producción cinematográfica. Esto es especialmente cierto en escenarios donde capturar videos en entornos del mundo real resulta poco práctico o costoso. Los enfoques existentes en la simulación de videos a menudo no logran modelar con precisión el entorno de iluminación, representar la geometría de los objetos o alcanzar altos niveles de fotorrealismo. En este artículo, proponemos "Anything in Any Scene", un marco novedoso y genérico para la simulación de videos realistas que inserta de manera fluida cualquier objeto en un video dinámico existente con un fuerte énfasis en el realismo físico. Nuestro marco general propuesto abarca tres procesos clave: 1) integrar un objeto realista en un video de escena dado con una colocación adecuada para garantizar el realismo geométrico; 2) estimar la distribución del cielo y la iluminación ambiental y simular sombras realistas para mejorar el realismo lumínico; 3) emplear una red de transferencia de estilo que refina el video final para maximizar el fotorrealismo. Demostramos experimentalmente que el marco "Anything in Any Scene" produce videos simulados con un gran realismo geométrico, lumínico y fotorrealista. Al mitigar significativamente los desafíos asociados con la generación de datos de video, nuestro marco ofrece una solución eficiente y rentable para adquirir videos de alta calidad. Además, sus aplicaciones se extienden más allá de la ampliación de datos de video, mostrando un potencial prometedor en realidad virtual, edición de video y diversas otras aplicaciones centradas en video. Por favor, visite nuestro sitio web del proyecto https://anythinginanyscene.github.io para acceder al código del proyecto y más resultados de video en alta resolución.
Presentamos el modelo ReplaceAnything3D (RAM3D), un método novedoso de edición de escenas 3D guiado por texto que permite reemplazar objetos específicos dentro de una escena. Dadas imágenes multivista de una escena, un texto que describe el objeto a reemplazar y un texto que describe el nuevo objeto, nuestro enfoque de Borrar-y-Reemplazar puede intercambiar efectivamente objetos en la escena con contenido recién generado, manteniendo la consistencia 3D en múltiples puntos de vista. Demostramos la versatilidad de ReplaceAnything3D aplicándolo a diversas escenas 3D realistas, mostrando resultados de objetos en primer plano modificados que están bien integrados con el resto de la escena sin afectar su integridad general.
Proponemos CARFF: Campo de Radiancia Codificado Automáticamente Condicional para la Predicción de Escenas 3D, un método para predecir escenas 3D futuras a partir de observaciones pasadas, como imágenes egocéntricas en 2D. Nuestro método mapea una imagen a una distribución sobre configuraciones latentes plausibles de escenas 3D utilizando un codificador probabilístico, y predice la evolución de las escenas hipotetizadas a lo largo del tiempo. Nuestra representación latente de la escena condiciona un Campo de Radiancia Neuronal (NeRF) global para representar un modelo de escena 3D, lo que permite predicciones explicables y aplicaciones posteriores directas. Este enfoque va más allá del trabajo previo en renderizado neuronal al considerar escenarios complejos de incertidumbre en los estados y dinámicas del entorno. Empleamos un entrenamiento en dos etapas de un VAE Condicional a la Pose y un NeRF para aprender representaciones 3D. Además, predecimos auto-regresivamente las representaciones latentes de la escena como un proceso de decisión de Markov parcialmente observable, utilizando una red de densidad mixta. Demostramos la utilidad de nuestro método en escenarios realistas utilizando el simulador de conducción CARLA, donde CARFF puede usarse para habilitar una planificación eficiente de trayectorias y contingencias en escenarios complejos de conducción autónoma multiagente que involucran oclusiones visuales.