Artículos de investigación en IA seleccionados diariamente con traducciones
Extender la longitud del contexto de los Modelos de Lenguaje (LMs) mejorando la Incrustación de Posición Rotativa (RoPE) se ha convertido en una tendencia. Mientras que los trabajos existentes abordan principalmente las limitaciones de RoPE dentro del mecanismo de atención, este documento proporciona un análisis en casi todas las partes de los LMs, descubriendo sus efectos adversos en la generalización de la longitud para la atención basada en RoPE. Utilizando la teoría del Procesamiento de Señales Discretas, mostramos que RoPE permite la atención periódica al lograr implícitamente la Transformada de Fourier Discreta No Uniforme. Sin embargo, esta periodicidad se ve socavada por el daño espectral causado por: 1) capas lineales y funciones de activación fuera de la atención; 2) componentes de frecuencia insuficientemente entrenados provocados por la truncación en el dominio del tiempo. Basándonos en nuestras observaciones, proponemos la Incrustación de Posición de Fourier (FoPE), que mejora las propiedades de dominio de frecuencia de la atención para mejorar tanto su extensión periódica como la generalización de la longitud. FoPE construye Series de Fourier y elimina los componentes de frecuencia destructivos, aumentando la robustez del modelo contra el daño espectral. Experimentos en diversas escalas de modelos muestran que, dentro de diferentes ventanas de contexto, FoPE puede mantener una perplejidad más estable y una precisión más consistente en una tarea de aguja en un pajar en comparación con RoPE y ALiBi. Varios análisis y abstracciones brindan un mayor respaldo a nuestro método y modelado teórico.
Un grafo de escena en 3D representa un modelo de escena compacto, almacenando información sobre los objetos y las relaciones semánticas entre ellos, lo que hace que su uso sea prometedor para tareas robóticas. Al interactuar con un usuario, un agente inteligente encarnado debe ser capaz de responder a varias consultas sobre la escena formuladas en lenguaje natural. Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) son soluciones beneficiosas para la interacción usuario-robot debido a sus habilidades de comprensión y razonamiento en lenguaje natural. Métodos recientes para crear representaciones aprendibles de escenas en 3D han demostrado el potencial de mejorar la calidad de las respuestas de los LLMs al adaptarse al mundo en 3D. Sin embargo, los métodos existentes no utilizan explícitamente información sobre las relaciones semánticas entre objetos, limitándose a la información sobre sus coordenadas. En este trabajo, proponemos un método 3DGraphLLM para construir una representación aprendible de un grafo de escena en 3D. La representación aprendible se utiliza como entrada para que los LLMs realicen tareas de visión-lenguaje en 3D. En nuestros experimentos en los populares conjuntos de datos ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D y Scan2cap, demostramos la ventaja de este enfoque sobre los métodos base que no utilizan información sobre las relaciones semánticas entre objetos. El código está disponible públicamente en https://github.com/CognitiveAISystems/3DGraphLLM.
Los valores faltantes siguen siendo un desafío común para los datos de profundidad en su amplio rango de aplicaciones, derivados de diversas causas como la adquisición de datos incompletos y la alteración de la perspectiva. Este trabajo aborda esta brecha con DepthLab, un modelo de rellenado de profundidad basado en difusión de imágenes. Nuestro modelo presenta dos fortalezas notables: (1) demuestra resistencia a regiones con falta de profundidad, proporcionando una completación confiable tanto para áreas continuas como para puntos aislados, y (2) conserva fielmente la consistencia de escala con la profundidad conocida condicionada al rellenar los valores faltantes. Basándonos en estas ventajas, nuestro enfoque demuestra su valía en varias tareas secundarias, incluyendo rellenado de escenas 3D, generación de escenas 3D a partir de texto, reconstrucción de vistas dispersas con DUST3R y completación de profundidad LiDAR, superando a las soluciones actuales tanto en rendimiento numérico como en calidad visual. Nuestra página de proyecto con el código fuente está disponible en https://johanan528.github.io/depthlab_web/.
Los modelos de generación de video tipo Sora han logrado un progreso notable con una arquitectura Multi-Modal Diffusion Transformer (MM-DiT). Sin embargo, los modelos actuales de generación de video se centran predominantemente en una sola indicación, luchando por generar escenas coherentes con múltiples indicaciones secuenciales que reflejen mejor escenarios dinámicos del mundo real. Aunque algunos trabajos pioneros han explorado la generación de video con múltiples indicaciones, enfrentan desafíos significativos que incluyen requisitos estrictos de datos de entrenamiento, seguimiento débil de las indicaciones y transiciones poco naturales. Para abordar estos problemas, proponemos DiTCtrl, un método de generación de video con múltiples indicaciones sin entrenamiento bajo arquitecturas MM-DiT por primera vez. Nuestra idea clave es abordar la tarea de generación de video con múltiples indicaciones como una edición temporal de video con transiciones suaves. Para lograr este objetivo, primero analizamos el mecanismo de atención de MM-DiT, descubriendo que la atención completa en 3D se comporta de manera similar a la de los bloques de atención cruzada/auto-atención en los modelos de difusión tipo UNet, lo que permite un control semántico preciso guiado por máscara a través de diferentes indicaciones con un intercambio de atención para la generación de video con múltiples indicaciones. Basándonos en nuestro diseño cuidadoso, el video generado por DiTCtrl logra transiciones suaves y un movimiento consistente de objetos dado múltiples indicaciones secuenciales sin entrenamiento adicional. Además, también presentamos MPVBench, un nuevo benchmark diseñado especialmente para la generación de video con múltiples indicaciones para evaluar el rendimiento de la generación con múltiples indicaciones. Experimentos extensos demuestran que nuestro método logra un rendimiento de vanguardia sin necesidad de entrenamiento adicional.
Los generadores de 3D a partir de texto o imagen y los escáneres 3D pueden ahora producir activos 3D con formas y texturas de alta calidad. Estos activos típicamente consisten en una representación única y fusionada, como un campo neural implícito, una mezcla gaussiana o una malla, sin ninguna estructura útil. Sin embargo, la mayoría de aplicaciones y flujos de trabajo creativos requieren que los activos estén compuestos por varias partes significativas que puedan ser manipuladas de forma independiente. Para abordar esta brecha, presentamos PartGen, un enfoque novedoso que genera objetos 3D compuestos por partes significativas a partir de texto, una imagen o un objeto 3D no estructurado. En primer lugar, dado múltiples vistas de un objeto 3D, generadas o renderizadas, un modelo de difusión multi-vista extrae un conjunto de segmentaciones de partes plausibles y consistentes con las vistas, dividiendo el objeto en partes. Luego, un segundo modelo de difusión multi-vista toma cada parte por separado, rellena las oclusiones y utiliza esas vistas completadas para la reconstrucción 3D alimentándolas a una red de reconstrucción 3D. Este proceso de completado considera el contexto de todo el objeto para asegurar que las partes se integren de manera cohesiva. El modelo generativo de completado puede compensar la información faltante debido a las oclusiones; en casos extremos, puede alucinar partes completamente invisibles basándose en el activo 3D de entrada. Evaluamos nuestro método en activos 3D generados y reales y mostramos que supera ampliamente a los baselines de segmentación y extracción de partes. También presentamos aplicaciones posteriores como la edición de partes 3D.
A pesar de los avances recientes en modelos de lenguaje de gran tamaño, los modelos de código abierto a menudo tienen dificultades para desempeñarse de manera consistente en tareas de razonamiento complejas. Los métodos de conjunto existentes, ya sea aplicados a nivel de token o de salida, no logran abordar estos desafíos. En respuesta, presentamos el Modelo de Lenguaje Ensemble con Búsqueda de Árbol Monte Carlo (LE-MCTS), un marco novedoso para el ensamblaje a nivel de proceso de modelos de lenguaje. LE-MCTS formula el razonamiento paso a paso con un conjunto de modelos de lenguaje como un proceso de decisión de Markov. En este marco, los estados representan caminos de razonamiento intermedios, mientras que las acciones consisten en generar el siguiente paso de razonamiento utilizando uno de los modelos de lenguaje seleccionados de un grupo predefinido. Guiado por un modelo de recompensa basado en el proceso, LE-MCTS realiza una búsqueda de árbol sobre los pasos de razonamiento generados por diferentes modelos de lenguaje, identificando la cadena de razonamiento más precisa. Los resultados experimentales en cinco bancos de pruebas de razonamiento matemático demuestran que nuestro enfoque supera tanto a los algoritmos de decodificación de un solo modelo de lenguaje como a los métodos de ensamblaje de modelos de lenguaje. Notablemente, LE-MCTS mejora el rendimiento en un 3.6% y 4.3% en los conjuntos de datos MATH y MQA, respectivamente, resaltando su efectividad en la resolución de problemas de razonamiento complejos.
El desafío ARC parece ser más difícil que el ARC Fácil para los LLM modernos principalmente debido a una configuración de evaluación que impide la comparación directa de opciones de respuesta en lugar de una complejidad inherente. Aunque algunos investigadores han cambiado silenciosamente a un esquema más apropiado durante el último año, las implicaciones de este cambio aún no han sido ampliamente reconocidas. Destacamos este cambio pasado por alto, mostramos cómo prácticas de evaluación similares implican falsamente déficits de razonamiento en otros puntos de referencia, y demostramos que métodos más justos reducen drásticamente las brechas de rendimiento (por ejemplo, en SIQA) e incluso producen resultados superhumanos (OpenBookQA). Al hacerlo, revelamos cómo la evaluación moldea la dificultad percibida y ofrecemos pautas para garantizar que las evaluaciones de opción múltiple reflejen con precisión las capacidades reales del modelo.
Los modelos de Mezcla de Expertos (MoE) activados de forma dispersa son ampliamente adoptados para aumentar la capacidad del modelo sin incrementar el presupuesto computacional. Sin embargo, los enrutadores TopK convencionales se entrenan de manera discontinua y no diferenciable, lo que limita su rendimiento y escalabilidad. Para abordar este problema, proponemos ReMoE, una arquitectura MoE completamente diferenciable que ofrece un reemplazo simple pero efectivo para el enrutamiento convencional TopK+Softmax, utilizando ReLU como enrutador en su lugar. Además, proponemos métodos para regular la dispersión del enrutador mientras se equilibra la carga entre los expertos. La naturaleza continua de ReMoE permite una asignación dinámica eficiente de la computación entre tokens y capas, al mismo tiempo que muestra especialización de dominio. Nuestros experimentos demuestran que ReMoE supera consistentemente a los modelos MoE convencionales enrutados con TopK en distintos tamaños de modelo, cantidades de expertos y niveles de granularidad. Además, ReMoE muestra una escalabilidad superior en relación con el número de expertos, superando a las arquitecturas MoE tradicionales. La implementación basada en Megatron-LM está disponible en https://github.com/thu-ml/ReMoE.
Los sistemas de Generación con Recuperación Aumentada (RAG, por sus siglas en inglés) se han vuelto fundamentales para aprovechar vastos corpus con el fin de generar respuestas informadas y contextualmente relevantes, reduciendo notablemente las alucinaciones en los Modelos de Lenguaje a Gran Escala. A pesar de los avances significativos, estos sistemas luchan por procesar y recuperar información de conjuntos de datos extensos de manera eficiente, manteniendo al mismo tiempo una comprensión integral del contexto. Este artículo presenta SKETCH, una metodología novedosa que mejora el proceso de recuperación de RAG al integrar la recuperación semántica de texto con grafos de conocimiento, fusionando así datos estructurados y no estructurados para una comprensión más holística. SKETCH demuestra mejoras sustanciales en el rendimiento de recuperación y mantiene una integridad de contexto superior en comparación con métodos tradicionales. Evaluado en cuatro conjuntos de datos diversos: QuALITY, QASPER, NarrativeQA y Italian Cuisine, SKETCH supera consistentemente los enfoques de referencia en métricas clave de RAGAS como relevancia_respuesta, fidelidad, precisión_contexto y recuperación_contexto. Destacadamente, en el conjunto de datos de Cocina Italiana, SKETCH logró una relevancia de respuesta de 0.94 y una precisión de contexto de 0.99, representando el mejor rendimiento en todas las métricas evaluadas. Estos resultados resaltan la capacidad de SKETCH para ofrecer respuestas más precisas y contextualmente relevantes, estableciendo nuevos estándares para futuros sistemas de recuperación.
El progreso en IA se impulsa en gran medida por la escala y calidad de los datos de entrenamiento. A pesar de esto, existe un déficit de análisis empíricos que examinen los atributos de conjuntos de datos bien establecidos más allá del texto. En este trabajo realizamos la auditoría longitudinal más grande y única en su tipo a través de distintas modalidades -textuales, de voz y de video- desde las tendencias detalladas de obtención y restricciones de uso hasta su representación geográfica y lingüística. Nuestro análisis manual abarca casi 4000 conjuntos de datos públicos entre 1990 y 2024, que abarcan 608 idiomas, 798 fuentes, 659 organizaciones y 67 países. Descubrimos que las aplicaciones de aprendizaje automático multimodal se han volcado abrumadoramente a plataformas web rastreadas, sintéticas y de redes sociales, como YouTube, para sus conjuntos de entrenamiento, eclipsando a todas las demás fuentes desde 2019. En segundo lugar, al rastrear la cadena de derivaciones de conjuntos de datos, encontramos que si bien menos del 33% de los conjuntos de datos tienen licencias restrictivas, más del 80% del contenido fuente en conjuntos de datos ampliamente utilizados de texto, voz y video, tienen restricciones no comerciales. Finalmente, a pesar del creciente número de idiomas y geografías representados en conjuntos de datos públicos de entrenamiento de IA, nuestra auditoría demuestra que las medidas de representación geográfica y multilingüe relativa no han logrado mejorar significativamente su cobertura desde 2013. Creemos que la amplitud de nuestra auditoría nos permite examinar empíricamente las tendencias en la obtención de datos, restricciones y la centralidad occidental a nivel de ecosistema, y que la visibilidad en torno a estas cuestiones es esencial para el progreso en una IA responsable. Como contribución a las mejoras en curso en transparencia de conjuntos de datos y uso responsable, publicamos toda nuestra auditoría multimodal, permitiendo a los profesionales rastrear la procedencia de datos a través de texto, voz y video.
La generación de Video a partir de Texto-Imagen (TI2V) tiene como objetivo generar un video a partir de una imagen siguiendo una descripción de texto, también conocida como animación de imagen guiada por texto. La mayoría de los métodos existentes tienen dificultades para generar videos que se alineen bien con las indicaciones de texto, especialmente cuando se especifica movimiento. Para superar esta limitación, presentamos MotiF, un enfoque simple pero efectivo que dirige el aprendizaje del modelo hacia las regiones con más movimiento, mejorando así la alineación de texto y la generación de movimiento. Utilizamos flujo óptico para generar un mapa de calor de movimiento y ponderar la pérdida según la intensidad del movimiento. Este objetivo modificado conduce a mejoras notables y complementa los métodos existentes que utilizan prioridades de movimiento como entradas del modelo. Además, debido a la falta de un banco de pruebas diverso para evaluar la generación TI2V, proponemos TI2V Bench, un conjunto de datos que consta de 320 pares de imágenes y texto para una evaluación robusta. Presentamos un protocolo de evaluación humana que pide a los anotadores que seleccionen una preferencia general entre dos videos seguido de sus justificaciones. A través de una evaluación exhaustiva en TI2V Bench, MotiF supera a nueve modelos de código abierto, logrando una preferencia promedio del 72%. El banco de pruebas TI2V Bench se encuentra disponible en https://wang-sj16.github.io/motif/.