Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de los avances recientes de los modelos visión-lenguaje-acción (VLA) en una variedad de tareas de robótica, sufren de problemas críticos como una pobre generalización a tareas no vistas, debido a su dependencia exclusiva en la clonación de comportamientos solo de ejecuciones exitosas. Además, típicamente son ajustados finamente para replicar demostraciones recopiladas por expertos bajo diferentes configuraciones, introduciendo así sesgo de distribución y limitando su adaptabilidad a diversos objetivos de manipulación, como eficiencia, seguridad y finalización de tareas. Para cerrar esta brecha, presentamos GRAPE: Generalizando Políticas de Robot a través de Alineación de Preferencias. Específicamente, GRAPE alinea VLA a nivel de trayectoria y modela implícitamente la recompensa tanto de ejecuciones exitosas como fallidas para mejorar la generalización a diversas tareas. Además, GRAPE descompone tareas de manipulación complejas en etapas independientes y guía automáticamente el modelado de preferencias a través de restricciones espacio-temporales personalizadas con puntos clave propuestos por un gran modelo visión-lenguaje. Destacadamente, estas restricciones son flexibles y pueden ser personalizadas para alinear el modelo con diversos objetivos, como seguridad, eficiencia o éxito en la tarea. Evaluamos GRAPE en una amplia gama de tareas tanto en entornos del mundo real como simulados. Los resultados experimentales demuestran que GRAPE mejora el rendimiento de los modelos VLA de última generación, aumentando las tasas de éxito en tareas de manipulación en dominio y no vistas en un 51.79% y 60.36%, respectivamente. Además, GRAPE puede ser alineado con varios objetivos, como seguridad y eficiencia, reduciendo las tasas de colisión en un 44.31% y la longitud de paso de ejecución en un 11.15%, respectivamente. Todo el código, modelos y datos están disponibles en https://grape-vla.github.io/
La estimación de profundidad en video eleva clips de video monoculares a 3D mediante la inferencia de profundidad densa en cada fotograma. Los avances recientes en la estimación de profundidad a partir de una sola imagen, impulsados por el surgimiento de grandes modelos base y el uso de datos de entrenamiento sintéticos, han avivado un renovado interés en la profundidad de video. Sin embargo, aplicar ingenuamente un estimador de profundidad de una sola imagen a cada fotograma de un video desatiende la continuidad temporal, lo que no solo provoca parpadeos, sino que también puede fallar cuando el movimiento de la cámara causa cambios bruscos en el rango de profundidad. Una solución obvia y fundamentada sería construir sobre modelos base de video, pero estos tienen sus propias limitaciones, incluyendo un costoso entrenamiento e inferencia, inconsistencia tridimensional imperfecta y rutinas de ensamblaje para las salidas de longitud fija (cortas). Damos un paso atrás y demostramos cómo convertir un modelo de difusión latente de una sola imagen (LDM) en un estimador de profundidad de video de última generación. Nuestro modelo, al que llamamos RollingDepth, tiene dos ingredientes principales: (i) un estimador de profundidad multifotograma derivado de un LDM de una sola imagen que mapea fragmentos de video muy cortos (normalmente tripletes de fotogramas) a fragmentos de profundidad. (ii) un algoritmo de registro robusto basado en optimización que ensambla de manera óptima fragmentos de profundidad muestreados a diferentes frecuencias de fotogramas en un video consistente. RollingDepth es capaz de manejar eficientemente videos largos con cientos de fotogramas y proporciona videos de profundidad más precisos que tanto estimadores de profundidad de video dedicados como modelos de un solo fotograma de alto rendimiento. Página del proyecto: rollingdepth.github.io.
El Aprendizaje en Contexto (AC) permite a los grandes modelos de lenguaje (GML) abordar tareas posteriores a través de indicaciones sofisticadas y demostraciones de alta calidad. Sin embargo, este paradigma tradicional de AC muestra limitaciones al enfrentarse a tareas de razonamiento matemático complejas, principalmente debido a su fuerte dependencia de la calidad de los ejemplos y la necesidad de intervención humana en escenarios desafiantes. Para abordar estas limitaciones, este documento presenta HiAR-ICL, un paradigma de Razonamiento Automatizado de Alto Nivel en AC que cambia el enfoque de ejemplos específicos a patrones de pensamiento abstracto, ampliando el concepto convencional de contexto en AC. HiAR-ICL introduce cinco acciones de razonamiento atómico como componentes fundamentales para construir patrones estructurados en cadena. Utilizando la Búsqueda del Árbol de Monte Carlo, exploramos caminos de razonamiento y construimos tarjetas de pensamiento para guiar la inferencia posterior. Luego desarrollamos un marco de complejidad cognitiva que empareja dinámicamente problemas con tarjetas de pensamiento apropiadas. Los resultados experimentales demuestran la efectividad de HiAR-ICL, logrando una precisión de vanguardia (79.6%) en el banco de pruebas MATH con Qwen2.5-7B-Instruct, superando a GPT-4o (76.6%) y Claude 3.5 (71.1%).
Los últimos años han sido testigos del rápido desarrollo de modelos de lenguaje multimodales grandes generales (MLLMs). Sin embargo, la adaptación de MLLMs generales a dominios específicos, como campos científicos y aplicaciones industriales, sigue siendo menos explorada. Este artículo investiga sistemáticamente la adaptación de dominio de MLLMs a través de post-entrenamiento, centrándose en la síntesis de datos, los flujos de entrenamiento y la evaluación de tareas. (1) Síntesis de Datos: Utilizando modelos de código abierto, desarrollamos un sintetizador de instrucciones visuales que genera eficazmente diversas tareas de instrucciones visuales a partir de pares de imágenes y subtítulos específicos del dominio. Nuestras tareas sintéticas superan a las generadas por reglas manuales, GPT-4 y GPT-4V en el mejoramiento del rendimiento específico del dominio de los MLLMs. (2) Flujo de Entrenamiento: Mientras que el entrenamiento en dos etapas, inicialmente en pares de imágenes y subtítulos seguido de tareas de instrucciones visuales, es comúnmente adoptado para desarrollar MLLMs generales, aplicamos un flujo de entrenamiento de una sola etapa para mejorar la diversidad de tareas para el post-entrenamiento específico del dominio. (3) Evaluación de Tareas: Realizamos experimentos en dos dominios, biomedicina y alimentos, post-entrenando MLLMs de diferentes fuentes y escalas (por ejemplo, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), y luego evaluando el rendimiento de MLLM en diversas tareas específicas del dominio. Para apoyar futuras investigaciones en la adaptación de dominio de MLLM, compartiremos nuestros implementaciones de código abierto.
Este informe técnico presenta Yi-Lightning, nuestro último modelo de lenguaje grande (LLM) insignia. Logra un rendimiento excepcional, clasificándose en sexto lugar en Chatbot Arena, con resultados particularmente sólidos (del 2º al 4º lugar) en categorías especializadas que incluyen Chino, Matemáticas, Codificación y Desafíos Difíciles. Yi-Lightning aprovecha una arquitectura mejorada de Mezcla de Expertos (MoE), que incluye avanzados mecanismos de segmentación y enrutamiento de expertos junto con técnicas optimizadas de almacenamiento en caché de claves y valores (KV-caching). Nuestro proceso de desarrollo abarca un entrenamiento previo exhaustivo, un ajuste fino supervisado (SFT) y aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), donde diseñamos estrategias deliberadas para el entrenamiento en múltiples etapas, la construcción de datos sintéticos y la modelización de recompensas. Además, implementamos RAISE (Motor de Seguridad de IA Responsable), un marco de cuatro componentes para abordar problemas de seguridad en las fases de pre-entrenamiento, post-entrenamiento y despliegue. Potenciado por nuestra infraestructura de supercomputación escalable, todas estas innovaciones reducen sustancialmente los costos de entrenamiento, despliegue e inferencia manteniendo altos estándares de rendimiento. Con evaluaciones adicionales en referencias académicas públicas, Yi-Lightning demuestra un rendimiento competitivo frente a LLMs de primer nivel, mientras observamos una notable disparidad entre los resultados de referencias estáticas tradicionales y las preferencias humanas dinámicas del mundo real. Esta observación motiva una reevaluación crítica de la utilidad de los referencias convencionales para guiar el desarrollo de sistemas de IA más inteligentes y potentes para aplicaciones prácticas. Yi-Lightning está disponible ahora a través de nuestra plataforma para desarrolladores en https://platform.lingyiwanwu.com.
Los modelos de difusión han surgido como una herramienta poderosa para generar imágenes, videos y contenido 3D de alta calidad. Si bien las técnicas de orientación de muestreo como CFG mejoran la calidad, reducen la diversidad y el movimiento. La autoguía mitiga estos problemas, pero requiere un entrenamiento adicional de un modelo débil, lo que limita su practicidad para modelos a gran escala. En este trabajo, presentamos la Guía de Salto Espaciotemporal (STG), un método de orientación de muestreo simple y sin entrenamiento para mejorar los modelos de difusión de video basados en transformadores. STG emplea un modelo débil implícito a través de la auto-perturbación, evitando la necesidad de modelos externos o entrenamiento adicional. Al omitir selectivamente capas espaciotemporales, STG produce una versión alineada y degradada del modelo original para mejorar la calidad de la muestra sin comprometer la diversidad o el grado dinámico. Nuestras contribuciones incluyen: (1) la introducción de STG como una técnica de orientación eficiente y de alto rendimiento para modelos de difusión de video, (2) la eliminación de la necesidad de modelos auxiliares al simular un modelo débil a través de la omisión de capas, y (3) garantizar una orientación mejorada en calidad sin comprometer la diversidad o la dinámica de la muestra, a diferencia de CFG. Para obtener resultados adicionales, visite https://junhahyung.github.io/STGuidance.
El pensamiento inverso juega un papel crucial en el razonamiento humano. Los humanos pueden razonar no solo de un problema a una solución, sino también al revés, es decir, comenzar desde la solución y razonar hacia el problema. Esto a menudo mejora el rendimiento general del razonamiento al permitir comprobaciones de consistencia entre su pensamiento hacia adelante y hacia atrás. Para habilitar a los Modelos de Lenguaje Grandes (LLMs) para realizar el pensamiento inverso, presentamos el Pensamiento Mejorado por Reversión (RevThink), un marco compuesto por aumento de datos y objetivos de aprendizaje. En RevThink, aumentamos el conjunto de datos recolectando razonamientos estructurados hacia adelante y hacia atrás de un modelo docente, que consiste en: (1) la pregunta original, (2) el razonamiento hacia adelante, (3) la pregunta hacia atrás y (4) el razonamiento hacia atrás. Luego empleamos tres objetivos para entrenar un modelo estudiante más pequeño de manera de aprendizaje multitarea: (a) generar razonamientos hacia adelante a partir de una pregunta, (b) generar una pregunta hacia atrás a partir de una pregunta y (c) generar razonamientos hacia atrás a partir de la pregunta hacia atrás. Experimentos en 12 conjuntos de datos que abarcan el sentido común, matemáticas y razonamiento lógico muestran una mejora promedio del 13.53% sobre el rendimiento de cero disparos del modelo estudiante y una mejora del 6.84% sobre las líneas base más fuertes de destilación de conocimiento. Además, nuestro método demuestra eficiencia de muestra: utilizando solo el 10% del razonamiento correcto hacia adelante de los datos de entrenamiento, supera un método estándar de ajuste fino entrenado con 10 veces más razonamiento hacia adelante. RevThink también exhibe una fuerte generalización a conjuntos de datos retenidos fuera de la distribución.
Como columna vertebral fundamental para la generación de video, los modelos de difusión se enfrentan a la baja velocidad de inferencia debido a la naturaleza secuencial del proceso de eliminación de ruido. Métodos previos aceleran los modelos mediante el almacenamiento en caché y reutilización de salidas del modelo en pasos de tiempo uniformemente seleccionados. Sin embargo, esta estrategia pasa por alto el hecho de que las diferencias entre las salidas del modelo no son uniformes en todos los pasos de tiempo, lo que dificulta seleccionar las salidas del modelo adecuadas para almacenar en caché, lo que resulta en un desequilibrio entre la eficiencia de inferencia y la calidad visual. En este estudio, presentamos TeaCache (Caché de Conciencia de Incrustación de Pasos de Tiempo), un enfoque de almacenamiento en caché sin entrenamiento que estima y aprovecha las diferencias fluctuantes entre las salidas del modelo a lo largo de los pasos de tiempo. En lugar de utilizar directamente las salidas del modelo que consumen mucho tiempo, TeaCache se centra en las entradas del modelo, que tienen una fuerte correlación con las salidas del modelo y con un costo computacional insignificante. TeaCache primero modula las entradas ruidosas utilizando las incrustaciones de pasos de tiempo para garantizar que sus diferencias se aproximen mejor a las de las salidas del modelo. Luego, TeaCache introduce una estrategia de reescalado para refinar las diferencias estimadas y las utiliza para indicar el almacenamiento en caché de las salidas. Los experimentos muestran que TeaCache logra una aceleración de hasta 4.41 veces sobre Open-Sora-Plan con una degradación de calidad visual insignificante (-0.07% en la puntuación Vbench).
Los modelos de lenguaje de gran tamaño (LLMs) han demostrado capacidades notables, pero su adopción se ve limitada por los altos costos computacionales durante la inferencia. Aunque aumentar el número de parámetros mejora la precisión, también amplía la brecha entre las capacidades de vanguardia y la desplegabilidad práctica. Presentamos Puzzle, un marco para acelerar la inferencia de LLM en hardware específico mientras se preservan sus capacidades. A través de una aplicación innovadora de búsqueda de arquitectura neuronal (NAS) a una escala sin precedentes, Puzzle optimiza sistemáticamente modelos con decenas de miles de millones de parámetros bajo restricciones de hardware. Nuestro enfoque utiliza destilación de conocimiento local por bloques (BLD) para exploración de arquitectura paralela y emplea programación entera mixta para una optimización precisa de las restricciones. Demostramos el impacto real de nuestro marco a través de Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), un modelo disponible públicamente derivado de Llama-3.1-70B-Instruct. Nemotron-51B logra una aceleración de 2.17 veces en el rendimiento de la inferencia, ajustándose en una sola GPU NVIDIA H100 mientras preserva el 98.4% de las capacidades del modelo original. Actualmente, Nemotron-51B es el modelo de lenguaje más preciso capaz de inferencia en una sola GPU con tamaños de lote grandes. De manera notable, esta transformación solo requirió 45B de tokens de entrenamiento, en comparación con más de 15T de tokens utilizados para el modelo de 70B del que se derivó. Esto establece un nuevo paradigma donde los modelos potentes pueden optimizarse para un despliegue eficiente con solo compromisos insignificantes en sus capacidades, demostrando que el rendimiento de la inferencia, no solo el número de parámetros, debería guiar la selección del modelo. Con el lanzamiento de Nemotron-51B y la presentación del marco Puzzle, brindamos a los profesionales acceso inmediato a capacidades de modelado de lenguaje de vanguardia a costos computacionales significativamente reducidos.
Los modelos de difusión son eficientes en la generación de imágenes de alta calidad. Sin embargo, son efectivos únicamente al operar en la resolución utilizada durante el entrenamiento. La inferencia a una resolución escalada conduce a patrones repetitivos y distorsiones estructurales. Volver a entrenar a resoluciones más altas rápidamente se vuelve prohibitivo. Por lo tanto, los métodos que permiten que los modelos de difusión preexistentes operen a resoluciones flexibles en tiempo de prueba son altamente deseables. Trabajos previos sufren de artefactos frecuentes y a menudo introducen grandes sobrecargas de latencia. Proponemos dos módulos simples que se combinan para resolver estos problemas. Introducimos un módulo de Modulación de Frecuencia (FM) que aprovecha el dominio de Fourier para mejorar la consistencia de la estructura global, y un módulo de Modulación de Atención (AM) que mejora la consistencia de los patrones de textura locales, un problema ampliamente ignorado en trabajos anteriores. Nuestro método, denominado difusión Fam, puede integrarse perfectamente en cualquier modelo de difusión latente y no requiere entrenamiento adicional. Resultados cualitativos extensos resaltan la efectividad de nuestro método en abordar artefactos estructurales y locales, mientras que los resultados cuantitativos muestran un rendimiento de vanguardia. Además, nuestro método evita trucos de inferencia redundantes para una mayor consistencia, como la generación basada en parches o progresiva, lo que conduce a sobrecargas de latencia despreciables.
La tokenización del habla con modelos neurales de códec de audio es una parte vital de los modernos flujos de trabajo de IA para la generación o comprensión del habla, ya sea de forma individual o en un contexto multimodal. Tradicionalmente, dichos modelos de tokenización se han centrado en arquitecturas de bajo recuento de parámetros que utilizan solo componentes con fuertes sesgos inductivos. En este trabajo mostramos que al escalar una arquitectura transformer con un gran recuento de parámetros para este problema, y aplicar un cuello de botella basado en Cuantificación Escalar Finita (FSQ) flexible, es posible alcanzar una calidad de habla de vanguardia a tasas de bits extremadamente bajas de 400 o 700 bits por segundo. Los modelos entrenados superan significativamente a los puntos de referencia existentes tanto en pruebas objetivas como subjetivas.
Los avances recientes en generación de video han sido impulsados en gran medida por modelos de difusión de video, con el control de movimiento de cámara emergiendo como un desafío crucial en la creación de contenido visual personalizado. Este artículo introduce la atención a trayectorias, un enfoque novedoso que realiza atención a lo largo de trayectorias de píxeles disponibles para un control detallado del movimiento de la cámara. A diferencia de los métodos existentes que a menudo producen salidas imprecisas o descuidan las correlaciones temporales, nuestro enfoque posee un sesgo inductivo más fuerte que inyecta sin problemas información de trayectoria en el proceso de generación de video. Importante, nuestro enfoque modela la atención a trayectorias como una rama auxiliar junto con la atención temporal tradicional. Este diseño permite que la atención temporal original y la atención a trayectorias trabajen en sinergia, asegurando tanto un control preciso del movimiento como una nueva capacidad de generación de contenido, lo cual es crítico cuando la trayectoria está solo parcialmente disponible. Experimentos sobre control de movimiento de cámara para imágenes y videos demuestran mejoras significativas en precisión y consistencia a largo plazo manteniendo una generación de alta calidad. Además, mostramos que nuestro enfoque puede extenderse a otras tareas de control de movimiento de video, como la edición de video guiada por el primer fotograma, donde destaca en mantener la consistencia del contenido en amplios rangos espaciales y temporales.
Con el creciente tamaño y complejidad de los datos de video, procesar eficientemente secuencias de video largas plantea desafíos significativos debido al aumento cuadrático en las demandas de memoria y computación asociadas con los Modelos Multimodales Grandes (LMMs) basados en transformadores existentes. Para abordar estos problemas, presentamos Video-Ma^2mba, una arquitectura novedosa que incorpora Modelos de Espacio de Estado (SSMs) dentro del marco de Mamba-2, reemplazando los mecanismos de atención. Esto permite que los LMMs escalen linealmente en términos de tiempo y requisitos de memoria, lo que hace factible manejar contenido de video de larga duración. Además, mejoramos la eficiencia de memoria introduciendo el método de Punto de Control de Gradiente Multi-Eje (MA-GC), que gestiona estratégicamente la memoria al retener solo activaciones esenciales en múltiples ejes computacionales. Nuestro enfoque reduce significativamente la huella de memoria en comparación con el punto de control de gradiente estándar. Los análisis empíricos muestran que Video-Ma^2mba puede procesar extensas secuencias de video-equivalentes a millones de tokens o más de dos horas de secuencias continuas a 1 FPS-en una sola GPU. Al mantener una captura detallada de la dinámica temporal, nuestro modelo mejora la precisión y relevancia de las respuestas en tareas de comprensión de video largo, demostrando ventajas sustanciales sobre los marcos existentes.
El movimiento humano, inherentemente continuo y dinámico, presenta desafíos significativos para los modelos generativos. A pesar de su dominancia, los métodos de cuantización discreta, como los VQ-VAEs, sufren de limitaciones inherentes, incluyendo una expresividad restringida y artefactos de ruido por cuadro. Los enfoques continuos, aunque producen movimientos más suaves y naturales, a menudo fallan debido a la complejidad de alta dimensión y datos de entrenamiento limitados. Para resolver esta "discordia" entre representaciones discretas y continuas, presentamos DisCoRD: Tokens Discretos a Movimiento Continuo a través de Decodificación de Flujo Rectificado, un método novedoso que decodifica tokens de movimiento discretos en movimiento continuo a través de flujo rectificado. Al emplear un proceso de refinamiento iterativo en el espacio continuo, DisCoRD captura dinámicas detalladas y garantiza movimientos más suaves y naturales. Compatible con cualquier marco basado en lo discreto, nuestro método mejora la naturalidad sin comprometer la fidelidad a las señales de condicionamiento. Evaluaciones extensas demuestran que DisCoRD logra un rendimiento de vanguardia, con un FID de 0.032 en HumanML3D y 0.169 en KIT-ML. Estos resultados consolidan a DisCoRD como una solución robusta para cerrar la brecha entre la eficiencia discreta y el realismo continuo. Nuestra página del proyecto está disponible en: https://whwjdqls.github.io/discord.github.io/.
Las capacidades de razonamiento matemático están aumentando con agentes de lenguaje potenciados por herramientas, pero los métodos a menudo dependen de modelos cerrados o grandes, datos externos o un extenso diseño de indicaciones. Este trabajo presenta MATATA, un novedoso método rentable para entrenar agentes LLM para problemas de datos tabulares a través de razonamiento, planificación y uso de herramientas. Con un paradigma de auto-mejora progresiva y una supervisión débil iterativa, potencia a los Modelos de Lenguaje Pequeños (SLMs) de 3.8B/8B, especialmente adecuados para alojamiento local y contextos empresariales sensibles donde la privacidad de los datos es crucial. Al emplear herramientas flexibles y reutilizables en diferentes conjuntos de datos, logra un rendimiento robusto con escalabilidad efectiva en tareas compartidas. Los experimentos muestran que MATATA alcanza rendimientos de vanguardia en FinQA y TAT-QA entre los marcos de razonamiento basados en modelos de código abierto. Además, los modelos de MATATA compiten con los marcos basados en GPT-4 en TabMWP, siendo SLMs.
Numerosas obras han integrado recientemente el control de cámara 3D en modelos fundamentales de texto a video, pero el control resultante de la cámara a menudo es impreciso y la calidad de generación de video se ve afectada. En este trabajo, analizamos el movimiento de la cámara desde una perspectiva de primeros principios, descubriendo ideas que permiten una manipulación precisa de la cámara 3D sin comprometer la calidad de síntesis. En primer lugar, determinamos que el movimiento inducido por los movimientos de la cámara en los videos es de baja frecuencia. Esto nos motiva a ajustar los horarios de condicionamiento de la postura de entrenamiento y prueba, acelerando la convergencia del entrenamiento al tiempo que mejoramos la calidad visual y de movimiento. Luego, al explorar las representaciones de un transformador de difusión de video incondicional, observamos que implícitamente realizan una estimación de la postura de la cámara bajo el capó, y solo una subsección de sus capas contiene la información de la cámara. Esto nos sugirió limitar la inyección de condicionamiento de cámara a un subconjunto de la arquitectura para evitar interferencias con otras características de video, lo que resultó en una reducción de 4 veces de los parámetros de entrenamiento, una velocidad de entrenamiento mejorada y una calidad visual un 10% mayor. Finalmente, complementamos el conjunto de datos típico para el aprendizaje de control de cámara con un conjunto de datos seleccionado de 20K videos dinámicos diversos con cámaras estacionarias. Esto ayuda al modelo a diferenciar entre el movimiento de la cámara y de la escena, y mejora la dinámica de los videos condicionados por la postura generados. Combinamos estos hallazgos para diseñar la arquitectura de Control Avanzado de Cámara 3D (AC3D), el nuevo modelo de vanguardia para la modelización generativa de video con control de cámara.
Presentamos AlphaTablets, una representación novedosa y genérica de planos 3D que presenta una superficie 3D continua y una delimitación precisa de los límites. Al representar los planos 3D como rectángulos con canales alfa, AlphaTablets combinan las ventajas de las representaciones actuales de planos 2D y 3D, permitiendo modelar de manera precisa, consistente y flexible los planos 3D. Derivamos una rasterización diferenciable sobre AlphaTablets para renderizar eficientemente los planos 3D en imágenes, y proponemos un nuevo pipeline ascendente para la reconstrucción planar 3D a partir de videos monoculares. Comenzando con superpíxeles 2D y señales geométricas de modelos pre-entrenados, inicializamos los planos 3D como AlphaTablets y los optimizamos a través de renderización diferenciable. Se introduce un esquema de fusión efectivo para facilitar el crecimiento y refinamiento de AlphaTablets. A través de la optimización iterativa y fusión, reconstruimos planos 3D completos y precisos con superficies sólidas y límites claros. Experimentos extensos en el conjunto de datos ScanNet demuestran un rendimiento de vanguardia en la reconstrucción planar 3D, subrayando el gran potencial de AlphaTablets como una representación genérica de planos 3D para diversas aplicaciones. La página del proyecto está disponible en: https://hyzcluster.github.io/alphatablets
El entrenamiento de grandes redes neuronales generalmente requiere compartir gradientes entre aceleradores a través de interconexiones especializadas de alta velocidad. Basándonos en los principios de procesamiento de señales de descomposición en frecuencia y compresión de energía, demostramos que sincronizar estados completos de optimización y parámetros del modelo durante el entrenamiento es innecesario. Al separar las actualizaciones de momento y permitir una divergencia controlada en los estados del optimizador entre aceleradores, logramos una convergencia mejorada en comparación con optimizadores de última generación. Presentamos Decoupled Momentum (DeMo), un optimizador fusionado y un algoritmo de paralelismo de datos que reduce los requisitos de comunicación entre aceleradores en varios órdenes de magnitud. Esto permite el entrenamiento de grandes redes neuronales incluso con ancho de banda de red limitado y hardware heterogéneo. Nuestro método es agnóstico a la topología e independiente de la arquitectura, y admite un entrenamiento distribuido síncrono a nivel de reloj con una sobrecarga computacional y de memoria despreciable. Los resultados empíricos muestran que los modelos entrenados con DeMo igualan o superan el rendimiento de modelos equivalentes entrenados con AdamW, al tiempo que eliminan la necesidad de interconexiones de alta velocidad al preentrenar modelos de base a gran escala. Se ha publicado una implementación de referencia de código abierto en PyTorch en GitHub en https://github.com/bloc97/DeMo
Con el creciente número de noticias disponibles en línea, clasificarlas por tema, independientemente del idioma en que estén escritas, se ha vuelto crucial para mejorar el acceso de los lectores a contenido relevante. Para abordar este desafío, proponemos un marco de trabajo profesor-alumno basado en grandes modelos de lenguaje (LLMs) para desarrollar modelos multilingües de clasificación de noticias de tamaño razonable sin necesidad de anotación manual de datos. El marco emplea un modelo Generativo Preentrenado Transformer (GPT) como modelo profesor para desarrollar un conjunto de datos de entrenamiento de Temas de Medios IPTC a través de la anotación automática de artículos de noticias en esloveno, croata, griego y catalán. El modelo profesor muestra un alto rendimiento de cero disparos en los cuatro idiomas. Su acuerdo con los anotadores humanos es comparable al de los propios anotadores humanos. Para mitigar las limitaciones computacionales asociadas con el procesamiento de millones de textos diarios, se ajustan modelos de estudiantes más pequeños similares a BERT en el conjunto de datos anotado por GPT. Estos modelos de estudiantes logran un alto rendimiento comparable al del modelo profesor. Además, exploramos el impacto del tamaño de los datos de entrenamiento en el rendimiento de los modelos de estudiantes e investigamos sus capacidades monolingües, multilingües y de cero disparos cruzados. Los hallazgos indican que los modelos de estudiantes pueden lograr un alto rendimiento con un número relativamente pequeño de instancias de entrenamiento, y demuestran fuertes habilidades de cero disparos cruzados lingüísticos. Finalmente, publicamos el clasificador de temas de noticias con mejor rendimiento, permitiendo la clasificación multilingüe con las categorías de nivel superior del esquema de Temas de Medios IPTC.
Trabajos recientes han demostrado que los modelos de difusión pueden utilizarse como potentes motores de renderizado neuronal que pueden aprovecharse para insertar objetos virtuales en imágenes. Sin embargo, a diferencia de los renderizadores basados en física típicos, los motores de renderizado neuronal están limitados por la falta de control manual sobre la configuración de iluminación, que a menudo es esencial para mejorar o personalizar el resultado de la imagen deseada. En este artículo, mostramos que se puede lograr un control preciso de la iluminación para el reiluminado de objetos simplemente especificando las sombras deseadas del objeto. Sorprendentemente, demostramos que al inyectar solo la sombra del objeto en un renderizador neuronal basado en difusión preentrenado, este puede sombrear con precisión el objeto según la posición de la luz deseada, armonizando adecuadamente el objeto (y su sombra) dentro de la imagen de fondo objetivo. Nuestro método, SpotLight, aprovecha enfoques de renderizado neuronal existentes y logra resultados de reiluminado controlables sin necesidad de entrenamiento adicional. Específicamente, demostramos su uso con dos renderizadores neuronales de la literatura reciente. Mostramos que SpotLight logra resultados de composición de objetos superiores, tanto cuantitativa como perceptualmente, según lo confirmado por un estudio de usuarios, superando a los modelos basados en difusión existentes diseñados específicamente para el reiluminado.
En el presente trabajo presentamos el Entrenamiento con Ruido en Tokens (TNT) para la poda de transformers de visión. Nuestro método relaja la condición de eliminación de tokens discretos a ruido aditivo continuo, lo que proporciona una optimización suave en el entrenamiento, al tiempo que conserva las ventajas computacionales de eliminación discreta en entornos de implementación. Establecemos conexiones teóricas con la literatura de Tasa-Distorsión y realizamos evaluaciones empíricas en el conjunto de datos ImageNet utilizando las arquitecturas ViT y DeiT, demostrando las ventajas de TNT sobre métodos de poda previos.