Artículos de investigación en IA seleccionados diariamente con traducciones
Yume tiene como objetivo utilizar imágenes, texto o videos para crear un mundo interactivo, realista y dinámico, que permita la exploración y el control mediante dispositivos periféricos o señales neuronales. En este informe, presentamos una versión preliminar de \method, que crea un mundo dinámico a partir de una imagen de entrada y permite explorar dicho mundo mediante acciones de teclado. Para lograr esta generación de video interactivo y de alta fidelidad, introducimos un marco bien diseñado, que consta de cuatro componentes principales: cuantización del movimiento de la cámara, arquitectura de generación de video, muestreador avanzado y aceleración del modelo. Primero, cuantizamos los movimientos de la cámara para un entrenamiento estable y una interacción amigable utilizando entradas de teclado. Luego, presentamos el Transformer de Difusión de Video Enmascarado (MVDT) con un módulo de memoria para la generación infinita de video de manera autoregresiva. Después, introducimos el Mecanismo Anti-Artefactos (AAM) sin necesidad de entrenamiento y el Muestreo de Viaje en el Tiempo basado en Ecuaciones Diferenciales Estocásticas (TTS-SDE) en el muestreador para obtener una mejor calidad visual y un control más preciso. Además, investigamos la aceleración del modelo mediante la optimización sinérgica de la destilación adversarial y los mecanismos de almacenamiento en caché. Utilizamos el conjunto de datos de exploración de mundo de alta calidad \sekai para entrenar \method, y este logra resultados notables en diversas escenas y aplicaciones. Todos los datos, el código base y los pesos del modelo están disponibles en https://github.com/stdstu12/YUME. Yume se actualizará mensualmente para alcanzar su objetivo original. Página del proyecto: https://stdstu12.github.io/YUME-Project/.
Lograr una percepción y razonamiento similares a los humanos en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) sigue siendo un desafío central en la inteligencia artificial. Si bien investigaciones recientes se han centrado principalmente en mejorar las capacidades de razonamiento en los MLLMs, persiste una pregunta fundamental: ¿Pueden los Modelos de Lenguaje Multimodales percibir el mundo como lo hacen los humanos? Este artículo cambia el enfoque del razonamiento a la percepción. En lugar de construir puntos de referencia específicos para el razonamiento, presentamos la Prueba del Ojo de Turing (TET, por sus siglas en inglés), un punto de referencia orientado a la percepción y desafiante que consta de cuatro tareas diagnósticas que evalúan el rendimiento de los MLLMs en imágenes sintéticas que los humanos procesan de manera intuitiva. Nuestros hallazgos revelan que los MLLMs más avanzados exhiben fallos catastróficos en nuestras tareas perceptivas, que son triviales para los humanos. Tanto el aprendizaje en contexto como el entrenamiento en el núcleo del lenguaje, efectivos para puntos de referencia anteriores, no logran mejorar el rendimiento en nuestras tareas, mientras que el ajuste fino de la torre visual permite una rápida adaptación, lo que sugiere que nuestro punto de referencia plantea desafíos para la generalización de la torre visual en lugar de para las capacidades de conocimiento y razonamiento del núcleo del lenguaje, una brecha clave entre los MLLMs actuales y la percepción humana. En esta versión, publicamos un subconjunto representativo de tareas de TET, y en trabajos futuros introduciremos tareas y métodos más diversos para mejorar la generalización visual.
Diseñar diapositivas de presentación de alta calidad puede ser un desafío para los no expertos debido a la complejidad que implica navegar entre diversas opciones de diseño. Numerosas herramientas automatizadas pueden sugerir diseños y combinaciones de colores, pero a menudo carecen de la capacidad de refinar su propio resultado, un aspecto clave en los flujos de trabajo del mundo real. Proponemos DesignLab, que separa el proceso de diseño en dos roles: el revisor de diseño, quien identifica problemas relacionados con el diseño, y el contribuidor de diseño, quien los corrige. Esta descomposición permite un ciclo iterativo en el que el revisor detecta continuamente problemas y el contribuidor los corrige, lo que posibilita que un borrador se refine con cada iteración, alcanzando niveles de calidad que antes eran inalcanzables. Ajustamos modelos de lenguaje de gran escala para estos roles y simulamos borradores intermedios mediante la introducción de perturbaciones controladas, lo que permite que el revisor de diseño aprenda a identificar errores y el contribuidor aprenda a corregirlos. Nuestros experimentos muestran que DesignLab supera a los métodos existentes de generación de diseño, incluyendo una herramienta comercial, al adoptar la naturaleza iterativa del diseño, lo que puede resultar en diapositivas pulidas y profesionales.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un paradigma poderoso para mejorar las capacidades de razonamiento de los LLM (Modelos de Lenguaje de Gran Escala). La investigación existente se ha centrado predominantemente en dominios de razonamiento aislados, como la resolución de problemas matemáticos, tareas de programación o razonamiento lógico. Sin embargo, los escenarios de razonamiento del mundo real exigen inherentemente una aplicación integrada de múltiples habilidades cognitivas. A pesar de esto, la interacción entre estas habilidades de razonamiento bajo el aprendizaje por refuerzo sigue siendo poco comprendida. Para cerrar esta brecha, presentamos una investigación sistemática del razonamiento multidominio dentro del marco RLVR, enfocándonos explícitamente en tres dominios principales: razonamiento matemático, generación de código y resolución de acertijos lógicos. Realizamos un estudio integral que comprende cuatro componentes clave: (1) Aprovechando el algoritmo GRPO y la familia de modelos Qwen-2.5-7B, nuestro estudio evalúa exhaustivamente las mejoras en el dominio y las capacidades de generalización cruzada de los modelos cuando se entrenan con conjuntos de datos de un solo dominio. (2) Además, examinamos las interacciones complejas, incluyendo mejoras mutuas y conflictos, que surgen durante el entrenamiento cruzado combinado. (3) Para comprender mejor la influencia del Ajuste Fino Supervisado (SFT) en el aprendizaje por refuerzo, también analizamos y comparamos las diferencias de rendimiento entre los modelos base y los modelos instructivos bajo configuraciones idénticas de RL. (4) Asimismo, profundizamos en detalles críticos del entrenamiento de RL, explorando sistemáticamente los impactos de las estrategias de aprendizaje curricular, variaciones en el diseño de recompensas y factores específicos del lenguaje. A través de experimentos extensos, nuestros resultados ofrecen insights significativos sobre las dinámicas que gobiernan las interacciones entre dominios, revelando factores clave que influyen tanto en el rendimiento especializado como en la generalización del razonamiento. Estos hallazgos proporcionan una guía valiosa para optimizar las metodologías de RL con el fin de fomentar capacidades de razonamiento integrales y multidominio en los LLM.
Los recientes avances en representaciones de vóxeles dispersos han mejorado significativamente la calidad de la generación de contenido 3D, permitiendo modelados de alta resolución con geometría detallada. Sin embargo, los marcos existentes sufren de graves ineficiencias computacionales debido a la complejidad cuadrática de los mecanismos de atención en sus pipelines de difusión de dos etapas. En este trabajo, proponemos Ultra3D, un marco eficiente para la generación 3D que acelera significativamente el modelado de vóxeles dispersos sin comprometer la calidad. Nuestro método aprovecha la representación compacta VecSet para generar eficientemente un diseño aproximado del objeto en la primera etapa, reduciendo el número de tokens y acelerando la predicción de coordenadas de vóxeles. Para refinar las características latentes por vóxel en la segunda etapa, introducimos Part Attention, un mecanismo de atención localizado consciente de la geometría que restringe el cálculo de atención a regiones de partes semánticamente consistentes. Este diseño preserva la continuidad estructural mientras evita la atención global innecesaria, logrando una aceleración de hasta 6.7x en la generación latente. Para respaldar este mecanismo, construimos un pipeline escalable de anotación de partes que convierte mallas sin procesar en vóxeles dispersos etiquetados por partes. Experimentos extensivos demuestran que Ultra3D soporta la generación 3D de alta resolución a 1024 y alcanza un rendimiento de vanguardia tanto en fidelidad visual como en preferencia de los usuarios.
La búsqueda agentica, como un paradigma más autónomo y adaptable de aumento de recuperación, está impulsando la evolución de los sistemas de búsqueda inteligente. Sin embargo, los marcos de evaluación existentes no se alinean bien con los objetivos de la búsqueda agentica. En primer lugar, las consultas complejas comúnmente utilizadas en los puntos de referencia actuales a menudo se desvían de los escenarios de búsqueda realistas de los usuarios. En segundo lugar, los enfoques previos tienden a introducir ruido al extraer la verdad fundamental para las evaluaciones de extremo a extremo, lo que lleva a evaluaciones distorsionadas a un nivel granular. En tercer lugar, la mayoría de los marcos actuales se centran únicamente en la calidad de las respuestas finales, descuidando la evaluación del proceso iterativo inherente a la búsqueda agentica. Para abordar estas limitaciones, proponemos RAVine: un marco de evaluación alineado con la realidad para modelos de lenguaje agenticos con búsqueda. RAVine se enfoca en consultas de múltiples puntos y respuestas extensas que reflejan mejor las intenciones del usuario, e introduce una estrategia de construcción de verdad fundamental atribuible para mejorar la precisión de la evaluación granular. Además, RAVine examina la interacción del modelo con las herramientas de búsqueda a lo largo del proceso iterativo y tiene en cuenta factores de eficiencia. Evaluamos una serie de modelos utilizando RAVine y derivamos varias conclusiones, que esperamos contribuyan al avance del desarrollo de los sistemas de búsqueda agentica. El código y los conjuntos de datos están disponibles en https://github.com/SwordFaith/RAVine.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) basados en lenguaje informal (por ejemplo, lenguaje humano) entrenados con Aprendizaje por Refuerzo (RL, por sus siglas en inglés) enfrentan un desafío significativo: sus procesos de verificación, que proporcionan señales de entrenamiento cruciales, no son ni confiables ni escalables. De hecho, los modelos propietarios de gran escala predominantes difícilmente podrían generar programas verificables. Una alternativa prometedora pero en gran parte inexplorada es el razonamiento basado en lenguajes formales. Fundamentar los LLMs en sistemas formales rigurosos, donde los modelos generativos operan en espacios de lenguaje formal (por ejemplo, Dafny), permite la verificación automática y matemáticamente demostrable de sus procesos de razonamiento y resultados. Esta capacidad es fundamental para lograr una verificación formal de software confiable a gran escala. Es una práctica común emplear cadenas de pensamiento anotadas por humanos y otros conocimientos previos humanos para inducir las capacidades de razonamiento y codificación de los LLMs. Desafortunadamente, resulta excesivamente consumidor proporcionar tales conocimientos previos para supervisar tareas de programación complejas. En este trabajo, exploramos sistemáticamente formas de reducir los conocimientos previos humanos utilizando el lenguaje formal Dafny como el entorno principal para nuestro estudio piloto. Nuestra canalización se basa principalmente en la introducción de una canalización de curación de datos automática y escalable, y diseños cuidadosos de RL integrados con retroalimentación del verificador de lenguaje formal. Presentamos DafnyComp, un punto de referencia de programas formales composicionales con especificaciones auto-formalizadas para el razonamiento de especificaciones. Nuestra etapa de ajuste fino supervisado (SFT, por sus siglas en inglés) permite que incluso modelos pequeños (por ejemplo, 0.5B) generen código Dafny sintácticamente válido y verificable, superando a los modelos propietarios. El RL con regularización mejora aún más el rendimiento, logrando una mayor generalización para tareas fuera del dominio y superando a todos los puntos de referencia fuertes en el desafiante punto de referencia DafnyComp.
Los Modelos de Lenguaje de Gran Escala (LLMs) obtienen su mejor rendimiento con indicaciones (prompts) bien elaboradas, sin embargo, la ingeniería de prompts sigue siendo manual, inconsistente e inaccesible para no expertos. Presentamos Promptomatix, un marco de optimización automática de prompts que transforma descripciones de tareas en lenguaje natural en prompts de alta calidad sin requerir ajustes manuales ni experiencia en el dominio. Promptomatix incluye tanto un optimizador ligero basado en meta-prompts como un compilador impulsado por DSPy, con un diseño modular que permite futuras extensiones a marcos más avanzados. El sistema analiza la intención del usuario, genera datos de entrenamiento sintéticos, selecciona estrategias de prompting y refina los prompts utilizando objetivos conscientes del costo. Evaluado en 5 categorías de tareas, Promptomatix logra un rendimiento competitivo o superior en comparación con bibliotecas existentes, al tiempo que reduce la longitud de los prompts y la sobrecarga computacional, haciendo que la optimización de prompts sea escalable y eficiente.
Los activos 3D de alta calidad son esenciales para diversas aplicaciones en gráficos por computadora y visión 3D, pero siguen siendo escasos debido a los costos significativos de adquisición. Para abordar esta escasez, presentamos Elevate3D, un marco novedoso que transforma activos 3D de baja calidad, fácilmente accesibles, en activos de mayor calidad. En el núcleo de Elevate3D se encuentra HFS-SDEdit, un método especializado de mejora de texturas que mejora significativamente la calidad de las texturas mientras preserva la apariencia y la geometría, corrigiendo sus degradaciones. Además, Elevate3D opera de manera vista por vista, alternando entre el refinamiento de texturas y geometría. A diferencia de métodos anteriores que en gran medida han pasado por alto el refinamiento de la geometría, nuestro marco aprovecha las pistas geométricas de las imágenes refinadas con HFS-SDEdit mediante el uso de predictores de geometría monocular de última generación. Este enfoque garantiza una geometría detallada y precisa que se alinea perfectamente con la textura mejorada. Elevate3D supera a competidores recientes al lograr una calidad de vanguardia en el refinamiento de modelos 3D, abordando efectivamente la escasez de activos 3D de código abierto de alta calidad.
El rápido avance de los modelos de difusión de video se ha visto obstaculizado por limitaciones fundamentales en el modelado temporal, particularmente la sincronización rígida de la evolución de los fotogramas impuesta por las variables convencionales de pasos de tiempo escalares. Aunque las adaptaciones específicas para tareas y los modelos autorregresivos han intentado abordar estos desafíos, siguen estando limitados por la ineficiencia computacional, el olvido catastrófico o la aplicabilidad reducida. En este trabajo, presentamos Pusa, un paradigma innovador que aprovecha la adaptación vectorizada de pasos de tiempo (VTA) para permitir un control temporal de grano fino dentro de un marco unificado de difusión de video. Además, VTA es una adaptación no destructiva, lo que significa que preserva completamente las capacidades del modelo base. Al ajustar el modelo Wan2.1-T2V-14B, líder en su campo, con VTA, logramos una eficiencia sin precedentes, superando el rendimiento de Wan-I2V-14B con ≤ 1/200 del costo de entrenamiento (\500 vs. \geq 100,000) y ≤ 1/2500 del tamaño del conjunto de datos (4K vs. \geq 10M muestras). Pusa no solo establece un nuevo estándar para la generación de imagen a video (I2V), logrando una puntuación total en VBench-I2V de 87.32\% (vs. 86.86\% de Wan-I2V-14B), sino que también desbloquea muchas capacidades multitarea en modo zero-shot, como la generación de fotogramas iniciales y finales y la extensión de video, todo ello sin entrenamiento específico para tareas. Mientras tanto, Pusa aún puede realizar generación de texto a video. Los análisis mecanicistas revelan que nuestro enfoque preserva los conocimientos generativos del modelo base mientras inyecta dinámicas temporales de manera precisa, evitando la explosión combinatoria inherente a los pasos de tiempo vectorizados. Este trabajo establece un paradigma escalable, eficiente y versátil para la síntesis de video de próxima generación, democratizando la generación de video de alta fidelidad tanto para la investigación como para la industria. El código está disponible en https://github.com/Yaofang-Liu/Pusa-VidGen.
Los modelos de difusión de texto a imagen (DMs, por sus siglas en inglés) han logrado un éxito notable en la generación de imágenes. Sin embargo, persisten preocupaciones sobre la privacidad de los datos y la propiedad intelectual debido a su potencial para memorizar y replicar inadvertidamente los datos de entrenamiento. Los esfuerzos recientes de mitigación se han centrado en identificar y podar los pesos responsables de desencadenar la replicación, basándose en la suposición de que la memorización puede localizarse. Nuestra investigación evalúa la solidez de estos enfoques basados en poda. Demostramos que, incluso después de la poda, ajustes menores en las incrustaciones de texto de las indicaciones de entrada son suficientes para volver a desencadenar la replicación de datos, lo que resalta la fragilidad de estas defensas. Además, cuestionamos la suposición fundamental de la localidad de la memorización, al mostrar que la replicación puede desencadenarse desde diversas ubicaciones dentro del espacio de incrustación de texto y sigue diferentes rutas en el modelo. Nuestros hallazgos indican que las estrategias de mitigación existentes son insuficientes y subrayan la necesidad de métodos que eliminen verdaderamente el contenido memorizado, en lugar de intentar suprimir su recuperación. Como primer paso en esta dirección, introducimos un novedoso método de ajuste fino adversarial que busca iterativamente los desencadenantes de replicación y actualiza el modelo para aumentar su robustez. A través de nuestra investigación, proporcionamos nuevas perspectivas sobre la naturaleza de la memorización en los DMs de texto a imagen y una base para construir una IA generativa más confiable y conforme.