Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en los LLM han convertido a la investigación científica automatizada en la próxima frontera en el camino hacia la superinteligencia artificial. Sin embargo, estos sistemas están limitados ya sea a tareas de alcance reducido o a las capacidades creativas limitadas de los LLM. Proponemos Spacer, un sistema de descubrimiento científico que desarrolla conceptos creativos y fundamentados en hechos sin intervención externa. Spacer intenta lograr esto mediante la "descontextualización deliberada", un enfoque que descompone la información en unidades atómicas —palabras clave— y extrae creatividad de conexiones inexploradas entre ellas. Spacer consta de (i) Nuri, un motor de inspiración que construye conjuntos de palabras clave, y (ii) el Pipeline de Manifestación que refina estos conjuntos en declaraciones científicas elaboradas. Nuri extrae conjuntos de palabras clave novedosos y de alto potencial de un grafo de palabras clave construido con 180,000 publicaciones académicas en campos biológicos. El Pipeline de Manifestación encuentra vínculos entre palabras clave, analiza su estructura lógica, valida su plausibilidad y, finalmente, redacta conceptos científicos originales. Según nuestros experimentos, la métrica de evaluación de Nuri clasifica con precisión publicaciones de alto impacto con un puntaje AUROC de 0.737. Nuestro Pipeline de Manifestación también reconstruye con éxito conceptos centrales de los últimos artículos de revistas de primer nivel únicamente a partir de sus conjuntos de palabras clave. Un sistema de puntuación basado en LLM estima que esta reconstrucción fue sólida en más del 85% de los casos. Finalmente, nuestro análisis del espacio de incrustación muestra que los resultados de Spacer son significativamente más similares a las publicaciones líderes en comparación con los de los LLM de última generación.
Este informe presenta VibeVoice, un modelo novedoso diseñado para sintetizar discursos de larga duración con múltiples hablantes mediante el uso de difusión de siguiente token, un método unificado para modelar datos continuos mediante la generación autoregresiva de vectores latentes a través de difusión. Para lograrlo, introducimos un nuevo tokenizador de habla continua que, en comparación con el popular modelo Encodec, mejora la compresión de datos en 80 veces mientras mantiene un rendimiento comparable. El tokenizador preserva eficazmente la fidelidad del audio y aumenta significativamente la eficiencia computacional para procesar secuencias largas. Así, VibeVoice puede sintetizar discursos de hasta 90 minutos (en una ventana de contexto de 64K) con un máximo de 4 hablantes, capturando el "ambiente" conversacional auténtico y superando a los modelos de diálogo tanto de código abierto como propietarios.
Los modelos existentes de avatares de video pueden producir animaciones humanas fluidas, pero tienen dificultades para ir más allá de la mera similitud física y capturar la esencia auténtica de un personaje. Sus movimientos suelen sincronizarse con señales de bajo nivel, como el ritmo del audio, careciendo de una comprensión semántica más profunda de la emoción, la intención o el contexto. Para cerrar esta brecha, proponemos un marco diseñado para generar animaciones de personajes que no solo sean físicamente plausibles, sino también semánticamente coherentes y expresivas. Nuestro modelo, OmniHuman-1.5, se basa en dos contribuciones técnicas clave. En primer lugar, aprovechamos los Modelos de Lenguaje Multimodales de Gran Escala para sintetizar una representación textual estructurada de condiciones que proporciona una guía semántica de alto nivel. Esta guía dirige nuestro generador de movimientos más allá de la sincronización rítmica simplista, permitiendo la producción de acciones que resuenan contextual y emocionalmente. En segundo lugar, para garantizar la fusión efectiva de estas entradas multimodales y mitigar los conflictos intermodales, introducimos una arquitectura especializada Multimodal DiT con un novedoso diseño de Pseudo Último Fotograma. La sinergia de estos componentes permite que nuestro modelo interprete con precisión la semántica conjunta del audio, las imágenes y el texto, generando así movimientos profundamente coherentes con el personaje, la escena y el contenido lingüístico. Experimentos exhaustivos demuestran que nuestro modelo logra un rendimiento líder en un conjunto completo de métricas, incluyendo la precisión de sincronización labial, la calidad del video, la naturalidad del movimiento y la coherencia semántica con las indicaciones textuales. Además, nuestro enfoque muestra una notable extensibilidad a escenarios complejos, como aquellos que involucran múltiples personas y sujetos no humanos. Página de inicio: https://omnihuman-lab.github.io/v1_5/
Si bien los modelos de Mezcla de Expertos (MoE) logran una eficiencia notable al activar solo subconjuntos de parámetros, sufren de altos costos de acceso a memoria durante la inferencia. Las arquitecturas de capas de memoria ofrecen una alternativa atractiva con muy pocos accesos a memoria, pero intentos previos como UltraMem solo han igualado el rendimiento de modelos MoE de 2 expertos, quedándose significativamente por debajo de las configuraciones de última generación con 8 expertos. Presentamos UltraMemV2, una arquitectura de capas de memoria rediseñada que cierra esta brecha de rendimiento. Nuestro enfoque introduce cinco mejoras clave: integrar capas de memoria en cada bloque del transformador, simplificar la expansión de valores con proyecciones lineales únicas, adoptar el procesamiento de valores basado en FFN de PEER, implementar una inicialización de parámetros fundamentada y reequilibrar las proporciones de cálculo entre memoria y FFN. A través de una evaluación exhaustiva, demostramos que UltraMemV2 alcanza un rendimiento equivalente a los modelos MoE de 8 expertos con el mismo cómputo y parámetros, pero con un acceso a memoria significativamente menor. Notablemente, UltraMemV2 muestra un rendimiento superior en tareas intensivas en memoria, con mejoras de +1.6 puntos en memorización de contexto largo, +6.2 puntos en memorización de múltiples rondas y +7.9 puntos en aprendizaje en contexto. Validamos nuestro enfoque a gran escala con modelos de hasta 2.5 mil millones de parámetros activados de un total de 120 mil millones, y establecemos que la densidad de activación tiene un mayor impacto en el rendimiento que el recuento total de parámetros dispersos. Nuestro trabajo lleva las arquitecturas de capas de memoria a un nivel de rendimiento equivalente a los modelos MoE de última generación, presentando una alternativa convincente para el cómputo disperso eficiente.
La edición local 3D de regiones específicas es crucial para la industria de los videojuegos y la interacción con robots. Los métodos recientes suelen editar imágenes renderizadas de múltiples vistas y luego reconstruir modelos 3D, pero enfrentan desafíos para preservar con precisión las regiones no editadas y la coherencia general. Inspirados por los modelos generativos 3D estructurados, proponemos VoxHammer, un enfoque novedoso que no requiere entrenamiento y realiza ediciones precisas y coherentes en el espacio latente 3D. Dado un modelo 3D, VoxHammer primero predice su trayectoria de inversión y obtiene sus latentes invertidos y tokens clave-valor en cada paso de tiempo. Posteriormente, en la fase de eliminación de ruido y edición, reemplazamos las características de eliminación de ruido de las regiones preservadas con los latentes invertidos correspondientes y los tokens clave-valor almacenados. Al retener estas características contextuales, este enfoque asegura una reconstrucción consistente de las áreas preservadas y una integración coherente de las partes editadas. Para evaluar la consistencia de las regiones preservadas, construimos Edit3D-Bench, un conjunto de datos anotado por humanos que comprende cientos de muestras, cada una con regiones de edición 3D cuidadosamente etiquetadas. Los experimentos demuestran que VoxHammer supera significativamente a los métodos existentes en términos de consistencia 3D de las regiones preservadas y calidad general. Nuestro método promete sintetizar datos editados de alta calidad en pares, sentando así la base de datos para la generación 3D en contexto. Visite nuestra página del proyecto en https://huanngzh.github.io/VoxHammer-Page/.
Inferir las propiedades físicas de escenas 3D a partir de información visual es una tarea crucial pero desafiante para crear mundos virtuales interactivos y realistas. Mientras que los humanos comprenden intuitivamente características de los materiales como la elasticidad o la rigidez, los métodos existentes suelen depender de una optimización lenta por escena, lo que limita su generalización y aplicación. Para abordar este problema, presentamos PIXIE, un método novedoso que entrena una red neuronal generalizable para predecir propiedades físicas en múltiples escenas a partir de características visuales 3D utilizando únicamente pérdidas supervisadas. Una vez entrenada, nuestra red de avance rápido puede realizar inferencias rápidas de campos de materiales plausibles, lo que, junto con una representación estática de la escena aprendida como Gaussian Splatting, permite simulaciones físicas realistas bajo fuerzas externas. Para facilitar esta investigación, también recopilamos PIXIEVERSE, uno de los conjuntos de datos más grandes conocidos de activos 3D emparejados con anotaciones de materiales físicos. Evaluaciones exhaustivas demuestran que PIXIE es aproximadamente 1.46-4.39 veces mejor y órdenes de magnitud más rápido que los métodos de optimización en tiempo de prueba. Al aprovechar características visuales preentrenadas como CLIP, nuestro método también puede generalizar de manera zero-shot a escenas del mundo real, a pesar de haber sido entrenado únicamente con datos sintéticos. https://pixie-3d.github.io/
Los modelos de lenguaje de gran escala (LLMs) con razonamiento en cadena de pensamiento han demostrado capacidades notables para resolver problemas, pero controlar su esfuerzo computacional sigue siendo un desafío significativo para su implementación práctica. Sistemas propietarios recientes como la serie gpt-oss de OpenAI han introducido modos operativos discretos para un control intuitivo del razonamiento, pero la comunidad de código abierto no ha logrado alcanzar tales capacidades. En este artículo, presentamos ThinkDial, el primer marco de trabajo de extremo a extremo de receta abierta que implementa con éxito un razonamiento controlable al estilo gpt-oss mediante modos operativos discretos. Nuestro sistema permite cambiar sin problemas entre tres regímenes de razonamiento distintos: Modo Alto (capacidad de razonamiento completa), Modo Medio (reducción del 50 por ciento de tokens con una degradación del rendimiento menor al 10 por ciento) y Modo Bajo (reducción del 75 por ciento de tokens con una degradación del rendimiento menor al 15 por ciento). Logramos esto a través de un paradigma de entrenamiento de extremo a extremo que integra el control de modo de presupuesto en toda la canalización: ajuste fino supervisado en modo de presupuesto que incorpora capacidades de razonamiento controlable directamente en el proceso de aprendizaje, y aprendizaje por refuerzo en dos fases con conciencia de presupuesto y conformación adaptativa de recompensas. Experimentos extensos demuestran que ThinkDial alcanza compensaciones objetivo entre compresión y rendimiento con reducciones claras en la longitud de las respuestas, manteniendo umbrales de rendimiento. El marco también exhibe fuertes capacidades de generalización en tareas fuera de distribución.
Los métodos más avanzados (state-of-the-art, SOTA) para la animación de personajes impulsada por audio demuestran un rendimiento prometedor en escenarios que involucran principalmente habla y canto. Sin embargo, a menudo se quedan cortos en producciones más complejas de cine y televisión, que requieren elementos sofisticados como interacciones de personajes matizadas, movimientos corporales realistas y trabajo dinámico de cámara. Para abordar este desafío de larga data de lograr animación de personajes a nivel cinematográfico, proponemos un modelo impulsado por audio, al que nos referimos como Wan-S2V, construido sobre Wan. Nuestro modelo logra una expresividad y fidelidad significativamente mejoradas en contextos cinematográficos en comparación con los enfoques existentes. Realizamos experimentos exhaustivos, comparando nuestro método con modelos de vanguardia como Hunyuan-Avatar y Omnihuman. Los resultados experimentales demuestran consistentemente que nuestro enfoque supera significativamente estas soluciones existentes. Además, exploramos la versatilidad de nuestro método a través de sus aplicaciones en la generación de videos de larga duración y la edición precisa de sincronización labial en videos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales cuando se entrenan en entornos de ejecución ejecutables, destacándose especialmente en tareas de ingeniería de software mediante bucles de retroalimentación verificados. Sin embargo, los entornos de ejecución fundamentados, escalables y generalizables siguen siendo escasos, lo que limita el progreso en el entrenamiento de agentes de aprendizaje automático más capaces. Presentamos CTF-Dojo, el primer entorno de ejecución a gran escala diseñado específicamente para entrenar LLMs con retroalimentación verificable, que incluye 658 desafíos funcionales de estilo Capture-The-Flag (CTF) encapsulados en Docker con garantía de reproducibilidad. Para permitir un escalado rápido sin intervención manual, desarrollamos CTF-Forge, una canalización automatizada que transforma artefactos disponibles públicamente en entornos de ejecución listos para usar en minutos, eliminando las semanas de configuración experta tradicionalmente requeridas. Entrenamos agentes basados en LLM con solo 486 trayectorias de alta calidad y verificadas en ejecución de CTF-Dojo, logrando mejoras absolutas de hasta el 11.6% sobre líneas base sólidas en tres puntos de referencia competitivos: InterCode-CTF, NYU CTF Bench y Cybench. Nuestro modelo de 32B con mejor rendimiento alcanza un 31.9% en Pass@1, estableciendo un nuevo estado del arte de peso abierto que rivaliza con modelos de vanguardia como DeepSeek-V3-0324 y Gemini-2.5-Flash. Al enmarcar las tareas de estilo CTF como un punto de referencia para el aprendizaje de agentes ejecutables, CTF-Dojo demuestra que las señales de entrenamiento fundamentadas en la ejecución no solo son efectivas, sino también cruciales para avanzar en el desarrollo de agentes de aprendizaje automático de alto rendimiento sin depender de sistemas propietarios costosos.
Los modelos de difusión visual han logrado avances notables, aunque generalmente se entrenan en resoluciones limitadas debido a la falta de datos de alta resolución y a los recursos computacionales restringidos, lo que dificulta su capacidad para generar imágenes o videos de alta fidelidad en resoluciones más altas. Esfuerzos recientes han explorado estrategias sin ajustes para aprovechar el potencial no explotado de generación visual de mayor resolución en modelos preentrenados. Sin embargo, estos métodos aún tienden a producir contenido visual de baja calidad con patrones repetitivos. El obstáculo clave radica en el inevitable aumento de información de alta frecuencia cuando el modelo genera contenido visual que excede su resolución de entrenamiento, lo que conduce a patrones repetitivos no deseados derivados de errores acumulativos. En este trabajo, proponemos CineScale, un nuevo paradigma de inferencia para habilitar la generación visual de mayor resolución. Para abordar los diversos problemas introducidos por los dos tipos de arquitecturas de generación de video, proponemos variantes específicas adaptadas a cada una. A diferencia de los métodos base existentes que se limitan a la generación de T2I y T2V de alta resolución, CineScale amplía el alcance al permitir la síntesis de I2V y V2V de alta resolución, construido sobre marcos de generación de video de código abierto de última generación. Experimentos extensos validan la superioridad de nuestro paradigma al extender las capacidades de generación visual de mayor resolución tanto para modelos de imagen como de video. Notablemente, nuestro enfoque permite la generación de imágenes en 8k sin ningún ajuste fino y logra la generación de videos en 4k con solo un ajuste mínimo mediante LoRA. Las muestras de video generadas están disponibles en nuestro sitio web: https://eyeline-labs.github.io/CineScale/.
Los enfoques recientes de generación de mallas suelen tokenizar mallas triangulares en secuencias de tokens y entrenar modelos autoregresivos para generar estos tokens de manera secuencial. A pesar de los avances significativos, estas secuencias de tokens inevitablemente reutilizan vértices múltiples veces para representar completamente mallas múltiples, ya que cada vértice es compartido por varias caras. Esta redundancia conduce a secuencias de tokens excesivamente largas y procesos de generación ineficientes. En este artículo, proponemos un marco eficiente que genera mallas artísticas tratando vértices y caras por separado, reduciendo significativamente la redundancia. Empleamos un modelo autoregresivo exclusivamente para la generación de vértices, disminuyendo el número de tokens a aproximadamente el 23\% de lo requerido por el tokenizador más compacto existente. Luego, aprovechamos un transformador bidireccional para completar la malla en un solo paso, capturando las relaciones entre vértices y construyendo la matriz de adyacencia que define las caras de la malla. Para mejorar aún más la calidad de la generación, introducimos un potenciador de fidelidad para refinar la posición de los vértices en arreglos más naturales y proponemos un marco de post-procesamiento para eliminar conexiones de aristas no deseadas. Los resultados experimentales muestran que nuestro método logra una velocidad más de 8 veces mayor en la generación de mallas en comparación con los enfoques más avanzados, mientras produce una calidad de malla superior.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han transformado nuestro mundo con avances significativos en la ciencia, la ingeniería y la sociedad a través de aplicaciones que van desde descubrimientos científicos y diagnósticos médicos hasta chatbots. A pesar de su ubicuidad y utilidad, los mecanismos subyacentes de los LLMs permanecen ocultos dentro de miles de millones de parámetros y estructuras complejas, lo que hace que su arquitectura interna y procesos cognitivos sean difíciles de comprender. Abordamos esta brecha adoptando enfoques para entender la cognición emergente en biología y desarrollando un marco basado en redes que vincula habilidades cognitivas, arquitecturas de LLMs y conjuntos de datos, marcando un cambio de paradigma en el análisis de modelos fundamentales. La distribución de habilidades en las comunidades de módulos demuestra que, aunque los LLMs no se alinean estrictamente con la especialización focalizada observada en sistemas biológicos específicos, exhiben comunidades únicas de módulos cuyos patrones emergentes de habilidades reflejan parcialmente la organización cognitiva distribuida pero interconectada que se observa en los cerebros de aves y pequeños mamíferos. Nuestros resultados numéricos destacan una divergencia clave entre los sistemas biológicos y los LLMs, donde la adquisición de habilidades se beneficia sustancialmente de interacciones dinámicas interregionales y la plasticidad neural. Al integrar principios de la ciencia cognitiva con el aprendizaje automático, nuestro marco proporciona nuevas perspectivas sobre la interpretabilidad de los LLMs y sugiere que las estrategias efectivas de ajuste fino deberían aprovechar dinámicas de aprendizaje distribuidas en lugar de intervenciones modulares rígidas.