Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos BitNet b1.58 2B4T, el primer modelo de lenguaje grande (LLM) nativo de 1 bit de código abierto a escala de 2 mil millones de parámetros. Entrenado en un corpus de 4 billones de tokens, el modelo ha sido rigurosamente evaluado en benchmarks que cubren comprensión del lenguaje, razonamiento matemático, competencia en programación y habilidad conversacional. Nuestros resultados demuestran que BitNet b1.58 2B4T logra un rendimiento comparable al de los principales LLM de precisión completa y pesos abiertos de tamaño similar, al mismo tiempo que ofrece ventajas significativas en eficiencia computacional, incluyendo una huella de memoria sustancialmente reducida, menor consumo de energía y latencia de decodificación. Para facilitar la investigación y adopción futuras, los pesos del modelo se han publicado a través de Hugging Face junto con implementaciones de inferencia de código abierto para arquitecturas tanto de GPU como de CPU.
Si bien los modelos de razonamiento (por ejemplo, DeepSeek R1) entrenados con aprendizaje por refuerzo (RL) sobresalen en el razonamiento textual, tienen dificultades en escenarios que requieren resolución estructurada de problemas, como el razonamiento geométrico, cálculos concisos o la resolución de ecuaciones complejas, áreas donde herramientas computacionales como los intérpretes de código (CI) demuestran ventajas distintivas. Para cerrar esta brecha, proponemos ReTool, que mejora el razonamiento de largo formato con aprendizaje integrado de herramientas, incluyendo dos características clave: (1) intercalación dinámica de ejecución de código en tiempo real dentro de procesos de razonamiento en lenguaje natural, y (2) un paradigma automatizado de RL que permite despliegues de políticas con ejecución de código en tiempo real en múltiples turnos y enseña al modelo cuándo y cómo invocar herramientas basándose en retroalimentación de resultados. ReTool emplea un marco de entrenamiento sistemático, comenzando con la generación de datos sintéticos de arranque en frío para producir trazas de razonamiento de largo formato aumentadas con código, utilizadas para ajustar modelos base. El entrenamiento posterior de RL aprovecha los resultados de las tareas como recompensas para refinar iterativamente la estrategia de uso de herramientas del modelo, permitiendo el descubrimiento autónomo de patrones óptimos de invocación de herramientas sin conocimientos previos humanos. Los experimentos en el desafiante benchmark de la Olimpiada Matemática AIME demuestran la superioridad de ReTool: Nuestro modelo de 32B alcanza un 67% de precisión con 400 pasos de entrenamiento, superando en eficiencia y rendimiento a la línea base de RL basada en texto (40% de precisión, 1080 pasos). Notablemente, ReTool-32B alcanza un 72.5% de precisión en configuraciones extendidas, superando a OpenAI's o1-preview por un 27.9%. Un análisis más profundo revela comportamientos emergentes, como la autocorrección de código, señalando un "momento eureka" en el que el modelo domina autónomamente el uso adaptativo de herramientas. Estos hallazgos resaltan la promesa de la integración de herramientas impulsada por resultados para avanzar en el razonamiento matemático complejo y ofrecen nuevas perspectivas sobre sistemas híbridos neuro-simbólicos.
El color desempeña un papel importante en la percepción humana y suele proporcionar pistas críticas en el razonamiento visual. Sin embargo, no está claro si los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) pueden percibir, comprender y aprovechar el color como lo hacen los humanos. Este artículo presenta ColorBench, un innovador benchmark meticulosamente diseñado para evaluar las capacidades de los VLMs en la comprensión del color, incluyendo la percepción, el razonamiento y la robustez. Al curar un conjunto diverso de escenarios de prueba, con base en aplicaciones reales, ColorBench evalúa cómo estos modelos perciben los colores, infieren significados a partir de pistas basadas en el color y mantienen un rendimiento consistente bajo diversas transformaciones de color. A través de una evaluación exhaustiva de 32 VLMs con diferentes modelos de lenguaje y codificadores visuales, nuestro artículo revela algunos hallazgos no descubiertos: (i) La ley de escalado (los modelos más grandes son mejores) sigue siendo válida en ColorBench, aunque el modelo de lenguaje desempeña un papel más importante que el codificador visual. (ii) Sin embargo, las diferencias de rendimiento entre los modelos son relativamente pequeñas, lo que indica que la comprensión del color ha sido ampliamente descuidada por los VLMs existentes. (iii) El razonamiento CoT mejora la precisión y la robustez en la comprensión del color, aunque se trate de tareas centradas en la visión. (iv) Las pistas de color son efectivamente aprovechadas por los VLMs en ColorBench, pero también pueden inducir a errores en algunas tareas. Estos hallazgos resaltan las limitaciones críticas de los VLMs actuales y subrayan la necesidad de mejorar la comprensión del color. Nuestro ColorBench puede servir como una herramienta fundamental para avanzar en el estudio de la comprensión del color a nivel humano en la IA multimodal.
La industria de producción de cómics requiere la colorización de arte lineal basada en referencias con alta precisión, eficiencia, consistencia contextual y control flexible. Una página de cómic a menudo involucra diversos personajes, objetos y fondos, lo que complica el proceso de colorización. A pesar de los avances en los modelos de difusión para la generación de imágenes, su aplicación en la colorización de arte lineal sigue siendo limitada, enfrentando desafíos relacionados con el manejo de extensas imágenes de referencia, inferencias que consumen mucho tiempo y control flexible. Investigamos la necesidad de una guía contextual extensa de imágenes sobre la calidad de la colorización de arte lineal. Para abordar estos desafíos, presentamos Cobra, un método eficiente y versátil que admite sugerencias de color y utiliza más de 200 imágenes de referencia mientras mantiene una baja latencia. El núcleo de Cobra es una arquitectura Causal Sparse DiT, que aprovecha codificaciones posicionales especialmente diseñadas, atención causal dispersa y Caché Clave-Valor para gestionar eficazmente referencias de contexto largo y garantizar la consistencia de la identidad del color. Los resultados demuestran que Cobra logra una colorización precisa del arte lineal a través de una extensa referencia contextual, mejorando significativamente la velocidad de inferencia y la interactividad, cumpliendo así con las demandas críticas de la industria. Publicamos nuestros códigos y modelos en nuestra página del proyecto: https://zhuang2002.github.io/Cobra/.
Este trabajo revisa el paradigma dominante de ajuste fino supervisado (SFT, por sus siglas en inglés) seguido de aprendizaje por refuerzo (RL) para entrenar Modelos de Lenguaje y Visión a Gran Escala (LVLMs), y revela un hallazgo clave: el SFT puede socavar significativamente el RL posterior al inducir "rutas de razonamiento pseudo" imitadas de modelos expertos. Aunque estas rutas pueden parecerse a las rutas de razonamiento nativas de los modelos RL, a menudo involucran pasos prolongados, vacilantes, menos informativos y razonamientos incorrectos. Para estudiar sistemáticamente este efecto, presentamos VLAA-Thinking, un nuevo conjunto de datos multimodal diseñado para apoyar el razonamiento en LVLMs. Construido mediante una canalización de seis pasos que incluye subtitulado, destilación de razonamiento, reescritura de respuestas y verificación, VLAA-Thinking comprende trazas de razonamiento visual paso a paso de alta calidad para SFT, junto con una división más desafiante de RL proveniente de la misma fuente de datos. Utilizando este conjunto de datos, realizamos extensos experimentos comparando SFT, RL y sus combinaciones. Los resultados muestran que, aunque el SFT ayuda a los modelos a aprender formatos de razonamiento, a menudo bloquea a los modelos alineados en modos de razonamiento imitativos y rígidos que impiden un aprendizaje adicional. En contraste, basándonos en la Optimización de Política Relativa de Grupo (GRPO) con un nuevo módulo de recompensa mixta que integra señales de percepción y cognición, nuestro enfoque de RL fomenta un comportamiento de razonamiento más genuino y adaptable. Notablemente, nuestro modelo VLAA-Thinker, basado en Qwen2.5VL 3B, alcanza el rendimiento top-1 en el Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) entre los LVLMs de escala 4B, superando el estado del arte anterior en un 1.8%. Esperamos que nuestros hallazgos proporcionen insights valiosos para el desarrollo de LVLMs con capacidad de razonamiento y puedan informar investigaciones futuras en esta área.
AlayaDB es un sistema de base de datos vectorial de vanguardia diseñado nativamente para realizar inferencias eficientes y efectivas de contexto largo en Modelos de Lenguaje a Gran Escala (LLMs) en AlayaDB AI. Específicamente, desacopla la caché KV y el cálculo de atención de los sistemas de inferencia de LLMs, encapsulándolos en un novedoso sistema de base de datos vectorial. Para los proveedores de Modelo como Servicio (MaaS), AlayaDB consume menos recursos de hardware y ofrece una mayor calidad de generación para diversas cargas de trabajo con diferentes tipos de Objetivos de Nivel de Servicio (SLOs), en comparación con las soluciones alternativas existentes (por ejemplo, desagregación de caché KV, atención dispersa basada en recuperación). La clave de AlayaDB radica en que abstrae el cálculo de atención y la gestión de caché para la inferencia de LLMs en un procedimiento de procesamiento de consultas, y optimiza el rendimiento mediante un optimizador de consultas nativo. En este trabajo, demostramos la efectividad de AlayaDB a través de (i) tres casos de uso de nuestros socios industriales, y (ii) resultados experimentales exhaustivos en benchmarks de inferencia de LLMs.
En este artículo abordamos una pregunta fundamental: "¿Podemos entrenar modelos de difusión latente junto con el tokenizador de auto-codificadores variacionales (VAE) de manera integral?" La sabiduría tradicional del aprendizaje profundo sugiere que el entrenamiento integral es preferible cuando es posible. Sin embargo, para los transformadores de difusión latente, se observa que el entrenamiento integral tanto del VAE como del modelo de difusión utilizando la pérdida estándar de difusión es ineficaz, incluso causando una degradación en el rendimiento final. Demostramos que, aunque la pérdida de difusión es ineficaz, el entrenamiento integral puede habilitarse mediante la pérdida de alineación de representaciones (REPA), permitiendo que tanto el VAE como el modelo de difusión se ajusten conjuntamente durante el proceso de entrenamiento. A pesar de su simplicidad, la receta de entrenamiento propuesta (REPA-E) muestra un rendimiento notable; acelerando el entrenamiento del modelo de difusión en más de 17x y 45x en comparación con las recetas de entrenamiento REPA y estándar, respectivamente. Curiosamente, observamos que el ajuste integral con REPA-E también mejora el VAE en sí; conduciendo a una estructura mejorada del espacio latente y a un mejor rendimiento en la generación posterior. En términos de rendimiento final, nuestro enfoque establece un nuevo estado del arte; logrando un FID de 1.26 y 1.83 con y sin guía libre de clasificador en ImageNet 256 x 256. El código está disponible en https://end2end-diffusion.github.io.
La evaluación existente de agentes de modelos de lenguaje de gran escala (LLM) en el descubrimiento científico carece de líneas de base y métricas objetivas para evaluar la viabilidad de sus métodos propuestos. Para abordar este problema, presentamos MLRC-Bench, un punto de referencia diseñado para cuantificar cuán efectivamente los agentes de lenguaje pueden abordar desafiantes Competencias de Investigación en Aprendizaje Automático (ML). Nuestro punto de referencia destaca problemas de investigación abiertos que exigen metodologías novedosas, en contraste con puntos de referencia recientes como MLE-Bench de OpenAI (Chan et al., 2024) y RE-Bench de METR (Wijk et al., 2024), que se centran en tareas de investigación bien establecidas que son en gran parte resolubles mediante suficiente esfuerzo de ingeniería. A diferencia de trabajos anteriores, por ejemplo, AI Scientist (Lu et al., 2024b), que evalúa la pipeline agentiva de extremo a extremo utilizando LLM-como-juez, MLRC-Bench mide los pasos clave de proponer e implementar métodos de investigación novedosos y los evalúa con un protocolo riguroso y métricas objetivas recién propuestas. Nuestra suite curada de 7 tareas de competencia revela desafíos significativos para los agentes LLM. Incluso el agente con mejor rendimiento probado (gemini-exp-1206 bajo MLAB (Huang et al., 2024a)) cierra solo el 9.3% de la brecha entre las puntuaciones de la línea de base y las del mejor participante humano. Además, nuestro análisis revela una desalineación entre la innovación juzgada por LLM y su rendimiento real en problemas de investigación de vanguardia en ML. MLRC-Bench es un punto de referencia dinámico, diseñado para crecer continuamente con nuevas competencias de ML para fomentar evaluaciones rigurosas y objetivas de las capacidades de investigación de la IA.
Presentamos SIFT (Speech Instruction Fine-Tuning), un conjunto de datos de 50 millones de ejemplos diseñado para el ajuste fino mediante instrucciones y el preentrenamiento de modelos de lenguaje grande (LLMs) de texto y habla. SIFT-50M se construye a partir de corpus de habla disponibles públicamente, que en conjunto contienen 14.000 horas de audio, y aprovecha LLMs junto con modelos expertos estándar. El conjunto de datos abarca cinco idiomas, cubriendo una amplia gama de comprensión del habla, así como instrucciones de generación de habla controlable. Utilizando SIFT-50M, entrenamos SIFT-LLM, que supera a los LLMs de texto y habla existentes en benchmarks de seguimiento de instrucciones, al mismo tiempo que logra un rendimiento competitivo en tareas fundamentales de procesamiento de habla. Para apoyar investigaciones futuras, también presentamos EvalSIFT, un conjunto de datos de evaluación diseñado específicamente para medir las capacidades de seguimiento de instrucciones de los LLMs de texto y habla.
Un sistema de detección ideal para contenido generado por máquinas debería funcionar bien con cualquier generador, ya que modelos de lenguaje avanzados (LLMs) cada vez más sofisticados surgen día a día. Los sistemas existentes a menudo tienen dificultades para identificar con precisión el contenido generado por IA en textos más cortos. Además, no todos los textos pueden estar completamente escritos por un humano o un LLM, por lo que nos enfocamos más en casos parciales, es decir, textos coescritos por humanos y LLMs. Nuestro artículo presenta un conjunto de modelos diseñados para la tarea de clasificación de tokens, entrenados en una extensa colección de textos coescritos por humanos y máquinas, que demostraron un buen rendimiento en textos de dominios no vistos, generadores no vistos, textos de hablantes no nativos y aquellos con entradas adversarias. También introducimos un nuevo conjunto de datos de más de 2.4 millones de textos, principalmente coescritos por varios LLMs propietarios populares en 23 idiomas. Además, presentamos los resultados del rendimiento de nuestros modelos en los textos de cada dominio y generador. Entre los hallazgos adicionales se incluyen la comparación del rendimiento frente a cada método adversario, la longitud de los textos de entrada y las características de los textos generados en comparación con los textos originales escritos por humanos.
Proponemos CAL (Complete Anything in Lidar) para la completación de formas basada en Lidar en entornos no controlados. Esto está estrechamente relacionado con la completación semántica/panóptica de escenas basada en Lidar. Sin embargo, los métodos contemporáneos solo pueden completar y reconocer objetos de un vocabulario cerrado etiquetado en los conjuntos de datos de Lidar existentes. A diferencia de esto, nuestro enfoque zero-shot aprovecha el contexto temporal de secuencias de sensores multimodales para extraer formas de objetos y características semánticas de los objetos observados. Estas se destilan luego en un modelo de completación y reconocimiento a nivel de instancia que utiliza únicamente Lidar. Aunque solo extraemos completaciones parciales de formas, encontramos que nuestro modelo destilado aprende a inferir formas completas de objetos a partir de múltiples observaciones parciales en el conjunto de datos. Demostramos que nuestro modelo puede ser aplicado en puntos de referencia estándar para Completación Semántica y Panóptica de Escenas, localizar objetos como cajas delimitadoras 3D (amodales) y reconocer objetos más allá de vocabularios de clases fijos. Nuestra página del proyecto es https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
Reconstruir escenas dinámicas 4D a partir de videos monoculares capturados casualmente es valioso pero altamente desafiante, ya que cada instante de tiempo se observa desde un único punto de vista. Presentamos Vivid4D, un enfoque novedoso que mejora la síntesis de videos monoculares 4D mediante la ampliación de las vistas de observación, sintetizando videos multivista a partir de una entrada monocular. A diferencia de los métodos existentes que solo aprovechan priores geométricos para la supervisión o utilizan priores generativos ignorando la geometría, nosotros integramos ambos. Esto reformula la ampliación de vistas como una tarea de inpainting de video, donde las vistas observadas se transforman en nuevos puntos de vista basados en priores de profundidad monocular. Para lograrlo, entrenamos un modelo de inpainting de video en videos web sin pose con máscaras generadas sintéticamente que imitan oclusiones por transformación, asegurando una completación espacial y temporalmente consistente de las regiones faltantes. Para mitigar aún más las imprecisiones en los priores de profundidad monocular, introducimos una estrategia iterativa de ampliación de vistas y una función de pérdida de reconstrucción robusta. Los experimentos demuestran que nuestro método mejora efectivamente la reconstrucción y completación de escenas monoculares 4D.
El enfoque de Chain-of-Thought (CoT) mejora el razonamiento de los modelos de lenguaje grandes (LLMs) al descomponer problemas en pasos secuenciales, imitando la lógica humana y reduciendo errores. Sin embargo, tareas complejas con amplios espacios de solución y restricciones vagas suelen superar la capacidad de una única cadena de razonamiento. Inspirados por la Resolución Libre Mínima (MFR) en álgebra conmutativa y geometría algebraica, proponemos Syzygy of Thoughts (SoT), un marco novedoso que extiende CoT mediante la introducción de rutas de razonamiento auxiliares e interrelacionadas. SoT captura dependencias lógicas más profundas, permitiendo una resolución de problemas más robusta y estructurada. MFR descompone un módulo en una secuencia de módulos libres con rango mínimo, proporcionando un enfoque analítico estructurado para sistemas complejos. Este método introduce los conceptos de "Módulo", "Números de Betti", "Libertad", "Mapeo", "Exactitud" y "Minimalidad", permitiendo la descomposición sistemática del problema complejo original en subproblemas mínimos lógicamente completos, preservando características clave del problema y reduciendo la longitud del razonamiento. Probamos SoT en diversos conjuntos de datos (por ejemplo, GSM8K, MATH) y modelos (por ejemplo, GPT-4o-mini, Qwen2.5), logrando una precisión de inferencia que iguala o supera los estándares principales de CoT. Además, al alinear el proceso de muestreo con restricciones algebraicas, nuestro enfoque mejora la escalabilidad del tiempo de inferencia en LLMs, garantizando tanto un razonamiento transparente como un alto rendimiento. Nuestro código estará disponible públicamente en https://github.com/dlMARiA/Syzygy-of-thoughts.
Los recientes avances en la técnica de 3D Gaussian Splatting (3DGS) han demostrado un potencial notable en tareas de síntesis de nuevas vistas. El paradigma de divide y vencerás ha permitido la reconstrucción de escenas a gran escala, pero persisten desafíos significativos en los procesos de partición, optimización y fusión de escenas. Este artículo presenta BlockGaussian, un marco novedoso que incorpora una estrategia de partición de escenas consciente del contenido y una optimización de bloques consciente de la visibilidad para lograr una reconstrucción eficiente y de alta calidad en escenas a gran escala. Específicamente, nuestro enfoque considera la variación en la complejidad del contenido en diferentes regiones y equilibra la carga computacional durante la partición de la escena, permitiendo una reconstrucción eficiente. Para abordar el problema de desajuste en la supervisión durante la optimización independiente de bloques, introducimos puntos auxiliares durante la optimización individual de bloques para alinear la supervisión con la verdad de terreno, lo que mejora la calidad de la reconstrucción. Además, proponemos una restricción geométrica de pseudo-vista que mitiga eficazmente la degradación en la renderización causada por artefactos flotantes en el espacio aéreo durante la fusión de bloques. Experimentos extensos en escenas a gran escala demuestran que nuestro enfoque alcanza un rendimiento de vanguardia tanto en eficiencia de reconstrucción como en calidad de renderización, con una aceleración de 5x en la optimización y una mejora promedio de 1.21 dB en PSNR en múltiples benchmarks. Notablemente, BlockGaussian reduce significativamente los requisitos computacionales, permitiendo la reconstrucción de escenas a gran escala en un solo dispositivo con 24GB de VRAM. La página del proyecto está disponible en https://github.com/SunshineWYC/BlockGaussian.
Presentamos FreshStack, un marco reutilizable para construir automáticamente puntos de referencia de evaluación en recuperación de información (IR) a partir de preguntas y respuestas generadas por la comunidad. FreshStack lleva a cabo los siguientes pasos: (1) recopilación automática de corpus a partir de código y documentación técnica, (2) generación de fragmentos clave (nuggets) a partir de preguntas y respuestas de la comunidad, y (3) soporte a nivel de fragmentos, recuperando documentos mediante una fusión de técnicas de recuperación y arquitecturas híbridas. Utilizamos FreshStack para construir cinco conjuntos de datos sobre temas de rápido crecimiento, recientes y especializados, asegurando que las tareas sean lo suficientemente desafiantes. En FreshStack, los modelos de recuperación existentes, cuando se aplican sin modificaciones, tienen un rendimiento significativamente inferior a los enfoques oráculo en los cinco temas, lo que indica un amplio margen de mejora en la calidad de la IR. Además, identificamos casos en los que los reordenadores (rerankers) no mejoran claramente la precisión de la recuperación en la primera etapa (dos de los cinco temas). Esperamos que FreshStack facilite trabajos futuros hacia la construcción de puntos de referencia de evaluación de IR y RAG realistas, escalables y no contaminados. Los conjuntos de datos de FreshStack están disponibles en: https://fresh-stack.github.io.
Los recientes avances en inteligencia artificial (IA) en la generación de voz y las tecnologías de clonación vocal han producido un habla naturalista y una replicación precisa de la voz, aunque su influencia en los sistemas sociotécnicos a través de diversos acentos y rasgos lingüísticos no se comprende completamente. Este estudio evalúa dos servicios de voz sintética basados en IA (Speechify y ElevenLabs) mediante un enfoque de métodos mixtos que utiliza encuestas y entrevistas para evaluar el rendimiento técnico y descubrir cómo las experiencias vividas por los usuarios influyen en sus percepciones sobre las variaciones de acento en estas tecnologías de voz. Nuestros hallazgos revelan disparidades en el rendimiento técnico en cinco acentos regionales del idioma inglés y demuestran cómo las tecnologías actuales de generación de voz pueden reforzar inadvertidamente los privilegios lingüísticos y la discriminación basada en el acento, lo que podría crear nuevas formas de exclusión digital. En general, nuestro estudio destaca la necesidad de un diseño y regulación inclusivos al proporcionar insights prácticos para desarrolladores, legisladores y organizaciones, con el fin de garantizar tecnologías de voz basadas en IA equitativas y socialmente responsables.