Artículos de investigación en IA seleccionados diariamente con traducciones
La escalabilidad en tiempo de prueba es un nuevo enfoque prometedor para la modelización del lenguaje que utiliza recursos computacionales adicionales en el momento de la prueba para mejorar el rendimiento. Recientemente, el modelo o1 de OpenAI demostró esta capacidad pero no compartió públicamente su metodología, lo que llevó a muchos esfuerzos de replicación. Buscamos el enfoque más simple para lograr la escalabilidad en tiempo de prueba y un sólido rendimiento en el razonamiento. En primer lugar, creamos un pequeño conjunto de datos s1K de 1,000 preguntas emparejadas con trazas de razonamiento basadas en tres criterios que validamos mediante abstracciones: dificultad, diversidad y calidad. En segundo lugar, desarrollamos el forzamiento de presupuesto para controlar los recursos computacionales en tiempo de prueba al terminar de manera forzada el proceso de pensamiento del modelo o al alargarlo agregando "Esperar" múltiples veces a la generación del modelo cuando intenta finalizar. Esto puede llevar al modelo a revisar su respuesta, corrigiendo a menudo pasos de razonamiento incorrectos. Después de ajustar finamente supervisado el modelo de lenguaje Qwen2.5-32B-Instruct en s1K y equiparlo con forzamiento de presupuesto, nuestro modelo s1 supera a o1-preview en preguntas de matemáticas de competición hasta en un 27% (MATH y AIME24). Además, escalar s1 con forzamiento de presupuesto permite extrapolar más allá de su rendimiento sin intervención en tiempo de prueba: del 50% al 57% en AIME24. Nuestro modelo, datos y código son de código abierto en https://github.com/simplescaling/s1.
Presentamos Decodificación Especulativa Guiada por Recompensa (RSD), un marco novedoso destinado a mejorar la eficiencia de la inferencia en modelos de lenguaje grandes (LLMs). RSD combina de manera sinérgica un modelo de borrador ligero con un modelo objetivo más potente, incorporando un sesgo controlado para priorizar salidas de alta recompensa, a diferencia de los métodos de decodificación especulativa existentes que imponen una imparcialidad estricta. RSD emplea un modelo de recompensa de proceso para evaluar pasos de decodificación intermedios y decidir dinámicamente si invocar al modelo objetivo, optimizando el equilibrio entre el costo computacional y la calidad de la salida. Demostramos teóricamente que una estrategia de mezcla basada en umbrales logra un equilibrio óptimo entre la utilización de recursos y el rendimiento. Evaluaciones extensas en desafiantes bancos de pruebas de razonamiento, incluidas tareas de nivel olímpico, muestran que RSD proporciona ganancias significativas de eficiencia en comparación con la decodificación solo con el modelo objetivo (hasta 4.4 veces menos FLOPs), al tiempo que logra una precisión significativamente mejor que el método de decodificación paralela en promedio (hasta +3.5). Estos resultados destacan a RSD como un enfoque sólido y rentable para implementar LLMs en escenarios intensivos en recursos.
Los métodos de extracción de primer plano en videos de humanos sin necesidad de auxiliares, que dependen únicamente de los fotogramas de entrada, a menudo tienen dificultades con fondos complejos o ambiguos. Para abordar esto, proponemos MatAnyone, un marco robusto diseñado para la extracción de primer plano en videos asignados a un objetivo. Específicamente, basándonos en un paradigma basado en memoria, introducimos un módulo de propagación de memoria consistente a través de una fusión de memoria adaptativa por regiones, que integra de manera adaptativa la memoria del fotograma anterior. Esto garantiza estabilidad semántica en las regiones centrales mientras se preservan los detalles detallados a lo largo de los límites de los objetos. Para un entrenamiento robusto, presentamos un conjunto de datos más grande, de alta calidad y diverso para la extracción de primer plano en videos. Además, incorporamos una estrategia de entrenamiento novedosa que aprovecha de manera eficiente datos de segmentación a gran escala, mejorando la estabilidad en la extracción de primer plano. Con este nuevo diseño de red, conjunto de datos y estrategia de entrenamiento, MatAnyone ofrece resultados robustos y precisos en la extracción de primer plano en videos en diversos escenarios del mundo real, superando a los métodos existentes.
Debido a la brecha natural entre las estructuras de los Grafos de Conocimiento (KG) y el lenguaje natural, la integración efectiva de la información estructural holística de los KG con Modelos de Lenguaje Grandes (LLMs) ha surgido como una cuestión significativa. Con este fin, proponemos un marco de dos etapas para aprender y aplicar códigos cuantizados para cada entidad, con el objetivo de lograr la integración perfecta de los KG con los LLMs. En primer lugar, se propone un método de representación cuantizada auto-supervisado (SSQR) para comprimir tanto el conocimiento estructural como semántico de los KG en códigos discretos (es decir, tokens) que se alinean con el formato de las oraciones del lenguaje. Además, diseñamos datos de seguimiento de instrucciones de KG al considerar estos códigos aprendidos como características para ingresar directamente a los LLMs, logrando así una integración perfecta. Los resultados experimentales demuestran que SSQR supera a los métodos cuantizados no supervisados existentes, produciendo códigos más distinguibles. Además, los modelos LLaMA2 y LLaMA3.1 ajustados también muestran un rendimiento superior en la predicción de enlaces de KG y tareas de clasificación triple, utilizando solo 16 tokens por entidad en lugar de miles en los métodos de interrogación convencionales.
El elemento máximo del vector producido por la función Softmax tiende a cero a medida que aumenta el tamaño del vector de entrada. Los modelos de lenguaje basados en transformadores dependen de Softmax para calcular puntuaciones de atención, lo que provoca que la distribución de atención se aplane a medida que crece el tamaño del contexto. Esto reduce la capacidad del modelo para priorizar la información clave de manera efectiva y potencialmente limita su capacidad de generalización de longitud. Para abordar este problema, proponemos Escalable-Softmax (SSMax), que reemplaza Softmax en escenarios donde varía el tamaño del vector de entrada. SSMax puede integrarse fácilmente en arquitecturas basadas en transformadores existentes. Los resultados experimentales en modelado de lenguaje muestran que los modelos que utilizan SSMax no solo logran una reducción más rápida de la pérdida durante el preentrenamiento, sino que también mejoran significativamente el rendimiento en contextos largos y en la recuperación de información clave. Además, un análisis de las puntuaciones de atención revela que SSMax permite al modelo centrar la atención en la información clave incluso en contextos largos. Además, aunque los modelos que utilizan SSMax desde el inicio del preentrenamiento logran una mejor generalización de longitud, aquellos que ya han comenzado el preentrenamiento aún pueden adquirir parte de esta capacidad al reemplazar Softmax en las capas de atención con SSMax, ya sea durante o después del preentrenamiento.
Los modelos base existentes suelen procesar la entrada visual como píxeles y la entrada textual como tokens, un paradigma que contrasta con la percepción humana, donde ambas modalidades se procesan de manera unificada. Con el surgimiento de la IA encarnada y agente, donde las entradas provienen principalmente de píxeles de cámara, la necesidad de un marco de percepción unificado se hace cada vez más evidente. En este documento, proponemos unificar todas las modalidades (texto, tablas, código, diagramas, imágenes, etc.) como entradas de píxeles, es decir, "Percepción de Todo como Píxeles" (PEAP). Presentamos PixelWorld, una nueva suite de evaluación que unifica todas las modalidades mencionadas en el espacio de píxeles para medir el rendimiento de los modelos existentes. Nuestros hallazgos muestran que (1) PEAP supera la línea base con entrada basada en tokens en conjuntos de datos multimodales, beneficiándose de una entrada unificada para una mejor desambiguación, (2) declives significativos en las capacidades de razonamiento y codificación en todos los modelos al procesar entradas basadas en píxeles, subrayando la necesidad de mejorar las habilidades perceptivas de los modelos base, (3) los modelos más grandes pueden mantener un rendimiento sólido en tareas no de razonamiento bajo PEAP, mientras que modelos más pequeños como Phi-3.5-V sufren una degradación significativa del rendimiento, (4) el patrón de atención de PEAP está altamente alineado con la entrada de tokens de texto, (5) PEAP puede acelerarse significativamente explotando la dispersión espacial. Concluimos que los modelos fronterizos existentes son competentes en la percepción de píxeles, sin embargo, aún queda margen para mejorar. Nuestro código y conjunto de datos se publicarán una vez aceptados.
La capacidad de predecir resultados futuros dados ciertas acciones de control es fundamental para el razonamiento físico. Sin embargo, dichos modelos predictivos, a menudo llamados modelos del mundo, han demostrado ser difíciles de aprender y suelen desarrollarse para soluciones específicas de tareas con aprendizaje de políticas en línea. Sostenemos que el verdadero potencial de los modelos del mundo radica en su capacidad para razonar y planificar a través de problemas diversos utilizando solo datos pasivos. Concretamente, requerimos que los modelos del mundo tengan las siguientes tres propiedades: 1) ser entrenables en trayectorias offline pre-recopiladas, 2) admitir la optimización del comportamiento en tiempo de prueba, y 3) facilitar el razonamiento sin tener en cuenta la tarea. Para lograr esto, presentamos DINO World Model (DINO-WM), un nuevo método para modelar la dinámica visual sin reconstruir el mundo visual. DINO-WM aprovecha las características de parches espaciales pre-entrenadas con DINOv2, lo que le permite aprender de trayectorias de comportamiento offline prediciendo futuras características de parches. Este diseño permite a DINO-WM lograr objetivos observacionales a través de la optimización de secuencias de acciones, facilitando la planificación de comportamientos sin tener en cuenta la tarea al tratar las características deseadas de los parches como objetivos de predicción. Evaluamos DINO-WM en varios dominios, incluida la navegación de laberintos, empuje en mesas y manipulación de partículas. Nuestros experimentos demuestran que DINO-WM puede generar soluciones de comportamiento de cero disparo en tiempo de prueba sin depender de demostraciones de expertos, modelado de recompensas o modelos inversos preaprendidos. Es notable que DINO-WM exhibe fuertes capacidades de generalización en comparación con trabajos previos de vanguardia, adaptándose a diversas familias de tareas como laberintos configurados arbitrariamente, manipulación de empuje con formas de objetos variadas y escenarios de múltiples partículas.
Los modelos de lenguaje grandes (LLMs) son vulnerables a jailbreaks universales, estrategias que evaden sistemáticamente las protecciones del modelo y permiten a los usuarios llevar a cabo procesos dañinos que requieren muchas interacciones del modelo, como la fabricación de sustancias ilegales a gran escala. Para defenderse contra estos ataques, presentamos Clasificadores Constitucionales: salvaguardias entrenadas con datos sintéticos, generados al promover a los LLMs con reglas de lenguaje natural (es decir, una constitución) que especifican el contenido permitido y restringido. En más de 3,000 horas estimadas de simulación de atacantes, ningún miembro del equipo de ataque encontró un jailbreak universal que pudiera extraer información de un LLM protegido por un clasificador temprano a un nivel de detalle similar al de un modelo desprotegido en la mayoría de las consultas objetivo. En evaluaciones automatizadas, los clasificadores mejorados demostraron una defensa robusta contra jailbreaks específicos de dominio no revelados. Estos clasificadores también mantienen la viabilidad de implementación, con un aumento absoluto del 0.38% en rechazos de tráfico de producción y un sobrecosto de inferencia del 23.7%. Nuestro trabajo demuestra que defenderse contra jailbreaks universales manteniendo una viabilidad práctica de implementación es factible.
Los modelos de difusión, aunque poderosos, pueden generar inadvertidamente contenido dañino o no deseado, lo que plantea importantes preocupaciones éticas y de seguridad. Los enfoques recientes de desaprendizaje automático ofrecen posibles soluciones, pero a menudo carecen de transparencia, lo que dificulta comprender los cambios que introducen en el modelo base. En este trabajo, presentamos SAeUron, un método novedoso que aprovecha las características aprendidas por autoencoders dispersos (SAEs) para eliminar conceptos no deseados en modelos de difusión de texto a imagen. En primer lugar, demostramos que los SAEs, entrenados de manera no supervisada en activaciones de múltiples pasos de eliminación de ruido del modelo de difusión, capturan características dispersas e interpretables que corresponden a conceptos específicos. Basándonos en esto, proponemos un método de selección de características que permite intervenciones precisas en las activaciones del modelo para bloquear contenido específico mientras se preserva el rendimiento general. La evaluación con el competitivo benchmark UnlearnCanvas en desaprendizaje de objetos y estilos destaca el rendimiento de vanguardia de SAeUron. Además, demostramos que con un solo SAE podemos eliminar múltiples conceptos simultáneamente y que, a diferencia de otros métodos, SAeUron mitiga la posibilidad de generar contenido no deseado, incluso bajo un ataque adversarial. El código y los puntos de control están disponibles en: https://github.com/cywinski/SAeUron.
Mostramos que los programas de velocidad de aprendizaje para el entrenamiento de modelos grandes se comportan de manera sorprendentemente similar a un límite de rendimiento de la teoría de optimización convexa no suave. Proporcionamos un límite para el programa constante con enfriamiento lineal; en particular, el beneficio práctico del enfriamiento se refleja en el límite debido a la ausencia de términos logarítmicos. Además, demostramos que esta coincidencia sorprendentemente cercana entre la teoría de optimización y la práctica puede ser aprovechada para la ajuste de la velocidad de aprendizaje: logramos mejoras notables para el entrenamiento de modelos tipo Llama de 124M y 210M mediante (i) la extensión del programa para el entrenamiento continuo con velocidad de aprendizaje óptima, y (ii) la transferencia de la velocidad de aprendizaje óptima entre programas.
Los métodos actuales para la reconstrucción de escenas 3D a partir de imágenes espaciadas emplean representaciones 3D intermedias como campos neuronales, rejillas de voxels o gaussianas 3D, para lograr una apariencia y geometría de escena coherentes desde múltiples vistas. En este artículo presentamos MVGD, una arquitectura basada en difusión capaz de generar directamente píxeles de imágenes y mapas de profundidad desde puntos de vista nuevos, dados un número arbitrario de vistas de entrada. Nuestro método utiliza condicionamiento de mapas de rayos para tanto aumentar las características visuales con información espacial de diferentes puntos de vista, como guiar la generación de imágenes y mapas de profundidad desde nuevas vistas. Un aspecto clave de nuestro enfoque es la generación multitarea de imágenes y mapas de profundidad, utilizando incrustaciones de tarea aprendibles para guiar el proceso de difusión hacia modalidades específicas. Entrenamos este modelo en una colección de más de 60 millones de muestras multi-vista de conjuntos de datos públicos, y proponemos técnicas para habilitar un aprendizaje eficiente y consistente en condiciones tan diversas. También proponemos una estrategia novedosa que permite el entrenamiento eficiente de modelos más grandes mediante el ajuste fino incremental de modelos más pequeños, con un comportamiento de escalado prometedor. A través de experimentos extensos, reportamos resultados de vanguardia en múltiples bancos de pruebas de síntesis de vistas nuevas, así como en estéreo multi-vista y estimación de profundidad en videos.
Realizamos experimentos sobre el impacto de aumentar el cómputo en tiempo de inferencia en modelos de razonamiento (específicamente OpenAI o1-preview y o1-mini) en su robustez frente a ataques adversarios. Descubrimos que, en una variedad de ataques, un mayor cómputo en tiempo de inferencia conduce a una mayor robustez. En muchos casos (con excepciones importantes), la fracción de muestras del modelo donde el ataque tiene éxito tiende a cero a medida que crece la cantidad de cómputo en tiempo de prueba. No realizamos entrenamiento adversario para las tareas que estudiamos, y aumentamos el cómputo en tiempo de inferencia simplemente permitiendo que los modelos gasten más cómputo en razonamiento, independientemente de la forma de ataque. Nuestros resultados sugieren que el cómputo en tiempo de inferencia tiene el potencial de mejorar la robustez adversaria para Modelos de Lenguaje Grandes. También exploramos nuevos ataques dirigidos a modelos de razonamiento, así como escenarios donde el cómputo en tiempo de inferencia no mejora la confiabilidad, y especulamos sobre las razones de esto, así como formas de abordarlo.
Dada la reciente introducción de múltiples modelos de lenguaje y la continua demanda de tareas mejoradas de Procesamiento del Lenguaje Natural, especialmente la sumarización, este trabajo proporciona una evaluación exhaustiva de 20 modelos de lenguaje recientes, centrándose en los más pequeños para la tarea de sumarización de noticias. En este trabajo, probamos sistemáticamente las capacidades y la efectividad de estos modelos en resumir textos de artículos de noticias escritos en diferentes estilos y presentados en tres conjuntos de datos distintos. Específicamente, nos enfocamos en este estudio en entornos de aprendizaje de cero disparos y de pocos disparos, y aplicamos una metodología de evaluación robusta que combina diferentes conceptos de evaluación, incluyendo métricas automáticas, evaluación humana y LLM-como-juez. Curiosamente, incluir ejemplos de demostración en el entorno de aprendizaje de pocos disparos no mejoró el rendimiento de los modelos y, en algunos casos, incluso condujo a una peor calidad de los resúmenes generados. Este problema surge principalmente debido a la baja calidad de los resúmenes de referencia que se han utilizado, lo que impacta negativamente en el rendimiento de los modelos. Además, los resultados de nuestro estudio resaltan el rendimiento excepcional de GPT-3.5-Turbo y GPT-4, que generalmente dominan debido a sus capacidades avanzadas. Sin embargo, entre los modelos públicos evaluados, ciertos modelos como Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B y Zephyr-7B-Beta demostraron resultados prometedores. Estos modelos mostraron un potencial significativo, posicionándolos como alternativas competitivas a los modelos grandes para la tarea de sumarización de noticias.
Este documento aborda el desafío de larga data de reconstruir estructuras 3D a partir de videos con contenido dinámico. Los enfoques actuales para este problema no fueron diseñados para operar en videos casuales grabados por cámaras estándar o requieren un largo tiempo de optimización. Con el objetivo de mejorar significativamente la eficiencia de los enfoques previos, presentamos TracksTo4D, un enfoque basado en aprendizaje que permite inferir la estructura 3D y posiciones de cámara a partir de contenido dinámico proveniente de videos casuales utilizando un solo pase eficiente hacia adelante. Para lograr esto, proponemos operar directamente sobre pistas de puntos 2D como entrada y diseñar una arquitectura adaptada para procesar pistas de puntos 2D. Nuestra arquitectura propuesta está diseñada con dos principios clave en mente: (1) tiene en cuenta las simetrías inherentes presentes en los datos de pistas de puntos de entrada, y (2) asume que los patrones de movimiento pueden ser representados de manera efectiva utilizando una aproximación de rango bajo. TracksTo4D se entrena de manera no supervisada en un conjunto de datos de videos casuales utilizando solo las pistas de puntos 2D extraídas de los videos, sin ninguna supervisión 3D. Nuestros experimentos muestran que TracksTo4D puede reconstruir una nube de puntos temporal y posiciones de cámara del video subyacente con una precisión comparable a los métodos de vanguardia, al tiempo que reduce drásticamente el tiempo de ejecución hasta en un 95\%. Además, demostramos que TracksTo4D generaliza bien a videos no vistos de categorías semánticas no vistas en el momento de la inferencia.
La segmentación de imágenes con indicaciones genéricas adaptables tiene como objetivo lograr la segmentación de muestras diversas bajo una única descripción de tarea mediante el uso de una sola indicación genérica. Los métodos actuales aprovechan las capacidades de generalización de los Modelos Visión-Lenguaje (VLMs) para inferir indicaciones específicas de instancia a partir de estas indicaciones genéricas de tarea con el fin de guiar el proceso de segmentación. Sin embargo, cuando los VLMs tienen dificultades para generalizar a algunas instancias de imagen, la predicción de indicaciones específicas de instancia es deficiente. Para resolver este problema, presentamos la Minería Negativa Específica de Instancias para la Segmentación con Indicaciones Genéricas de Tarea (INT). La idea clave de INT es reducir de forma adaptativa la influencia de conocimientos previos irrelevantes (negativos) mientras se aumenta el uso de los conocimientos previos más plausibles, seleccionados mediante minería negativa con mayor contraste, con el fin de optimizar la generación de indicaciones específicas de instancia. Específicamente, INT consta de dos componentes: (1) generación de indicaciones específicas de instancia, que filtra progresivamente la información incorrecta en la generación de indicaciones; (2) generación de máscara semántica, que garantiza que cada segmentación de instancia de imagen coincida correctamente con la semántica de las indicaciones específicas de instancia. INT se valida en seis conjuntos de datos, que incluyen objetos camuflados e imágenes médicas, demostrando su efectividad, robustez y escalabilidad.
Para reducir los costos de memoria en la inferencia de largo contexto con Modelos de Lenguaje Grandes (LLMs), muchos trabajos recientes se centran en comprimir la caché de clave-valor (KV) de diferentes tokens. Sin embargo, identificamos que los métodos de compresión de caché KV anteriores miden la importancia de los tokens individualmente, descuidando la dependencia entre diferentes tokens en las características del lenguaje del mundo real. A la luz de esto, presentamos ChunkKV, agrupando los tokens en un fragmento como una unidad básica de compresión, y reteniendo los fragmentos semánticos más informativos mientras se descartan los menos importantes. Además, observando que ChunkKV muestra una mayor similitud en los índices preservados a través de diferentes capas, proponemos la reutilización de índices por capa para reducir aún más la carga computacional. Evaluamos ChunkKV en referentes de largo contexto de vanguardia, incluidos LongBench y Needle-In-A-HayStack, así como el referente de aprendizaje en contexto GSM8K y JailbreakV. Nuestros experimentos con ajuste de instrucciones y LLMs de razonamiento multi-paso (O1 y R1) logran hasta un 10\% de mejora de rendimiento bajo ratios de compresión agresivos en comparación con los métodos existentes.