Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar del tremendo progreso reciente, los modelos generativos de video todavía tienen dificultades para capturar el movimiento, la dinámica y la física del mundo real. Mostramos que esta limitación surge del objetivo convencional de reconstrucción de píxeles, que sesga a los modelos hacia la fidelidad de apariencia en detrimento de la coherencia del movimiento. Para abordar esto, presentamos VideoJAM, un nuevo marco que inculca una prioridad efectiva de movimiento a los generadores de video, al fomentar que el modelo aprenda una representación conjunta de apariencia y movimiento. VideoJAM se compone de dos unidades complementarias. Durante el entrenamiento, ampliamos el objetivo para predecir tanto los píxeles generados como su movimiento correspondiente a partir de una única representación aprendida. Durante la inferencia, introducimos Inner-Guidance, un mecanismo que dirige la generación hacia un movimiento coherente al aprovechar la predicción de movimiento en evolución del modelo como una señal dinámica de guía. Notablemente, nuestro marco se puede aplicar a cualquier modelo de video con adaptaciones mínimas, sin necesidad de modificar los datos de entrenamiento o escalar el modelo. VideoJAM logra un rendimiento de vanguardia en coherencia de movimiento, superando a modelos propietarios altamente competitivos y mejorando la calidad visual percibida de las generaciones. Estos hallazgos enfatizan que la apariencia y el movimiento pueden ser complementarios y, cuando se integran de manera efectiva, mejoran tanto la calidad visual como la coherencia de la generación de video. Sitio web del proyecto: https://hila-chefer.github.io/videojam-paper.github.io/
La mayoría del progreso en los modelos de codificador recientes ha sido impulsado por el ajuste fino supervisado (SFT), mientras que el potencial del aprendizaje por refuerzo (RL) sigue siendo en gran medida inexplorado, principalmente debido a la falta de datos/modelo de recompensa confiable en el dominio del código. En este documento, abordamos este desafío aprovechando la síntesis automatizada de casos de prueba a gran escala para mejorar el entrenamiento del modelo de código. Específicamente, diseñamos un flujo de trabajo que genera extensas parejas (pregunta, casos de prueba) a partir de datos de código existentes. Utilizando estos casos de prueba, construimos parejas de preferencia basadas en las tasas de aprobación sobre programas muestreados para entrenar modelos de recompensa con pérdida de Bradley-Terry. Se muestra una mejora promedio de 10 puntos para Llama-3.1-8B-Ins y una mejora de 5 puntos para Qwen2.5-Coder-7B-Ins a través de la mejor de 32 muestreos, situando al modelo 7B al nivel de DeepSeek-V2.5 de 236B. Además, realizamos aprendizaje por refuerzo con ambos modelos de recompensa y recompensas de aprobación de casos de prueba, lo que conlleva mejoras consistentes en HumanEval, MBPP, BigCodeBench y LiveCodeBench (V4). Especialmente, seguimos el entrenamiento de estilo R1 para comenzar directamente desde Qwen2.5-Coder-base y demostramos que nuestro entrenamiento de RL puede mejorar el modelo en HumanEval-plus en más del 25\% y en MBPP-plus en un 6\% con tan solo 80 pasos de optimización. Creemos que nuestros resultados resaltan el enorme potencial del aprendizaje por refuerzo en los modelos de codificador.
Aprender a modelar puentes de difusión es fácil; hacerlos rápidos y prácticos es un arte. Los modelos de puentes de difusión (DBMs, por sus siglas en inglés) son una extensión prometedora de los modelos de difusión para aplicaciones en traducción de imagen a imagen. Sin embargo, al igual que muchos modelos modernos de difusión y flujo, los DBMs sufren del problema de la inferencia lenta. Para abordarlo, proponemos una novedosa técnica de destilación basada en la formulación de coincidencia de puentes inversos y derivamos el objetivo viable para resolverlo en la práctica. A diferencia de las técnicas de destilación de DBM desarrolladas previamente, el método propuesto puede destilar tanto tipos condicionales como incondicionales de DBMs, destilar modelos en un generador de un solo paso y utilizar solo las imágenes corruptas para el entrenamiento. Evaluamos nuestro enfoque tanto para tipos condicionales como incondicionales de coincidencia de puentes en una amplia variedad de configuraciones, incluyendo superresolución, restauración de JPEG, boceto a imagen y otras tareas, y demostramos que nuestra técnica de destilación nos permite acelerar la inferencia de DBMs de 4x a 100x e incluso proporcionar una mejor calidad de generación que el modelo profesor utilizado, dependiendo de la configuración particular.
Los modelos de lenguaje grandes (LLMs) han demostrado notables capacidades de razonamiento en diversos dominios. Estudios recientes han mostrado que aumentar la computación en tiempo de prueba mejora las capacidades de razonamiento de los LLMs. Esto generalmente implica un muestreo extenso en el momento de la inferencia guiado por un verificador externo de LLM, lo que resulta en un sistema de dos jugadores. A pesar de la orientación externa, la efectividad de este sistema demuestra el potencial de un solo LLM para abordar tareas complejas. Por lo tanto, planteamos un nuevo problema de investigación: ¿Podemos internalizar las capacidades de búsqueda para mejorar fundamentalmente las habilidades de razonamiento de un solo LLM? Este trabajo explora una dirección ortogonal centrada en LLMs de post-entrenamiento para la búsqueda autorregresiva (es decir, un proceso de razonamiento extendido con autorreflexión y autoexploración de nuevas estrategias). Para lograr esto, proponemos el razonamiento de Cadena-de-Acción-Pensamiento (COAT) y un paradigma de entrenamiento de dos etapas: 1) una etapa de ajuste de formato a pequeña escala para internalizar el formato de razonamiento COAT y 2) una etapa de auto-mejora a gran escala aprovechando el aprendizaje por refuerzo. Nuestro enfoque resulta en Satori, un LLM de 7B entrenado en modelos y datos de código abierto. Evaluaciones empíricas extensas demuestran que Satori logra un rendimiento de vanguardia en pruebas de razonamiento matemático, al tiempo que muestra una sólida generalización a tareas fuera de dominio. El código, los datos y los modelos se compartirán completamente en código abierto.
Los agentes de lenguaje se han convertido en una solución prometedora para tareas interactivas complejas. Uno de los ingredientes clave para el éxito de los agentes de lenguaje es el modelo de recompensa en la trayectoria del flujo de trabajo agente, que proporciona una guía valiosa durante el entrenamiento o la inferencia. Sin embargo, debido a la falta de anotaciones de interacciones intermedias, la mayoría de los trabajos existentes utilizan un modelo de recompensa de resultado para optimizar políticas a lo largo de trayectorias completas. Esto puede llevar a políticas subóptimas y obstaculizar el rendimiento general. Para abordar esto, proponemos QLASS (Búsqueda Paso a Paso de Agente de Lenguaje Guiado por Q), para generar automáticamente anotaciones estimando valores Q de manera escalonada para agentes de lenguaje abiertos. Al introducir un árbol de razonamiento y realizar modelado de recompensa de proceso, QLASS proporciona una guía intermedia efectiva para cada paso. Con la guía paso a paso, proponemos una estrategia de generación guiada por Q para permitir que los agentes de lenguaje se adapten mejor al valor a largo plazo, lo que resulta en una mejora significativa del rendimiento durante la inferencia del modelo en tareas de agente interactivo complejas. Es importante destacar que, incluso con casi la mitad de los datos anotados, QLASS mantiene un rendimiento sólido, demostrando su eficiencia en el manejo de supervisión limitada. También demostramos empíricamente que QLASS puede llevar a una toma de decisiones más efectiva a través de un análisis cualitativo. Publicaremos nuestro código y datos.
Este artículo investiga un desafío poco explorado en modelos de lenguaje grandes (LLMs): el impacto de los métodos de compresión de caché KV en las capacidades fundamentales de los LLMs. Mientras que los métodos existentes logran impresionantes ratios de compresión en bancos de pruebas de contexto largo, sus efectos en las capacidades fundamentales del modelo siguen siendo poco estudiados. Presentamos un estudio empírico exhaustivo que evalúa prominentes métodos de compresión de caché KV en diversas tareas, abarcando conocimiento del mundo, razonamiento de sentido común, razonamiento aritmético, generación de código, seguridad y comprensión y generación de contexto largo. Nuestro análisis revela que los métodos de compresión de caché KV muestran degradación del rendimiento específica de la tarea. Las tareas de razonamiento aritmético resultan particularmente sensibles a la compresión agresiva, con diferentes métodos mostrando caídas de rendimiento del 17.4% al 43.3%. Notablemente, el modelo DeepSeek R1 Distill muestra una tolerancia a la compresión más robusta en comparación con los modelos ajustados a instrucciones, mostrando solo una degradación del rendimiento del 9.67% al 25.53%. Basándonos en nuestro análisis de patrones de atención y rendimiento de compresión entre tareas, proponemos ShotKV, un enfoque de compresión novedoso que maneja de manera distintiva las fases de prellenado y decodificación mientras mantiene coherencia semántica a nivel de disparo. Los resultados empíricos muestran que ShotKV logra mejoras de rendimiento del 9% al 18% en tareas de generación de contexto largo bajo ratios de compresión agresivos.
La combinación de salidas de diversas fuentes es un enfoque sencillo pero efectivo para mejorar el rendimiento. Mixture-of-Agents (MoA) es un método de conjunto popular que agrega salidas de múltiples Modelos de Lenguaje Grandes (LLMs) diferentes. Este documento plantea la pregunta en el contexto de los modelos de lenguaje: ¿es verdaderamente beneficioso mezclar diferentes LLMs? Proponemos Self-MoA, un método de conjunto que agrega salidas solo del LLM de mejor rendimiento. Nuestros experimentos extensos revelan que, sorprendentemente, Self-MoA supera a MoA estándar que mezcla diferentes LLMs en un gran número de escenarios: Self-MoA logra una mejora del 6.6% sobre MoA en el benchmark AlpacaEval 2.0, y un promedio de mejora del 3.8% en varios benchmarks, incluidos MMLU, CRUX y MATH. Aplicar Self-MoA a uno de los modelos mejor clasificados en AlpacaEval 2.0 logra directamente el nuevo rendimiento líder en la tabla de clasificación. Para comprender la efectividad de Self-MoA, investigamos sistemáticamente el equilibrio entre la diversidad y la calidad de las salidas en varios ajustes de MoA. Confirmamos que el rendimiento de MoA es bastante sensible a la calidad, y mezclar diferentes LLMs a menudo disminuye la calidad promedio de los modelos. Para complementar el estudio, identificamos los escenarios donde mezclar diferentes LLMs podría ser útil. Este documento también presenta una versión secuencial de Self-MoA, capaz de agregar un gran número de salidas de LLM sobre la marcha durante múltiples rondas, y es tan efectiva como agregar todas las salidas a la vez.
A pesar del notable progreso en los modelos generativos de texto a imagen, son susceptibles a ataques adversariales y generan inadvertidamente contenido inseguro e inético. Los enfoques existentes a menudo dependen de ajustar finamente los modelos para eliminar conceptos específicos, lo cual es computacionalmente costoso, carece de escalabilidad y/o compromete la calidad de generación. En este trabajo, proponemos un marco novedoso que aprovecha los autoencoders k-esparsos (k-SAEs) para permitir una manipulación eficiente e interpretable de conceptos en modelos de difusión. Específicamente, identificamos primero conceptos monosemánticos interpretables en el espacio latente de incrustaciones de texto y los utilizamos para dirigir con precisión la generación hacia o lejos de un concepto dado (por ejemplo, desnudez) o para introducir un nuevo concepto (por ejemplo, estilo fotográfico). A través de experimentos extensos, demostramos que nuestro enfoque es muy simple, no requiere el reentrenamiento del modelo base ni adaptadores LoRA, no compromete la calidad de generación y es resistente a manipulaciones adversariales de la indicación. Nuestro método produce una mejora del 20.01% en la eliminación de conceptos inseguros, es efectivo en la manipulación de estilos y es hasta 5 veces más rápido que el estado del arte actual.
La búsqueda basada en muestreo, un paradigma simple para utilizar la computación en tiempo de prueba, implica generar múltiples respuestas candidatas y seleccionar la mejor, típicamente verificando cada respuesta en cuanto a su corrección. En este documento, estudiamos las tendencias de escalado que rigen la búsqueda basada en muestreo. Entre nuestros hallazgos se encuentra que simplemente aumentar la escala de una implementación minimalista que utiliza solo muestreo aleatorio y autoverificación directa resulta en mejoras sostenidas en el rendimiento que, por ejemplo, elevan las capacidades de razonamiento del modelo Gemini v1.5 Pro por encima de las de o1-Preview en benchmarks populares. Atribuimos parcialmente la escalabilidad de la búsqueda basada en muestreo a un fenómeno de escalado implícito, donde muestrear un conjunto más grande de respuestas mejora a su vez la precisión de la verificación. También identificamos dos principios útiles para mejorar las capacidades de autoverificación con computación en tiempo de prueba: (1) comparar entre respuestas proporciona señales útiles sobre la ubicación de errores y alucinaciones, y (2) diferentes estilos de salida del modelo son útiles para diferentes contextos: las cadenas de pensamiento son útiles para el razonamiento pero más difíciles de verificar. Además, encontramos que, aunque se puede obtener una verificación precisa, los modelos de vanguardia muestran capacidades de verificación sorprendentemente débiles de fábrica e introducen un benchmark para medir el progreso en estas deficiencias.
Este documento presenta el conjunto de datos COCONut-PanCap, creado para mejorar la segmentación panóptica y el subtitulado de imágenes fundamentado. Basándose en el conjunto de datos COCO con máscaras panópticas avanzadas de COCONut, este conjunto de datos tiene como objetivo superar las limitaciones en los conjuntos de datos imagen-texto existentes que a menudo carecen de descripciones detalladas y completas de la escena. El conjunto de datos COCONut-PanCap incorpora subtítulos a nivel de región detallados, fundamentados en máscaras de segmentación panóptica, asegurando consistencia y mejorando el detalle de los subtítulos generados. A través de descripciones densamente anotadas y editadas por humanos, COCONut-PanCap respalda el mejor entrenamiento de modelos de visión-lenguaje (VLMs) para la comprensión de imágenes y modelos generativos para tareas de texto a imagen. Los resultados experimentales demuestran que COCONut-PanCap mejora significativamente el rendimiento en tareas de comprensión y generación, ofreciendo beneficios complementarios a conjuntos de datos a gran escala. Este conjunto de datos establece un nuevo punto de referencia para evaluar modelos en tareas conjuntas de segmentación panóptica y subtitulado fundamentado, abordando la necesidad de anotaciones detalladas y de alta calidad de imagen-texto en el aprendizaje multimodal.
La creación de modelos de Diseño Asistido por Computadora (CAD) requiere una experiencia y esfuerzo significativos. El Texto-a-CAD, que convierte descripciones textuales en secuencias paramétricas CAD, es crucial para agilizar este proceso. Estudios recientes han utilizado secuencias paramétricas de verdad básica, conocidas como señales secuenciales, como supervisión para lograr este objetivo. Sin embargo, los modelos CAD son inherentemente multimodales, compuestos por secuencias paramétricas y objetos visuales renderizados correspondientes. Además, el proceso de renderizado de secuencias paramétricas a objetos visuales es de muchos a uno. Por lo tanto, tanto las señales secuenciales como visuales son críticas para un entrenamiento efectivo. En este trabajo, presentamos CADFusion, un marco que utiliza Modelos de Lenguaje Grandes (LLMs) como base y alterna entre dos etapas de entrenamiento: la etapa de aprendizaje secuencial (SL) y la etapa de retroalimentación visual (VF). En la etapa SL, entrenamos LLMs utilizando secuencias paramétricas de verdad básica, lo que permite la generación de secuencias paramétricas lógicamente coherentes. En la etapa VF, recompensamos las secuencias paramétricas que se renderizan en objetos visualmente preferidos y penalizamos aquellas que no lo hacen, permitiendo a los LLMs aprender cómo se perciben y evalúan los objetos visuales renderizados. Estas dos etapas alternan a lo largo del entrenamiento, asegurando un aprendizaje equilibrado y preservando los beneficios de ambas señales. Experimentos demuestran que CADFusion mejora significativamente el rendimiento, tanto cualitativa como cuantitativamente.
La personalización de modelos de texto a imagen permite a los usuarios insertar conceptos personalizados y generar los conceptos en entornos no vistos. Los métodos existentes se basan en la costosa optimización en tiempo de prueba o entrenan codificadores en conjuntos de datos de entrenamiento de una sola imagen sin supervisión multiimagen, lo que resulta en una calidad de imagen inferior. Proponemos un enfoque simple que aborda ambas limitaciones. En primer lugar, aprovechamos los modelos existentes de texto a imagen y conjuntos de datos 3D para crear un Conjunto de Datos de Personalización Sintético de alta calidad (SynCD) que consiste en múltiples imágenes del mismo objeto en diferentes iluminaciones, fondos y poses. Luego proponemos una nueva arquitectura de codificador basada en mecanismos de atención compartida que incorpora mejor los detalles visuales detallados de las imágenes de entrada. Finalmente, proponemos una nueva técnica de inferencia que mitiga los problemas de sobreexposición durante la inferencia normalizando los vectores de guía de texto e imagen. A través de experimentos extensos, demostramos que nuestro modelo, entrenado en el conjunto de datos sintético con el codificador propuesto y el algoritmo de inferencia, supera a los métodos existentes sin ajuste en bancos de pruebas estándar de personalización.
El ajuste fino de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) en dispositivos está atrayendo un interés creciente. Trabajos recientes han fusionado técnicas de adaptación de bajo rango (LoRA) con ajuste fino federado para mitigar los desafíos asociados con los tamaños de modelo de dispositivo y la escasez de datos. Sin embargo, la heterogeneidad de los recursos computacionales sigue siendo un cuello de botella crítico: si bien los módulos de rango superior generalmente mejoran el rendimiento, las capacidades variables de los dispositivos restringen el rango de rango factible de LoRA. Los enfoques existentes que intentan resolver este problema carecen de justificación analítica o imponen una sobrecarga computacional adicional, dejando un amplio margen para una solución eficiente y fundamentada teóricamente. Para abordar estos desafíos, proponemos LoRA de esbozo federado (FSLoRA), que aprovecha un mecanismo de esbozo para permitir que los dispositivos actualicen selectivamente submatrices de módulos globales de LoRA mantenidos por el servidor. Al ajustar las proporciones de esbozo, que determinan los rangos de las submatrices en los dispositivos, FSLoRA se adapta de manera flexible a las restricciones de comunicación y computacionales específicas del dispositivo. Proporcionamos un análisis riguroso de convergencia de FSLoRA que caracteriza cómo las proporciones de esbozo afectan la tasa de convergencia. A través de experimentos exhaustivos en múltiples conjuntos de datos y modelos LLM, demostramos el rendimiento superior de FSLoRA en comparación con varias líneas de base.
Los Modelos de Lenguaje de Gran Escala (LLMs) han demostrado capacidades notables en diversos dominios. A medida que evolucionan las capacidades y se expanden los escenarios de implementación de los LLMs, los desafíos de implementación aumentan debido a su gran escala y a los diseños de activación avanzados pero complejos presentes en series de modelos destacados, como Llama, Gemma y Mistral. Estos desafíos se han vuelto particularmente evidentes en escenarios de implementación con recursos limitados, donde es imperativo mitigar los cuellos de botella en la eficiencia de inferencia. Entre varios esfuerzos recientes, la aproximación de activación ha surgido como una vía prometedora para mejorar la eficiencia de inferencia, a veces considerada indispensable en aplicaciones como la inferencia privada. A pesar de lograr aceleraciones sustanciales con un impacto mínimo en la utilidad, e incluso parecer sólida y práctica para la implementación en el mundo real, las implicaciones de seguridad de las aproximaciones de activación siguen siendo poco claras. En este trabajo, cubrimos esta brecha crítica en la seguridad de los LLMs al realizar la primera evaluación sistemática de seguridad de las aproximaciones de activación. Nuestra evaluación de seguridad abarca siete técnicas de vanguardia en tres categorías populares, revelando una degradación consistente de la seguridad en diez LLMs alineados con la seguridad.