Artículos de investigación en IA seleccionados diariamente con traducciones
La Escalabilidad en Tiempo de Prueba (ETP) es un método importante para mejorar el rendimiento de los Modelos de Lenguaje Grandes (MLG) mediante el uso de cálculos adicionales durante la fase de inferencia. Sin embargo, los estudios actuales no analizan sistemáticamente cómo los modelos de política, los Modelos de Recompensa de Proceso (MRP) y la dificultad del problema influyen en la ETP. Esta falta de análisis limita la comprensión y el uso práctico de los métodos de ETP. En este documento, nos enfocamos en dos preguntas fundamentales: (1) ¿Cuál es el enfoque óptimo para escalar el cálculo en tiempo de prueba entre diferentes modelos de política, MRP y niveles de dificultad del problema? (2) ¿Hasta qué punto puede el cálculo extendido mejorar el rendimiento de los MLG en tareas complejas, y pueden los modelos de lenguaje más pequeños superar a los más grandes mediante este enfoque? A través de experimentos exhaustivos en MATH-500 y desafiantes tareas AIME24, tenemos las siguientes observaciones: (1) La estrategia de ETP óptima en cálculo depende en gran medida de la elección del modelo de política, MRP y dificultad del problema. (2) Con nuestra estrategia de ETP óptima en cálculo, modelos de política extremadamente pequeños pueden superar a modelos más grandes. Por ejemplo, un MLG de 1B puede superar a un MLG de 405B en MATH-500. Además, tanto en MATH-500 como en AIME24, un MLG de 0.5B supera a GPT-4o, un MLG de 3B supera a un MLG de 405B, y un MLG de 7B vence a o1 y DeepSeek-R1, con una eficiencia de inferencia más alta. Estos hallazgos muestran la importancia de adaptar las estrategias de ETP a las características específicas de cada tarea y modelo, e indican que la ETP es un enfoque prometedor para mejorar las capacidades de razonamiento de los MLG.
Los enfoques existentes para la desintoxicación de texto multilingüe se ven obstaculizados por la escasez de conjuntos de datos paralelos multilingües. En este trabajo, presentamos un flujo de trabajo para la generación de datos de desintoxicación de texto paralelo multilingüe. También introducimos SynthDetoxM, un conjunto de datos de desintoxicación de texto paralelo multilingüe recopilado manualmente y generado sintéticamente que consta de 16,000 pares de oraciones de desintoxicación de alta calidad en alemán, francés, español y ruso. Los datos se obtuvieron de diferentes conjuntos de datos de evaluación de toxicidad y luego se reescribieron con nueve LLMs de código abierto modernos en un entorno de pocos disparos. Nuestros experimentos demuestran que los modelos entrenados en los conjuntos de datos sintéticos producidos tienen un rendimiento superior a los entrenados en el conjunto de datos MultiParaDetox anotado por humanos, incluso en entornos con limitación de datos. Los modelos entrenados en SynthDetoxM superan a todos los LLMs evaluados en un entorno de pocos disparos. Publicamos nuestro conjunto de datos y código para ayudar a promover la investigación adicional en la desintoxicación de texto multilingüe.
Las habilidades de razonamiento, especialmente aquellas para resolver problemas matemáticos complejos, son componentes cruciales de la inteligencia general. Avances recientes realizados por empresas privadas, como los modelos de la serie o de OpenAI, han logrado un progreso notable en tareas de razonamiento. Sin embargo, los detalles técnicos completos aún no han sido revelados, y las técnicas que se cree que han sido adoptadas son solo el aprendizaje por refuerzo (RL) y la larga cadena de pensamientos. Este documento propone un nuevo marco de RL, denominado OREAL, para perseguir el límite de rendimiento que se puede lograr a través del Aprendizaje por Refuerzo basado en Resultados y Recompensas para tareas de razonamiento matemático, donde solo las recompensas de resultado binario son fácilmente accesibles. Teóricamente demostramos que la clonación de comportamiento en trayectorias positivas de muestreo de mejor-de-N (BoN) es suficiente para aprender la política óptima regularizada por KL en entornos de retroalimentación binaria. Esta formulación también implica que las recompensas de muestras negativas deben ser reformuladas para garantizar la consistencia del gradiente entre muestras positivas y negativas. Para aliviar las dificultades de larga data causadas por las recompensas escasas en RL, que incluso se ven exacerbadas por la corrección parcial de la larga cadena de pensamiento para tareas de razonamiento, aplicamos además un modelo de recompensa a nivel de token para muestrear tokens importantes en trayectorias de razonamiento para el aprendizaje. Con OREAL, por primera vez, un modelo de 7B puede obtener una precisión de 94.0 pass@1 en MATH-500 a través de RL, estando a la par con modelos de 32B. OREAL-32B también supera a modelos anteriores de 32B entrenados por destilación con una precisión de 95.0 pass@1 en MATH-500. Nuestra investigación también indica la importancia de los modelos de política inicial y las consultas de entrenamiento para RL. El código, los modelos y los datos se publicarán para beneficiar la investigación futura en https://github.com/InternLM/OREAL.
En este documento, presentamos la Maldición de la Profundidad, un concepto que destaca, explica y aborda la reciente observación en los Modelos de Lenguaje Grande (LLMs) modernos donde casi la mitad de las capas son menos efectivas de lo esperado. Primero confirmamos la amplia existencia de este fenómeno en las familias más populares de LLMs como Llama, Mistral, DeepSeek y Qwen. Nuestro análisis, tanto teórico como empírico, identifica que la razón subyacente de la inefectividad de las capas profundas en los LLMs es el uso generalizado de la Normalización Pre-Capa (Pre-LN). Mientras que la Pre-LN estabiliza el entrenamiento de los LLMs basados en Transformadores, su varianza de salida crece exponencialmente con la profundidad del modelo, lo que causa indeseablemente que la derivada de los bloques profundos del Transformador sea una matriz identidad, y por lo tanto apenas contribuye al entrenamiento. Para resolver esta trampa de entrenamiento, proponemos Escalado de Normalización de Capa, que escala la varianza de la salida de la normalización de capa de forma inversa por la raíz cuadrada de su profundidad. Esta modificación simple mitiga la explosión de varianza de salida de las capas más profundas del Transformador, mejorando su contribución. Nuestros resultados experimentales, abarcando tamaños de modelo de 130M a 1B, demuestran que el Escalado de Normalización de Capa mejora significativamente el rendimiento de pre-entrenamiento de LLM en comparación con la Pre-LN. Además, esta mejora se traslada sin problemas al ajuste fino supervisado. Todos estos beneficios se pueden atribuir al hecho de que el Escalado de Normalización de Capa permite que las capas más profundas contribuyan de manera más efectiva durante el entrenamiento.
Comunicarse en lenguaje natural es una herramienta poderosa en entornos multiagente, ya que permite a agentes independientes compartir información en entornos parcialmente observables y facilita la coordinación sin entrenamiento previo con humanos. Sin embargo, la mayoría de los trabajos previos están limitados, ya sea porque dependen de entrenamiento con grandes cantidades de demostraciones humanas o porque carecen de la capacidad para generar estrategias de comunicación naturales y útiles. En este trabajo, entrenamos modelos de lenguaje para tener discusiones productivas sobre su entorno en lenguaje natural sin ninguna demostración humana. Descomponemos el problema de comunicación en escuchar y hablar. Nuestra idea clave es aprovechar el objetivo del agente para predecir información útil sobre el mundo como una señal de recompensa densa que guía la comunicación. Específicamente, mejoramos las habilidades de escucha de un modelo entrenándolo para predecir información sobre el entorno basándose en las discusiones, y simultáneamente mejoramos las habilidades de habla de un modelo con aprendizaje por refuerzo multiagente recompensando los mensajes según su influencia en otros agentes. Para investigar el papel y la necesidad de la comunicación en entornos sociales complejos, estudiamos un juego de deducción social encarnado basado en Among Us, donde la pregunta clave a responder es la identidad de un impostor adversario. Analizamos comportamientos emergentes debido a nuestra técnica, como acusar sospechosos y proporcionar evidencia, y encontramos que habilita discusiones sólidas, duplicando las tasas de victoria en comparación con el RL estándar. Publicamos nuestro código y modelos en https://socialdeductionllm.github.io/
La cuantificación de los pesos del modelo es fundamental para reducir los costos de comunicación e inferencia de modelos grandes. Sin embargo, cuantificar modelos, especialmente a bajas precisiones como int4 o int2, implica un compromiso en la calidad del modelo; en particular, se sabe que int2 degrada severamente la calidad del modelo. Por lo tanto, a menudo los profesionales se ven obligados a mantener múltiples modelos con diferentes niveles de cuantificación o a servir un solo modelo que satisfaga mejor el equilibrio entre calidad y latencia. Por otro lado, los tipos de datos enteros, como int8, poseen inherentemente una estructura anidada (Matryoshka) donde enteros de menor tamaño de bits, como int4 o int2, están anidados dentro de los bits más significativos. Este artículo propone la Cuantificación Matryoshka (MatQuant), una novedosa técnica de cuantificación multi-escala que aborda el desafío de necesitar múltiples modelos cuantificados. Permite entrenar y mantener un solo modelo, que luego puede ser servido en diferentes niveles de precisión. Además, debido a la regularización de co-entrenamiento y co-destilación proporcionada por MatQuant, los modelos de precisión int2 extraídos por MatQuant pueden ser hasta un 10% más precisos que la cuantificación estándar int2 (utilizando técnicas como QAT u OmniQuant). Esto representa un progreso significativo en la cuantificación de modelos, demostrado por el hecho de que, con la misma receta, un modelo Gemma-2 9B FFN cuantificado en int2 es más preciso que un modelo Gemma-2 2B FFN cuantificado en int8.
Este documento presenta el Modelo de Gran Memoria (LM2), una arquitectura Transformer solo de decodificador mejorada con un módulo de memoria auxiliar que tiene como objetivo abordar las limitaciones de los Transformers estándar en el razonamiento de múltiples pasos, argumentación relacional y síntesis de información distribuida en contextos largos. El LM2 propuesto incorpora un módulo de memoria que actúa como un repositorio de representaciones contextuales, interactuando con tokens de entrada a través de atención cruzada y actualizándose mediante mecanismos de compuertas. Para preservar las capacidades generales de los Transformers, el LM2 mantiene el flujo de información original mientras integra una vía de memoria complementaria. Los resultados experimentales en el banco de pruebas BABILong demuestran que el modelo LM2 supera tanto al modelo RMT con aumento de memoria en un 37.1% como al modelo de línea base Llama-3.2 en un 86.3% en promedio en todas las tareas. El LM2 muestra capacidades excepcionales en inferencia de múltiples saltos, razonamiento numérico y respuesta a preguntas de contexto extenso. En el conjunto de datos MMLU, logra una mejora del 5.0% sobre un modelo vainilla pre-entrenado, demostrando que su módulo de memoria no degrada el rendimiento en tareas generales. Además, en nuestro análisis, exploramos la interpretabilidad de la memoria, la efectividad de los módulos de memoria y el comportamiento en tiempo de prueba. Nuestros hallazgos destacan la importancia de la memoria explícita en mejorar las arquitecturas Transformer.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han logrado avances significativos en la generación de código y resolución de problemas. Los enfoques actuales emplean depuradores iterativos basados en herramientas externas que utilizan retroalimentación en tiempo de ejecución basada en compilador u otras herramientas para refinar programas generados de manera rudimentaria por diversos métodos. Sin embargo, la efectividad de estos enfoques depende en gran medida de la calidad de la generación inicial de código, lo cual sigue siendo un desafío abierto. En este documento, presentamos CodeSim, un novedoso marco de generación de código multiagente que aborda de manera integral las etapas de síntesis de programas: planificación, codificación y depuración, a través de un enfoque de percepción similar al humano. Al igual que los humanos verifican su comprensión de cualquier algoritmo a través de simulaciones visuales, CodeSim presenta de manera única un método de verificación de planes y depuración interna mediante la simulación paso a paso de entrada/salida. Experimentos extensos en siete desafiantes bancos de pruebas de resolución de problemas y síntesis de programas demuestran las notables capacidades de generación de código de CodeSim. Nuestro marco logra nuevos resultados de vanguardia (pase@1): (HumanEval 95.1%, MBPP 90.7%, APPS 22% y CodeContests 29.1%). Además, nuestro método muestra potencial para una mejora aún mayor cuando se combina con depuradores externos. Para facilitar la investigación y desarrollo adicionales en esta área, hemos hecho de código abierto nuestro marco en el siguiente enlace (https://kagnlp.github.io/codesim.github.io/).
Ha habido un creciente interés de investigación en la construcción de modelos unificados de comprensión y generación multimodal, entre los cuales Show-o se destaca como un representante notable, demostrando gran promesa tanto para la generación de texto a imagen como de imagen a texto. La inferencia de Show-o implica el progresivo desruido de tokens de imagen y la decodificación autoregresiva de tokens de texto, y por lo tanto, desafortunadamente, sufre de problemas de ineficiencia en ambos lados. Este artículo presenta Show-o Turbo para cerrar la brecha. Primero identificamos una perspectiva unificada de desruido para la generación de imágenes y texto en Show-o basada en la decodificación paralela de tokens de texto. Luego proponemos extender la destilación de consistencia (CD), un enfoque calificado para acortar el proceso de desruido de modelos de difusión, a las trayectorias multimodales de desruido de Show-o. Introducimos una estrategia de segmentación de trayectorias y un procedimiento de aprendizaje curricular para mejorar la convergencia del entrenamiento. Empíricamente, en la generación de texto a imagen, Show-o Turbo muestra una puntuación de GenEval de 0.625 en 4 pasos de muestreo sin utilizar orientación libre de clasificadores (CFG), superando a la del Show-o original con 8 pasos y CFG; en la generación de imagen a texto, Show-o Turbo exhibe una aceleración de 1.5 veces sin sacrificar significativamente el rendimiento. El código está disponible en https://github.com/zhijie-group/Show-o-Turbo.
Presentamos que el razonamiento jerárquico LLM a través de la ampliación de plantillas de pensamiento puede optimizar eficazmente el espacio de búsqueda de razonamiento y superar las capacidades de razonamiento matemático de potentes LLMs como OpenAI o1-preview y DeepSeek V3. Entrenamos nuestro modelo ReasonFlux-32B con solo 8 GPUs e introducimos tres innovaciones: (i) una biblioteca estructurada y genérica de plantillas de pensamiento, que contiene alrededor de 500 plantillas de pensamiento de alto nivel capaces de generalizar a problemas de razonamiento similares o relevantes; (ii) realizar aprendizaje por refuerzo jerárquico en una secuencia de plantillas de pensamiento en lugar de largos CoTs, optimizando un LLM base para planificar una trayectoria de plantillas óptima para manejar gradualmente problemas complejos; (iii) un nuevo sistema de escalado de inferencia que permite el razonamiento jerárquico LLM escalando adaptativamente las plantillas de pensamiento en tiempo de inferencia. Con una trayectoria de plantillas que contiene plantillas de pensamiento secuenciales, nuestro ReasonFlux-32B avanza significativamente las capacidades de razonamiento matemático a niveles de vanguardia. Notablemente, en el banco de pruebas MATH, logra una precisión del 91.2% y supera a o1-preview en un 6.7%. En el banco de pruebas de la Olimpiada Matemática de EE. UU. (AIME), ReasonFlux-32B resuelve un promedio del 56.7% de los problemas, superando a o1-preview y DeepSeek-V3 en un 27% y 45%, respectivamente. Código: https://github.com/Gen-Verse/ReasonFlux
Acelerar la inferencia en Modelos de Lenguaje Grandes (LLMs) es crucial para las interacciones en tiempo real, ya que se han incorporado ampliamente en servicios del mundo real. La decodificación especulativa, una solución completamente algorítmica, ha ganado atención por mejorar la velocidad de inferencia al redactar y verificar tokens, generando así múltiples tokens en un solo pase hacia adelante. Sin embargo, las estrategias actuales de redacción suelen requerir un ajuste fino significativo o tienen un rendimiento inconsistente en diferentes tareas. Para abordar estos desafíos, proponemos la Redacción Jerárquica (HD), un enfoque novedoso de redacción sin pérdidas que organiza diversas fuentes de tokens en múltiples bases de datos en un marco jerárquico basado en la localidad temporal. En el paso de redacción, HD accede secuencialmente a múltiples bases de datos para obtener tokens preliminares desde la localidad más alta hasta la más baja, garantizando una aceleración consistente en diversas tareas y minimizando la latencia de redacción. Nuestros experimentos en Spec-Bench utilizando LLMs con 7B y 13B parámetros demuestran que HD supera a los métodos de redacción de bases de datos existentes, logrando mejoras robustas en la velocidad de inferencia en diferentes tamaños de modelo, tareas y temperaturas.
Los Agentes de Modelos de Lenguaje Grande (LLM, por sus siglas en inglés) han demostrado capacidades notables en la automatización de tareas y la toma de decisiones inteligentes, impulsando la amplia adopción de marcos de desarrollo de agentes como LangChain y AutoGen. Sin embargo, estos marcos sirven predominantemente a desarrolladores con amplia experiencia técnica, lo cual es una limitación significativa considerando que solo el 0.03 % de la población mundial posee las habilidades de programación necesarias. Esta marcada brecha de accesibilidad plantea una pregunta fundamental: ¿Podemos permitir que todos, independientemente de su formación técnica, construyan sus propios agentes LLM utilizando solo lenguaje natural? Para abordar este desafío, presentamos MetaChain, un marco Totalmente Automatizado y altamente Auto-Desarrollador que permite a los usuarios crear e implementar agentes LLM a través de Lenguaje Natural Solo. Operando como un Sistema Operativo de Agentes autónomo, MetaChain consta de cuatro componentes clave: i) Utilidades del Sistema Agente, ii) Motor Accionable potenciado por LLM, iii) Sistema de Archivos Auto-Gestionado, y iv) módulo de Personalización de Agentes Auto-Juego. Este sistema ligero pero potente permite la creación y modificación eficiente y dinámica de herramientas, agentes y flujos de trabajo sin requisitos de codificación o intervención manual. Más allá de sus capacidades de desarrollo de agentes sin código, MetaChain también funciona como un sistema multiagente versátil para Asistentes de IA General. Evaluaciones exhaustivas en el banco de pruebas GAIA demuestran la efectividad de MetaChain en tareas multiagente generalistas, superando los métodos de vanguardia existentes. Además, las capacidades relacionadas con Generación Aumentada por Recuperación (RAG) de MetaChain han mostrado un rendimiento consistentemente superior en comparación con muchas soluciones alternativas basadas en LLM.
Los avances recientes han establecido a los Transformadores de Difusión (DiTs) como un marco dominante en la modelización generativa. Basándose en este éxito, Lumina-Next logra un rendimiento excepcional en la generación de imágenes fotorrealistas con Next-DiT. Sin embargo, su potencial para la generación de videos permanece en gran medida sin explotar, con desafíos significativos en la modelización de la complejidad espacio-temporal inherente a los datos de video. Para abordar esto, presentamos Lumina-Video, un marco que aprovecha las fortalezas de Next-DiT mientras introduce soluciones adaptadas para la síntesis de video. Lumina-Video incorpora una arquitectura Multi-escala Next-DiT, que aprende conjuntamente múltiples parches para mejorar tanto la eficiencia como la flexibilidad. Al incorporar el puntaje de movimiento como condición explícita, Lumina-Video también permite un control directo del grado dinámico de los videos generados. Combinado con un esquema de entrenamiento progresivo con una resolución y FPS cada vez mayores, y un esquema de entrenamiento de múltiples fuentes con datos naturales y sintéticos mixtos, Lumina-Video logra una calidad estética notable y una suavidad de movimiento con una alta eficiencia de entrenamiento e inferencia. Además, proponemos Lumina-V2A, un modelo de video a audio basado en Next-DiT, para crear sonidos sincronizados para los videos generados. Los códigos se encuentran disponibles en https://www.github.com/Alpha-VLLM/Lumina-Video.
Los modelos visión-lenguaje sin codificador existentes (VLMs) están reduciendo rápidamente la brecha de rendimiento con sus contrapartes basadas en codificadores, resaltando el potencial prometedor de sistemas multimodales unificados con simplicidad estructural y despliegue eficiente. Clarificamos sistemáticamente la brecha de rendimiento entre los VLMs que utilizan codificadores de visión pre-entrenados, tokenizadores discretos y capas visuales mínimas desde cero, excavando profundamente las características poco examinadas de los VLMs sin codificador. Desarrollamos estrategias eficientes para los VLMs sin codificador que rivalizan con los basados en codificadores convencionales. Tras una investigación exhaustiva, lanzamos EVEv2.0, una nueva y mejorada familia de VLMs sin codificador. Mostramos que: (i) Descomponer adecuadamente y asociar jerárquicamente visión y lenguaje dentro de un modelo unificado reduce la interferencia entre modalidades. (ii) Una estrategia de entrenamiento bien diseñada permite una optimización efectiva para los VLMs sin codificador. A través de una evaluación extensa, nuestro EVEv2.0 representa un estudio exhaustivo para el desarrollo de una arquitectura solo de decodificador entre modalidades, demostrando una eficiencia de datos superior y una sólida capacidad de razonamiento visual. El código está disponible públicamente en: https://github.com/baaivision/EVE.
La orientación sin clasificador (CFG, por sus siglas en inglés) es una técnica clave para mejorar la generación condicional en modelos de difusión, permitiendo un control más preciso al tiempo que mejora la calidad de las muestras. Es natural extender esta técnica a la difusión de video, que genera video condicionado a un número variable de fotogramas de contexto, referidos colectivamente como historial. Sin embargo, encontramos dos desafíos clave al guiar con historiales de longitud variable: arquitecturas que solo admiten condicionamiento de tamaño fijo y la observación empírica de que el abandono de historial al estilo CFG tiene un rendimiento deficiente. Para abordar esto, proponemos el Transformador de Forzado de Difusión (DFoT), una arquitectura de difusión de video y un objetivo de entrenamiento fundamentado teóricamente que permiten conjuntamente el condicionamiento en un número flexible de fotogramas de historial. Luego presentamos la Orientación de Historial, una familia de métodos de orientación habilitados de manera única por DFoT. Mostramos que su forma más simple, la orientación de historial básica, ya mejora significativamente la calidad de generación de video y la consistencia temporal. Un método más avanzado, la orientación de historial a lo largo del tiempo y la frecuencia, mejora aún más la dinámica del movimiento, permite la generalización compositiva a historiales fuera de distribución y puede desplegar de manera estable videos extremadamente largos. Sitio web: https://boyuan.space/history-guidance
Los Modelos de Gran Escala Visión-Lenguaje (LVLMs) pueden razonar de manera efectiva sobre entradas tanto textuales como visuales, pero tienden a alucinar contenidos sintácticamente coherentes pero no fundamentados visualmente. En este artículo, investigamos la dinámica interna de la alucinación examinando las clasificaciones de logits de los tokens a lo largo del proceso de generación, revelando tres patrones clave en cómo los LVLMs procesan la información: (1) pérdida gradual de información visual: los tokens fundamentados visualmente gradualmente dejan de ser preferidos a lo largo de la generación, y (2) excitación temprana: los tokens semánticamente significativos alcanzan la máxima activación en las capas antes que en la capa final. (3) información genuina oculta: los tokens fundamentados visualmente, aunque no sean finalmente decididos, mantienen clasificaciones relativamente altas en la inferencia. Basándonos en estas percepciones, proponemos VISTA (Dirección de Información Visual con Aumento de Logits de Token), un marco de intervención en tiempo de inferencia sin entrenamiento que reduce la alucinación al tiempo que promueve la información genuina. VISTA funciona combinando dos enfoques complementarios: reforzando la información visual en el espacio de activación y aprovechando las activaciones de capas tempranas para promover una decodificación semánticamente significativa. En comparación con los métodos existentes, VISTA no requiere supervisión externa y es aplicable a varias estrategias de decodificación. Experimentos extensos muestran que VISTA reduce en promedio la alucinación en aproximadamente un 40% en la tarea de generación abierta evaluada, y supera consistentemente a los métodos existentes en cuatro bancos de pruebas a través de cuatro arquitecturas bajo tres estrategias de decodificación.
La generación personalizada ha logrado avances significativos en la síntesis de imágenes, sin embargo, la generación de videos personalizados sigue siendo un desafío debido a inconsistencias temporales y degradación de calidad. En este documento, presentamos CustomVideoX, un marco innovador que aprovecha el transformador de difusión de video para la generación de videos personalizados a partir de una imagen de referencia. CustomVideoX se basa en redes de video pre-entrenadas al entrenar exclusivamente los parámetros de LoRA para extraer características de referencia, asegurando eficiencia y adaptabilidad. Para facilitar la interacción fluida entre la imagen de referencia y el contenido de video, proponemos Atención de Referencia 3D, que permite el compromiso directo y simultáneo de las características de la imagen de referencia con todos los fotogramas de video a lo largo de las dimensiones espaciales y temporales. Para mitigar la influencia excesiva de las características de la imagen de referencia y la orientación textual en el contenido de video generado durante la inferencia, implementamos la estrategia de Sesgo de Atención de Referencia Consciente del Tiempo (TAB), modulando dinámicamente el sesgo de referencia en diferentes pasos de tiempo. Además, presentamos el módulo de Mejora Consciente de la Región de la Entidad (ERAE), alineando regiones altamente activadas de tokens de entidades clave con la inyección de características de referencia ajustando el sesgo de atención. Para evaluar a fondo la generación de videos personalizados, establecemos un nuevo punto de referencia, VideoBench, que comprende más de 50 objetos y 100 indicaciones para una evaluación exhaustiva. Los resultados experimentales muestran que CustomVideoX supera significativamente a los métodos existentes en cuanto a consistencia y calidad de video.
A pesar de la promesa de sintetizar videos de alta fidelidad, los Transformadores de Difusión (DiTs) con atención completa en 3D sufren de una inferencia costosa debido a la complejidad del cálculo de atención y a numerosos pasos de muestreo. Por ejemplo, el popular modelo Open-Sora-Plan tarda más de 9 minutos en generar un solo video de 29 cuadros. Este artículo aborda el problema de la ineficiencia desde dos aspectos: 1) Podar la atención completa en 3D basada en la redundancia dentro de los datos de video; Identificamos un patrón repetitivo de estilo de mosaico predominante en los mapas de atención en 3D para datos de video, y abogamos por una nueva familia de atención en 3D dispersa que mantiene una complejidad lineal con respecto al número de cuadros de video. 2) Acortar el proceso de muestreo adoptando la destilación de consistencia multi-paso existente; Dividimos toda la trayectoria de muestreo en varios segmentos y realizamos destilación de consistencia dentro de cada uno para activar capacidades de generación de pocos pasos. Además, diseñamos un pipeline de entrenamiento de tres etapas para combinar la atención de baja complejidad y las capacidades de generación de pocos pasos. Notablemente, con un 0.1% de datos de preentrenamiento, convertimos el modelo Open-Sora-Plan-1.2 en uno eficiente que es de 7.4x a 7.8x más rápido para la generación de videos de 29 y 93 cuadros en 720p con un margen de compromiso de rendimiento en VBench. Además, demostramos que nuestro enfoque es adecuado para la inferencia distribuida, logrando una aceleración adicional de 3.91x al ejecutarse en 4 GPUs con paralelismo de secuencia.
El enfoque predominante para entrenar agentes de navegación web recopila demostraciones humanas para un conjunto de sitios web populares y tareas escritas a mano, pero está claro que los datos humanos son un recurso ineficiente. Desarrollamos un proceso para facilitar el entrenamiento a escala de Internet para agentes sin anotaciones humanas laboriosas. En la primera etapa, un LLM genera tareas para 150k sitios web diversos. En la siguiente etapa, los agentes LLM completan tareas y producen trayectorias. En la etapa final, un LLM revisa las trayectorias y juzga su éxito. Los modelos de lenguaje son competitivos con los anotadores humanos, detectando y filtrando contenido dañino con una precisión del 97%, generando tareas factibles con una tasa del 89%, y juzgando trayectorias exitosas con una precisión del 82.6%. Escalando el proceso, los agentes basados en Llama 3.1 70B resuelven el 16.7% de las tareas para 150k sitios. El entrenamiento con los datos generados por nuestro proceso es competitivo con el entrenamiento con demostraciones humanas. En entornos limitados en datos derivados de Mind2Web y WebLINX, mejoramos la Precisión del Paso hasta un +89.5% y +122.1% respectivamente para agentes entrenados con mezclas de datos de nuestro proceso y datos humanos. Al entrenar agentes con todos los datos humanos disponibles de estos puntos de referencia, los agentes no logran generalizar a sitios reales diversos, y agregar nuestros datos mejora su generalización en un +149.0% para WebLINX y +156.3% para Mind2Web. El código estará disponible en: data-for-agents.github.io.
Los recientes avances en la optimización de preferencias humanas, originalmente desarrollados para Modelos de Lenguaje Grandes (LLMs), han demostrado un potencial significativo en mejorar los modelos de difusión de texto a imagen. Estos métodos tienen como objetivo aprender la distribución de muestras preferidas mientras las distinguen de las menos preferidas. Sin embargo, los conjuntos de datos de preferencias existentes a menudo muestran superposición entre estas distribuciones, lo que conduce a una distribución conflictiva. Además, identificamos que las indicaciones de entrada contienen información irrelevante para las imágenes menos preferidas, limitando la capacidad de la red de eliminación de ruido para predecir con precisión el ruido en los métodos de optimización de preferencias, conocido como el problema de la indicación irrelevante. Para abordar estos desafíos, proponemos la Optimización de Preferencia de Doble Subtítulo (DCPO), un enfoque novedoso que utiliza dos subtítulos distintos para mitigar las indicaciones irrelevantes. Para abordar la distribución conflictiva, presentamos el conjunto de datos Pick-Double Caption, una versión modificada de Pick-a-Pic v2 con subtítulos separados para las imágenes preferidas y menos preferidas. Además, proponemos tres estrategias diferentes para generar subtítulos distintos: subtitulación, perturbación y métodos híbridos. Nuestros experimentos muestran que DCPO mejora significativamente la calidad de imagen y la relevancia a las indicaciones, superando a Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO y MaPO en múltiples métricas, incluyendo Pickscore, HPSv2.1, GenEval, CLIPscore y ImageReward, ajustados en SD 2.1 como base.
La generación de texto a 3D automatiza la creación de contenido 3D a partir de descripciones textuales, lo que ofrece un potencial transformador en varios campos. Sin embargo, los métodos existentes a menudo tienen dificultades para alinear el contenido generado con las preferencias humanas, lo que limita su aplicabilidad y flexibilidad. Para abordar estas limitaciones, en este documento proponemos DreamDPO, un marco basado en optimización que integra las preferencias humanas en el proceso de generación 3D, a través de la optimización directa de preferencias. En la práctica, DreamDPO primero construye ejemplos en pares, luego compara su alineación con las preferencias humanas utilizando recompensas o modelos multimodales grandes, y finalmente optimiza la representación 3D con una función de pérdida impulsada por preferencias. Al aprovechar la comparación en pares para reflejar preferencias, DreamDPO reduce la dependencia de evaluaciones de calidad puntuales precisas al tiempo que permite un control detallado a través de la optimización guiada por preferencias. Los experimentos demuestran que DreamDPO logra resultados competitivos y proporciona contenido 3D de mayor calidad y más controlable en comparación con los métodos existentes. El código y los modelos serán de código abierto.
Las técnicas de generación aumentada por contexto (CAG), incluyendo RAG e ICL, requieren la combinación eficiente de múltiples contextos para generar respuestas a las consultas de los usuarios. Introducir directamente estos contextos como una secuencia impone una carga computacional considerable al re-codificar la selección combinada de contextos para cada solicitud. Para abordar esto, exploramos el potencial prometedor del codificado paralelo para pre-calcular y almacenar en caché de forma independiente los estados KV de cada contexto. Este enfoque permite la carga directa de estados almacenados en caché durante la inferencia, al mismo tiempo que permite acomodar más contextos a través de la reutilización de posiciones entre contextos. Sin embargo, debido a desalineaciones en la distribución de atención, la aplicación directa de codificación paralela resulta en una caída significativa del rendimiento. Para habilitar una CAG efectiva y eficiente, proponemos la Codificación Paralela Adaptativa (APE), que incorpora prefijo compartido, temperatura de atención y factor de escala para alinear la distribución de codificación paralela con la codificación secuencial. Los resultados en tareas de RAG e ICL demuestran que APE puede preservar el rendimiento de la codificación secuencial en un 98% y 93% utilizando las mismas entradas, superando la codificación paralela en un 3.6% y 7.9%, respectivamente. Además, se adapta a la generación de CAG de múltiples disparos, codificando de manera efectiva cientos de contextos en paralelo. La evaluación de eficiencia muestra que APE puede lograr una aceleración de extremo a extremo de 4.5 veces al reducir el tiempo de precarga en 28 veces para un contexto de longitud de 128K.
Steel-LLM es un modelo de lenguaje centrado en el chino desarrollado desde cero con el objetivo de crear un modelo de alta calidad de código abierto a pesar de los recursos computacionales limitados. Lanzado en marzo de 2024, el proyecto tuvo como objetivo entrenar un modelo de 1 mil millones de parámetros en un conjunto de datos a gran escala, priorizando la transparencia y el intercambio de ideas prácticas para ayudar a otros en la comunidad. El proceso de entrenamiento se centró principalmente en datos chinos, con una pequeña proporción de datos en inglés incluidos, abordando las lagunas en los LLM de código abierto existentes al proporcionar un relato más detallado y práctico del proceso de construcción del modelo. Steel-LLM ha demostrado un rendimiento competitivo en pruebas como CEVAL y CMMLU, superando a los modelos iniciales de instituciones más grandes. Este documento proporciona un resumen completo de las principales contribuciones del proyecto, incluida la recopilación de datos, el diseño del modelo, las metodologías de entrenamiento y los desafíos encontrados en el camino, ofreciendo un recurso valioso para investigadores y profesionales que buscan desarrollar sus propios LLMs. Los puntos de control del modelo y el script de entrenamiento están disponibles en https://github.com/zhanshijinwat/Steel-LLM.
La decodificación especulativa (SD) acelera la inferencia de grandes modelos de lenguaje mediante el uso de un modelo preliminar más pequeño para predecir múltiples tokens, los cuales son luego verificados en paralelo por el modelo objetivo más grande. Sin embargo, la capacidad limitada del modelo preliminar a menudo requiere muestreo basado en árboles para mejorar la precisión de la predicción, donde se generan múltiples candidatos en cada paso. Identificamos una limitación clave en este enfoque: los candidatos en el mismo paso se derivan de la misma representación, limitando la diversidad y reduciendo la efectividad general. Para abordar esto, proponemos Jakiro, aprovechando la Mezcla de Expertos (MoE), donde expertos independientes generan predicciones diversas, desacoplando efectivamente las correlaciones entre candidatos. Además, introducimos una estrategia de inferencia híbrida, combinando decodificación autoregresiva para tokens iniciales con decodificación paralela para etapas posteriores, y mejoramos esta última con un mecanismo contrastivo en características para mejorar la precisión. Nuestro método aumenta significativamente la precisión de la predicción y logra mayores aceleraciones en la inferencia. Experimentos extensos en diversos modelos validan la efectividad y robustez de nuestro enfoque, estableciendo un nuevo estado del arte en decodificación especulativa. Nuestros códigos están disponibles en https://github.com/haiduo/Jakiro.
Los modelos de robots condicionados por lenguaje tienen el potencial de permitir que los robots realicen una amplia gama de tareas basadas en instrucciones en lenguaje natural. Sin embargo, evaluar su seguridad y eficacia sigue siendo un desafío porque es difícil probar todas las diferentes formas en que se puede expresar una sola tarea. Los benchmarks actuales tienen dos limitaciones clave: se basan en un conjunto limitado de instrucciones generadas por humanos, omitiendo muchos casos desafiantes, y se centran únicamente en el rendimiento de la tarea sin evaluar la seguridad, como evitar daños. Para abordar estas brechas, presentamos Embodied Red Teaming (ERT), un nuevo método de evaluación que genera instrucciones diversas y desafiantes para probar estos modelos. ERT utiliza técnicas automatizadas de red teaming con Modelos de Lenguaje de Visión (VLMs) para crear instrucciones contextualmente fundamentadas y difíciles. Los resultados experimentales muestran que los modelos de robots condicionados por lenguaje de última generación fallan o se comportan de manera insegura con las instrucciones generadas por ERT, subrayando las deficiencias de los benchmarks actuales en la evaluación del rendimiento y la seguridad en el mundo real. El código y los videos están disponibles en: https://s-karnik.github.io/embodied-red-team-project-page.
El desarrollo de benchmarks de seguridad robustos para modelos de lenguaje grandes requiere conjuntos de datos abiertos y reproducibles que puedan medir tanto el rechazo adecuado de contenido dañino como la posible sobre-restricción de discursos científicos legítimos. Presentamos un conjunto de datos de código abierto y un marco de pruebas para evaluar los mecanismos de seguridad de LLM principalmente a través de consultas de sustancias controladas, analizando las respuestas de cuatro modelos principales a estímulos variados de manera sistemática. Nuestros resultados revelan perfiles de seguridad distintos: Claude-3.5-sonnet demostró el enfoque más conservador con un 73% de rechazos y un 27% de permisos, mientras que Mistral intentó responder al 100% de las consultas. GPT-3.5-turbo mostró una restricción moderada con un 10% de rechazos y un 90% de permisos, y Grok-2 registró un 20% de rechazos y un 80% de permisos. Las estrategias de variación de estímulos de prueba revelaron una disminución en la consistencia de las respuestas, del 85% con estímulos simples al 65% con cinco variaciones. Este benchmark de acceso público permite la evaluación sistemática del equilibrio crítico entre las restricciones de seguridad necesarias y la posible sobre-censura de la investigación científica legítima, al mismo tiempo que proporciona una base para medir el progreso en la implementación de la seguridad en la IA. El análisis de cadenas de pensamiento revela posibles vulnerabilidades en los mecanismos de seguridad, resaltando la complejidad de implementar salvaguardias robustas sin restringir excesivamente discursos científicos deseables y válidos.