Artículos de investigación en IA seleccionados diariamente con traducciones
Las destacadas capacidades multimodales y la experiencia interactiva de GPT-4o resaltan su papel crítico en aplicaciones prácticas, sin embargo, carece de un equivalente de código abierto de alto rendimiento. En este documento, presentamos Baichuan-Omni, el primer Modelo de Lenguaje Multimodal Grande (MLLM) de 7B de código abierto capaz de procesar y analizar simultáneamente modalidades de imagen, video, audio y texto, brindando una experiencia interactiva multimodal avanzada y un rendimiento sólido. Proponemos un esquema efectivo de entrenamiento multimodal que comienza con un modelo de 7B y avanza a través de dos etapas de alineación multimodal y ajuste fino de tareas múltiples en audio, imagen, video y texto. Este enfoque dota al modelo de lenguaje con la capacidad de manejar datos visuales y de audio de manera efectiva. Demostrando un sólido rendimiento en varios benchmarks omni-modales y multimodales, aspiramos a que esta contribución sirva como un punto de referencia competitivo para la comunidad de código abierto en el avance de la comprensión multimodal y la interacción en tiempo real.
Los modelos de difusión, como la Difusión Estable, han avanzado significativamente en la generación visual, sin embargo, su paradigma sigue siendo fundamentalmente diferente de los modelos de lenguaje autoregresivos, lo que complica el desarrollo de modelos unificados de lenguaje-visión. Esfuerzos recientes como LlamaGen han intentado la generación de imágenes autoregresivas utilizando tokens discretos VQVAE, pero el gran número de tokens involucrados hace que este enfoque sea ineficiente y lento. En este trabajo, presentamos Meissonic, que eleva la modelización de imágenes enmascaradas no autoregresivas (MIM) texto a imagen a un nivel comparable con los modelos de difusión de última generación como SDXL. Al incorporar una amplia gama de innovaciones arquitectónicas, estrategias avanzadas de codificación posicional y condiciones de muestreo optimizadas, Meissonic mejora sustancialmente el rendimiento y la eficiencia de MIM. Además, aprovechamos datos de entrenamiento de alta calidad, integramos microcondiciones informadas por puntuaciones de preferencia humana y empleamos capas de compresión de características para mejorar aún más la fidelidad y resolución de la imagen. Nuestro modelo no solo iguala, sino que a menudo supera el rendimiento de modelos existentes como SDXL en la generación de imágenes de alta calidad y alta resolución. Experimentos extensos validan las capacidades de Meissonic, demostrando su potencial como un nuevo estándar en la síntesis de texto a imagen. Publicamos un punto de control del modelo capaz de producir imágenes de resolución 1024 por 1024.
La generación aumentada por recuperación (RAG) es un medio clave para mejorar de manera efectiva los grandes modelos de lenguaje (LLMs) en muchas tareas basadas en el conocimiento. Sin embargo, los métodos de RAG existentes tienen dificultades con tareas de razonamiento intensivas en conocimiento, ya que la información útil requerida para estas tareas está dispersa de manera desordenada. Esta característica hace que sea difícil para los métodos de RAG existentes identificar con precisión la información clave y realizar un razonamiento global con dicha ampliación ruidosa. En este artículo, motivados por las teorías cognitivas que indican que los humanos convierten la información cruda en varios conocimientos estructurados al abordar tareas de razonamiento intensivas en conocimiento, proponemos un nuevo marco, StructRAG, que puede identificar el tipo de estructura óptimo para la tarea en cuestión, reconstruir documentos originales en este formato estructurado e inferir respuestas basadas en la estructura resultante. Experimentos extensos en diversas tareas intensivas en conocimiento muestran que StructRAG logra un rendimiento de vanguardia, destacándose especialmente en escenarios desafiantes, lo que demuestra su potencial como una solución efectiva para mejorar los LLMs en aplicaciones del mundo real complejas.
Los modelos de lenguaje de visión a gran escala (VLMs) combinan grandes modelos de lenguaje con codificadores de visión, demostrando promesa en diversas tareas. Sin embargo, a menudo tienen un rendimiento inferior en aplicaciones específicas de tareas debido a las brechas de dominio entre el preentrenamiento y el ajuste fino. Presentamos VITask, un nuevo marco que mejora la adaptabilidad específica de la tarea de los VLMs mediante la integración de modelos específicos de la tarea (TSMs). VITask emplea tres estrategias clave: el estímulo de ejemplos (EP), la alineación de distribución de respuestas (RDA) y el ajuste de respuestas contrastivas (CRT) para mejorar el rendimiento específico de la tarea de los VLMs ajustando sus distribuciones de respuestas. EP permite que las características de TSM guíen a los VLMs, mientras que RDA permite que los VLMs se adapten sin TSMs durante la inferencia aprendiendo de modelos estimulados por ejemplos. CRT optimiza aún más la clasificación de pares de imagen-respuesta correctos, reduciendo así el riesgo de generar respuestas no deseadas. Experimentos en 12 conjuntos de datos de diagnóstico médico en 9 modalidades de imágenes muestran que VITask supera tanto a los VLMs ajustados con instrucciones básicas como a los TSMs, demostrando su capacidad para integrar de manera efectiva características complementarias de ambos modelos. Además, VITask ofrece ventajas prácticas como la integración flexible de TSM y la robustez a instrucciones incompletas, convirtiéndolo en una solución versátil y eficiente para el ajuste específico de VLMs para tareas. Nuestro código está disponible en https://github.com/baiyang4/VITask.
La selección eficiente de datos es crucial para acelerar el preentrenamiento de modelos de lenguaje grandes (MLL). Aunque se han propuesto varios métodos para mejorar la eficiencia de datos, hay una investigación limitada que ha abordado los conflictos inherentes entre estos enfoques para lograr una selección óptima de datos para el preentrenamiento de MLL. Para abordar este problema, proponemos un mecanismo novedoso de selección de datos colaborativo multiagente. En este marco, cada método de selección de datos actúa como un agente independiente, y se diseña una consola de agentes para integrar dinámicamente la información de todos los agentes a lo largo del proceso de entrenamiento de MLL. Realizamos extensos estudios empíricos para evaluar nuestro marco multiagente. Los resultados experimentales demuestran que nuestro enfoque mejora significativamente la eficiencia de datos, acelera la convergencia en el entrenamiento de MLL y logra una ganancia de rendimiento promedio del 10.5% en múltiples puntos de referencia de modelos de lenguaje en comparación con los métodos más avanzados.
Comprender cómo evolucionan las características a lo largo de las capas en las redes neuronales profundas es un desafío fundamental en la interpretabilidad mecanicista, especialmente debido a la polisemanticidad y superposición de características. Si bien los Autoencoders Dispersos (SAEs) se han utilizado para extraer características interpretables de capas individuales, alinear estas características a lo largo de las capas ha seguido siendo un problema abierto. En este artículo, presentamos SAE Match, un método novedoso y sin datos para alinear características de SAE en diferentes capas de una red neuronal. Nuestro enfoque implica emparejar características minimizando el error cuadrático medio entre los parámetros plegados de los SAE, una técnica que incorpora umbrales de activación en los pesos del codificador y decodificador para tener en cuenta las diferencias en las escalas de características. A través de experimentos exhaustivos en el modelo de lenguaje Gemma 2, demostramos que nuestro método captura de manera efectiva la evolución de características a lo largo de las capas, mejorando la calidad del emparejamiento de características. También mostramos que las características persisten a lo largo de varias capas y que nuestro enfoque puede aproximar estados ocultos a lo largo de las capas. Nuestro trabajo avanza en la comprensión de la dinámica de características en redes neuronales y proporciona una nueva herramienta para estudios de interpretabilidad mecanicista.
Los avances recientes en modelos de generación han mostrado capacidades notables para producir contenido fantástico. Sin embargo, la mayoría de ellos se entrenan con datos propietarios de alta calidad, y algunos modelos retienen sus parámetros y solo ofrecen interfaces de programación de aplicaciones (APIs) accesibles, limitando sus beneficios para tareas posteriores. Para explorar la viabilidad de entrenar un modelo de generación de texto a imagen comparable a modelos avanzados utilizando recursos públicamente disponibles, presentamos EvolveDirector. Este marco interactúa con modelos avanzados a través de sus APIs públicas para obtener pares de datos texto-imagen y entrenar un modelo base. Nuestros experimentos con datos extensos indican que el modelo entrenado con datos generados por el modelo avanzado puede aproximar su capacidad de generación. Sin embargo, requiere muestras a gran escala de 10 millones o más. Esto conlleva gastos significativos en tiempo, recursos computacionales y especialmente los costos asociados con el uso de APIs de pago. Para abordar este problema, aprovechamos modelos pre-entrenados grandes de visión-lenguaje (VLMs) para guiar la evolución del modelo base. VLM evalúa continuamente el modelo base durante el entrenamiento y actualiza y perfecciona dinámicamente el conjunto de datos de entrenamiento mediante operaciones de discriminación, expansión, eliminación y mutación. Los resultados experimentales muestran que este paradigma reduce significativamente el volumen de datos requerido. Además, al acercarse a múltiples modelos avanzados, EvolveDirector puede seleccionar las mejores muestras generadas por ellos para aprender habilidades poderosas y equilibradas. Se demuestra que el modelo final entrenado, Edgen, supera a estos modelos avanzados. El código y los pesos del modelo están disponibles en https://github.com/showlab/EvolveDirector.
Los modelos de lenguaje grandes (LLMs) como GPT-4, PaLM y LLaMA han demostrado mejoras significativas en diversas tareas de razonamiento. Sin embargo, modelos más pequeños como Llama-3-8B y DeepSeekMath-Base aún tienen dificultades con el razonamiento matemático complejo debido a que no logran identificar y corregir de manera efectiva los errores de razonamiento. Métodos recientes basados en la reflexión buscan abordar estos problemas al permitir la autorreflexión y autocorrección, pero aún enfrentan desafíos al detectar de forma independiente errores en sus pasos de razonamiento. Para superar estas limitaciones, proponemos SuperCorrect, un nuevo marco de trabajo de dos etapas que utiliza un gran modelo maestro para supervisar y corregir tanto los procesos de razonamiento como de reflexión de un modelo estudiante más pequeño. En la primera etapa, extraemos plantillas de pensamiento jerárquicas de alto nivel y detalladas del modelo maestro para guiar al modelo estudiante en la obtención de pensamientos de razonamiento más detallados. En la segunda etapa, introducimos la optimización de preferencia directa colaborativa entre modelos (DPO) para mejorar las habilidades de autocorrección del modelo estudiante siguiendo las trazas de corrección del maestro durante el entrenamiento. Este enfoque de DPO entre modelos enseña al modelo estudiante a localizar y resolver de manera efectiva pensamientos erróneos con ideas impulsadas por errores del modelo maestro, rompiendo el cuello de botella de sus pensamientos y adquiriendo nuevas habilidades y conocimientos para abordar problemas desafiantes. Experimentos extensos demuestran consistentemente nuestra superioridad sobre métodos anteriores. Notablemente, nuestro modelo SuperCorrect-7B supera significativamente a DeepSeekMath-7B en un 7.8%/5.3% y a Qwen2.5-Math-7B en un 15.1%/6.3% en los benchmarks MATH/GSM8K, logrando un nuevo rendimiento SOTA entre todos los modelos 7B. Código: https://github.com/YangLing0818/SuperCorrect-llm
Los Modelos de Lenguaje de Gran Tamaño (LLMs) demuestran capacidades impresionantes en diversos dominios, incluyendo juegos de rol, escritura creativa, razonamiento matemático y codificación. A pesar de estos avances, los LLMs todavía enfrentan desafíos con el control de longitud, a menudo sin lograr cumplir con restricciones específicas de longitud debido a sus operaciones a nivel de token y a un entrenamiento insuficiente en datos con limitaciones estrictas de longitud. Identificamos este problema como derivado de una falta de conciencia posicional y proponemos enfoques novedosos, como la Indicación de PosiciónID y el Ajuste Fino de PosiciónID, para abordarlo. Estos métodos mejoran la capacidad del modelo para monitorear y gestionar continuamente la longitud del texto durante la generación. Además, introducimos la Indicación de PosiciónID CP para permitir que los LLMs realicen operaciones de copiar y pegar con precisión. Asimismo, desarrollamos dos benchmarks para evaluar el control de longitud y las habilidades de copiar y pegar. Nuestros experimentos demuestran que nuestros métodos mejoran significativamente el cumplimiento del modelo con las restricciones de longitud y la precisión de copiar y pegar sin comprometer la calidad de la respuesta.
La generación de activos 3D de alta calidad a partir de descripciones textuales sigue siendo un desafío fundamental en la investigación de gráficos por computadora y visión. Debido a la escasez de datos 3D, los enfoques de vanguardia utilizan precursores de difusión 2D pre-entrenados, optimizados a través de Muestreo de Destilación de Puntuación (SDS, por sus siglas en inglés). A pesar del progreso, crear escenas 3D complejas con múltiples objetos o interacciones intrincadas sigue siendo difícil. Para abordar esto, los métodos recientes han incorporado guías de caja o diseño. Sin embargo, estos métodos composicionales guiados por diseño a menudo tienen dificultades para proporcionar un control detallado, ya que suelen ser gruesos y carecen de expresividad. Para superar estos desafíos, presentamos un enfoque novedoso de SDS, Muestreo de Destilación de Puntuación Semántica (SemanticSDS), diseñado para mejorar de manera efectiva la expresividad y precisión de la generación de texto a 3D de composición. Nuestro enfoque integra nuevos incrustamientos semánticos que mantienen la consistencia en diferentes vistas de renderizado y diferencian claramente entre varios objetos y partes. Estos incrustamientos se transforman en un mapa semántico, que dirige un proceso de SDS específico de región, permitiendo una optimización precisa y generación composicional. Al aprovechar la orientación semántica explícita, nuestro método desbloquea las capacidades composicionales de los modelos de difusión pre-entrenados existentes, logrando así una calidad superior en la generación de contenido 3D, especialmente para objetos y escenas complejos. Los resultados experimentales demuestran que nuestro marco SemanticSDS es altamente efectivo para generar contenido 3D complejo de vanguardia. Código: https://github.com/YangLing0818/SemanticSDS-3D
La inferencia con modelos de lenguaje basados en transformadores comienza con un paso de procesamiento de la indicación. En este paso, el modelo genera el primer token de salida y almacena la caché KV necesaria para futuros pasos de generación. Este paso de procesamiento de la indicación puede ser computacionalmente costoso, tardando 10 segundos o más para modelos de mil millones de parámetros en dispositivos periféricos cuando las longitudes de las indicaciones o los tamaños de lote aumentan. Esto degrada la experiencia del usuario al introducir una latencia significativa en las salidas del modelo. Para reducir el tiempo dedicado a producir el primer resultado (conocido como el "tiempo hasta el primer token", o TTFT) de un modelo preentrenado, presentamos un método novedoso llamado Predicción KV. En nuestro método, se utiliza un pequeño modelo auxiliar para procesar la indicación y producir una aproximación de la caché KV utilizada por un modelo base. Esta caché KV aproximada se utiliza luego con el modelo base para generación autoregresiva sin necesidad de consultar nuevamente al modelo auxiliar. Demostramos que nuestro método produce un equilibrio óptimo entre eficiencia y precisión en comparación con los baselines. En TriviaQA, demostramos mejoras relativas de precisión en el rango del 15% al 50% en una variedad de presupuestos de FLOPs de TTFT. También demostramos mejoras de precisión de hasta el 30% en la finalización de código Python HumanEval en presupuestos fijos de FLOPs de TTFT. Además, evaluamos los modelos en una CPU Apple M2 Pro y demostramos que nuestra mejora en FLOPs se traduce en una aceleración de TTFT en el hardware. Publicamos nuestro código en https://github.com/apple/corenet/tree/main/projects/kv-prediction.
La difusión discreta ha logrado un rendimiento de vanguardia, superando o acercándose a los modelos autorregresivos en los benchmarks estándar. En este trabajo, presentamos la Difusión Discreta con Desruido Planificado (DDPD), un marco novedoso que separa el proceso de generación en dos modelos: un planificador y un desruidizador. En el momento de inferencia, el planificador selecciona qué posiciones desruidizar a continuación identificando las posiciones más corruptas que necesitan desruido, incluyendo tanto las inicialmente corruptas como aquellas que requieren refinamiento adicional. Este enfoque de planificación y desruido permite una reconstrucción más eficiente durante la generación al identificar y desruidizar de manera iterativa las corrupciones en el orden óptimo. DDPD supera a los métodos tradicionales de difusión de máscara solo desruidizadora, logrando resultados superiores en benchmarks de modelado de lenguaje como text8, OpenWebText y generación basada en tokens en ImageNet 256 veces 256. Es destacable que, en el modelado de lenguaje, DDPD reduce significativamente la brecha de rendimiento entre los métodos basados en difusión y los autorregresivos en términos de perplejidad generativa. El código está disponible en https://github.com/liusulin/DDPD.
Presentamos ZeroComp, un enfoque efectivo de composición de objetos 3D sin disparo que no requiere imágenes de escenas compuestas emparejadas durante el entrenamiento. Nuestro método aprovecha ControlNet para condicionar a partir de imágenes intrínsecas y lo combina con un modelo de Difusión Estable para utilizar sus precursores de escena, operando juntos como un motor de renderización efectivo. Durante el entrenamiento, ZeroComp utiliza imágenes intrínsecas basadas en geometría, albedo y sombreado enmascarado, todo sin la necesidad de imágenes emparejadas de escenas con y sin objetos compuestos. Una vez entrenado, integra sin problemas objetos virtuales 3D en escenas, ajustando el sombreado para crear composiciones realistas. Desarrollamos un conjunto de datos de evaluación de alta calidad y demostramos que ZeroComp supera a los métodos que utilizan estimaciones de iluminación explícitas y técnicas generativas en pruebas cuantitativas y de percepción humana. Además, ZeroComp se extiende a la composición de imágenes reales y al aire libre, incluso cuando se entrena únicamente con datos sintéticos en interiores, demostrando su efectividad en la composición de imágenes.
Los Transformadores de Flujo Rectificado (RFTs) ofrecen una eficiencia superior en entrenamiento e inferencia, lo que los convierte probablemente en la dirección más viable para escalar modelos de difusión. Sin embargo, el progreso en la resolución de generación ha sido relativamente lento debido a la calidad de los datos y los costos de entrenamiento. La extrapolación de resolución sin ajuste presenta una alternativa, pero los métodos actuales a menudo reducen la estabilidad generativa, limitando su aplicación práctica. En este documento, revisamos los métodos existentes de extrapolación de resolución e introducimos el marco I-Max para maximizar el potencial de resolución de los RFTs de Texto a Imagen. I-Max presenta: (i) una estrategia novedosa de Flujo Proyectado para una extrapolación estable y (ii) un kit de herramientas de inferencia avanzado para generalizar el conocimiento del modelo a resoluciones más altas. Experimentos con Lumina-Next-2K y Flux.1-dev demuestran la capacidad de I-Max para mejorar la estabilidad en la extrapolación de resolución y muestran que puede aportar la emergencia de detalles de imagen y la corrección de artefactos, confirmando el valor práctico de la extrapolación de resolución sin ajuste.
Presentamos DA-Code, un banco de pruebas de generación de código diseñado específicamente para evaluar LLMs en tareas de ciencia de datos basadas en agentes. Este banco de pruebas presenta tres elementos principales: en primer lugar, las tareas dentro de DA-Code son inherentemente desafiantes, lo que las diferencia de las tareas tradicionales de generación de código y requiere habilidades avanzadas de codificación en fundamentos y planificación. En segundo lugar, los ejemplos en DA-Code se basan todos en datos reales y diversos, abarcando una amplia gama de tareas complejas de manipulación y análisis de datos. En tercer lugar, para resolver las tareas, los modelos deben utilizar lenguajes de programación complejos de ciencia de datos, para realizar un procesamiento de datos intrincado y derivar las respuestas. Configuramos el banco de pruebas en un entorno controlable y ejecutable que se alinea con escenarios de análisis de datos del mundo real y es escalable. Los anotadores diseñan meticulosamente el conjunto de evaluación para garantizar la precisión y robustez de la evaluación. Desarrollamos el punto de referencia DA-Agent. Los experimentos muestran que aunque el punto de referencia tiene un mejor rendimiento que otros marcos existentes, el uso de los LLMs actuales más avanzados solo logra una precisión del 30.5%, dejando un amplio margen para mejoras. Publicamos nuestro banco de pruebas en https://da-code-bench.github.io.
La proliferación de contenido de noticias "falsas" inflamatorias o engañosas se ha vuelto cada vez más común en los últimos años. Al mismo tiempo, ha resultado más sencillo que nunca utilizar herramientas de IA para generar imágenes fotorrealistas que representen cualquier escena imaginable. La combinación de estos dos elementos, es decir, el contenido de noticias falsas generado por IA, resulta particularmente potente y peligrosa. Para combatir la propagación de noticias falsas generadas por IA, proponemos el Conjunto de Datos MiRAGeNews, un conjunto de datos de 12,500 pares de imágenes y subtítulos de alta calidad reales y generados por IA de generadores de última generación. Observamos que nuestro conjunto de datos plantea un desafío significativo para los humanos (60% F-1) y para los LLMs multimodales de última generación (<24% F-1). Utilizando nuestro conjunto de datos, entrenamos un detector multimodal (MiRAGe) que mejora en +5.1% F-1 sobre los resultados de referencia de última generación en pares de imágenes y subtítulos de generadores de imágenes y editores de noticias fuera del dominio. Publicamos nuestro código y datos para ayudar en futuros trabajos de detección de contenido generado por IA.
Generar respuestas diversas a partir de grandes modelos de lenguaje (LLMs) es crucial para aplicaciones como la planificación/búsqueda y la generación de datos sintéticos, donde la diversidad proporciona respuestas distintas a lo largo de las generaciones. Enfoques anteriores se basan en aumentar la temperatura para incrementar la diversidad. Sin embargo, en contra de la creencia popular, demostramos que este enfoque no solo produce generaciones individuales de menor calidad a medida que aumenta la temperatura, sino que depende de que las probabilidades del siguiente token del modelo sean similares a la verdadera distribución de respuestas. Proponemos un enfoque alternativo que utiliza el propio modelo de lenguaje para dividir el espacio en estratos. En la inferencia, se selecciona un estrato al azar y se extrae una muestra desde el estrato. Para medir la diversidad, presentamos CoverageQA, un conjunto de datos de preguntas subespecificadas con múltiples respuestas igualmente plausibles, y evaluamos la diversidad midiendo la Divergencia KL entre la distribución de salida y la distribución uniforme sobre las respuestas válidas verdaderas. Dado que calcular la probabilidad por respuesta/solución para modelos propietarios es inviable, medimos la recuperación en soluciones verdaderas. Nuestra evaluación muestra que el uso de SimpleStrat logra un mayor nivel de recuperación en 0.05 en comparación con GPT-4o y una reducción promedio de 0.36 en la Divergencia KL en comparación con Llama 3.
Los Modelos de Lenguaje Grandes (LLMs) han demostrado un rendimiento notable en diversas tareas complejas al aprovechar el enfoque de Cadena de Pensamiento (CoT). Recientemente, estudios han propuesto un enfoque de Destilación de Conocimiento (KD), razonamiento de destilación, que transfiere dicha capacidad de razonamiento de los LLMs mediante el ajuste fino de modelos de lenguaje con razonamientos de múltiples pasos generados por los LLMs maestros. Sin embargo, han considerado de manera insuficiente dos desafíos relacionados con conjuntos de destilación insuficientes del modelo maestro LLM, en términos de 1) calidad de los datos y 2) provisión de etiquetas suaves. En este documento, proponemos Mentor-KD, que destila de manera efectiva la capacidad de razonamiento de múltiples pasos de los LLMs a LMs más pequeños mientras aborda los desafíos mencionados anteriormente. Específicamente, explotamos un mentor, un modelo intermedio de tamaño específico de tarea ajustado fino, para aumentar anotaciones de CoT adicionales y proporcionar etiquetas suaves al modelo estudiante durante la destilación del razonamiento. Realizamos experimentos extensos y confirmamos la efectividad de Mentor-KD en diversos modelos y tareas de razonamiento complejas.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) exhiben capacidades impresionantes pero requieren una alineación cuidadosa con las preferencias humanas. Los métodos tradicionales de entrenamiento ajustan los LLMs utilizando conjuntos de datos de preferencias humanas, pero incurren en costos significativos de entrenamiento y requieren entrenamientos repetidos para manejar diversas preferencias de usuario. Los métodos de alineación en tiempo de prueba abordan esto utilizando modelos de recompensa (RMs) para guiar los LLMs congelados sin necesidad de volver a entrenarlos. Sin embargo, los enfoques existentes en tiempo de prueba se basan en RMs a nivel de trayectoria, diseñados para evaluar respuestas completas, lo que los hace inadecuados para la generación de texto autoregresivo que requiere calcular recompensas de siguiente token a partir de respuestas parciales. Para abordar esto, presentamos GenARM, un enfoque de alineación en tiempo de prueba que aprovecha el Modelo de Recompensa Autoregresivo, una parametrización de recompensa novedosa diseñada para predecir recompensas de siguiente token de manera eficiente y efectiva para la generación autoregresiva. Teóricamente, demostramos que esta parametrización puede guiar de manera demostrable a los LLMs congelados hacia cualquier distribución alcanzable por RMs tradicionales dentro del marco de aprendizaje por refuerzo regularizado por KL. Los resultados experimentales muestran que GenARM supera significativamente a los baselines de alineación en tiempo de prueba anteriores y se equipara al rendimiento de los métodos en tiempo de entrenamiento. Además, GenARM permite una guía eficiente de débil a fuerte, alineando LLMs más grandes con RMs más pequeños sin los altos costos de entrenar modelos más grandes. Además, GenARM admite la alineación multiobjetivo, permitiendo compensaciones en tiempo real entre dimensiones de preferencia y atendiendo a diversas preferencias de usuario sin necesidad de volver a entrenar.
La síntesis de imágenes de sonar es crucial para avanzar en aplicaciones en exploración submarina, biología marina y defensa. Los métodos tradicionales a menudo dependen de una recolección extensa y costosa de datos utilizando sensores de sonar, poniendo en peligro la calidad y diversidad de los datos. Para superar estas limitaciones, este estudio propone un nuevo marco de síntesis de imágenes de sonar, Synth-SONAR, aprovechando modelos de difusión y el uso de GPT para la generación de texto. Las principales novedades de Synth-SONAR son triples: Primero, al integrar técnicas de inyección de estilo basadas en IA generativa junto con datos reales/simulados disponibles públicamente, produciendo así uno de los mayores corpus de datos de sonar para la investigación en sonar. Segundo, una jerarquía de modelos de difusión de sonar condicionados por texto dual sintetiza imágenes de sonar gruesas y detalladas con una calidad y diversidad mejoradas. Tercero, métodos de generación de sonar basados en texto de alto nivel (grueso) y bajo nivel (detallado) aprovechan la información semántica avanzada disponible en modelos de lenguaje visual (VLMs) y el uso de GPT para la generación de texto. Durante la inferencia, el método genera imágenes de sonar diversas y realistas a partir de indicaciones textuales, cerrando la brecha entre descripciones textuales y generación de imágenes de sonar. Esto marca la aplicación del uso de GPT para la generación de imágenes de sonar por primera vez, hasta donde alcanza nuestro conocimiento. Synth-SONAR logra resultados de vanguardia en la producción de conjuntos de datos de sonar sintéticos de alta calidad, mejorando significativamente su diversidad y realismo.