Artículos de investigación en IA seleccionados diariamente con traducciones
Los pasos de razonamiento generados por LLMs pueden ser incompletos, ya que imitan saltos lógicos comunes en la comunicación cotidiana encontrados en sus datos de pre-entrenamiento: las justificaciones subyacentes a menudo se dejan implícitas (no declaradas). Para abordar este desafío, presentamos RATIONALYST, un modelo para la supervisión de procesos de razonamiento basado en el pre-entrenamiento en una vasta colección de anotaciones de justificación extraídas de datos no etiquetados. Extraemos 79k justificaciones de un conjunto de datos no etiquetados a escala web (el Pile) y una combinación de conjuntos de datos de razonamiento con mínima intervención humana. Este pre-entrenamiento a escala web para el razonamiento permite a RATIONALYST generalizar de manera consistente en diversas tareas de razonamiento, incluyendo razonamiento matemático, de sentido común, científico y lógico. Ajustado finamente desde LLaMa-3-8B, RATIONALYST mejora la precisión del razonamiento en un promedio del 3.9% en 7 bancos de pruebas representativos de razonamiento. También demuestra un rendimiento superior en comparación con verificadores significativamente más grandes como GPT-4 y modelos de tamaño similar ajustados finamente en conjuntos de entrenamiento coincidentes.
Varios modelos de base visual tienen fortalezas y debilidades distintas, las cuales pueden mejorarse a través de la destilación de conocimiento heterogéneo de múltiples profesores sin etiquetas, denominada "modelos aglomerativos". Ampliamos este conjunto de trabajos estudiando el efecto de las estadísticas de activación de los profesores, en particular el impacto de la función de pérdida en la calidad del modelo resultante del estudiante. Exploramos un conjunto estándar de técnicas de normalización estadística para alinear mejor las diferentes distribuciones y evaluar sus efectos. Además, examinamos el impacto en las métricas de emparejamiento de profesores aguas abajo, lo que motiva el uso de matrices de Hadamard. Con estas matrices, demostramos propiedades útiles, mostrando cómo pueden utilizarse para la estandarización isotrópica, donde cada dimensión de una distribución multivariante se estandariza utilizando la misma escala. Llamamos a esta técnica "Estandarización PHI" (PHI-S) y demostramos empíricamente que produce el mejor modelo de estudiante entre el conjunto de métodos estudiados.
Si bien los modelos de lenguaje grandes han avanzado significativamente en la generación de código, la tasa de aprobación del código generado se ve obstaculizada por errores sutiles, que a menudo requieren intervención humana para pasar pruebas, especialmente en problemas complejos. Los sistemas de depuración existentes basados en LLM tratan los programas generados como unidades monolíticas, sin abordar los errores en múltiples niveles de granularidad, desde errores de sintaxis de bajo nivel hasta fallas algorítmicas de alto nivel. En este documento, presentamos Multi-Granularity Debugger (MGDebugger), un depurador de código jerárquico que aísla, identifica y resuelve errores en varios niveles de granularidad. MGDebugger descompone el código problemático en una estructura jerárquica de árbol de subfunciones, donde cada nivel representa una granularidad de error particular. Durante la depuración, analiza cada subfunción y resuelve iterativamente los errores de abajo hacia arriba. Para probar efectivamente cada subfunción, proponemos un ejecutor Python simulado por LLM, que rastrea la ejecución del código y sigue los estados variables importantes para identificar errores con precisión. Experimentos extensos demuestran que MGDebugger supera a los sistemas de depuración existentes, logrando una mejora del 18.9% en precisión sobre las generaciones iniciales en HumanEval y una tasa de éxito de reparación del 97.6% en HumanEvalFix. Además, MGDebugger soluciona efectivamente errores en diferentes categorías y niveles de dificultad, demostrando su robustez y efectividad.
Los Campos de Radiancia Neurales (NeRF) son ampliamente utilizados para la síntesis de vistas novedosas y han sido adaptados para la Detección de Objetos en 3D (3DOD), ofreciendo un enfoque prometedor para la 3DOD a través de la representación de síntesis de vistas. Sin embargo, NeRF enfrenta limitaciones inherentes: (i) capacidad representativa limitada para 3DOD debido a su naturaleza implícita, y (ii) velocidades de renderizado lentas. Recientemente, el Splatting Gaussiano en 3D (3DGS) ha surgido como una representación explícita en 3D que aborda estas limitaciones. Inspirado por estas ventajas, este documento introduce por primera vez 3DGS en 3DOD, identificando dos desafíos principales: (i) Distribución espacial ambigua de manchas gaussianas: 3DGS se basa principalmente en la supervisión a nivel de píxeles 2D, lo que resulta en una distribución espacial 3D poco clara de las manchas gaussianas y una diferenciación deficiente entre objetos y fondo, lo que dificulta la 3DOD; (ii) Manchas de fondo excesivas: las imágenes 2D a menudo incluyen numerosos píxeles de fondo, lo que conduce a una reconstrucción densamente poblada en 3DGS con muchas manchas gaussianas ruidosas que representan el fondo, afectando negativamente la detección. Para abordar el desafío (i), aprovechamos el hecho de que la reconstrucción de 3DGS se deriva de imágenes 2D, y proponemos una solución elegante y eficiente incorporando una Guía de Límites 2D para mejorar significativamente la distribución espacial de las manchas gaussianas, lo que resulta en una diferenciación más clara entre objetos y su fondo. Para abordar el desafío (ii), proponemos una estrategia de Muestreo Centrado en Cajas utilizando cajas 2D para generar una distribución de probabilidad de objetos en espacios 3D, permitiendo un muestreo probabilístico efectivo en 3D para retener más manchas de objetos y reducir las manchas de fondo ruidosas. Beneficiándose de nuestros diseños, nuestro 3DGS-DET supera significativamente al método NeRF basado en el estado del arte, NeRF-Det, logrando mejoras de +6.6 en [email protected] y +8.1 en [email protected] para el conjunto de datos ScanNet, e impresionantes +31.5 en [email protected] para el conjunto de datos ARKITScenes.
Estudiamos la profundidad de las capacidades de resolución de problemas de matemáticas de la escuela primaria (GSM) de los LLMs. Con este fin, evaluamos su rendimiento en pares de problemas matemáticos existentes de manera conjunta, de modo que la respuesta al segundo problema depende de responder correctamente al primer problema. Nuestros hallazgos revelan una brecha significativa en el razonamiento en la mayoría de los LLMs, es decir, una diferencia de rendimiento entre resolver los pares de problemas de forma compositiva y resolver cada pregunta de forma independiente. Esta brecha es más pronunciada en modelos más pequeños, más rentables y especializados en matemáticas. Además, las recetas de ajuste de instrucciones y la generación de código tienen efectos variables en función del tamaño de los LLMs, mientras que el ajuste fino en GSM puede llevar al sobreajuste de la tarea. Nuestro análisis indica que las grandes brechas de razonamiento no se deben a fugas en el conjunto de pruebas, sino a la distracción por el contexto adicional y al pobre razonamiento de segundo salto. En general, los LLMs muestran diferencias sistemáticas en sus habilidades de razonamiento, a pesar de lo que su rendimiento en los bancos de pruebas estándar indica.
Las imágenes ricas en texto, donde el texto sirve como el elemento visual central que guía la comprensión general, son comunes en aplicaciones del mundo real, como diapositivas de presentaciones, documentos escaneados y capturas de páginas web. Las tareas que involucran múltiples imágenes ricas en texto son especialmente desafiantes, ya que requieren no solo comprender el contenido de cada imagen individual, sino también razonar sobre las interrelaciones y flujos lógicos entre múltiples entradas visuales. A pesar de la importancia de estos escenarios, los modelos de lenguaje multimodales grandes actuales (MLLMs) tienen dificultades para manejar tales tareas debido a dos desafíos clave: (1) la escasez de conjuntos de datos de ajuste de instrucciones de alta calidad para escenarios de múltiples imágenes ricas en texto, y (2) la dificultad para equilibrar la resolución de la imagen con la longitud de la secuencia de características visuales. Para abordar estos desafíos, proponemos \OurMethod, un MLLM diseñado específicamente para manejar tareas de visión y lenguaje que involucran múltiples imágenes ricas en texto. En primer lugar, recopilamos alrededor de un millón de datos de ajuste de instrucciones multimodales de alta calidad, adaptados a escenarios de múltiples imágenes ricas en texto. En segundo lugar, desarrollamos un módulo de codificación de múltiples imágenes de alta resolución adaptativo para optimizar dinámicamente la asignación de la longitud de la secuencia visual en función de las relaciones de aspecto originales y las resoluciones de las imágenes de entrada. Experimentos en una amplia gama de pruebas demuestran las capacidades superiores de nuestro modelo en evaluaciones de múltiples imágenes ricas en texto y un rendimiento competitivo en evaluaciones de dominio general.
Los modelos de recompensa son fundamentales para alinear los modelos y que sigan instrucciones, y generalmente se entrenan siguiendo uno de dos paradigmas populares: estilo Bradley-Terry o estilo de Regresión. Sin embargo, no hay evidencia que demuestre que alguno de los enfoques sea mejor que el otro, cuando se emparejan adecuadamente los datos. Esto se debe principalmente a que estos enfoques requieren datos recopilados en formatos diferentes (pero incompatibles), lo que significa que no hay datos adecuadamente emparejados disponibles en los conjuntos de datos públicos existentes. Para abordar este problema, lanzamos anotaciones de preferencia (diseñadas para el entrenamiento de Bradley-Terry) para complementar las calificaciones existentes (diseñadas para el entrenamiento de estilo de Regresión) en el conjunto de datos HelpSteer2. Para mejorar la interpretabilidad de los datos, las anotaciones de preferencia van acompañadas de justificaciones escritas por humanos. Utilizando estos datos, realizamos la primera comparación directa de los modelos de Bradley-Terry y Regresión cuando se emparejan adecuadamente los datos. Basándonos en las ideas derivadas de dicha comparación, proponemos un enfoque novedoso para combinar la modelización de recompensa de Bradley-Terry y Regresión. Un modelo Llama-3.1-70B-Instruct ajustado con este enfoque obtiene una puntuación de 94.1 en RewardBench, emergiendo en la parte superior de más de 140 modelos de recompensa hasta el 1 de octubre de 2024. También demostramos la efectividad de este modelo de recompensa para alinear los modelos y que sigan instrucciones en RLHF. Ponemos a disposición este conjunto de datos de código abierto (licencia CC-BY-4.0) en https://huggingface.co/datasets/nvidia/HelpSteer2 y publicamos abiertamente el Modelo de Recompensa entrenado en https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.
Investigamos LoRA en el aprendizaje federado a través del análisis de asimetría de las matrices A y B aprendidas. Al hacerlo, descubrimos que las matrices A son responsables de aprender conocimiento general, mientras que las matrices B se centran en capturar conocimiento específico del cliente. Basándonos en este hallazgo, presentamos Adaptación de Bajo Rango Compartida Federada (FedSA-LoRA), que emplea dos matrices entrenables de bajo rango A y B para modelar la actualización de pesos, pero solo las matrices A se comparten con el servidor para su agregación. Además, indagamos en la relación entre las matrices A y B aprendidas en otras variantes de LoRA, como rsLoRA y VeRA, revelando un patrón consistente. En consecuencia, extendemos nuestro método FedSA-LoRA a estas variantes de LoRA, dando lugar a FedSA-rsLoRA y FedSA-VeRA. De esta manera, establecemos un paradigma general para integrar LoRA con FL, ofreciendo orientación para trabajos futuros sobre variantes de LoRA posteriores combinadas con FL. Los extensos resultados experimentales en tareas de comprensión y generación de lenguaje natural demuestran la efectividad del método propuesto.
El uso práctico de la generación de texto a imagen ha evolucionado desde modelos simples y monolíticos a flujos de trabajo complejos que combinan múltiples componentes especializados. Si bien los enfoques basados en flujos de trabajo pueden conducir a una mejor calidad de imagen, la creación de flujos de trabajo efectivos requiere una experiencia significativa, debido al gran número de componentes disponibles, su compleja interdependencia y su dependencia de la consigna de generación. Aquí, presentamos la novedosa tarea de generación de flujos de trabajo adaptativos a la consigna, donde el objetivo es adaptar automáticamente un flujo de trabajo a cada consigna de usuario. Proponemos dos enfoques basados en LLM para abordar esta tarea: un método basado en ajuste que aprende a partir de datos de preferencia del usuario, y un método sin entrenamiento que utiliza el LLM para seleccionar flujos existentes. Ambos enfoques conducen a una mejor calidad de imagen en comparación con modelos monolíticos o flujos genéricos e independientes de la consigna. Nuestro trabajo muestra que la predicción de flujos dependiente de la consigna ofrece un nuevo camino para mejorar la calidad de generación de texto a imagen, complementando las direcciones de investigación existentes en el campo.
Las métricas neuronales para la evaluación de la traducción automática (TA) han cobrado cada vez más relevancia debido a su correlación superior con las valoraciones humanas en comparación con las métricas léxicas tradicionales. Por lo tanto, los investigadores han utilizado métricas neuronales a través de estrategias de decodificación informadas por la calidad, logrando mejores resultados que los métodos basados en verosimilitud. Con el auge de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), las técnicas de alineación basadas en preferencias han captado la atención por su potencial para mejorar la calidad de la traducción al optimizar los pesos del modelo directamente sobre las preferencias inducidas por los estimadores de calidad. Este estudio se centra en la Optimización de Preferencia Contrastiva (CPO) y realiza experimentos exhaustivos para evaluar el impacto de la alineación basada en preferencias en la calidad de la traducción. Nuestros hallazgos indican que si bien CPO supera consistentemente al Ajuste Fino Supervisado (SFT) en datos de alta calidad en lo que respecta a la métrica de alineación, puede provocar inestabilidad en las métricas de evaluación posteriores, especialmente entre las neuronales y las léxicas. Además, demostramos que depender únicamente del modelo base para generar traducciones candidatas logra un rendimiento comparable al uso de múltiples sistemas externos, garantizando una mayor consistencia en las métricas posteriores.
El surgimiento de modelos fundamentales (FMs), junto con los esfuerzos regulatorios que abordan sus riesgos e impactos, ha generado un gran interés en los modelos de código abierto. Sin embargo, los modelos fundamentales de habla existentes (SFMs) no cumplen completamente con los principios de código abierto, incluso si se afirma lo contrario, ya que ningún SFM existente tiene los pesos del modelo, el código y los datos de entrenamiento disponibles públicamente bajo términos de código abierto. En este trabajo, damos el primer paso para llenar esta brecha centrándonos en los 24 idiomas oficiales de la Unión Europea (UE). Recopilamos datos de entrenamiento adecuados mediante la encuesta de conjuntos de datos de reconocimiento automático del habla y corpus de habla no etiquetados bajo licencias compatibles con código abierto, para un total de 950 mil horas. Además, publicamos transcripciones automáticas para 441 mil horas de datos no etiquetados bajo la licencia permisiva CC-BY, facilitando así la creación de SFMs de código abierto para los idiomas de la UE.
Si bien los modelos de lenguaje grandes (LLMs) han demostrado capacidades excepcionales en comprender consultas complejas y realizar tareas sofisticadas, sus habilidades de generalización a menudo están profundamente entrelazadas con la memorización, lo que requiere una evaluación más precisa. Para abordar este desafío, presentamos Scylla, un marco de evaluación dinámico que mide cuantitativamente las habilidades de generalización de los LLMs. Scylla desenreda la generalización de la memorización evaluando el rendimiento del modelo tanto en datos en distribución (ID) como fuera de distribución (OOD) a través de 20 tareas en 5 niveles de complejidad. A través de experimentos extensos, descubrimos una relación no monótona entre la complejidad de la tarea y la brecha de rendimiento entre los datos ID y OOD, a la que denominamos el valle de generalización. Específicamente, este fenómeno revela un umbral crítico, denominado complejidad crítica, donde la dependencia de comportamientos no generalizables alcanza su punto máximo, indicando el límite superior de las capacidades de generalización de los LLMs. A medida que el tamaño del modelo aumenta, la complejidad crítica se desplaza hacia niveles más altos de complejidad de la tarea, lo que sugiere que los modelos más grandes pueden manejar tareas de razonamiento más complejas antes de depender demasiado de la memorización. Aprovechando Scylla y el concepto de complejidad crítica, evaluamos 28 LLMs, incluidos modelos de código abierto como las familias LLaMA y Qwen, y modelos de código cerrado como Claude y GPT, lo que proporciona una evaluación más sólida y establece una comprensión más clara de las capacidades de generalización de los LLMs.
Modelar las preferencias humanas es crucial para alinear los modelos base con los valores humanos. Los métodos tradicionales de modelado de recompensas, como el modelo de recompensa de Bradley-Terry (BT), son limitados en cuanto a expresividad, especialmente para abordar preferencias intransitivas. Aunque los modelos de preferencia de pares supervisados (PairPM) pueden expresar preferencias generales, su implementación es altamente ad hoc y no puede garantizar una probabilidad de preferencia consistente de los pares comparados. Además, imponen altos costos computacionales debido a su complejidad cuadrática de consulta al comparar múltiples respuestas. En este documento, presentamos el aprendizaje de representación de preferencias, un enfoque que incrusta respuestas en un espacio latente para capturar estructuras de preferencia intrincadas de manera eficiente, logrando una complejidad lineal de consulta. Además, proponemos la Optimización General de Preferencias (GPO) basada en puntuaciones de preferencias, que generaliza el aprendizaje por refuerzo basado en recompensas a partir de la retroalimentación humana. Los resultados experimentales muestran que nuestro modelo de representación de preferencias generales (GPM) supera al modelo de recompensa BT en el banco de pruebas RewardBench con un margen de hasta un 5.6% y modela eficazmente preferencias cíclicas donde cualquier modelo de recompensa BT se comporta como una conjetura aleatoria. Además, las evaluaciones en tareas posteriores como AlpacaEval2.0 y MT-Bench, siguiendo el post-entrenamiento del modelo de lenguaje con GPO y nuestro modelo de preferencias generales, revelan mejoras sustanciales en el rendimiento con márgenes de hasta un 9.3%. Estos hallazgos indican que nuestro método puede mejorar la alineación de los modelos base con valores humanos matizados. El código está disponible en https://github.com/general-preference/general-preference-model.
Los grandes modelos de lenguaje han demostrado un potencial significativo como los motores de acceso a la información de próxima generación. Sin embargo, su fiabilidad se ve obstaculizada por problemas de alucinación y generación de contenido no factual. Esto es particularmente problemático en respuestas extensas, donde evaluar y garantizar la precisión factual es complejo. En este documento, abordamos esta brecha proponiendo FactAlign, un marco de alineación novedoso diseñado para mejorar la factualidad de las respuestas extensas de los LLMs manteniendo su utilidad. Presentamos fKTO, un algoritmo de alineación a nivel de oración detallado que amplía el método de alineación Kahneman-Tversky Optimization (KTO). Aprovechando los avances recientes en la evaluación automática de factualidad, FactAlign utiliza evaluaciones de factualidad detalladas para guiar el proceso de alineación. Nuestros experimentos en indicaciones de dominio abierto y preguntas de búsqueda de información demuestran que FactAlign mejora significativamente la precisión factual de las respuestas de LLMs, al mismo tiempo que mejora su utilidad. Análisis adicionales identifican que FactAlign es capaz de entrenar a los LLMs para proporcionar más información sin perder precisión factual, mejorando así el puntaje F1 factual. Nuestro código fuente, conjuntos de datos y modelos entrenados están disponibles públicamente en https://github.com/MiuLab/FactAlign
Presentamos Exact Volumetric Ellipsoid Rendering (EVER), un método para renderizado de volumen diferenciable en tiempo real que emite únicamente. A diferencia del enfoque reciente basado en rasterización por 3D Gaussian Splatting (3DGS), nuestra representación basada en primitivas permite un renderizado de volumen exacto, en lugar de componer alfa mediante carteles tridimensionales gaussianos. Por lo tanto, a diferencia de 3DGS, nuestra formulación no sufre de artefactos de popping y densidad dependiente de la vista, pero aún logra tasas de cuadros de aproximadamente 30 FPS a 720p en una NVIDIA RTX4090. Dado que nuestro enfoque se basa en trazado de rayos, permite efectos como desenfoque de desenfoque y distorsión de cámara (por ejemplo, de cámaras ojo de pez), que son difíciles de lograr mediante rasterización. Mostramos que nuestro método es más preciso con menos problemas de mezcla que 3DGS y trabajos posteriores sobre renderizado consistente con la vista, especialmente en las desafiantes escenas a gran escala del conjunto de datos Zip-NeRF, donde logra los resultados más nítidos entre las técnicas en tiempo real.
Aunque los avances recientes en la tecnología de Texto a Voz (TTS) producen un habla natural y expresiva, carecen de la opción para que los usuarios seleccionen la emoción y controlen la intensidad. Proponemos EmoKnob, un marco que permite un control de emociones detallado en la síntesis del habla con ejemplos demostrativos de poca cantidad de cualquier emoción. Nuestro marco aprovecha el espacio de representación del hablante expresivo posible gracias a los avances recientes en modelos fundamentales de clonación de voz. Basándonos en la capacidad de poca cantidad de nuestro marco de control emocional, proponemos dos métodos para aplicar control emocional en emociones descritas por texto abierto, permitiendo una interfaz intuitiva para controlar una amplia gama de emociones matizadas. Para facilitar un campo de síntesis del habla emocional más sistemático, introducimos un conjunto de métricas de evaluación diseñadas para evaluar rigurosamente la fidelidad y reconocibilidad de los marcos de control emocional. A través de evaluaciones objetivas y subjetivas, demostramos que nuestro marco de control emocional incorpora efectivamente las emociones en el habla y supera la expresividad emocional de los servicios comerciales de TTS.
Los avances recientes en Modelos de Lenguaje de Video a Gran Escala (Video-LLMs) han demostrado su gran potencial en la comprensión de videos de propósito general. Para verificar la importancia de estos modelos, se han propuesto varios benchmarks para diagnosticar sus capacidades en diferentes escenarios. Sin embargo, los benchmarks existentes evalúan simplemente los modelos a través de preguntas y respuestas a nivel de video, careciendo de una evaluación detallada a nivel de eventos y diversidad de tareas. Para llenar este vacío, presentamos E.T. Bench (Banco de Pruebas de Comprensión de Video a Nivel de Eventos y Sensible al Tiempo), un benchmark a gran escala y de alta calidad para la comprensión de videos a nivel de eventos abiertos. Categorizado dentro de una taxonomía de tareas de 3 niveles, E.T. Bench abarca 7.3K muestras bajo 12 tareas con 7K videos (251.4 horas en total) en 8 dominios, proporcionando evaluaciones exhaustivas. Evaluamos extensamente 8 Modelos de Lenguaje de Imagen y 12 Modelos de Lenguaje de Video en nuestro benchmark, y los resultados revelan que los modelos de vanguardia para la comprensión a nivel grueso (nivel de video) tienen dificultades para resolver nuestras tareas detalladas, por ejemplo, fundamentar eventos de interés dentro de videos, en gran parte debido a la longitud corta del contexto del video, representaciones de tiempo inadecuadas y falta de datos de entrenamiento multi-evento. Centrándonos en estos problemas, proponemos además un modelo de referencia sólido, E.T. Chat, junto con un conjunto de datos de ajuste de instrucciones E.T. Instruct 164K diseñado para la comprensión detallada de eventos a nivel de eventos. Nuestra solución simple pero efectiva demuestra un rendimiento superior en múltiples escenarios.
Los grandes modelos de lenguaje destacan en la generación creativa pero siguen teniendo dificultades con los problemas de alucinación y sesgo. Mientras que la generación aumentada por recuperación (GAR) proporciona un marco para fundamentar las respuestas de los LLMs en información precisa y actualizada, aún plantea la cuestión del sesgo: ¿qué fuentes deberían ser seleccionadas para su inclusión en el contexto? ¿Y cómo debería ser ponderada su importancia? En este documento, estudiamos el desafío de la GAR interlingüe y presentamos un conjunto de datos para investigar la robustez de los sistemas existentes al responder preguntas sobre disputas geopolíticas, que se encuentran en la intersección de fronteras lingüísticas, culturales y políticas. Nuestro conjunto de datos se obtiene de páginas de Wikipedia que contienen información relevante para las consultas dadas e investigamos el impacto de incluir contexto adicional, así como la composición de este contexto en términos de idioma y fuente, en la respuesta de un LLM. Nuestros resultados muestran que los sistemas de GAR existentes siguen enfrentando desafíos en casos de uso interlingües y sufren de una falta de consistencia cuando se les proporciona información competidora en varios idiomas. Presentamos estudios de caso para ilustrar estos problemas y delineamos pasos para futuras investigaciones que aborden estos desafíos. Ponemos nuestro conjunto de datos y código a disposición del público en https://github.com/manestay/bordIRlines.
Los modelos visión-lenguaje (VLMs) son esenciales para la comprensión contextual tanto de la información visual como textual. Sin embargo, su vulnerabilidad a entradas manipuladas de forma adversarial presenta riesgos significativos, lo que conlleva a resultados comprometidos y plantea preocupaciones sobre la fiabilidad en las aplicaciones integradas de VLM. Detectar estos estímulos maliciosos es crucial para mantener la confianza en las generaciones de VLM. Un desafío importante en el desarrollo de un clasificador de estímulos de protección es la falta de una gran cantidad de datos etiquetados como benignos y maliciosos. Para abordar el problema, presentamos VLMGuard, un nuevo marco de aprendizaje que aprovecha los estímulos de usuario no etiquetados en la naturaleza para la detección de estímulos maliciosos. Estos estímulos no etiquetados, que surgen naturalmente cuando los VLMs se despliegan en el mundo abierto, contienen información tanto benigna como maliciosa. Para aprovechar los datos no etiquetados, presentamos una puntuación automatizada de estimación de malicia para distinguir entre muestras benignas y maliciosas dentro de esta mezcla no etiquetada, lo que permite el entrenamiento de un clasificador binario de estímulos. Es importante destacar que nuestro marco no requiere anotaciones humanas adicionales, ofreciendo una gran flexibilidad y practicidad para aplicaciones del mundo real. Experimentos extensos muestran que VLMGuard logra resultados de detección superiores, superando significativamente a los métodos de vanguardia. Descargo de responsabilidad: Este documento puede contener ejemplos ofensivos; se recomienda discreción al lector.
Los Transformadores de Difusión (DiTs) han ganado prominencia por su escalabilidad sobresaliente y su extraordinario rendimiento en tareas generativas. Sin embargo, sus considerables costos de inferencia obstaculizan su implementación práctica. El mecanismo de caché de características, que implica almacenar y recuperar cálculos redundantes a lo largo de los pasos temporales, promete reducir el tiempo de inferencia por paso en modelos de difusión. La mayoría de los métodos de caché existentes para DiT son diseñados manualmente. Aunque el enfoque basado en aprendizaje intenta optimizar estrategias de forma adaptativa, sufre de discrepancias entre el entrenamiento y la inferencia, lo que afecta tanto al rendimiento como a la relación de aceleración. Tras un análisis detallado, identificamos que estas discrepancias provienen principalmente de dos aspectos: (1) Desconsideración del Paso Temporal Anterior, donde el entrenamiento ignora el efecto del uso de caché en pasos temporales anteriores, y (2) Desajuste de Objetivo, donde el objetivo de entrenamiento (alinear el ruido predicho en cada paso temporal) se desvía del objetivo de inferencia (generar la imagen de alta calidad). Para mitigar estas discrepancias, proponemos HarmoniCa, un método novedoso que armoniza el entrenamiento y la inferencia con un marco de caché basado en aprendizaje construido sobre el Entrenamiento de Desruido Paso a Paso (SDT, por sus siglas en inglés) y el Objetivo Guiado por un Proxy de Error de Imagen (IEPO). En comparación con el paradigma de entrenamiento tradicional, el SDT recientemente propuesto mantiene la continuidad del proceso de desruido, permitiendo que el modelo aproveche la información de pasos temporales anteriores durante el entrenamiento, de manera similar a como opera durante la inferencia. Además, diseñamos IEPO, que integra un mecanismo de proxy eficiente para aproximar el error final de la imagen causado por reutilizar la característica en caché. Por lo tanto, IEPO ayuda a equilibrar la calidad final de la imagen y la utilización de la caché, resolviendo el problema del entrenamiento que solo considera el impacto del uso de caché en la salida predicha en cada paso temporal.
En el esfuerzo por hacer que los robots autónomos tomen acciones, la planificación de tareas es un desafío importante que requiere traducir descripciones de tareas de alto nivel en secuencias de acciones a largo plazo. A pesar de los avances recientes en agentes de modelos de lenguaje, siguen siendo propensos a errores de planificación y limitados en su capacidad para planificar con anticipación. Para abordar estas limitaciones en la planificación robótica, abogamos por un esquema de autorrefinamiento que refina de forma iterativa un plan preliminar hasta alcanzar un equilibrio. Notablemente, este proceso puede optimizarse de extremo a extremo desde una perspectiva analítica sin necesidad de crear verificadores adicionales o modelos de recompensa, lo que nos permite entrenar planificadores de autorrefinamiento de manera simple en un enfoque de aprendizaje supervisado. Mientras tanto, se ha diseñado un procedimiento de modelado de secuencia de equilibrio anidado para una planificación eficiente en bucle cerrado que incorpora retroalimentación útil del entorno (o un modelo de mundo interno). Nuestro método se evalúa en el banco de pruebas VirtualHome-Env, mostrando un rendimiento avanzado con una mejor escalabilidad para el cálculo de inferencia. El código está disponible en https://github.com/Singularity0104/equilibrium-planner.
Los optimizadores de aprendizaje profundo suelen estar motivados por una combinación de teoría convexa y aproximada de segundo orden. Seleccionamos tres métodos de este tipo: Adam, Shampoo y Prodigy, y argumentamos que cada método puede ser entendido en cambio como un método de primer orden sin suposiciones de convexidad. De hecho, al desactivar los promedios móviles exponenciales, cada método es equivalente a un descenso más empinado bajo una norma particular. Al generalizar esta observación, trazamos un nuevo espacio de diseño para algoritmos de entrenamiento. Diferentes normas de operador deben asignarse a diferentes tensores según el papel que el tensor desempeña dentro de la red. Por ejemplo, aunque las capas lineales y de incrustación pueden tener el mismo espacio de pesos de R^{mtimes n}, estas capas desempeñan roles diferentes y deben asignarse diferentes normas. Esperamos que esta idea de medir cuidadosamente la arquitectura neuronal pueda conducir a un entrenamiento más estable, escalable y, de hecho, más rápido.
El manejo de contextos de entrada largos sigue siendo un desafío significativo para los Modelos de Lenguaje a Gran Escala (LLMs), especialmente en entornos con recursos limitados como dispositivos móviles. Nuestro trabajo tiene como objetivo abordar esta limitación mediante la introducción de InfiniPot, un nuevo marco de control de caché KV diseñado para permitir que los LLMs pre-entrenados gestionen secuencias extensas dentro de restricciones de memoria fijas de manera eficiente, sin necesidad de entrenamiento adicional. InfiniPot aprovecha la Destilación Continua de Contexto (CCD), un proceso iterativo que comprime y retiene información esencial a través de métricas de importancia novedosas, manteniendo de manera efectiva datos críticos incluso sin acceso al contexto futuro. Nuestras evaluaciones exhaustivas indican que InfiniPot supera significativamente a los modelos entrenados para contextos largos en diversas tareas de Procesamiento de Lenguaje Natural (NLP), estableciendo su eficacia y versatilidad. Este trabajo representa un avance sustancial hacia la aplicación de LLMs en una gama más amplia de escenarios del mundo real.
La evaluación sistemática de modelos de separación y mejora del habla bajo condiciones de fuente de sonido en movimiento típicamente requiere una extensa cantidad de datos que abarquen diversos escenarios. Sin embargo, los conjuntos de datos del mundo real a menudo contienen datos insuficientes para cumplir con los requisitos de entrenamiento y evaluación de los modelos. Aunque los conjuntos de datos sintéticos ofrecen un mayor volumen de datos, sus simulaciones acústicas carecen de realismo. En consecuencia, ni los conjuntos de datos del mundo real ni los sintéticos satisfacen eficazmente las necesidades prácticas. Para abordar estos problemas, presentamos SonicSim, un conjunto de herramientas sintéticas diseñado para generar datos altamente personalizables para fuentes de sonido en movimiento. SonicSim se desarrolló basado en la plataforma de simulación de IA incorporada, Habitat-sim, que admite ajustes a múltiples niveles, incluidos el nivel de escena, el nivel de micrófono y el nivel de fuente, generando así datos sintéticos más diversos. Aprovechando SonicSim, construimos un conjunto de datos de referencia de fuentes de sonido en movimiento, SonicSet, utilizando Librispeech, el conjunto de datos Freesound 50k (FSD50K) y Free Music Archive (FMA), y 90 escenas de Matterport3D para evaluar modelos de separación y mejora del habla. Además, para validar las diferencias entre datos sintéticos y datos del mundo real, seleccionamos aleatoriamente 5 horas de datos sin reverberación del conjunto de validación de SonicSet para grabar un conjunto de datos de separación del habla del mundo real, que luego se comparó con los conjuntos de datos sintéticos correspondientes. De manera similar, utilizamos el conjunto de datos de mejora del habla del mundo real, RealMAN, para validar la brecha acústica entre otros conjuntos de datos sintéticos y el conjunto de datos SonicSet para la mejora del habla. Los resultados indican que los datos sintéticos generados por SonicSim pueden generalizarse efectivamente a escenarios del mundo real. La demostración y el código están disponibles públicamente en https://cslikai.cn/SonicSim/.