Artículos de investigación en IA seleccionados diariamente con traducciones
La animación humana de extremo a extremo, como la generación humana hablante impulsada por audio, ha experimentado avances notables en los últimos años. Sin embargo, los métodos existentes aún luchan para escalar como los modelos generales de video a gran escala, limitando su potencial en aplicaciones reales. En este documento, proponemos OmniHuman, un marco basado en Transformadores de Difusión que escala los datos mezclando condiciones relacionadas con el movimiento en la fase de entrenamiento. Con este fin, presentamos dos principios de entrenamiento para estas condiciones mixtas, junto con la arquitectura del modelo correspondiente y la estrategia de inferencia. Estos diseños permiten que OmniHuman aproveche completamente la generación de movimiento basada en datos, logrando en última instancia una generación de video humano altamente realista. Más importante aún, OmniHuman admite varios contenidos de retratos (primer plano del rostro, retrato, medio cuerpo, cuerpo completo), admite tanto el habla como el canto, maneja interacciones humano-objeto y posturas corporales desafiantes, y se adapta a diferentes estilos de imagen. En comparación con los métodos existentes impulsados por audio de extremo a extremo, OmniHuman no solo produce videos más realistas, sino que también ofrece una mayor flexibilidad en las entradas. También admite múltiples modalidades de control (impulsado por audio, impulsado por video y señales de control combinadas). Se proporcionan ejemplos de video en la página del proyecto ttfamily (https://omnihuman-lab.github.io)
Los Algoritmos de Alineación Directa (DAAs) simplifican la alineación de modelos de lenguaje al reemplazar el aprendizaje por refuerzo (RL) y la modelización de recompensas (RM) en el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) con optimización directa de políticas. Los DAAs pueden clasificarse por sus pérdidas de clasificación (por pares vs. por puntos), por las recompensas utilizadas en esas pérdidas (por ejemplo, razones de verosimilitud de la política y la política de referencia, o razones de probabilidades), o por si se requiere una fase de Ajuste Fino Supervisado (SFT) (de dos etapas vs. de una etapa). Primero demostramos que los métodos de una sola etapa tienen un rendimiento inferior a los métodos de dos etapas. Para abordar esto, incorporamos una fase explícita de SFT e introducimos el parámetro beta, que controla la fuerza de la optimización de preferencias, en ORPO y ASFT de una sola etapa. Estas modificaciones mejoran su rendimiento en Alpaca Eval 2 en +3.46 (ORPO) y +8.27 (ASFT), igualando a métodos de dos etapas como DPO. Un análisis adicional revela que el factor clave es si el enfoque utiliza objetivos por pares o por puntos, en lugar de la función de recompensa o pérdida implícita específica. Estos resultados resaltan la importancia de una evaluación cuidadosa para evitar afirmaciones prematuras de mejoras de rendimiento o superioridad general en algoritmos de alineación.
Las recompensas densas del proceso han demostrado ser una alternativa más efectiva a las recompensas escasas a nivel de resultados en la escalabilidad de modelos de lenguaje grandes (LLMs) durante la inferencia, especialmente en tareas que requieren un razonamiento complejo de múltiples pasos. Si bien las recompensas densas también ofrecen una opción atractiva para el aprendizaje por refuerzo (RL) de LLMs, ya que sus recompensas detalladas tienen el potencial de abordar algunos problemas inherentes de las recompensas de resultados, como la eficiencia de entrenamiento y la asignación de créditos, este potencial sigue siendo en gran medida no realizado. Esto se debe principalmente a los desafíos de entrenar modelos de recompensa de proceso (PRMs) en línea, donde la recopilación de etiquetas de proceso de alta calidad es prohibitivamente costosa, lo que los hace particularmente vulnerables a manipulaciones de recompensas. Para abordar estos desafíos, proponemos PRIME (Reforzamiento de Proceso a través de Recompensas Implícitas), que permite actualizaciones en línea de PRM utilizando solo ejecuciones de políticas y etiquetas de resultados a través de recompensas de proceso implícitas. PRIME se combina bien con varias funciones de ventaja y prescinde de la fase de entrenamiento de modelos de recompensa dedicados que requieren enfoques existentes, reduciendo sustancialmente la carga de desarrollo. Demostramos la efectividad de PRIME en matemáticas y codificación competitivas. Comenzando desde Qwen2.5-Math-7B-Base, PRIME logra una mejora promedio del 15.1% en varios puntos de referencia clave de razonamiento en comparación con el modelo SFT. Notablemente, nuestro modelo resultante, Eurus-2-7B-PRIME, supera a Qwen2.5-Math-7B-Instruct en siete puntos de referencia de razonamiento con el 10% de sus datos de entrenamiento.
Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como jueces y la síntesis de datos basada en LLM han surgido como dos métodos fundamentales de anotación de datos impulsados por LLM en el desarrollo de modelos. Aunque su combinación mejora significativamente la eficiencia del entrenamiento y la evaluación del modelo, se ha prestado poca atención a la posible contaminación que podría traer este nuevo paradigma de desarrollo de modelos. En este trabajo, exponemos la fuga de preferencias, un problema de contaminación en LLM-como-juez causado por la relación entre los generadores de datos sintéticos y los evaluadores basados en LLM. Para estudiar este problema, primero definimos tres tipos comunes de relaciones entre el LLM generador de datos y el LLM juez: ser el mismo modelo, tener una relación de herencia y pertenecer a la misma familia de modelos. A través de experimentos extensos, confirmamos empíricamente el sesgo de los jueces hacia sus modelos relacionados causado por la fuga de preferencias en múltiples LLM de referencia y puntos de comparación. Un análisis adicional sugiere que la fuga de preferencias es un problema generalizado que es más difícil de detectar en comparación con los sesgos previamente identificados en escenarios de LLM-como-juez. Todos estos hallazgos implican que la fuga de preferencias es un problema extendido y desafiante en el área de LLM-como-juez. Ponemos a disposición todos los códigos y datos en: https://github.com/David-Li0406/Preference-Leakage.
Alinear las características visuales con los embeddings de lenguaje es un desafío clave en los modelos visión-lenguaje (VLMs). El rendimiento de dichos modelos depende de contar con un buen conector que mapee las características visuales generadas por un codificador de visión a un espacio de embeddings compartido con el LLM, preservando la similitud semántica. Los conectores existentes, como los perceptrones multicapa (MLPs), a menudo producen entradas fuera de distribución o ruidosas, lo que conduce a desalineaciones entre las modalidades. En este trabajo, proponemos un método novedoso de alineación visión-texto, AlignVLM, que mapea las características visuales a un promedio ponderado de los embeddings de texto del LLM. Nuestro enfoque aprovecha los conocimientos lingüísticos codificados por el LLM para asegurar que las características visuales se mapeen a regiones del espacio que el LLM pueda interpretar efectivamente. AlignVLM es particularmente efectivo para tareas de comprensión de documentos, donde las imágenes de documentos escaneados deben mapearse con precisión a su contenido textual. Nuestros extensos experimentos muestran que AlignVLM logra un rendimiento de vanguardia en comparación con los métodos de alineación anteriores. Proporcionamos un análisis adicional que demuestra una mejora en la alineación de características visión-texto y una mayor robustez al ruido.
El paradigma de indexación-recuperación-generación de generación aumentada por recuperación (RAG) ha tenido un gran éxito en la resolución de tareas intensivas en conocimiento al integrar conocimiento externo en grandes modelos de lenguaje (LLMs). Sin embargo, la incorporación de conocimiento externo y no verificado aumenta la vulnerabilidad de los LLMs porque los atacantes pueden llevar a cabo tareas de ataque manipulando el conocimiento. En este documento, presentamos un benchmark llamado SafeRAG diseñado para evaluar la seguridad de RAG. En primer lugar, clasificamos las tareas de ataque en ruido plateado, conflicto inter-contextual, anuncio suave y Denegación de Servicio blanco. A continuación, construimos un conjunto de datos de evaluación de seguridad de RAG (es decir, conjunto de datos SafeRAG) principalmente de forma manual para cada tarea. Luego utilizamos el conjunto de datos SafeRAG para simular varios escenarios de ataque que RAG podría enfrentar. Experimentos realizados en 14 componentes representativos de RAG demuestran que RAG muestra una vulnerabilidad significativa a todas las tareas de ataque e incluso la tarea de ataque más evidente puede evadir fácilmente los recuperadores, filtros o LLMs avanzados existentes, lo que resulta en la degradación de la calidad del servicio de RAG. El código está disponible en: https://github.com/IAAR-Shanghai/SafeRAG.
Presentamos SliderSpace, un marco para descomponer automáticamente las capacidades visuales de los modelos de difusión en direcciones controlables y comprensibles para los humanos. A diferencia de los métodos de control existentes que requieren que un usuario especifique atributos para cada dirección de edición individualmente, SliderSpace descubre múltiples direcciones interpretables y diversas simultáneamente a partir de una única indicación de texto. Cada dirección se entrena como un adaptador de rango bajo, lo que permite un control compositivo y el descubrimiento de posibilidades sorprendentes en el espacio latente del modelo. A través de experimentos exhaustivos en modelos de difusión de última generación, demostramos la efectividad de SliderSpace en tres aplicaciones: descomposición de conceptos, exploración de estilos artísticos y mejora de la diversidad. Nuestra evaluación cuantitativa muestra que las direcciones descubiertas por SliderSpace descomponen la estructura visual del conocimiento del modelo de manera efectiva, ofreciendo información sobre las capacidades latentes codificadas dentro de los modelos de difusión. Estudios de usuarios validan además que nuestro método produce variaciones más diversas y útiles en comparación con los métodos de referencia. Nuestro código, datos y pesos entrenados están disponibles en https://sliderspace.baulab.info
Proponemos SCONE (Incrustación de N-gramos Escalable, Contextualizada, Desplazada), un método para extender las capas de incrustación de entrada con el fin de mejorar el rendimiento del modelo de lenguaje a medida que aumenta el tamaño de la capa. Para evitar un aumento en los costos de decodificación, SCONE conserva el vocabulario original al mismo tiempo que introduce incrustaciones para un conjunto de n-gramos frecuentes. Estas incrustaciones proporcionan una representación contextualizada para cada token de entrada y se aprenden con un modelo separado durante el entrenamiento. Durante la inferencia, se precalculan y almacenan en memoria fuera del acelerador con un impacto mínimo en la velocidad de inferencia. SCONE permite dos nuevas estrategias de escalado: aumentar el número de incrustaciones de n-gramos en caché y escalar el modelo utilizado para aprenderlas, todo ello manteniendo una cantidad fija de FLOPS en tiempo de inferencia. Mostramos que al escalar ambos aspectos, SCONE supera a una línea base de 1.9 mil millones de parámetros en diversos corpus, utilizando solo la mitad de los FLOPS en tiempo de inferencia.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado un potencial notable en el razonamiento, aunque aún sufren de graves alucinaciones factuales debido a la puntualidad, precisión y cobertura del conocimiento paramétrico. Mientras tanto, la integración del razonamiento con la generación aumentada por recuperación (RAG) sigue siendo un desafío debido a la descomposición ineficaz de tareas y a la recuperación redundante, lo que puede introducir ruido y degradar la calidad de la respuesta. En este documento, proponemos DeepRAG, un marco que modela el razonamiento aumentado por recuperación como un Proceso de Decisión de Markov (MDP), permitiendo una recuperación estratégica y adaptativa. Al descomponer iterativamente las consultas, DeepRAG determina dinámicamente si recuperar conocimiento externo o depender del razonamiento paramétrico en cada paso. Los experimentos muestran que DeepRAG mejora la eficiencia de recuperación al tiempo que aumenta la precisión de respuestas en un 21.99%, demostrando su efectividad en la optimización del razonamiento aumentado por recuperación.
Las pruebas de coeficiente intelectual han servido como una metodología fundamental para evaluar las capacidades cognitivas humanas, separando deliberadamente la evaluación del trasfondo lingüístico, la competencia lingüística o el conocimiento específico del dominio para aislar las competencias centrales en abstracción y razonamiento. Sin embargo, la investigación en inteligencia artificial carece actualmente de puntos de referencia sistemáticos para cuantificar estas dimensiones cognitivas críticas en sistemas multimodales. Para abordar esta brecha crítica, proponemos MM-IQ, un marco de evaluación integral que comprende 2,710 elementos de prueba meticulosamente seleccionados que abarcan 8 paradigmas de razonamiento distintos. A través de la evaluación sistemática de los principales modelos multimodales de código abierto y propietarios, nuestro punto de referencia revela limitaciones sorprendentes: incluso las arquitecturas de vanguardia solo logran un rendimiento ligeramente superior al azar (27.49% frente al 25% de precisión base). Este considerable abismo de rendimiento destaca la insuficiencia de los sistemas multimodales actuales para aproximar las capacidades de razonamiento humanas fundamentales, subrayando la necesidad de avances que cambien paradigmas para cerrar esta brecha cognitiva.
Una característica distintiva de la inteligencia humana es la capacidad de crear artefactos complejos a través de procesos estructurados de múltiples pasos. Generar tutoriales procedimentales con IA es un objetivo de larga data pero desafiante, enfrentando tres obstáculos clave: (1) escasez de conjuntos de datos procedimentales de múltiples tareas, (2) mantener la continuidad lógica y la consistencia visual entre pasos, y (3) generalizar a través de múltiples dominios. Para abordar estos desafíos, proponemos un conjunto de datos multi-dominio que cubre 21 tareas con más de 24,000 secuencias procedimentales. Sobre esta base, presentamos MakeAnything, un marco basado en el transformador de difusión (DIT), que aprovecha el ajuste fino para activar las capacidades en contexto de DIT para generar secuencias procedimentales consistentes. Introducimos la adaptación asimétrica de bajo rango (LoRA) para la generación de imágenes, que equilibra las capacidades de generalización y el rendimiento específico de la tarea al congelar los parámetros del codificador mientras ajusta de forma adaptativa las capas del decodificador. Además, nuestro modelo ReCraft permite la generación de imágenes a procesos a través de restricciones de consistencia espacio-temporal, permitiendo descomponer imágenes estáticas en secuencias de creación plausibles. Experimentos extensos demuestran que MakeAnything supera a los métodos existentes, estableciendo nuevos puntos de referencia de rendimiento para tareas de generación procedimental.
Investigamos las capacidades de razonamiento lógico de los grandes modelos de lenguaje (LLMs) y su escalabilidad en el razonamiento no monótono complejo. Con este fin, presentamos ZebraLogic, un marco de evaluación integral para evaluar el rendimiento de razonamiento de LLM en acertijos de cuadrícula lógica derivados de problemas de satisfacción de restricciones (CSPs). ZebraLogic permite la generación de acertijos con complejidad controlable y cuantificable, facilitando un estudio sistemático de los límites de escalado de modelos como Llama, modelos o1 y DeepSeek-R1. Al abarcar una amplia gama de complejidades de espacio de búsqueda y diversas restricciones lógicas, ZebraLogic proporciona un entorno estructurado para evaluar el razonamiento bajo dificultades crecientes. Nuestros resultados revelan una disminución significativa en la precisión a medida que crece la complejidad del problema, un fenómeno que denominamos la maldición de la complejidad. Esta limitación persiste incluso con modelos más grandes y mayor tiempo de inferencia computacional, lo que sugiere limitaciones inherentes en las capacidades de razonamiento actuales de LLM. Además, exploramos estrategias para mejorar el razonamiento lógico, incluyendo el muestreo Best-of-N, mecanismos de retroceso y indicaciones de autoverificación. Nuestros hallazgos ofrecen ideas críticas sobre la escalabilidad del razonamiento de LLM, resaltan limitaciones fundamentales y esbozan posibles direcciones para la mejora.
Si bien los modelos de lenguaje grandes (LLMs) sobresalen en el manejo de secuencias de largo contexto, requieren un considerable almacenamiento en cachés clave-valor (KV) para guardar información contextual, lo cual puede sobrecargar la eficiencia computacional y el uso de memoria. Los esfuerzos previos para comprimir estas cachés KV se centraron principalmente en reducir las demandas de memoria, pero estaban limitados en mejorar la latencia. Para abordar este problema, presentamos FastKV, un método de compresión de caché KV diseñado para mejorar la latencia en secuencias de largo contexto. Para mejorar las velocidades de procesamiento manteniendo la precisión, FastKV adopta un enfoque novedoso de Propagación Selectiva de Tokens (TSP) que conserva la información de contexto completa en las capas iniciales de LLMs y propaga selectivamente solo una parte de esta información en capas más profundas incluso en la etapa de precarga. Además, FastKV incorpora compresión de caché KV consciente de la atención de consultas agrupadas (GQA) para explotar las ventajas de GQA en eficiencia tanto de memoria como computacional. Nuestros resultados experimentales muestran que FastKV logra mejoras de 2.00 veces y 1.40 veces en tiempo hasta el primer token (TTFT) y rendimiento, respectivamente, en comparación con HeadKV, el método de compresión de caché KV de vanguardia. Además, FastKV mantiene con éxito la precisión en benchmarks de largo contexto a niveles comparables con los baselines. Nuestro código está disponible en https://github.com/dongwonjo/FastKV.
En medio del rápido progreso de los grandes modelos de lenguaje (LLMs) y su evolución hacia grandes modelos multimodales (LMMs), se han logrado avances significativos en idiomas de alto recurso como el inglés y el chino. Si bien los LLMs en árabe han experimentado un progreso notable, los LMMs en árabe siguen siendo en gran medida inexplorados, a menudo centrándose estrechamente en algunos aspectos específicos del lenguaje y la comprensión visual. Para cerrar esta brecha, presentamos AIN: el Modelo Multimodal Inclusivo en Árabe, diseñado para destacarse en diversos dominios. AIN es un LMM bilingüe en inglés y árabe diseñado para sobresalir en inglés y árabe, aprovechando muestras de datos multimodales árabe-inglés de alta calidad cuidadosamente construidas, que ascienden a 3.6 millones. AIN demuestra un rendimiento de vanguardia en árabe, al mismo tiempo que posee sólidas capacidades visuales en inglés. En el reciente banco de pruebas CAMEL-Bench, que comprende 38 subdominios, incluyendo comprensión multiimagen, percepción visual compleja, comprensión de documentos escritos a mano, comprensión de video, imágenes médicas, enfermedades de plantas y comprensión del uso de la tierra basada en teledetección, nuestro AIN muestra un sólido rendimiento con el modelo 7B superando al GPT-4o con una ganancia absoluta del 3.4% en promedio en ocho dominios y 38 subdominios. Las capacidades superiores de AIN lo posicionan como un paso significativo hacia capacitar a los hablantes de árabe con herramientas avanzadas de IA generativa multimodal en diversas aplicaciones.
Los lanzamientos de o1 y o3 de OpenAI marcan un cambio de paradigma significativo en los Modelos de Lenguaje Grande hacia capacidades avanzadas de razonamiento. Es destacable que o3 superó a los humanos en la resolución de problemas novedosos y la adquisición de habilidades en el Corpus de Abstracción y Razonamiento para la Inteligencia Artificial General (ARC-AGI). Sin embargo, este punto de referencia se limita a patrones simbólicos, mientras que los humanos a menudo perciben y razonan sobre escenarios multimodales que involucran tanto datos visuales como de lenguaje. Por lo tanto, existe una necesidad urgente de investigar capacidades avanzadas de razonamiento en tareas multimodales. Con este fin, seguimos la evolución de los modelos de la serie GPT-[n] y o-[n] en desafiantes rompecabezas multimodales, que requieren una percepción visual detallada con razonamiento abstracto o algorítmico. El rendimiento superior de o1 se logra a casi 750 veces el costo computacional de GPT-4o, lo que plantea preocupaciones sobre su eficiencia. Nuestros resultados revelan una clara tendencia al alza en las capacidades de razonamiento a lo largo de las iteraciones del modelo, con saltos de rendimiento notables entre los modelos de la serie GPT y posteriormente hacia o1. No obstante, observamos que el modelo o1 aún tiene dificultades con simples rompecabezas multimodales que requieren razonamiento abstracto. Además, su rendimiento en rompecabezas algorítmicos sigue siendo pobre. Planeamos seguir de cerca los nuevos modelos de la serie y actualizar nuestros resultados en este documento en consecuencia. Todos los recursos utilizados en esta evaluación están disponibles públicamente en https://github.com/declare-lab/LLM-PuzzleTest.
Incluso los modelos de lenguaje grandes (LLMs) altamente capaces pueden producir respuestas sesgadas o inseguras, y las técnicas de alineación, como RLHF, destinadas a mitigar este problema, son costosas y propensas al sobreajuste al reentrenar el LLM. Este artículo presenta un novedoso enfoque de alineación en tiempo de inferencia que garantiza que los LLMs generen respuestas seguras casi con certeza, es decir, con una probabilidad que tiende a uno. Logramos esto enmarcando la generación segura de respuestas en tiempo de inferencia como un proceso de decisión de Markov restringido dentro del espacio latente del LLM. Esencialmente, ampliamos un estado de seguridad que sigue la evolución de las restricciones de seguridad y nos permite demostrar garantías formales de seguridad al resolver el MDP en el espacio latente. Sobre esta base, proponemos InferenceGuard, una implementación práctica que alinea de manera segura los LLMs sin modificar los pesos del modelo. Empíricamente, demostramos que InferenceGuard equilibra de manera efectiva la seguridad y el rendimiento de la tarea, superando a los métodos de alineación en tiempo de inferencia existentes en la generación de respuestas seguras y alineadas.
Los benchmarks existentes para modelos de vanguardia a menudo evalúan conocimientos especializados de nivel de doctorado que resultan difíciles de comprender para los no expertos. En contraste, presentamos un benchmark basado en el Desafío de Rompecabezas del Domingo de NPR que solo requiere conocimientos generales. Nuestro benchmark es desafiante tanto para humanos como para modelos, sin embargo, las soluciones correctas son fáciles de verificar y los errores de los modelos son fáciles de identificar. Nuestro trabajo revela brechas de capacidad que no son evidentes en los benchmarks existentes: OpenAI o1 supera significativamente a otros modelos de razonamiento que están a la par en benchmarks que evalúan conocimientos especializados. Además, nuestro análisis de las salidas de razonamiento descubre nuevos tipos de fallos. Por ejemplo, DeepSeek R1 a menudo se rinde con un "Me rindo" antes de proporcionar una respuesta que sabe que es incorrecta. R1 también puede ser notablemente "incierto" en su salida y, en casos raros, no "termina de pensar", lo que sugiere la necesidad de una técnica en tiempo de inferencia para "concluir" antes de alcanzar el límite de la ventana de contexto. También cuantificamos la efectividad de razonar por más tiempo con R1 y Gemini Thinking para identificar el punto más allá del cual es poco probable que más razonamiento mejore la precisión en nuestro benchmark.
Presentamos un enfoque de RL basado en modelos que logra un nuevo rendimiento de vanguardia en el desafiante benchmark Craftax-classic, un juego de supervivencia en 2D de mundo abierto que requiere que los agentes muestren una amplia gama de habilidades generales, como una fuerte generalización, exploración profunda y razonamiento a largo plazo. Con una serie de decisiones de diseño cuidadosas destinadas a mejorar la eficiencia de muestra, nuestro algoritmo de MBRL logra una recompensa del 67.4% después de solo 1 millón de pasos de entorno, superando significativamente a DreamerV3, que alcanza el 53.2%, y, por primera vez, supera el rendimiento humano del 65.0%. Nuestro método comienza construyendo una línea de base libre de modelos de vanguardia, utilizando una arquitectura de política novedosa que combina CNNs y RNNs. Luego agregamos tres mejoras al entorno MBRL estándar: (a) "Dyna con calentamiento", que entrena la política con datos reales e imaginarios, (b) "tokenizador de vecino más cercano" en parches de imagen, que mejora el esquema para crear las entradas del modelo del mundo transformador (TWM), y (c) "forzamiento de maestro de bloque", que permite al TWM razonar conjuntamente sobre los tokens futuros del próximo paso de tiempo.
La Adaptación de Bajo Rango (LoRA) y sus variantes han mostrado resultados impresionantes en la reducción del número de parámetros entrenables y los requisitos de memoria de grandes redes de transformadores, manteniendo al mismo tiempo el rendimiento de ajuste fino. Sin embargo, la naturaleza de bajo rango de la actualización de pesos limita inherentemente el poder de representación de los modelos ajustados finamente, lo que potencialmente compromete el rendimiento en tareas complejas. Esto plantea una pregunta crítica: cuando se observa una brecha de rendimiento entre LoRA y el ajuste fino estándar, ¿se debe al número reducido de parámetros entrenables o a la deficiencia de rango? Este documento tiene como objetivo responder a esta pregunta mediante la introducción de RandLoRA, un método eficiente en parámetros que realiza actualizaciones de rango completo utilizando combinaciones lineales aprendidas de matrices aleatorias de bajo rango y no entrenables. Nuestro método limita el número de parámetros entrenables al restringir la optimización a matrices de escalamiento diagonal aplicadas a las matrices aleatorias fijas. Esto nos permite superar efectivamente las limitaciones de bajo rango mientras mantenemos la eficiencia de parámetros y memoria durante el entrenamiento. A través de una experimentación extensa en benchmarks de visión, lenguaje y visión-lenguaje, evaluamos sistemáticamente las limitaciones de LoRA y los métodos existentes de base aleatoria. Nuestros hallazgos revelan que las actualizaciones de rango completo son beneficiosas en tareas de visión y lenguaje individualmente, y aún más para tareas de visión-lenguaje, donde RandLoRA reduce significativamente, y a veces elimina, la brecha de rendimiento entre el ajuste fino estándar y LoRA, demostrando su eficacia.
Los modelos de consistencia son una nueva familia de modelos generativos capaces de producir muestras de alta calidad ya sea en un solo paso o en múltiples pasos. Recientemente, los modelos de consistencia han demostrado un rendimiento impresionante, logrando resultados comparables con los modelos de difusión en el espacio de píxeles. Sin embargo, el éxito de escalar el entrenamiento de consistencia a conjuntos de datos a gran escala, especialmente para tareas de generación de texto a imagen y video, está determinado por el rendimiento en el espacio latente. En este trabajo, analizamos las diferencias estadísticas entre los espacios de píxeles y latentes, descubriendo que los datos latentes a menudo contienen valores atípicos altamente impulsivos, que degradan significativamente el rendimiento de iCT en el espacio latente. Para abordar esto, reemplazamos las pérdidas de Pseudo-Huber con pérdidas de Cauchy, mitigando efectivamente el impacto de los valores atípicos. Además, introducimos una pérdida de difusión en pasos de tiempo tempranos y empleamos acoplamientos de transporte óptimo (OT) para mejorar aún más el rendimiento. Por último, presentamos el programador de escalado adaptativo para gestionar el proceso de entrenamiento robusto y adoptamos LayerNorm no escalable en la arquitectura para capturar mejor las estadísticas de las características y reducir el impacto de los valores atípicos. Con estas estrategias, entrenamos con éxito modelos de consistencia latente capaces de generar muestras de alta calidad con uno o dos pasos, reduciendo significativamente la brecha de rendimiento entre la consistencia latente y los modelos de difusión. La implementación se encuentra disponible en: https://github.com/quandao10/sLCT/
Trabajos previos en la edición de conocimiento modificando parámetros han demostrado que la edición secuencial a gran escala conduce a una degradación significativa del modelo. En este artículo, estudiamos las razones detrás de esto y escalamos la edición secuencial de conocimiento a 10,000 ediciones secuenciales, manteniendo el rendimiento posterior del modelo original. Primero mostramos que los métodos de edición de conocimiento de localización y edición conducen al sobreajuste en los hechos editados. También demostramos que la edición continua de conocimiento utilizando estos métodos conduce a un crecimiento desproporcionado en la norma de la matriz editada. Luego proporcionamos una visión crucial sobre el funcionamiento interno de los métodos de localización y edición. Mostramos que el crecimiento de la norma es un truco oculto empleado por estos métodos que otorga una mayor importancia a las activaciones de salida producidas a partir de las capas editadas. Con este "hackeo de importancia", las capas editadas contribuyen mucho más al resultado del modelo. Para mitigar estos problemas, presentamos ENCORE - Edición Robusta con Parada Temprana y Restricción de Norma. ENCORE controla el sobreajuste y el crecimiento desproporcionado de la norma para permitir la edición secuencial a largo plazo, donde podemos realizar hasta 10,000 ediciones secuenciales sin pérdida de rendimiento posterior. ENCORE también es un 61% más rápido que MEMIT y un 64% más rápido que AlphaEdit en Llama3-8B.
La generación de texto extenso es crucial para la redacción académica de documentos y la generación de código a nivel de repositorio. A pesar de esto, los modelos actuales, incluido GPT-4o, todavía muestran un rendimiento insatisfactorio. Los métodos existentes que utilizan el aprendizaje de preferencias con supervisión de resultados a menudo no logran proporcionar retroalimentación detallada para contextos extensos. Esta deficiencia puede dar lugar a contenido que no satisface completamente los requisitos de la consulta, lo que resulta en problemas como desviaciones de longitud y una calidad disminuida. En este artículo, proponemos mejorar la generación de texto extenso mediante la incorporación de supervisión del proceso. Empleamos la Búsqueda de Árbol de Monte Carlo para recopilar pares de preferencias paso a paso, utilizando un pool de memoria global para mantener la consistencia. Para abordar el problema de la selección subóptima de candidatos, integramos críticas externas para refinar y mejorar la calidad de los pares de preferencias. Finalmente, aplicamos DPO a nivel de paso utilizando los pares de preferencias recopilados paso a paso. Los resultados experimentales muestran que nuestro método mejora la longitud y la calidad en los puntos de referencia de generación de texto extenso, con un rendimiento casi sin pérdidas en puntos de referencia generales en varios modelos subyacentes.
Las pruebas unitarias (UTs) desempeñan un papel fundamental en la evaluación de la corrección del código, así como en proporcionar retroalimentación a un gran modelo de lenguaje (LLM) mientras depura iterativamente código defectuoso, lo que motiva la generación automatizada de pruebas. Sin embargo, descubrimos un compromiso entre generar entradas de pruebas unitarias que revelen errores al proporcionar un código defectuoso y predecir correctamente la salida de la prueba unitaria sin acceso a la solución correcta. Para abordar este compromiso, proponemos UTGen, que enseña a los LLM a generar entradas de pruebas unitarias que revelen errores junto con sus salidas esperadas correctas basadas en descripciones de tareas y código candidato. Integrarnos UTGen en UTDebug, un sólido proceso de depuración que utiliza pruebas generadas para ayudar a los LLM a depurar de manera efectiva. Dado que las pruebas generadas por el modelo pueden proporcionar señales ruidosas (por ejemplo, salidas incorrectamente predichas), UTDebug (i) escala UTGen a través de cálculos en tiempo de prueba para mejorar la predicción de la salida de las pruebas unitarias, y (ii) valida y retrocede ediciones basadas en múltiples pruebas unitarias generadas para evitar el sobreajuste. Demostramos que UTGen supera a los puntos de referencia de generación de UT en un 7.59% según una métrica que mide la presencia tanto de entradas de UT que revelan errores como de salidas de UT correctas. Cuando se utiliza con UTDebug, encontramos que la retroalimentación de las pruebas unitarias de UTGen mejora la precisión de pass@1 de Qwen-2.5 7B en HumanEvalFix y en nuestra propia división de depuración más difícil de MBPP+ en más de un 3% y un 12.35% (respectivamente) en comparación con otros puntos de referencia de generación de UT basados en LLM.
Los modelos de lenguaje (LMs) deben proporcionar estimaciones de confianza confiables para ayudar a los usuarios a detectar errores en sus salidas y recurrir a expertos humanos cuando sea necesario. Pedir a un modelo de lenguaje que evalúe su confianza ("Califica tu confianza de 0 a 1.") es una forma natural de evaluar su incertidumbre. Sin embargo, los modelos tienen dificultades para proporcionar evaluaciones absolutas de confianza (es decir, juzgar la confianza en responder una pregunta de forma independiente de otras preguntas) y las puntuaciones de grano grueso que producen no son útiles para evaluar la corrección de sus respuestas. Proponemos la estimación relativa de confianza, donde enfrentamos preguntas entre sí y pedimos al modelo que realice juicios relativos de confianza ("¿En qué pregunta tienes más confianza en responder correctamente?"). Tratando cada pregunta como un "jugador" en una serie de enfrentamientos contra otras preguntas y las preferencias del modelo como resultados de los enfrentamientos, podemos utilizar métodos de agregación de rangos como la calificación Elo y Bradley-Terry para traducir las preferencias de confianza del modelo en puntuaciones de confianza. Evaluamos la estimación relativa de confianza frente a la estimación absoluta de confianza y los métodos de confianza de autoconsistencia en cinco LMs de última generación: GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet y Llama 3.1 405B, en 14 desafiantes tareas de respuesta a preguntas de razonamiento STEM, ciencias sociales y de sentido común. Nuestros resultados demuestran que la estimación relativa de confianza proporciona consistentemente puntuaciones de confianza más confiables que la estimación absoluta de confianza, con ganancias promedio del 3.5% en el AUC de clasificación selectiva sobre los métodos de estimación de confianza absoluta directa y del 1.7% sobre los enfoques de autoconsistencia en todos los modelos y conjuntos de datos.
El retroperitoneo alberga una variedad de tumores, incluidos tipos benignos y malignos raros, que plantean desafíos en el diagnóstico y tratamiento debido a su infrecuencia y proximidad a estructuras vitales. Estimar el volumen del tumor es complicado debido a sus formas irregulares, y la segmentación manual es laboriosa. La segmentación automática utilizando U-Net y sus variantes, que incorporan elementos del Transformador de Visión (ViT), ha mostrado resultados prometedores pero enfrenta dificultades con altas demandas computacionales. Para abordar esto, arquitecturas como el Modelo de Espacio de Estado Mamba (SSM) y la Memoria a Largo Plazo Extendida (xLSTM) ofrecen soluciones eficientes al manejar dependencias a largo plazo con menor consumo de recursos. Este estudio evalúa mejoras de U-Net, incluyendo CNN, ViT, Mamba y xLSTM, en un nuevo conjunto de datos de TC interno y un conjunto de datos público de segmentación de órganos. El modelo propuesto ViLU-Net integra bloques Vi para una segmentación mejorada. Los resultados resaltan la eficiencia de xLSTM en el marco de U-Net. El código es accesible públicamente en GitHub.
Los Modelos Fundamentales de Patología (FMs, por sus siglas en inglés) tienen un gran potencial para la atención médica. Antes de que puedan ser utilizados en la práctica clínica, es esencial asegurar que sean robustos ante las variaciones entre centros médicos. Medimos si los FMs de patología se centran en características biológicas como el tejido y el tipo de cáncer, o en las conocidas firmas confusas de los centros médicos introducidas por el procedimiento de tinción y otras diferencias. Introducimos el Índice de Robustez. Esta métrica de robustez novedosa refleja en qué medida las características biológicas dominan las características confusas. Se evaluaron diez FMs de patología actualmente disponibles públicamente. Descubrimos que todos los modelos fundamentales de patología actuales evaluados representan al centro médico en gran medida. Se observan diferencias significativas en el índice de robustez. Hasta ahora, solo un modelo tiene un índice de robustez mayor que uno, lo que significa que las características biológicas dominan las características confusas, pero solo ligeramente. Se describe un enfoque cuantitativo para medir la influencia de las diferencias entre centros médicos en el rendimiento de predicción basado en FMs. Analizamos el impacto de la falta de robustez en el rendimiento de clasificación de los modelos posteriores, y encontramos que los errores de clasificación del tipo de cáncer no son aleatorios, sino atribuibles específicamente a los factores confusos del mismo centro: imágenes de otras clases del mismo centro médico. Visualizamos los espacios de incrustación de los FMs y encontramos que estos están más fuertemente organizados por centros médicos que por factores biológicos. Como consecuencia, el centro médico de origen se predice con mayor precisión que la fuente de tejido y el tipo de cáncer. El índice de robustez introducido aquí se proporciona con el objetivo de avanzar en el progreso hacia la adopción clínica de FMs de patología robustos y confiables.